Quelles perspectives pour les Assistants Vocaux ?

le 02/03/2018 par Vincent Guigui

Il y a quelques semaines, avait lieu le Smart Voice Summit, la première conférence en Europe sur les Assistants Conversationnels. Elle était organisée par nos collègues de Smartly.ai et sponsorisée par BNP et Google. OCTO ainsi que des sociétés spécialisées dans les chatbots et de grands acteurs des domaines du service, du retail, de l’industrie étions présents pour partager nos expériences et nos visions de ce marché.

Profitons-en pour faire le bilan: A quoi faut-il s’attendre avec les Assistants Vocaux ?

Assistants Vocaux ?

Tout d’abord rappelons que le vocal est un mode d’interaction qui a ses propres contraintes: c’est une interaction bruyante, sensible aux parasites ambiants et qui manque de confidentialité.

L'usage du vocal va donc pour l’instant être limité à des zones semi-privées telles que le domicile ou la voiture. Ce sont des endroits où l’utilisateur peut parler à haute voix sans honte et sans déranger son entourage. Il y a toutefois quelques usages de confort (ex: au bureau) où l’utilisateur peut juste lancer quelques commandes vocales pour déclencher des actions précises (réservation de salle, domotique...) ou des usages métier où le main-libre à une vraie valeur ajoutée (prise de notes, diagnostic guidé, gestion de workflow, briefing de journée).

Depuis 2017, les assistants vocaux reviennent à la mode avec notamment les haut-parleurs domestiques comme Amazon Echo, Google Home ou Apple HomePod alors qu’ils étaient déjà présents dans nos téléphones depuis presque 10 ans. Les créateurs d'assistants tentent aujourd’hui de nous (re)séduire grâce à une qualité de reconnaissance améliorée et l'agrégation d’une multitude de services utiles au quotidien. Pour OCTO, il y a là un renouveau du mode d'accès aux contenus et l'opportunité de remplacer certaines apps mobiles superflues ou contraignantes pour l'utilisateur.

Si le sujet vous intéresse, nous vous conseillons de lire notre article Portrait robot d'un bot.

Le marché

Le marché du chatbot vocal est assez jeune mais promet des perspectives de croissance assez folle. En décembre 2017, il y avait 45 millions d’enceintes disposant d’assistants vocaux aux USA (contre 20 millions en juin 2017). L’Europe et plus particulièrement la France sont encore à la traîne sur ces sujets avec seulement 500 000 ventes de Google Home (principalement grâce aux offres packagées et Noël). Au moment de la conférence, Amazon ne communiquait toujours pas sur la date de sortie de son assistant Alexa en France. Les rumeurs parlent d'une disponibilité vers le 14 avril 2018. De son côté, Cortana l'assistant de Microsoft a du mal à trouver son public malgré la qualité du contenu et sa disponibilité sur les téléphones, tablettes et ordinateurs Windows.

Coté B2C, les acteurs présents au Voice Summit attestent de l'efficacité des chatbots pour générer de la notoriété, renforcer l'engagement client, faciliter les transactions/ventes, activer un nouveau canal de vente, améliorer les opérations et le service client.

Pour les acteurs, les entreprises se lançant sur une offre d'assistant vocal doivent répondre à 3 challenges pour éviter les échecs:

se lancer "vraiment" avec un chatbot
créer une personnalité proche de son image de marque pour l’assistant
communiquer le plus possible sur ce nouveau canal pour améliorer la proximité client final / vendeur

Attention à la noyade et au cybersquatting

Siri, Alexa, Assistant, Cortana, Bixby sont des agrégateurs de services. Ils piochent évidemment dans des services propres à leur créateur (respectivement Apple, Amazon, Google, Microsoft, Samsung) mais aussi dans des services spécialisés appelés "Skills" créés par des tiers.

Aujourd’hui les Skills Stores (équivalent d'AppStore pour les chatbots) fourmillent de services avec par exemple plus de 30 000 skills disponibles sur Alexa d'Amazon. Il est très pénible de s'y retrouver. La course aux skills dessert l'expérience utilisateur et le marché comme nous l'avons vécu avec des applications à faible valeur ajoutée lors de l’émergence des store d’app. Amazon et Google demandent donc de ne pas se lancer dans cette course aux skills mais de travailler sur l’utilité d’un skill et surtout l'expérience que va vivre l’utilisateur avec le service.

De plus, il faut actuellement réserver le nom auquel devra répondre votre chatbot, les skills stores feront de leur mieux pour éviter que des squatteurs utilisent les noms de grandes marques mais le choix du nom reste primordial pour faciliter l'accès (discovery) à votre service.

Le canal d'interaction Bot étant minimaliste (on ne peut ergonomiquement proposer 10 choix à l'utilisateur), l'agrégateur devra donc choisir LA bonne réponse ou LE bon skill à proposer à l'utilisateur. Certains acteurs vont prôner l'analyse intelligente de la pertinence ouvrant ainsi le débat des Biais de l'IA et la Neutralité du Net, d'autres préféreront l'enchère, le sponsoring et les partenariats avec des fournisseurs de contenus pour mettre en avant une source d'informations/un service plutôt qu'un autre.

Qu'est-ce qu'il manque aux assistants vocaux ?

Les utilisations courantes des assistants permettent aujourd’hui "d’économiser" du temps en accédant rapidement et simplement à certains fonctions d'assistant personnel: dicter un message, lancer un appel, consulter la météo, l'état du trafic, le prochain rendez-vous, créer un rappel, etc… D'autres usages orientés "marque" ou "contenu" apparaissent mais nécessitent un bond dans la qualité de l'expérience.

Les Voice Bots doivent notamment évoluer en matière de Speech-to-Text/NLU et de robustesse aux interruptions (sujet abordé par Chris Gathercole, Responsable du Financial Times Labs).

A titre d'exemple, le Speech-to-Text a encore des efforts à faire sur la reconnaissance des nuances.

Les nuances de langage: 4 miles, for Miles, for my Isles
Les nuances d'accent avec l’impossibilité pour un australien d'interagir avec un Alexa américain
La gestion des onomatopées et interjections (heu, ah non...)

L'exemple suivant d'interruption dans l'arbre de conversation n'est quasiment jamais gérée par les bots actuels:

Assistant dit: “La chancelière Allemande a annoncé son alliance avec...”
Utilisateur: “Attends, qui est la chancelière?”
Assistant: “Angela Dorothea Merkel née Kasner en 1954 à Hambourg en Allemagne. Elle est chancelière fédérale depuis le 22 novembre 2005, voulez-vous en savoir plus ou revenir à la lecture de l’article ?”
...

La reconnaissance de la voix, l'interprétation du texte (Natural Language Understanding) et le traitement des intentions (Natural Language Processing) ont beaucoup évolué ces derniers mois notamment grâce au Machine Learning et les services en SaaS mais il faudra encore quelques années pour que les technologies/outils de conception NLP, les compétences en ergonomie (Conversational UX) et les usages arrivent à maturité.

Localisation du traitement

Les assistants intelligents sont creux et la couche visible du chatbot est très fine car les traitements comme la reconnaissance vocale (Speech-to-Text) et l'interprétation (NLU/NLP) sont en fait déportés sur le Cloud. Au-delà d'un besoin de connexion permanente à internet, viable dans un contexte domestique et certains contextes B2B, cette dépendance au Cloud entraîne des blocages réglementaires et éthiques. Malgré le RGPD (Règlement Général sur la Protection des Données) et le Privacy Shield, beaucoup d'entreprises freinent leurs projets Chatbots textuels ou vocaux car les données transitent et sont traitées sur une infrastructure externe, non-privatisée et en-dehors d'Europe. Les dérogations, la mise en conformité des différents acteurs Cloud en tant que "Data Processor" et l'émergence de solutions On-premise ouvrent quelques portes et laissent entrevoir les succès à venir.

Un autre solution à l'étude est la création d'assistant vocal autonome embarquant l'IA (notion de "AI Silicon" et d'Edge Computing) qui permettra des temps de réponse plus rapides mais aussi de stimuler des usages B2B ou B2C plus critiques (confidentialité) où le transit d'informations doit être fortement contrôlés.

Les assistants et les services

Les GAFAM (Google Apple Facebook Amazon Microsoft) ne sont pas les seuls à vouloir faire leur propre "assistant vocal", Samsung, Xiaomi et les autres fabricants de téléphone, de frigos et de box TV y voient un service supplémentaire à vendre à leurs clients.

Orange qui était également présent au Voice Summit présentait DJINGO son haut-parleur/assistant. Bien qu'aucune date n'ait été annoncée, Orange semble vouloir se mettre à la page et cherche à exister sur ce marché trusté par Google et Amazon. Est-ce que les fournisseurs de chatbot voudront implémenter une n-ième API pour leur service ? A suivre...

Coté B2B, les réflexions sont nombreuses, en effet si l’utilité pour le B2C est déjà avérée, les grands comptes cherchent encore les effets de levier en B2B. Le helpdesk (B2E) est la cible première et cela fonctionne très bien pour le diagnostic, les FAQ et la simplification de démarches RH. Les usages métiers purs restent anecdotiques et nécessitent la notion de Skills Store d'entreprise. Amazon a initié la danse en novembre 2017 en proposant les déploiements de skills Alexa à des populations d'employés (Alexa for Business).

Média/Loisirs: l'utilisateur peut accéder à du contenu audio/video, gérer sa domotique et même combiner les 2 ("mets-moi Netflix" déclenchera l'ambiance tamisée, l'allumage de la tv, le chargement du catalogue Netflix et la fermeture des volets)

Retail: Les transactions sur les assistants vocaux émergent à peine et nécessitent de trouver des solutions élégantes pour les sécuriser. Même si aujourd’hui 0€ en France ont été générés par des assistants vocaux, l’accès aux informations spécifiques des produits (caractéristiques, stocks...) permettra de libérer les conseillers de vente pour les demandes simples ou effectuées à domicile. La vente à distance depuis les assistants va subir un essor énorme durant les prochains mois.

Transport**:** en France, c'est la SNCF qui a ouvert le bal avec son service de consultation des horaires, d'état de trafic et de sélection de billets de train. Les autres acteurs sont plus discrets et se limitent parfois à la partie "facile" comme la transposition de la FAQ du service.

Vocal c'est bien. Multimodal c'est mieux !

L'utilisation de la voix apporte des limitations à l'interaction. L'utilisateur ne veut pas écouter des énumérations de choix, d'autant que la mémoire à court terme ne retiendra pas plus de 4 ou 5 éléments). Certains contenus ne sont pas consommables à la voix. Lorsque l'utilisateur demande "comment va mon compte bancaire ?", il attend plutôt un graphique avec la tendance et une phrase de synthèse. Idem pour un achat, le visuel est un atout important pour la transformation de la transaction. En effet, la voix permet d’économiser entre 5 et 10 clics pour accéder à du contenu, mais le gain est perdu si l’assistant doit lire plus de 100 mots pour la réponse.

Google et Amazon se mettent donc à l’approche multimodal en proposant des appareils nativement multimodaux (comme les Amazon Echo Show/Spot qui incluent un écran) ou via une ubiquité du service à travers plusieurs appareils (Google Home combiné au téléphone ou la Chromecast). L’aspect multimodal permettra d’enrichir le parcours client afin d'être au plus proche de l’utilisateur.

Bilan

Il y a une volonté générale de se mettre en ordre de marche sur ce nouveau canal encore mal maîtrisé mais très convoité. L'hégémonie Amazon se fait ressentir de plus en plus grâce à sa notoriété aux US malgré le retard en France. La plupart de nos clients disent "Alexa" (Amazon) et non "Assistant" (Google) ou "Cortana" (Microsoft).

Le marché est en train de tester et éprouver des hypothèses de fonctionnement, il y a beaucoup de PoCs et les projets en production sont des expérimentations. Les questions de l'industrialisation du service, de la capitalisation du contenu et de la maintenabilité de cette verrue dans le SI nécessitent une prise de recul et une réflexion avancée sur l'avenir des Bot en entreprise.

Il y a également les attentes du deuxième niveau sur les interactions (comme l’interruption) qui permettront au marché d'accélérer l’adoption. Les concepts et les paradigmes d'ergonomie sont encore à définir mais sont très prometteurs.

Les équipes UX et Chatbots d'OCTO accompagnent au quotidien les clients aussi bien sur les problématiques de stratégie Bot, benchmark de solutions, d'ergonomie (CUX) mais aussi d'industrialisation de leur service Chatbot. Nous partagerons prochainement nos derniers succès dans le domaine.