Chatbots au banc d’essai : l’intelligence artificielle surpasse-t-elle les sites Web ?

Des chatbots, ce sont des robots qui peuvent clavarder avec des individus via un service de conversations automatisées comme Facebook Messenger. Dans la dernière année, plusieurs entreprises se sont dotées d’un chatbot qu’elles ont utilisé pour des campagnes publicitaires. Par exemple, sur la page Facebook des Éleveurs de porcs du Québec, vous avez désormais la possibilité de clavarder avec un chef virtuel pour vous aider à intégrer le porc à votre menu sous différentes formes. Ce genre d’initiative attire beaucoup d’intérêt de la part des consommateurs, des entreprises et des médias car c’est actuel, innovateur, technologique… mais est-ce vraiment utile ?

Est-ce que les chatbots peuvent réellement nous faciliter la vie ? Intrigués, nous avons décidé de réaliser une étude où des chatbots de secteurs d’activité distincts conçus pour Facebook Messenger ont été mis au banc d’essai : ceux de Whole Foods (alimentaire), Tommy Hilfiger (vêtement) et Skyscanner (voyage). Nous avons invité dix participants à venir réaliser six tâches de recherche précises avec ces chatbots et les sites Web respectifs de chaque marque. Par exemple, les participants devaient trouver une recette de salade avec le chatbot de Whole Foods et une recette de saumon à l’aide du site Web de la chaîne. Conclusion ? Selon nos résultats, les chatbots ne surpassent pas encore les sites Web pour répondre aux attentes des utilisateurs, mais restent prometteurs.

L’expérience est meilleure sur les sites Web que les chatbots.

Après chaque tâche avec un chatbot ou un site Web, nos participants ont rempli un questionnaire pour évaluer l’utilité, la facilité d’utilisation, la facilité d’apprentissage et leur satisfaction sur une échelle de 1 à 7. Les résultats indiquent qu’ils trouvent les sites Web plus utiles et faciles à utiliser que les chatbots en plus d’avoir plus de facilité à se familiariser avec les sites Web que les chatbots. Les participants sont aussi plus satisfaits de l’expérience utilisateur offerte par les sites Web que par les chatbots. Pour chacune des dimensions nommées ci-haut, il y a une différence statistique significative entre les chatbots et les sites Web. Le niveau de confiance est de 95% pour la facilité d’apprentissage, et de 99% pour l’utilité, la facilité d’utilisation et la satisfaction.Évaluation de l'expérience utilisateur des chatbots et sites Web par dimensionL’évaluation globale montre que le chatbot de Whole Foods a été le plus apprécié des participants. Contrairement aux chatbots de Tommy Hilfiger et de Skyscanner, il leur a offert une expérience utilisateur équivalente à celle vécue sur le site Web.Évaluation de l'expérience utilisateur globale des chatbots et sites Web de Whole Foods, Tommy Hilfiger et SkyscannerLes participants ont aimé l’idée d’indiquer les ingrédients à leur disposition pour obtenir des options de recettes en quelques secondes. Il faut croire que la recherche de recettes se prête bien aux chatbots. D’ailleurs, deux de nos participants ont dit spontanément qu’ils aimeraient que Ricardo Cuisine lance un chatbot… mais revenons à Whole Foods ! Vous avez une courge musquée sous la main et voulez préparer une salade à servir en entrée à vos invités pour les Fêtes ? C’est réglé en quelques secondes.Le chatbot de Whole Foods a su satisfaire nos participants, mais celui de Tommy Hilfiger les a laissés sur leur faim, si vous me permettez le jeu de mots. Ils n’ont pas eu l’impression de voir tous les produits disponibles avec le chatbot. Ils ne se sentaient pas non plus outillés pour trouver le meilleur produit pour leurs besoins. Selon eux, les options de recherche sont trop limitées avec le chatbot et il est plus facile d’utiliser les filtres de recherche sur le site. Il faut dire que le chatbot de Tommy Hilfiger semble programmé pour faire des recommandations très larges. Par exemple, voici ce que j’obtiens en demandant une robe noire de soirée (black party dress).Il a saisi que je voulais une robe, mais c’est tout. Si j’essaie de me fâcher avec un point d’exclamation, le chatbot se contente de me remontrer les mêmes robes.

Le taux d’abandon est plus élevé avec les chatbots.

Notre objectif étant toujours de reproduire un contexte d’utilisation le plus près possible de la réalité, nous avons demandé aux participants de faire comme s’ils étaient à la maison. Certains ont donc abandonné une ou plusieurs tâches en cours de route parce qu’ils ne trouvaient pas ce qu’ils cherchaient. Voici le bilan des abandons :

Sept participants sur dix ont abandonné une ou deux tâches avec un chatbot alors que seulement trois ont abandonné une tâche sur un site Web. Cela est notamment dû au fait que certaines tâches sont plus longues à réaliser avec un chatbot. En moyenne, les participants ont pris 3:04 minutes pour compléter une tâche avec un chatbot ou décider d’abandonner, et 1:39 minute pour compléter une tâche avec un site Web. En moyenne, ils prennent donc 85% plus de temps pour réaliser une tâche avec un chatbot.

Encore une fois, Whole Foods se démarque avec un temps moyen similaire pour son chatbot et son site Web. Pour Tommy Hilfiger et Skyscanner, les participants prennent deux fois plus temps avec le chatbot  parce que plus d’étapes sont nécessaires pour une même tâche. Prenons le cas de Skyscanner. Lorsque nous lançons une recherche sur le site, il suffit d’entrer ce que nous voulons, de lancer une recherche et le tour est joué.

Avec le chatbot, ce n’est pas aussi rapide. Il faut lui communiquer chaque élément un après l’autre pour qu’il comprenne, ce qui rallonge considérablement le processus.Outre les étapes additionnelles, le niveau de compréhension limité des chatbots a irrité les participants et, dans certains cas, les a poussés à abandonner leur recherche. Ils avaient non seulement l’impression que les chatbots ne les comprenaient pas, mais aussi qu’ils n’exprimaient pas clairement les informations désirées. Par exemple, le chatbot de Skyscanner demande à ses interlocuteurs quand ils veulent voyager, mais ne donne aucun détail sur le format de la date attendu. Ce manque de précision a forcé plusieurs participants à se répéter jusqu’à ce qu’ils devinent ce que le chatbot voulait.

Les chatbots génèrent plus d’émotions positives.

Nous avons mesuré les émotions de nos participants à l’aide de FaceReader, un logiciel de reconnaissance des émotions faciales. Plus précisément, nous nous sommes intéressés à la valence émotionnelle, soit l’intensité positive ou négative de l’émotion pendant chaque tâche qui varie entre -1 et 1. Une valence de -1 indique une réaction 100% négative, 1 une réaction 100% positive et 0 une réaction neutre. Si vous n’espériez plus rien des chatbots à ce stade-ci, vous serez étonné d’apprendre que les chatbots ont généré plus d’émotions positives chez nos participants que les sites Web avec une valence moyenne de -0,26 comparativement à -0,37 pour les sites Web. Comme pour l’évaluation de l’expérience utilisateur, il y a une différence statistique significative entre les chatbots et les sites Web à un niveau de confiance de 95%. Or, ce sont les chatbots qui performent le mieux ici avec une valence émotionnelle moyenne plus élevée.

Dans les deux cas, la valence moyenne est négative, ce qui est normal considérant que faire une recherche en ligne n’est pas particulièrement hédonique. De façon générale, dans un contexte utilitaire, la valence est négative ou très près de la neutralité. Les résultats de l’étude indiquent donc que nos participants ont exprimé plus d’émotions positives en utilisant les chatbots que les sites Web et ici, Whole Foods n’est pas un cas d’exception. La tendance est la même pour les trois chatbots et sites Web.

Surpris des résultats ? Nous l’étions aussi étant donné que les sites Web ont surpassé les chatbots en termes d’expérience et de taux de succès. Pourtant, il n’est pas surprenant qu’échanger avec un individu, même simulé, génère plus d’émotions positives que d’interagir avec une interface. Il s’agit d’un point fort important des chatbots. Sur cette base, nous pourrions émettre l’hypothèse que plus un chatbot est humanisé, plus il généra d’émotions positives. Par exemple, contrairement aux chatbots que nous avons testés, le chef virtuel des Éleveurs de porcs du Québec a un prénom et un visage.

Pour faire suite à cette étude, il serait intéressant de comparer les émotions générées par des chatbots comme le chef virtuel ci-haut à des chatbots moins « humains ».

Conclusion : les chatbots doivent rattraper les sites Web.

La possibilité d’avoir une réponse précise instantanément est ce que nos participants ont préféré des chatbots. À l’inverse, ils les ont trouvé limités et n’ont pas aimé avoir de la difficulté à se faire comprendre. Ils restent toutefois ouverts à les utiliser dans le futur si le contexte s’y prête en tenant pour acquis que les chatbots deviendront de plus en plus intelligents. Sur une échelle de 1 à 7 où 1 signifie « pas du tout probable » et 7 « très probable », ils quantifient leur intention d’utiliser des chatbots à 3,7/7 en moyenne.

Alors que l’intelligence artificielle est en pleine croissance, les chatbots ont le potentiel d’offrir aux internautes une expérience utilisateur agréable, personnalisée et plus positive d’un point de vue émotionnel. Pour que les consommateurs les adoptent, ils devront toutefois devenir aussi intelligents, sinon plus, que les moteurs et les outils de recherche des sites Web. Les sites Web sont le référent principal des consommateurs lorsqu’il est question de recherche en ligne. Par exemple, en disant au chef virtuel du Porc du Québec que je suis végétarienne, je me serais attendue à ce qu’il me dise qu’il peut seulement me proposer des recettes de porc, ou qu’il n’a pas de recettes pour moi.

Malheureusement, il ne me comprend pas. Pourtant, le moteur de recherche de recettes sur le site Web du Porc du Québec est capable de me dire qu’il n’y a aucun résultat.

Notons toutefois que l’internaute moyen à l’habitude d’utiliser des sites Web alors que les chatbots sont encore un phénomène nouveau. La familiarité pourrait ainsi expliquer en partie leur préférence pour l’expérience utilisateur fournie par les sites Web.

Les chatbots ont la particularité de fournir de l’information en mode Question-Réponse. À l’inverse, les sites Web livrent beaucoup d’information simultanément et proposent des outils aux internautes pour trouver ce qu’ils cherchent (menus, moteurs de recherche, etc.). Sur la base du succès de la recherche de recette avec le chatbot de Whole Foods comparativement aux autres tâches plus précises, nous pouvons constater que plus la recherche est précise et utilitaire, plus les chatbots ont le potentiel de s’améliorer et dépasser les sites Web en offrant une expérience de recherche quasi instantanée.

Selon vous, est-ce que les chatbots sont une mode passagère ou une technologie qui se développera afin de remplacer graduellement les sites Web ?

***

Détails sur la méthodologie

Parce que la rigueur méthodologique est toujours au coeur de nos préoccupations, voici quelques détails sur la mise en place de cette étude. N’hésitez pas à nous contacter pour discuter plus en détail de nos méthodes d’évaluation de l’expérience utilisateur.

Recrutement

Pour cette étude, dix étudiants universitaires ont été recrutés via l’envoi d’un courriel et une publication sur Facebook invitant les gens intéressés à laisser leurs coordonnées. Au total, quatre hommes et six femmes âgés de 21 à 29 ans ont été invités à participer à l’étude dans les bureaux de Léger à Montréal. Les participants n’avaient aucun lien avec la personne qui modérait les tests et ne l’avaient jamais rencontrée avant les tests.

Déroulement des tests

Les tests utilisateurs ont duré environ 45 minutes chacun et ont lieu du 27 au 29 novembre 2017. Les participants ont réalisé les tâches suivantes comme s’ils étaient à la maison, sans assistance du modérateur : Trouver…

  • Une recette de salade à servir en entrée avec le chatbot de Whole Foods;
  • Une recette de saumon à servir en plat principal sur le site Web de Whole Foods;
  • Un nouveau manteau avec le chatbot de Tommy Hilfiger;
  • Un nouveau pantalon noir avec le site Web de Tommy Hilfiger;
  • Un vol pour New York un weekend de mars 2018 avec le chatbot de Skyscanner;
  • Un vol pour Paris une semaine de mai 2018 avec le site Web de Skyscanner.

L’ordre des tâches variait pour chaque participant afin d’alterner l’ordre des marques (Whole Foods, Tommy Hilfiger et Skyscanner) et des outils (chatbots et sites Web). Par exemple, certains participants ont commencé par une tâche avec le chatbot de Whole Foods, alors que d’autres ont commencé sur le site Web de Tommy Hilfiger.

Données collectées

Pour comparer les chatbots aux sites Web, nous avons collecté les données suivantes pour chacune des 60 observations (10 participants x 6 tâches) :

  • Temps requis pour compléter chaque tâche ou avant d’abandonner;
  • Taux d’abandon de chaque tâche (nombre d’abandons / nombre de participants);
  • Réponses à un questionnaire évaluant l’expérience utilisateur après chaque tâche;
  • Expressions faciales des participants pour chaque tâche;
  • Feedback qualitatif des participants sur les chatbots à la fin du test utilisateur.

Pour le questionnaire d’évaluation de l’expérience utilisateur, nous nous sommes basés sur le questionnaire USE permettant d’évaluer l’utilité, la facilité d’utilisation, la facilité d’apprentissage et la satisfaction. Les participants devaient indiquer leur niveau d’accord avec huit énoncés en utilisant une échelle de 1 à 7, où 1 signifie « fortement désaccord » et 7, « fortement en accord ». Chaque dimension a été évaluée grâce à deux énoncés. Pour plus d’information sur le questionnaire USE, voir : Lund, A. M. (2001). Measuring usability with the USE questionnaire. Usability Interface, vol. 8, no 2, p. 3-6.

Analyse des émotions faciales

Les émotions faciales des participants ont été analysées au Tech3Lab de HEC Montréal à l’aide du logiciel FaceReader. Pour en savoir plus sur FaceReader et la théorie derrière la mesure des émotions, voir : Les expressions du visage comme source d’information.

EnregistrerEnregistrerEnregistrerEnregistrerEnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrerEnregistrerEnregistrerEnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrer

EnregistrerEnregistrer

1 réponse

Trackbacks (rétroliens) & Pingbacks

  1. […] une étude réalisée par la firme imarklab, même si les agents conversationnels ne surpassent pas encore les […]

Les commentaires sont fermés.