Assistance orale `a la recherche visuelle - etude experimentale de lapport dindications spatiales `a la detection de cibles

Reading time: 5 minute
...

📝 Abstract

This paper describes an experimental study that aims at assessing the actual contribution of voice system messages to visual search efficiency and comfort. Messages which include spatial information on the target location are meant to support search for familiar targets in collections of photographs (30 per display). 24 participants carried out 240 visual search tasks in two conditions differing from each other in initial target presentation only. The isolated target was presented either simultaneously with an oral message (multimodal presentation, MP), or without any message (visual presentation, VP). Averaged target selection times were thrice longer and errors almost twice more frequent in the VP condition than in the MP condition. In addition, the contribution of spatial messages to visual search rapidity and accuracy was influenced by display layout and task difficulty. Most results are statistically significant. Besides, subjective judgments indicate that oral messages were well accepted.

💡 Analysis

This paper describes an experimental study that aims at assessing the actual contribution of voice system messages to visual search efficiency and comfort. Messages which include spatial information on the target location are meant to support search for familiar targets in collections of photographs (30 per display). 24 participants carried out 240 visual search tasks in two conditions differing from each other in initial target presentation only. The isolated target was presented either simultaneously with an oral message (multimodal presentation, MP), or without any message (visual presentation, VP). Averaged target selection times were thrice longer and errors almost twice more frequent in the VP condition than in the MP condition. In addition, the contribution of spatial messages to visual search rapidity and accuracy was influenced by display layout and task difficulty. Most results are statistically significant. Besides, subjective judgments indicate that oral messages were well accepted.

📄 Content

Les avancées scientifiques et technologiques récentes permettent de diversifier les médias et modalités d’interaction Homme-Machine, et de créer de nouvelles formes de multimodalité. L’utilisateur peut désormais interagir avec le système par la parole, grâce aux progrès de la reconnaissance vocale, par le geste manuel avec un doigt, un stylo ou un gant numérique (Ehrenmann et al., 2001), ou encore par le regard, notamment dans le domaine médical (Blois et al., 1999). En sortie, les réactions de la machine aux commandes ou actions des utilisateurs sont plus limitées en raison principalement de la diversité moindre des dispositifs de sortie.

La multimodalité qui associe, en entrée, la parole à d’autres modalités a suscité de nombreux travaux de recherche. En revanche, l’association, en sortie, de la parole au graphique et/ou au texte n’a motivé que quelques études. On peut citer à titre d’exemple, celle de Faraday et Sutcliffe (1997) sur l’évaluation de documents multimédias constitués de graphiques accompagnés de commentaires oraux. Les possibilités offertes par la parole en tant que modalité d’expression du système complémentaire du texte et/ou du graphique ont été encore moins explorées, à notre connaissance. Alors même que les problèmes d’ordre logiciel sont résolus depuis longtemps, l’étude de la contribution de la parole à l’efficacité des interventions du système (messages d’erreurs, comptes rendus d’exécution, aide en ligne) en est encore à ses débuts. Or, on ne peut raisonnablement proposer à l’utilisateur une interface avec laquelle il pourrait interagir oralement mais qui resterait muette.

Dans ce contexte, nous avons choisi de nous intéresser à la multimodalité parole plus graphique en tant que mode d’expression du système. Plus précisément, nous avons étudié l’apport de messages système oraux à l’efficacité et au confort d’activités de recherche visuelle. Le terme « graphique » désigne ici et dans toute la suite, outre les objets graphiques classiques (schémas, icônes, …), les images statiques, telles que dessins, peintures, photographies, notamment lorsqu’il est associé à « modalité » ou « affichage ».

Cet article présente une étude expérimentale portant sur l’évaluation ergonomique de la contribution d’informations spatiales orales à la précision, la rapidité et la facilité du repérage visuel de cibles au sein d’affichages 2D denses et complexes de collections de photographies. Dans le contexte de cette étude, le terme « précision » fait référence au succès ou à l’échec du repérage de la cible. Nous présentons d’abord le contexte scientifique, les motivations et les objectifs de notre recherche. Nous décrivons ensuite notre démarche, la méthodologie adoptée et le protocole expérimental mis en oeuvre, avant de présenter et discuter les résultats expérimentaux obtenus.

Étudier, en situation d’interaction Homme-Machine, l’association de la parole au graphique dans une même intervention du système est un sujet de recherche qui présente actuellement un intérêt particulier. D’une part, l’intégration de la parole aux modalités de sortie actuelles est susceptible d’enrichir l’interaction en mobilisant deux facultés sensorielles de l’utilisateur, l’audition et la vision, au lieu d’une seule, la vision. En outre, si la manipulation directe, mode d’interaction prévalant aujourd’hui, suffit pour interagir avec les applications classiques qui combinent graphique et texte en sortie, la diversification des contextes d’utilisation fait de la parole une modalité d’interaction utile, voire indispensable dans certaines situations. D’autre part, les concepteurs d’applications multimédias incluent dans les présentations visuelles un nombre croissant d’éléments sonores tels que messages vocaux, bips ou musique, sans s’interroger sur les effets éventuels de cet enrichissement des médias de présentation sur la charge cognitive de l’utilisateur. Associer parole et graphique dans une même intervention du système soulève des problèmes ergonomiques qui n’ont pas encore été abordés, sauf pour des catégories spécifiques d’utilisateurs (Yu et Brewster, 2003) ou pour des contextes spécifiques d’utilisation (Wang et al., 2000). Des recherches dans ce domaine sont donc nécessaires pour être en mesure de proposer aux concepteurs des recommandations ergonomiques qui permettent une intégration de la parole aux modalités classiques d’expression du système satisfaisante pour l’utilisateur.

Parallèlement, les progrès des techniques d’affichage ont entraîné le développement rapide de nouvelles fonctions d’interaction, telles que vue d’ensemble, zoom, filtrage, ou encore visualisation des relations entre les objets graphiques affichés (Shneiderman, 1996). En outre, le flot des informations visuelles transmises à l’utilisateur est en constante augmentation (Krause, 1997). Ces évolutions se traduisent par une surcharge des présentations visuelles qui ne cesse de croître. La multiplication des fenêtres, des barres d’outils et des ico

This content is AI-processed based on ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut