Interfaces homme-machine multimodales et adaptatives pour systèmes opérationnels |
||||||||||||||||||||
|
|
Par Pascale SOULARD et Pascal Bisson (Thomson-CSF/SDC) Anne Raimondo (Thomson-SintralASM) Philippe Aknin (Thomson-CSF/RCC) ARTIS FACTA -
Ingénierie des Facteurs Humains paru dans les actes du Congrès sur l'interface des Mondes Réels et Virtuels, Montpellier, 1992. Résumé Ce document décrit un environnement de développement pour la conception d'interfaces multimodales et adaptatives pour les systèmes opérationnels. Notre objectif, dans le cadre du projet à long terme "Poste de Travail Intelligent", est d'améliorer la communication homme-machine en incluant de nouveaux moyens d'interaction (gant numérique, reconnaissance et synthèse vocale, vidéo) et d'assister l'opérateur dans sa tâche en lui fournissant une aide adaptée au contexte opérationnel et à sa logique d'interaction. Notre système repose principalement sur une architecture multi-agent fondée sur une prise en compte du modèle de l'opérateur et de sa tâche (pour la compréhension du dialogue) et sur l'utilisation d'une grammaire multimodale (pour représenter les différentes formes que peut revêtir chaque commande élémentaire). Au cours de cette étude, nous traitons également des aspects liés à la méthodologie de développement d'interfaces homme-machine Intelligentes en décrivant notamment les aides à mettre en oeuvre. Mots-clés: communication multimodale, adaptativité, architecture multi-agent. This paper describes a development environment for designing multimodal and adaptive interfaces for operational systems (such as Air Traffic Control, anti submarine warfare applications) taking into account the operator and an operational task model. Our aim is to improve human computer interaction by including new devices that resemble as closely as possible human interaction styles (dataglove, speech recognition, voice synthesis, video) and to assist the operator in his task by providing him with adequate assistance in the current context of dialog in order to allow dynamic adaptation of his interaction logics. Our system is mainly based on a multi-agent architecture (for dialog understanding) and a multimodal grammar (to represent the different forms and natures of elementary commands). This work is being carried out within a long term project called "Poste de Travail Intelligent" (Intelligent Workstation of the future) where we also provide a methodology for building intelligent man-machine interfaces. Keywords: multimodal communication, adaptivity, multi-agent architecture. Le degré d'automatisation croissant des systèmes opérationnels pose un certain nombre de problèmes nouveaux au concepteur des interfaces homme-système:
Dès lors, il faut aborder la conception des futurs postes opérateurs au sens "ergonomie de l'interaction". Cette constatation nous amène à traiter du problème de la communication Homme Machine en contexte opérationnel, en considérant d'une part la teneur des informations échangées et d'autre part la nature de cette interaction. Ceci passe par:
Dans la suite de ce document, nous décrivons l'architecture logicielle qui est à la base de notre futur environnement de conception et de développement d'lnterfaces Homme-Machine Multimodales Adaptatives. Cet environnement servira au prototypage des futurs postes de travail pour nos systèmes de Contrôle de Trafic Aérien (Bacconnet et Garcia 90), d'lnformation et de Commandement (SIC) et de Lutte Sous-Marine (Pouteau et Soulard 91). Ce sujet a fait l'objet d'une étude inter-division Thomson CSF et a bénéficié dans la division SDC de la collaboration du CRIN/INRIA (Duermael 91, Pouteau 90). Nous présentons dans la suite de ce document les principaux modules de notre système de conception d'lnterfaces Homme-Machine Adaptatives intégrant un dialogue multimodal. De par la modularité de l'approche, nous proposons une architecture générique s'intégrant entre l'application et son interface proprement dite. L'application informatique, en particulier les tâches et les objets qu'elle comporte est modélisée au sein de cette architecture par le biais du modèle du dispositif, tandis que la manière dont l'opérateur interagit sur le système est représenté par le modèle de l'activité. Ces différents modèles seront détaillés plus bas.
2.2. Moyens d'interaction Il s'agit dans ce paragraphe de présenter les moyens d'interaction retenus et d'expliciter les différentes fonctionnalités du module de gestion des media. 2.2.1 Présentation Une communication Homme-Machine efficace nécessite une meilleure gestion des dispositifs familiers des opérationnels (Sperandio 91 ): souris, clavier, écran, boîte à boutons, boule roulante, joystick. De plus, afin de se rapprocher des moyens naturels de communication, notre architecture prend en compte de nouveaux dispositifs, tels que:
Ces différents media vont par leur utilisation, éventuellement combinée, permettre à l'opérateur d'interagir plus efficacement avec le système. 2.2.2. Gestion des media La gestion des media consiste, à partir de données "brutes" issues des dispositifs d'entrée (gant numérique, système de reconnaissance vocale, etc.), à générer les événements correspondants à destination de l'analyseur multimodal. Elle assure également le pilotage des media de sortie en vue d'un retour adapté vers l'opérateur. Il s'agit là de commander les dispositifs de sortie (vidéo, synthétiseur vocal, etc.) en fonction des événements correspondants. Dans ces deux cas, nous nous sommes attachés à la définition de nouveaux types d'événements d'entrée (voix, geste) et de sortie (vidéo, son, image 3D). Dans la suite, nous parlerons, de Module de Gestion des Media d'Entrée et de Module de Gestion des Media de Sortie. Face à ces besoins, nous avons étendu le mécanisme de gestion des événements sous X-Window et développé une structure d'accueil multimédia facilitant l'intégration de tout nouveau dispositif. Nous avons effectué une catégorisation des media par types de fonctionnalités (désignation, commande ). En effet cette classification doit à terme faciliter le choix du dispositif d'entrée-sortie en fonction de l'application. En ne faisant pas de traitement supplémentaire sur les données, nous restons indépendants des media utilisés. De plus, les modules de gestion des media peuvent à tout moment interroger/piloter chacun des dispositifs qu'ils contrôlent. Il est à noter que les événements sont typés et datés afin de permettre à l'analyseur multimodal de connaître le médium concerné et de situer les événements dans le temps. Ainsi dans le cadre d'une commande du type: "mets ce capteur <désignation 1 > ici <désignation 2 >" L'événement vocal "mets ce capteur ici" pourra être synchronisé par rapport aux deux désignations de manière à déterminer l'objet de l'action et la destination. Ainsi les différents stimuli externes, une fois traités par les dispositifs d'entrée correspondants, sont transformés en événements formatés qui seront transmis à l'analyseur multimodal. Rappelons que nous traitons du problème de la communication multimodale, c'est-à-dire l'utilisation conjointe de plusieurs modalités d'interaction; ceci est à différencier du multimédia qui ne prend pas en compte la combinaison de différents media d'interaction. 2.3. Analyseur multimodal Dans le cadre des études menées concernant les futurs postes opérateur, nous traitons plus particulièrement des langages de type commande. On se place donc dans le cadre d'un dialogue professionnel (sous-langage) où la structure du langage est simplifiée et où l'opérateur peut avoir recours à certains procédés linguistiques contribuant à la souplesse et au naturel de l'interaction Homme-Machine (Pierrel 87). Ces divers procédés sont principalement:
Nous avons développé un analyseur multimodal (Duermael 91) permettant d'aller au delà d'une simple analyse syntaxique et de reconstituer à partir des événements qui lui sont fournis, les commandes système. Après avoir envisagé différentes formes possibles d'implémentation de ce module, notre choix s'est porté sur la notion de grammaire lexicale d'unification (Kay 79) qui autorise une utilisation conjointe de différents types de connaissances (lexicales, syntaxiques, sémantiques et pragmatiques). Ce formalisme nous a permis de traiter sur le même plan lexical des informations de natures diverses (sonores, gestuelles, etc.) relatives aux différents modes d'interaction et ainsi de proposer une grammaire d'analyse d'interactions multimodales. Nous parlerons de grammaire multimodale. L'objectif de l'analyseur multimodal est donc de fournir une représentation conceptuelle d'un énoncé multimodal au coordinateur du dialogue. Les commandes incomplètes (temps imparti dépassé ou erreur de formulation) sont elles aussi transmises à ce module qui seul dispose des connaissances nécessaires pour les compléter ou effectuer un retours adapté vers l'opérateur. L'analyseur multimodal accède à différentes sources de connaissances :
2.4. Coordinateur du dialogue Le coordinateur du dialogue (Vilnat 84, Moeschler 89, Pierrel et Sabah 91 ) a la connaissance de l'activité de l'opérateur (modélisée sous forme de tâches), du contexte de l'application et de l'état du système à travers un modèle du dispositif pour interpréter l'énoncé multimodal issu de l'analyseur multimodal. Cette interprétation produit :
Le système s'adaptera donc dynamiquement à l'opérateur, éventuellement avec prévision de ses réactions ultérieures, pour prendre en compte sa stratégie, ses habitudes, sa démarche ou plus largement ses activités mentales (Richard 90). Le contrôle de la cohérence d'un énoncé, dans l'ensemble plus large que constitue le dialogue entre l'opérateur et le système, est effectué en cherchant une tâche courante dite élémentaire, correspondant à l'énoncé qui doit vérifier des conditions d'exécution et qui se trouve dans une tâche plus générale, associée à l'activité de l'opérateur. Contrôler le dialogue c'est:
Pour remplir ces fonctions, le coordinateur du dialogue dispose de différentes sources de connaissances décrites ci-dessous. A- Modèle de l'activité Il décrit de façon explicite toutes les tâches que l'opérateur aura à réaliser au cours de son interaction avec le système dans un domaine d'application donné et la façon dont celles-ci seront effectuées. L'application en elle-même étant décrite par le modèle du dispositif (voir plus loin). Une tâche peut se formaliser sous forme d'un objet décrivant les niveaux fonctionnels et opérationnels de celle-ci: Dans le formalisme MAD (Méthode Analytique de Description des Tâches, (Sebillotte 91) que nous avons choisi, une tâche est représentée sous forme d'un arbre hiérarchique et est définie par les éléments suivants:
On distinguera 2 types de tâches selon la nature du corps:
La description d'une tâche autorise la description de plusieurs stratégies pour une même tâche. Ces différentes stratégies peuvent être issues de l'analyse de l'activité de plusieurs opérateurs ou bien d'un opérateur observé dans des contextes différents (analyse effectuée en collaboration avec des ergonomes). B- Modèle du dialogue Il possède des connaissances a priori concernant la façon de gérer les situations de dialogue (séquencement du dialogue, isolement de sessions de dialogue, stratégies de reprise du dialogue, de complétion, d'anticipation, gestion de l'historique). C- L'historique du dialogue Il est construit de façon incrémentale; il permet de mémoriser l'ensemble des interactions entre l'opérateur et le système au cours de chaque session (cf. 2.3). D- Modèle de l'opérateur Il comporte des caractéristiques communes à des classes d'opérateurs (Carbonell 88, Falzon et Cahour 90) ou spécifiques à un opérateur. La représentation "particulière" que possède le système d'un opérateur en activité est construite dynamiquement à partir d'une analyse des interactions (modèle comportemental) dans le contexte courant. E- Modèle du dispositif Il s'agit de connaissances permettant de décrire et d'exprimer les contraintes liées à l'application et à l'interface auxquelles le module peut à tout moment accéder. Sont représentés ici tous les objets de l'interface avec une description dynamique de l'ensemble de leurs caractéristiques (vu/non-vu;,couleur, manipulable ou non). Trois types d'information sont consignées dans le modèle du dispositif:
Ainsi le modèle du dispositif permet au coordinateur du dialogue de faire le lien entre le monde de l'application, I'interface utilisateur et les commandes de l'utilisateur. Il diffère du modèle de l'activité qui est une représentation de la manière dont l'utilisateur exécute une tâche au travers de l'application. 2.5. Synthétiseur multimodal Le rôle de ce module est, partant du contenu des messages élaborés par le Coordinateur du dialogue, de décider de la forme sous laquelle il sera effectivement présenté à l'opérateur. Cela présuppose du choix des modalités de sortie en fonction de leur disponibilité en s'aidant du modèle du dialogue et du dispositif. Le retour peut s'effectuer en utilisant ces dispositifs de façon isolée ou combinée. Là encore, I'utilisation de plusieurs media multiplie le choix de la formulation d'un même concept ce qui permet une interaction variée. Par exemple, des choix possibles pour l'envoi d'une alarme sont les suivants: "sonnerie"(synthèse seule) ou "sonnerie" + "clignotement d'un objet" (synthèse & graphisme) ou "sonnerie" + "clignotement d'un objet" + "message d'alarme dans la zone d'aide" (synthèse & texte & graphisme/image) 2.6 Module d'interfaçage avec l'application Le rôle du module d'interfaçage avec l'application est de décoder un concept correspondant à une demande d'exécution provenant du coordinateur du dialogue et de le coder sous une forme directement interprétable par l'application (lancement de procédures, appels de méthodes, etc.). Pour cela, nous avons établi le besoin d'un langage générique d'interfaçage entre ce module et l'application. Ce module fonctionne donc en tant qu'organe de codage/décodage entre deux unités de traitement de l'information manipulant chacune des concepts qui leur sont propres: le coordinateur du dialogue (concepts de l'opérateur) et l'application (concepts du système).
3.1. Les applications Thomson CSF-SDC: Postes de détection et de contrôle
Afin d'intégrer les divers aspects de la communication homme-machine dans les postes opérateurs des futurs systèmes de contrôle et de commandement, la Direction Technique de SDC a défini un thème stratégique d'études intitulé "Poste de Travail Intelligent" qui se veut une approche globale de la communication entre l'opérateur et son système. La démarche choisie consiste à réaliser des prototypes de position de contrôle permettant de mettre au point et de valider divers concepts d'interface, de mode d'interaction, d'assistance à la tâche et de gestion du dialogue. Le besoin est particulièrement critique dans le domaine du contrôle de trafic aérien. La tâche du contrôleur aérien est en effet hautement cognitive. L'opérateur est confronté aux difficultés suivantes: alternance de situations de routine et de stress, passage de la fonction de superviseur à celle de décideur, données massives à organiser et à extrapoler, tâche complexe de planification et de résolution de conflits. Pour prendre en compte ces difficultés dans la définition des futurs postes opérateurs de nos systèmes de détection et de contrôle (défense aérienne, contrôle du trafic aérien, électronique navale, détection du champ de bataille), nous travaillons à la définition d'un environnement de conception et de réalisation d'interfaces homme-machine avancées intégrant des fonctions intelligentes MELODIA (Multimodal Environment for a naturaL and task Oriented DIAlogue) constitue le premier démonstrateur multimodal réalisé par Thomson CSF-SDC (Pouteau 90) et a servi de point de départ à la définition de notre architecture générique de dialogue. MELODIA a été présenté au salon d'Avignon 1991, où il a prouvé l'intérêt:
3.2.1 Présentation SAlTeR (Séquencement d'Activités Intelligent en Temps Réel) est une application conçue et développée par le groupe "Études Amont" de Thomson Sintra Activités Sous-Marines qui a pour but d'assister l'opérateur sonar de localisation à bord d'un sous-marin. C'est un "gestionnaire" intelligent réalisant un séquencement complet et automatique d'algorithmes de traitement de données en milieu évolutif. SAlTeR organise une partie des activités: il choisit les "bons" algorithmes afin de les déclencher au "bon" moment à partir d'informations pertinentes provenant des "bonnes" cibles détectées, appelées bruiteurs, (analyse de la quantité et de la qualité des informations). Une partie manuelle permet à l'opérateur de déclencher interactivement des algorithmes choisis sur un nombre restreint de bruiteurs. Des éléments comme la charge de l'écran visualisant la situation acoustique, la pertinence des informations affichées dans les fenêtres d'aide (ordre d'apparition, précision...), la succession de tâches nécessaires à l'appel manuel d'un algorithme (choix des informations, prise en compte des résultats antérieurs...) nous conduisent à évaluer le rôle essentiel de la communication homme-machine pour une utilisation optimale du système. 3.2.2 Intérêt d'un dialogue multimodal adaptatif 3.2.2.1. Interfaces Adaptatitives Il s'agit de faire varier dynamiquement la qualité et la quantité des informations, ainsi que la logique d'interaction, au cours de l'utilisation du système. Quelques exemples simples permettent d'illustrer cette notion d'adaptativité dans le cas de SAlTeR:
3.2.2.2 Le rôle d'un dialogue multimodal Le développement du prototype SAlTeR nous a conduit naturellement à analyser le poste opérateur en général. Sans être indispensable, la diversification des moyens d'interaction peut améliorer les conditions de travail et les performances des opérateurs. En effet, les résultats d'une étude effectuée par une ergonome font apparaître certaines contraintes du poste de travail actuel:
Ces inconvénients ont conduit à imaginer un poste de travail multimodal comprenant un écran tactile pour remplacer certains boutons sur les côtés de l'écran. Parmi les autres moyens d'interaction possibles, la commande vocale permet à l'utilisateur de garder un contact visuel avec l'écran lors de certaines commandes; la synthèse de la parole est également envisagée sous certaines conditions: utilisation d'un casque pour limiter l'ambiance sonore, emploi de messages courts. De telles possibilités nécessitent une conception des interfaces reposant sur une modélisation des tâches, une modélisation dynamique de l'opérateur, une analyse régulière du contexte opérationnel et une analyse préalable de l'activité d'un point de vue ergonomique. 3.3. Application Thomson CSF-RCC 3.3.1. Description AMI (Attribution Intelligente de Messages), réalisé dans le cadre d'une étude menée avec le soutien de la DGA/DRET, est un logiciel d'attribution de messages en fonction de leur contenu sémantique (De Sousa 91). Il traite le cas de messages arrivant à un poste de commandement du deuxième corps d'armée. Ce traitement est réalisé en prenant en compte l'adéquation des éléments sémantiques du message et les rôles des différentes cellules à servir. AMI repose sur l'analyse du contenu. Le contenu d'un texte est principalement représenté par les "domaines" dont il traite. Les "domaines" possibles sont les activités élémentaires du monde des correspondants potentiels (renseignement, génie, artillerie.) . La mission d'un destinataire potentiel s'exprime grâce à une combinaison de ces éléments. Par exemple, un opérationnel de la cellule SANTÉ s'intéressera aux messages traitant des domaines "SANTÉ", "EFFECTIFS" ou "NBC".
Le principe de AMI est de remettre à chaque destinataire les messages dont le contenu correspond à sa mission. Les domaines sont identifiés à travers des expressions caractéristiques qui sont reconnues par un balayage systématique du texte. Le module de balayage livre en sortie une liste de domaines. Pour ce faire, il nécessite une connaissance linguistique et conceptuelle des expressions caractéristiques d'un domaine. Cette connaissance est dépendante de la langue considérée et donc change avec elle. La comparaison entre le contenu des messages et les missions des attributaires potentiels est faite par un système expert qui prend en compte ces informations. La connaissance nécessaire à cette expertise reflète l'organisation du poste de commandement ainsi que la mission de chaque opérationnel dans les cellules. Elle est donc commune au différents modules de traitement multilingue. 3.3.2.La commande multi-modale dans AMI Nous avons intégré dans AMI dont l'interface est réalisée avec le générateur d'interfaces graphiques SPIRITS-MMI (Spirits-MMI 91), un module d'interprétation de commandes multimodales commandant le contrôleur de dialogue du système AMI. Les commandes, une fois interprétées, font appel aux fonctions de dialogue déjà réalisées dans AMI. Le schéma de description du système est le suivant :
L'interprète de commande multimodale réalise la traduction d'une phrase ou d'un geste en une fonction interprétable par le contrôleur de dialogue du système à commander. Ce contrôleur est une sorte de pont entre la présentation visible par l'utilisateur et l'application proprement dite. Les commandes accessibles à l'opérateur sont:
Ces commandes peuvent être réalisées selon les modes suivants:
La désignation peut être effectuée à l'aide de la souris ou bien à l'aide du gant. Dans ce dernier cas, un geste particulier permet l'asservissement du curseur au déplacement de la main. 3.3.3.Sortie sonore dans AMI En ce qui concerne la sortie sonore, nous nous sommes limités ici à la restitution sonore des messages - ces messages étant préalablement enregistrés. Cette application nous a amené à réfléchir sur un système capable de réaliser sensiblement le même travail que AMI mais à partir de messages sonores en provenance, par exemple, d'une ligne téléphonique. En effet, la reconnaissance d'expressions caractéristiques dans un message sonore est un principe déjà utilisé dans d'autres systèmes. Les résultats de cette étude pourront, dans peu de temps, être utilisés pour réaliser "AMI sonore". Conclusion Les aspects graphiques sont certes importants dans une interface homme machine, mais ils ne suffisent pas à garantir une réelle convivialité de l'interaction entre l'opérateur et le système. Celle-ci passe par une compréhension effective du dialogue à la fois vis-à-vis de la tâche réalisée par l'application informatique et vis-à-vis de l'activité de l'opérateur. Cet aspect est d'autant plus important que nous réalisons des interfaces sur des systèmes complexes devant aider l'opérateur à prendre des décisions dans des situations critiques. Par ailleurs, pour améliorer les interactions de l'opérateur avec le système au cours d'une activité, il est indispensable de suivre une démarche de conception d'interfaces prenant en compte des connaissances liées à la tâche et au domaine d'application. Cependant, pour entreprendre cette démarche de façon globale et cohérente, il apparaît nécessaire de définir de véritables outils d'aide à la conception et à l'évaluation de ces interfaces multimodales adaptatives. Cette approche pluridisciplinaire se situe à la croisée des chemins de l'Ergonomie, I'lntelligence Artificielle et la Communication Homme-Machine. Bibliographie AMALBERTI R. (1991). Modèles de raisonnement et ergonomie cognitive. Actes des Entretiens Science et Défense (pp. 317-328), Editions Dunod, Paris. BACCONNET B., GARCIA F. (1990) Partage des tâches et Communication Homme-Machine dans les futurs systèmes ATC, Atelier sur la gestion de la circulation aérienne, Académie Nationale de l'Air et de l'Espace, Toulouse. CARBONELL N. (1988). Human-computer Interaction Cognitive & Psychological Aspects. ALF/NCY-NCANP-1/4/D1. CRIN. Projet Esprit ndeg. 1520. DE SOUSA A. (1991) AMI et la commande vocale, Thomson CSF-RCC, Colombes. DUERMAEL F. (1991) Spécification d'une interface opérateur/application multimodale Application a la mise en oeuvre d'un analyseur multimodal, Mémoire de DEA, Université de Nancy 1, CRIN/INRIA Lorraine. FALZON P., CAHOUR B. (1990). Assistance à l'opérateur et modélisation de sa compétence. Communication à la Journée d'Etude "Expertise et Sciences Cognitivesn (pp. 1-13), Association pour la Recherche Cognitive, Paris. KAY M. (1979) Functional grammars, 5th annual meeting of the Berkeley linguistic society proceedings MILLOT F. (1988). Supervision des procédés automatisés et ergonomie. Editions Hermès, Paris. MOESCHLER J. (1989) Modélisation du dialogue, Editions Hermès, Paris. PIERREL J-M. (1987). Dialogue oral homme-machine., Editions Hermès, Paris. PIERREL J-M., SABAH G. (1991). Dialogue en langage naturel écrit ou ora/, Bilan des approches du CRIN et du LIMSI, Actes Communication Homme-machine, EC2 Greco PRC CHM, Toulouse. POUTEAU X. (1990) Dialogue H/M Multimodal pour Poste de Travail Intelligent, Mémoire de DEA, Université de Nancy 1, CRIN/INRIA Lorraine. POUTEAU X., SOULARD P. (1991). Dialogue Homme-Machine Adaptatif et Multimodal pour Poste de Travail Intelligent., Rapport final d'étude, THOMSON CSF/SDC/DT/PTI/099/91. RICHARD J-F. (1990). Les activités mentales., Editions Armand Colin, Paris. SEBILLOTTE S. (1991). Décrire des tâches selon les objectifs des opérateurs (Rapport technique ndeg. 125), INRIA, Rocquencourt. SPIRITS-MMI (1991). Manuel d'utilisation, Thomson CSF-RCC, Colombes. SPERANDIO J-C. (1991). Le dialogue multimodal: une réponse aux besoins de communication homme-machine. Communication à Univerdustrie 91. VILNAT A. (1984) Elaboration d'interventions pertinentes dans une conversation homme-machine, Thèse de 3ème cycle, Université Pierre et Marie Curie.
|
||||||||||||||||||
Retour
en
haut de page |
||||||||||||||||||||
|