Accueil arrow Articles arrow Logiciels arrow Reconnaissance vocale et Tablet PC
Reconnaissance vocale et Tablet PC Convertir en PDF Version imprimable Suggérer par mail
Écrit par Nicolas RUIZ   
15-02-2004
Index de l'article
Reconnaissance vocale et Tablet PC
1- Une courte explication de la reconnaissance vocale
2- Les logiciels de reconnaissance vocale
3- Les matériels adaptés et l\'intégration dans un TabletPC
En conclusion

1- Une courte explication de la reconnaissance vocale


Ouvrez la bouche et dites « aaaah »

Nombreux sont ceux qui après avoir vu « 2001 : L'odyssée de l'espace », rêvaient de dialoguer avec leur ordinateur comme le faisait l'équipage avec HAL. Ce rêve est peut être plus proche qu'on ne le croit. En effet, ces dernières années, la reconnaissance vocale a fait des bonds de géant et il n'est pas illusoire de dire que cette solution remplace le clavier. En fait, ces progrès ont été rendus possible du fait de la montée en puissance des ordinateurs ; ceux qui disent aujourd'hui que la course à la puissance est terminée se trompent lourdement, car il reste en effet trois domaines où il est encore nécessaire de posséder de la puissance : l'IA, la synthèse et la reconnaissance vocale.

Les deux types de reconnaissances :

Il existe deux types de logiciels de reconnaissance vocale : les logiciels à reconnaissance continue et les logiciels à reconnaissance discrète. Dans le premier cas, vous pouvez parler normalement, votre dictée est continue et le logiciel écrit au fur et à mesure de votre dictée : les deux logiciels les plus connus dans ce domaine sont IBM ViaVoice et Dragon Naturally Speaking. Dans le second cas, il vous est nécessaire de faire une pause entre chaque mot afin que le logiciel les analyse : ce type de technologie est par exemple utilisée pour les standards téléphonique (le répondeur de l'opérateur Orange fonctionne sur ce principe) ou pour des requêtes simples (SOCOM, un jeu PS2 ou encore Word dans sa version américaine fonctionnent sur ce principe).

Chaque type de logiciel a ses avantages, les premiers permettant de dicter du texte mais nécessitant un apprentissage, les seconds permettant des ordres simples, et reconnaissants toutes les voix. Il est d'ailleurs important de noter que jusqu'au milieu des années 1990, c'était le second type que l'on trouvait sur le marché.

Comment est reconnue la voix ?

Un mot n'est pas reconnu selon son orthographe : en effet, cela n'est techniquement pas possible du fait de l'existence d'homonymes. Les laboratoires de recherche utilisent donc ce que l'on appelle le « modèle acoustique ». Pour simplifier, un mot possède des centaines de voix d'individus différents : la synthèse de ces voix créée le modèle. Quand vous prononcez votre mot dans le microphone, votre empreinte sonore va être comparée au modèle acoustique de chacun des mots. Il faut savoir que le modèle n'est pas figé : en effet, on peut prononcer soi-même un mot de centaines de façons différentes (essaie de prononcer un gros mot alors que vous êtes très en colère, et le même en étant calme). Le modèle s'adapte donc à différents facteurs comme l'humeur voire les mots qui précèdent ce dernier. Les modèles acoustiques utilisent donc des statistiques pour reconnaître votre voix.

Mais alors, cela signifie que la puissance de mon ordinateur doit être énorme pour reconnaître un mot parmi des centaines de milliers ?

Oui et non. Oui car plus il y a de RAM dans un PC, mieux c'est : la reconnaissance vocale en est très friande. Non, car le fait d'établir des modèles statistiques permet au logiciel d'établir de nouvelles statistiques sur les mots que vous utilisez le plus souvent : il reconnaîtra donc mieux le mot la prochaine fois. Et enfin, cela dépend aussi de la taille du dictionnaire. Si on reprend l'exemple du répondeur Orange, ce dernier comprend une dizaine de mots, tout au plus : la reconnaissance vocale n'en sera que meilleure est plus rapide.

Comment un mot est-il écrit correctement ?

En fait, une fois que le logiciel de reconnaissance vocale a trouvé votre mot, il a terminé son travail : c'est au tour de l'analyseur grammatical d'entrer en jeu. Cette tâche est ardue : en effet, cela doit prendre en compte le contexte, vos textes précédents, les mots voisins, etc. Il convient de noter que le Français est une des langues les plus difficiles en matière de reconnaissance vocale. Enfin, une petite dose d'Intelligence Artificielle finit d'orthographier correctement le mot.

Vers des logiciels polyvalents :

On l'a vu lors de cette courte explication, les logiciels de reconnaissance vocale emploient des technologies complexes. Il est important de noter que ces derniers convergent tous vers une certaine polyvalence. Ainsi, et nous allons le voir tout de suite, les logiciels de dictée continue allient désormais des scripts et des macro-commandes : en clair, ils essaient de remplacer en même temps la souris et le clavier.




 
< Précédent   Suivant >