Reconnaissance vocale et Tablet PC

| 0 Commentaires

L’utilisation du TabletPC commence sérieusement à changer les moeurs et les habitudes des utilisateurs. Même si certains ne peuvent encore se passer du clavier (ils se reconnaîtront), d’autres jouent à fond le jeu et considèrent ces machines comme les bloc-notes du 21ème siècle (« the simplicity of paper combined with the power of the PC » était d’ailleurs le mot d’ordre de l’équipe en charge du développement du concept). Microsoft avait annoncé dès le début vouloir intégrer la reconnaissance vocale comme support de saisie, au même titre que le stylet. Quand est-il aujourd’hui ?

Ce dossier va vous faire découvrir la fabuleuse technologie de reconnaissance vocale et va vous permettre de mieux appréhender ce phénomène, qui deviendra à n’en pas douter une des prochaines révolutions informatique. Pour vous annoncer cette révolution, nous allons dans une première partie analyser la reconnaissance vocale. Puis, dans une seconde partie, nous observons au point de vue TabletPC comment il est possible de mettre en place une solution adaptée en testant des logiciels et du matériel.

{mospagebreak title=1- Une courte explication de la reconnaissance vocale}

1- Une courte explication de la reconnaissance vocale

Ouvrez la bouche et dites « aaaah »

Nombreux sont ceux qui après avoir vu « 2001 : L’odyssée de l’espace », rêvaient de dialoguer avec leur ordinateur comme le faisait l’équipage avec HAL. Ce rêve est peut être plus proche qu’on ne le croit. En effet, ces dernières années, la reconnaissance vocale a fait des bonds de géant et il n’est pas illusoire de dire que cette solution remplace le clavier. En fait, ces progrès ont été rendus possible du fait de la montée en puissance des ordinateurs ; ceux qui disent aujourd’hui que la course à la puissance est terminée se trompent lourdement, car il reste en effet trois domaines où il est encore nécessaire de posséder de la puissance : l’IA, la synthèse et la reconnaissance vocale.

Les deux types de reconnaissances :

Il existe deux types de logiciels de reconnaissance vocale : les logiciels à reconnaissance continue et les logiciels à reconnaissance discrète. Dans le premier cas, vous pouvez parler normalement, votre dictée est continue et le logiciel écrit au fur et à mesure de votre dictée : les deux logiciels les plus connus dans ce domaine sont IBM ViaVoice et Dragon Naturally Speaking. Dans le second cas, il vous est nécessaire de faire une pause entre chaque mot afin que le logiciel les analyse : ce type de technologie est par exemple utilisée pour les standards téléphonique (le répondeur de l’opérateur Orange fonctionne sur ce principe) ou pour des requêtes simples (SOCOM, un jeu PS2 ou encore Word dans sa version américaine fonctionnent sur ce principe).

Chaque type de logiciel a ses avantages, les premiers permettant de dicter du texte mais nécessitant un apprentissage, les seconds permettant des ordres simples, et reconnaissants toutes les voix. Il est d’ailleurs important de noter que jusqu’au milieu des années 1990, c’était le second type que l’on trouvait sur le marché.

Comment est reconnue la voix ?

Un mot n’est pas reconnu selon son orthographe : en effet, cela n’est techniquement pas possible du fait de l’existence d’homonymes. Les laboratoires de recherche utilisent donc ce que l’on appelle le « modèle acoustique ». Pour simplifier, un mot possède des centaines de voix d’individus différents : la synthèse de ces voix créée le modèle. Quand vous prononcez votre mot dans le microphone, votre empreinte sonore va être comparée au modèle acoustique de chacun des mots. Il faut savoir que le modèle n’est pas figé : en effet, on peut prononcer soi-même un mot de centaines de façons différentes (essaie de prononcer un gros mot alors que vous êtes très en colère, et le même en étant calme). Le modèle s’adapte donc à différents facteurs comme l’humeur voire les mots qui précèdent ce dernier. Les modèles acoustiques utilisent donc des statistiques pour reconnaître votre voix.

Mais alors, cela signifie que la puissance de mon ordinateur doit être énorme pour reconnaître un mot parmi des centaines de milliers ?

Oui et non. Oui car plus il y a de RAM dans un PC, mieux c’est : la reconnaissance vocale en est très friande. Non, car le fait d’établir des modèles statistiques permet au logiciel d’établir de nouvelles statistiques sur les mots que vous utilisez le plus souvent : il reconnaîtra donc mieux le mot la prochaine fois. Et enfin, cela dépend aussi de la taille du dictionnaire. Si on reprend l’exemple du répondeur Orange, ce dernier comprend une dizaine de mots, tout au plus : la reconnaissance vocale n’en sera que meilleure est plus rapide.

Comment un mot est-il écrit correctement ?

En fait, une fois que le logiciel de reconnaissance vocale a trouvé votre mot, il a terminé son travail : c’est au tour de l’analyseur grammatical d’entrer en jeu. Cette tâche est ardue : en effet, cela doit prendre en compte le contexte, vos textes précédents, les mots voisins, etc. Il convient de noter que le Français est une des langues les plus difficiles en matière de reconnaissance vocale. Enfin, une petite dose d’Intelligence Artificielle finit d’orthographier correctement le mot.

Vers des logiciels polyvalents :

On l’a vu lors de cette courte explication, les logiciels de reconnaissance vocale emploient des technologies complexes. Il est important de noter que ces derniers convergent tous vers une certaine polyvalence. Ainsi, et nous allons le voir tout de suite, les logiciels de dictée continue allient désormais des scripts et des macro-commandes : en clair, ils essaient de remplacer en même temps la souris et le clavier.

{mospagebreak title=2- Les logiciels de reconnaissance vocale}

2- Les logiciels de reconnaissance vocale

Il existe une multitude de logiciels pour la reconnaissance vocale. Nous allons cependant nous intéresser aux deux leaders, à savoir Dragon Naturally Speaking et IBM ViaVoice.

Dragon Naturally Speaking

Actuellement disponible dans sa version 7, Dragon Naturally Speaking (DNS) est probablement le meilleur logiciel de reconnaissance vocale actuel. Ces fonctionnalités sont impressionnantes : 250 000 mots sont contenus dans son dictionnaire et le logiciel peut atteindre les 160 mots par minute (en réalité, on tourne autour de 120). Même si la plupart du temps les microphones fournis (quand il y en a) sont vraiment de mauvaise qualités (son mauvais, beaucoup de souffle), le logiciel en lui-même ne souffre d’aucun défaut et sa communauté sur Internet est très active. La version 7 est disponible en 4 versions simples et en une multitude de versions spécialisées (seul le dictionnaire change alors). La version Standard, à 99 Euros, suffit largement. En effet, le seul ajout de la version Preferred (à 199 Euros) concerne les PocketPC : vous enregistrez votre voix sur ce dernier et une fois à la maison, DNS vous retranscrit tout cela sur votre PC : après test, il s’avère que cette option est inutilisable ; sans surprise, le microphone du PocketPC est de piètre qualité et la reconnaissance vocale n’atteint pas les 40%. En bref, c’est une fonction gadget qui ne vaut pas que l’on paie le double de prix. Pour ce qui est du logiciel « classique », son utilisation sous Windows est vraiment bonne, et il n’est pas rare d’atteindre les 100% de reconnaissance !

Enfin, il ne faut pas oublier d’apprendre au logiciel à comprendre vos mots, plus vous pratiquerez et plus le logiciel atteindra de bons taux de reconnaissance.

IBM ViaVoice

ViaVoice dispose de bons atouts. Certains le préfèreront sûrement à DNS même s’il possède globalement de moins d’options. Comme DNS, ViaVoice est disponible en une multitude d’éditions. Une des plus intéressantes, pour 199 Euros, dispose d’un microphone USB (photo) qui élimine les bruits de fond . Le prix est cependant excessif, un microphone USB de ce type ne coûte pas plus que 50 Euros. Cependant, il s’agit d’un avantage certain par rapport à DNS Preferred car cela permet d’avoir un pack prêt à l’emploi.

{mospagebreak title=3- Les matériels adaptés et l’intégration dans un TabletPC}

3- Les matériels adaptés et l’intégration dans un TabletPC

Le plus souvent, les personnes qui utilisent des logiciels de reconnaissance vocale négligent fortement l’aspect matériel, à savoir le microphone. Voici donc le test de deux microphones Logitech (puisque parmi tout ce que j’ai pu tester, il s’agit des meilleurs).

Premium Stereo USB Headset 30

Ce microphone est du même type que celui inclus avec ViaVoice. Coûtant autour de 50 Euros, il est parfaitement adapté à la reconnaissance vocale. Il ne possède pas de prise mâle micro et casque mais d’une seule prise USB : Windows le reconnait automatiquement et le son est alors dévié vers ce casque (les enceintes du PC sont coupées). Logitech annonce que ce casque élimine les bruits de fond et cette affirmation est correcte. Certes, le son extérieur n’est pas coupé à 100% mais quand vous écoutez une musique de fond, en enregistrement, elle s’entend très peu voire pas du tout. Il dispose de plus d’une commande de réglage et de coupure du son via une petite télécommande. De loin le meilleur microphone que j’ai pu tester, hélas, il est cher et surtout pas très discret.

Casque avec microphone Internet Chat Headset

Ce casque-micro est plus classique : au déballage, on se rend compte qu’il s’agit d’un casque-micro à prises jack classiques. Il n’élimine donc pas les bruits de fond, même si Logitech annonce que le produit élimine les « bruits parasites » (j’attends de connaître la différence). En utilisation, il ne spolie pas son nom : il s’agit bien d’un casque pour le chat audio : le son est bon, mais pas assez pour exploiter au maximum la reconnaissance vocale. Encore pire : certains logiciels ne reconnaissent pas certains mots en Anglais alors que cela passe parfaitement avec le casque USB. Cela est d’autant plus dommage que ce casque est vraiment très confortable et discret. Attention : il est utilisable en reconnaissance vocale, mais vous n’atteindrez jamais 98% de reconnaissance mais plutôt 90% ce qui explique mon jugement négatif. Bizarrement, sur certains sites de e-commerce, ce microphone est proposé à 50 Euros : n’hésitez pas à utiliser les comparateurs de prix donc.

Les casques Bluetooth

Je vois beaucoup sur les forums des questions de gens qui se demandent s’il est possible d’utiliser un casque Bluetooth avec son PC ou son TPC afin d’éviter d’acheter un coûteux casque-micro sans-fil. La réponse est : des fois.

En fait, dans certains cas, le casque-micro Bluetooth est reconnu sans problème par Windows et dans d’autres non : dans le cas du TC1000 par exemple, l’oreillette Jabra est reconnue si on possède une carte Bluetooth de marque TDK : donc, à moins de tester ou encore de demander sur les forums, la réponse n’est pas simple à formuler. De toute façon, j’ai pu converser par e-mail avec Christopher J. James (heureux propriétaire d’un TC1000 et webmaster du site TC-One-Thousand) sur l’utilisation de la reconnaissance vocale ; il est clair que les microphones Bluetooth n’offrent pas du tout la qualité requise pour ce genre de pratique et que, de surcroît, l’oreillette a tendance à couper les débuts de phrases. Bref, même si des constructeurs devraient bientôt proposer des oreillettes adaptées à ce sport particulier, les équipement actuels ne permettent pas une utilisation professionnelle de ces outils.{mospagebreak title=En conclusion}

En Conclusion

La reconnaissance vocale sera certainement une des prochaines évolutions de la plate-forme PC et plus principalement TabletPC, en plus du stylet. Comme ce dernier, elle deviendra un complément du clavier, sans pour autant l’évincer, mais pourra le remplacer totalement dans des situations très précises. On peut donc sans souci imaginer des applications pensées pour la reconnaissance vocale comme on voit apparaître aujourd’hui des applications optimisées Ink, mais tant que les bruits de fond ne seront pas totalement ignorés, cette technologie restera cantonné à des environnements calmes…

 

Laisser un commentaire

Champs Requis *.


Social Media Auto Publish Powered By : XYZScripts.com