Tablet PC: Améliorez le taux de reconnaissance de l’écriture

| 0 Commentaires

Microsoft Windows XP Tablet PC 2005, le système d’exploitation équipant les Tablet PC, dispose de la fonctionnalité majeure de gestion de l’encre électronique nommée Ink. Son application importante sur une tablette est la reconnaissance de l’écriture manuscrite avec des taux de réussite variant entre 70 et 97%. Une telle amplitude de réussite étonne… Comment fonctionne-t-il et comment l’optimiser ou l’améliorer de façon spectaculaire ? C’est ce que nous vous proposons de découvrir aujourd’hui.

Comment fonctionne la reconnaissance de l’écriture manuscrite de Tablet PC

La reconnaissance de l'écriture manuscrite de Tablet PC est basée sur l'écriture naturelle : un moteur de reconnaissance, construit de toutes pièces par Microsoft, a été constitué à partir de samples d'écritures (plusieurs milliers de pages d'écritures de plusieurs milliers de personnes) analysées, numérisées et décryptées pour construire un algorithme de reconnaissance.

La réussite du fonctionnement de cet algorithme de reconnaissance de l'écriture manuscrite est liée à l’utilisation de dictionnaires intégrés à Tablet PC pour mettre en concordance le mot écrit et sa correspondance analysée (si disponible dans le dictionnaire).
Vous comprendrez aisément, à la vue de ce fonctionnement, que le moteur de reconnaissance de l'écriture manuscrite de Tablet PC peut se révéler le meilleur ou le pire des alliés. Il est clair qu'il faut avoir une écriture 'lisible' pour que les taux de reconnaissance soient "acceptables". Une raison à cela : le moteur de reconnaissance n'est pas auto adaptatif et se base sur un dictionnaire de mots pour faire la reconnaissance. Ainsi, si un mot écrit n'est pas dans le dictionnaire, vous avez toutes les chances qu'il ne soit pas reconnu ! Ne parlons même pas des termes techniques spécifiques à des métiers (termes médicaux, juridiques, et autres).

Pour optimiser la reconnaissance de l’écriture manuscrite, Windows XP Tablet PC utilise 3 dictionnaires différents qu'il consulte quand il met en œuvre la reconnaissance de caractères :
un dictionnaire "système" qui contient les mots usuellement utilisés dans la langue d'installation du Système TabletPC
un dictionnaire "applicatif" qui est un dictionnaire personnalisable utilisable dans une application : chaque application peut potentiellement avoir son dictionnaire (encore faut-il que cette possibilité soit gérée par le concepteur de l’application).
un dictionnaire "utilisateur": c'est un dictionnaire personnel auquel vous pouvez rajouter des mots (notamment ceux que vous utilisez fréquemment) pour augmenter le taux de reconnaissance. Bien entendu l'enrichissement de ce dictionnaire est long, fastidieux et fonctionnellement unitairement (mots par mots), notamment via le centre de Contrôle Tablet PC avec l’option «Ajouter au dictionnaire»)

De cette structure illustrant le fonctionnement de la reconnaissance de l'écriture, en découle plusieurs concepts :
Il est possible d'écrire indifféremment de droite à gauche, de gauche à droite, à l'envers, sur le côté, Tablet PC reconnaitra sans problème le mot écrit
Le moteur de reconnaissance n'est pas auto adaptatif comme l'est le moteur Transcriber intégré à Pocket PC. Si cette amélioration est actuellement suggérée à Microsoft, aucune confirmation de ce support n’a été donnée.
Il est possible d'améliorer le taux de reconnaissance de façon spectaculaire, tout simplement en améliorant les mots du dictionnaire utilisateur. C’est ce que nous allons voir en prenant un exemple concret pour la Médecine générale.

Comment améliorer la reconnaissance de l’écriture manuscrite de Tablet PC

Pour comprendre comment améliorer le taux de reconnaissance de l’écriture manuscrite de Tablet PC, nous allons prendre un exemple avec la Médecine générale. Les professions médicales sont sensibles à l’utilisation de Tablet PC et les nombreuses implémentations de solutions Tablette en hôpital prouvent que le concept est viable dans ce type d’environnement. Pourtant, il est tout aussi réel que l’adage populaire « écrire comme un docteur » n’est pas flatteur pour ces personnes mais reflète bien aussi la qualité de l’écriture et la lisibilité d’une ordonnance par exemple.

La médecine, comme tout corps de métier technique et spécifique, doit utiliser un vocabulaire spécifique qui désigne précisément des signes cliniques, des affections ou des médicaments à utiliser. Bien évidemment ce vocabulaire n’est pas disponible en standard dans les différents dictionnaires de Tablet PC. Aussi, lors de leurs emplois, y a-t-il toutes les chances que l’utilisateur doive utiliser la procédure classique de reconnaissance et correction lettre à lettre pour pouvoir rajouter par la suite le mot dans le dictionnaire utilisateur. Exercice fastidieux et vite rédhibitoire dans la quête d'une utilisation optimale de sa Tablette.

Tout d’abord, il vous faut un dictionnaire de terme adapté. J’ai eu la chance de trouver sur un site Internet, un dictionnaire utilisateur normalement adapté à Microsoft WORD et qui se nomme medical.dic
Il est disponible sur ce site Internet : http://plasserre.developpez.com/dico.htm
Ce dictionnaire dispose de 15092 termes de médecine dont
Plus de 8000 noms de médicaments (homéopathie, parapharmacie comprises) en majuscules.
Plusieurs centaines de noms propres.
Les principaux symboles maladies, signes, sigles…
C’est un travail quotidien qui permet d’enrichir ce dictionnaire, mais aussi un travail communautaire : si vous avez des termes à rajouter ou des améliorations à ajouter, n’hésitez pas à contacter directement l’auteur qui met à disposition gratuite cet énorme travail.

Enfin, un outil est disponible, sous forme de Powertoys pour Tablet PC, qui permet d’enrichir le dictionnaire utilisateur de Tablet PC : C’est le Dictionary Tools pour Tablet PC (v1.02). Cet utilitaire, développé par Omar Shaline, Lead Manager Hotmail FrontOffice chez Microsoft, offre la possibilité d’importer directement les dictionnaires Microsoft Office dans le dictionnaire Utilisateur de Tablet PC, ou alors d’importer directement un ou plusieurs fichiers texte (ou des fichiers de mots Office avec l’extension *.DIC) dans ce dictionnaire. Il est par ailleurs possible de faire des backup et des restaurations de ce dictionnaire utilisateur et ainsi, de gérer des contextualisations de la reconnaissance de l’écriture de manière un peu fastidieuse, mais relativement facile.

Une fois le fichier medical.dic téléchargé et décompressé, il suffit dans Dictionary Tools de faire « File / Import Text File », de localiser le fichier et de valider. L’importation va se dérouler et prendre un certain nombre de minutes en fonction de la puissance de votre machine mais aussi de la lourdeur du dictionnaire.

Au cours de cette opération, la place en RAM prise par l’utilitaire peut être importante : j’ai remarqué une charge du programme pouvant aller jusqu’à 30 Mo de RAM prise, avec des pics d’utilisation importante du CPU. Ce ne sont pas des opérations que vous faites chaque jour normalement donc ce n’est pas réellement très important.

L’intégration de fichiers texte est relativement intelligente puisque les doublons sont ignorés.

Le logiciel dispose par ailleurs d’une zone INK de test qui permet de s’essayer à l’écriture manuscrite et de vérifier que les mots écrits sont correctement reconnus.

Une fois cette opération effectuée, le taux de reconnaissance de l’écriture manuscrite va littéralement bondir, surtout dans les professions techniques et dès qu’un dictionnaire spécifique est constitué et géré.

L’avantage de Dictionary Tools est de permettre aussi de supprimer un terme parmi la liste ou d’en rajouter très simplement. Cet outil de productivité est INDISPENSABLE dès que vous désirez prendre le contrôle total de votre Tablette.

Quelques astuces à l’utilisation de Dictionary tools

Dictionary Tools permet, en standard, d’importer le fichier dictionnaire personnalisé de Microsoft Office. Hélas, cette possibilité est fonctionnelle uniquement pour les versions américaines de Microsoft office. En effet, Dictionary Tools va rechercher dans "documents and setting/nom/applicationdata/microsoft/proof/custom.dic".
Sur un Microsoft Office en français, le fichier n'est pas nécessairement à cet endroit, et il n’a pas ce nom (PERSO.DIC) aussi l'onglet Microsoft Office de Dictionary Tools restera blanc.
La seule solution est de localiser les dictionnaires et les importer comme des fichiers textes.

La fonction BACKUP / RESTORE permet de sauvegarder entièrement le dictionnaire Utilisateur de Tablet PC dans un fichier XML. Cette fonction est intéressante et à user voire abuser pour garder plusieurs versions de la personnalisation de son dictionnaire.

Le logiciel est développé en VB.NET, les performances des opérations, semble-t-il relativement lourdes, sont moyennes, et il est courant de voir ce logiciel se geler lors d’opérations de BACKUP / RESTORE ou de suppression d’un grand nombre de mots. Laissez-lui le temps de faire le travail demandé !

A la question « comment avoir le taux de reconnaissance le plus élevé possible ? », je dirais que c’est lié à plusieurs facteurs dont le principal est le niveau de langage de l’utilisateur. Dans cet Article ô combien passionnant, l'auteur arrive à une conclusion assez instructive. Pour la langue anglaise, il estime qu'un dictionnaire utilisateur de 150 000 mots usuellement employés permet d'avoir un taux de reconnaissance (si toutefois votre écriture est bien reconnue) compris entre 95 et 100%. Un dictionnaire de collégien contient environ 250 000 mots et un dictionnaire un peu plus complet contient 470 000 mots. Tous ces chiffres sont issus de travaux sur la langue anglaise; la langue française est peut-être plus complexe, aussi les chiffres ne sont-ils peut-être pas identiques.
Est-il judicieux de charger le dictionnaire Utilisateur de Tablet PC de 150 000 mots ? Non, certainement pas, il est préférable de le remplir de termes techniques usuellement écrits et de se circonscrire à une liste comprise entre 10 000 et 30 000 mots. Les performances de la Tablette en dépendent, ainsi que sa stabilité.

 

Laisser un commentaire

Champs Requis *.


Social Media Auto Publish Powered By : XYZScripts.com