Synthèse et reconaissance vocale
- Synthèse vocale : InfoVox iVox & GhostReader.
- Reconnaissance vocale : macSpeech Dictate &
Reconnaissance audio : Scribe
Reconnaissance vocale avec Dictate
A. Présentation rapide :
Son icône :
Qu’es-aco : logiciel de reonnaissance vocale
Site de l’éditeur : MacSpeech
Traduction : oui
Payant : oui – prix : 229 € env – disponible chez Applications Systems
Version démo : non
Interface : nombreuses fenêtres
B. Vidéo :
Dictate : le tutoriel vidéo
Samedi 17 octobre 2009
Pour télécharger la vidéo au format Apple TV, PC, Mac :
cliquez sur le bouton ci-contre (ou ctrl-clic) > "télécharger le fichier lié"
ou abonnez-vous au podcast.
C. Dictate en détails :
Introduction :
MacSpeech Dictate est le premier logiciel de reconnaissance vocale sur Mac, en Français. Attendu comme le messie depuis presque 2 ans, avec la sortie de la version anglaise, le voilà enfin disponible.
Dictate est basé sur le moteur de Dragon Naturally Speaking, la référence sur PC.
Je viens de passer quelques jours avec le logiciel et je vous propose de découvrir ici mes premières impressions.
Le logiciel est vendu en version boite, pour 229 €. Il s’agit d’une version unique qui comprend la reconnaissance en italien, en Allemand, en anglais et en français. Dans la boite se trouvent le CD de l’application, et un DVD de vocabulaire qu’il faut bien sûr installer. S’y ajoute un casque USB de marque Plantronic©. Ce casque est de bonne facture, pliant de surcroît. Je lui ai juste trouvé un souffle assez marqué à l’écoute. L’éditeur propose des dictionnaires supplémentaires, mais uniquement en langue anglaise pour l’instant, tel qu’un dictionnaire médical.
Installation – Apprentissage
L’installation du logiciel MacSpeech Dictate ne nécessite qu’un glisser-déposer alors que l’installation du vocabulaire est elle particulièrement lente, au point que j’ai même cru que l’installation avait planté.
Une fois l’installation complètement terminée, il suffit d’enregistrer le logiciel (il n’y a pas de version démo disponible).
Il est ensuite nécessaire de brancher le micro et de créer un profil, qu’il suffit alors d’activer.
La première phase va permettre l’installation des réglages liés au micro. Il est important qu’il soit positionné pas trop près de la bouche afin de ne pas capter trop de souffle. Les réglages concernent le volume et le gain nécessaire.
Débute le mode d’apprentissage, qui nécessite que de lire un certain nombre de phrases afin que le logiciel puisse mémoriser votre voix. Le texte lu est en fait un résumé des fonctionnalités du logiciel qui vous expose toute la difficulté de la reconnaissance vocale pour un ordinateur.
Le calcul du profil prend ensuite un peu de temps, mais bien moins que ce que j’avais connu lors de mon premier logiciel de reconnaissance vocale (il s’agissait alors d’un PC de course à 166 MHz !). Il est important de comprendre que votre profil est directement rattaché au type de micro que vous avez sélectionné, et il vous faudra créer un profil par micro. Pas de duplication des profils possible, tout changement de micro sera sanctionné par un nouvel apprentissage. N’imaginez pas utiliser le casque de votre iPhone, il ne sera pas reconnu. En fait, seuls les micros USB sont compatibles, celui de l’iSight n’est même pas listé. Ceci se comprend, car il faut un micro unidirectionnel qui ne capte que votre voix, éliminant au possible tous les bruits extérieurs.
Le support multilingue laisse supposer qu’il sera possible de passer d’une langue à l’autre au cours de la dictée, mais cela n’est en fait pas possible. En effet, vous devrez effectuer un apprentissage dans chaque langue, et charger le profil adéquat. Néanmoins, la reconnaissance par exemple des noms de logiciels est plutôt bonne et il a reconnu sans problème ici les termes « Dragon Naturally Speaking ».
Un gros avantage par rapport à Dragon NaturallySpeaking est la possibilité d’utiliser à la fois la dictée vocale, mais aussi les commandes vocales pour piloter l’ordinateur alors que le logiciel pour PC demande, lui, avoir acheté la version la plus haute pour réaliser cela. Du coup, le prix de 229 € semble justifié par l’obtention d’une version équivalente à la plus haute sur PC. Il ne manque finalement que la possibilité de pouvoir faire transcrire un texte enregistré sur un dictaphone.
L’interface
Dictate se présente sous la forme de multiples palettes. La palette principale permet d’activer le micro et indique le mode d’entrée (dictée, épeler, Commande). Il suffira alors de cliquer pour changer d’état, mais le plus simple est encore de le piloter à la voix. Cette fenêtre sera constamment au-dessus des autres fenêtres. Un clic sur l’icône du logiciel (2e) permet de basculer Dictate au premier plan.
L’icône de la barre de menu (fig.1) permet d’activer le micro., quant à l’icône, du dock, elle permet également de changer de mode ou de basculer en mode veille.
fig.1
La palette des commandes s’affiche par le biais du menu (ou de la commande « afficher les commandes disponibles "). Elle comprend à la fois les commandes les plus usitées pour l’application qui a le focus, mais aussi les commandes générales de Dictate. Les menus sont dépliants et il est possible d’effectuer une recherche. Néanmoins, le maniement de cette palette n’est pas très aisé, car le nombre de commandes est important, et le défilement laborieux.
Enfin, le logiciel dispose d’un bloc note, sorte de presse-papier qui permet d’écrire du texte puis de l’envoyer vers une autre application.
Une dernière palette apparaît lors de la correction. Elle liste toutes les variantes en fonction du texte sélectionné (et l’on peut réécouter le texte dicté si besoin).
La Dictée
Tout logiciel qui accepte des entrées de texte peut théoriquement être utilisable par Dictate. Ceci est vrai pour les applications « de base » comme TextEdit, Safari, Mail, mais aura parfois du mal à fonctionner dans d’autres. J’ai particulièrement eu des difficultés avec Scrivener. Lorsque cela n’est pas possible, on peut utiliser le bloc-notes de Dictate pour effectuer la saisie puis ensuite la coller directement à l’endroit souhaité.
Même avec un débit vocal assez rapide, le logiciel est capable de décrypter correctement votre voix du moment que vous n’avez pas un accent trop prononcé (et que vous n’êtes pas enrhumé, j’ai testé !) à condition que vous articuliez clairement. Malgré un apprentissage passablement court, la mise en route du logiciel est tout à fait rapide et vous voilà opérationnels de façon quasi immédiate pour une dictée vocale complète. Mon expérience avec Dragon NaturallySpeaking m’avait laissée avec l’impression d’un apprentissage long et laborieux avec un taux de reconnaissance moyen. Il faut dire que j’avais expérimenté comme dernière version la version 9 sur PC, que j’utilisais via la virtualisation, ce qui ne devait pas améliorer la rapidité d’exécution.
Malheureusement, l’ordinateur ne pourra jamais deviner le sens de vos phrases et il vous faudra toujours faire preuve de vigilance afin de corriger les erreurs commises par son interprétation. La gestion des pluriels est la principale difficulté et la gestion des homonymes également (est/et/ai/ait et les autres sont autant d’écueils impossibles à contourner).
Globalement, le taux de reconnaissance est assez bluffant. Même certains mots assez techniques sont trouvés, la ponctuation bien suivie, les termes tels que iMovie, IPhoto sont parfaitement transcrits. Ce qui est plus difficile est l’utilisation des commandes de correction, qui sont parfois transcrites au lieu d’être effectuées. Par exemple, le « effacer ça » se retrouve parfois au milieu du texte. L’important est de marquer une pause avant d’énoncer une commande, sous peine de la voir dans le texte dicté.
Il est particulièrement compliqué de mémoriser les différentes commandes vocales que l’on a tendance à finalement aller chercher au fur et à mesure, ce qui fait perdre du temps. Certaines sont assez évidentes comme « nouveau paragraphe », d’autres moins comme pour insérer un espace (« barre d’espacement »). Bien évidemment, l’ordinateur met un certain temps « de l’ordre de la seconde » à afficher vos phrases dictées et cela vous oblige à garder les yeux sur l’écran afin d’apporter les corrections rapidement. En effet, si vous dictez sans regarder, vous risquez de vous retrouver à la fin d’un gros paragraphe avec de multiples sections à corriger et il vous sera alors très difficile de le faire par commande vocale. Pour corriger, il vous faut signaler la portion de phrase en cause et la fenêtre de correction apparaît avec une liste de choix alternatif, que l’on sélectionne vocalement. Il est d’ailleurs possible de réécouter la phrase ainsi dictée. Il m’est arrivé plus d’une fois de ne pas avoir la bonne alternative et de devoir tout de même faire une correction manuelle, que l’on ne peut pas faire mémoriser par l’ordinateur.
On notera que les opérations de formatage sont disponibles, comme la capitalisation d’un mot, le centrage du texte, et ainsi de suite. Les possibilités sont vastes, et finalement, c’est peut-être là que ce sera le plus dur : les apprendre ! Il est d’ailleurs fort dommage que l’aide du logiciel ne soit disponible qu’en anglais, ce qui ne permettra pas de lister les commandes les plus utiles. Le panneau de commande est lui un peu trop versatile (un clic malheureux et le focus passant à une autre application font disparaître les commandes que l’on cherchait…). D’ailleurs, j’ai trouvé la police d’affichage un peu grosse, obligeant à élargir la fenêtre pour visionner certaines commandes.
Un bon moyen est de faire apparaître la fenêtre des commandes (Menu Outils), qui est bien plus claire que la palette translucide. Au moins, on a là la vision de l’étendue des possibilités.
Ajouter des mots de vocabulaire :
Si un mot est inconnu du vocabulaire, il sera possible de l’enseigner au logiciel par le biais de l’éditeur de vocabulaire. Celui-ci comprend 2 listes : le dictionnaire intégré et le dictionnaire personnel.
On peut alors ajouter un nouveau mot. Deux possibilités sont offertes : l’enregistrement vocal de la prononciation, ou bien l’écriture phonétique du mot.
Il faudra répéter 3 fois le mot qui sera alors mémorisé dans votre dictionnaire.
Dès lors, vous pourrez l’utiliser directement en dictée.
En plus du vocabulaire, il est possible de demander à charger des textes écrits, afin d’enseigner au logiciel votre façon d’écrire et le vocabulaire fréquemment utilisé. Il suffit d’indiquer des documents à charger et de laisser faire.
L’analyse va montrer les mots qui apparaissent (et l’on peut également les exclure si besoin). Bizarrement, je n’ai pas trouvé comment enregistrer une prononciation à partir de là.
Le mode EPELER :
Lorsque cela s’impose, il est possible de basculer dans des modes de dictée alternatifs, comme le mode épeler. Dès lors, le logiciel ne reconnait et n’écrit que des lettres une par une. Il est dommage de ne pas pouvoir à partir de là, lui faire mémoriser directement la prononciation du mot. De la même manière, on pourra dicter des chiffres, et même, des chiffres romains. Pour épeler les lettres, on peut utiliser les lettres, bien sûr ou bien l’alphabet radio international (alpha, bravo, tango et ainsi de suite)
Le mode Commande :
Il faudra passer en mode commande pour utiliser les commandes de l’application. Lancer une application, ouvrir un nouveau document, effectuer un copier-coller entre 2 applications, tout ceci est possible. Il est même possible de relever les mails ! Plus ardu sont les commandes de Safari, comme la désignation des signets que j’ai eu grand mal à utiliser puisqu’il faut lui parler en « signet numéro X » et que tous mes signets sont classés dans des dossiers. Néanmoins, la navigation vocale est plutôt bluffante et efficace. Certaines URL sont préenregistrées, et j’ai eu la surprise d’y trouver MacGénération et la Fnac. La circulation dans le Finder est complète, on peut modifier l’affichage, compresser les fichiers, les mettre à la corbeille et bien plus. Exposé est activable vocalement, mais impossible de réussir à sélectionner ensuite une fenêtre !
Il faut remarquer de grosses latences lors des changements de champs, ou lors de la navigation entre zones de saisie au sein d’une page web.
Il devient alors possible de réaliser des opérations complexes comme l’illustre la vidéo ci-dessous.
Le plus compliqué est de devoir changer de mode de saisie pour passer de la dictée aux autres opérations. On a vite tendance à oublier et on se retrouve alors rapidement avec du texte non voulu.
Le mode veille :
Dictate intègre ses propres commandes comme la mise en veille du micro (pratique si vous êtes interrompus par le téléphone par exemple) Il suffira de dire « au boulot » pour que le processus de dictée reprenne.
Dans un autre ordre d’idée, on pourra également complètement couper le micro (qui devra être ouvert manuellement par l’icône du menu ou par le Dock).
Au final ?
Alors au final, peut-on espérer tout faire sans toucher le clavier ? Assurément, non. Certaines commandes vocales sont trop laborieuses, et la quantité de commandes à mémoriser sera globalement un frein à l’utilisation exclusive. Par ailleurs, la correction reste un peu difficile à faire en « tout vocal » : on a rapidement envie de faire la sélection à la souris tant le tâtonnement est de mise. Néanmoins vu que l’on parle plus vite que l’on n’écrit, Dictate apporte clairement un confort dans la création de longs textes, si l’on prend soin d’être très vigilant dans la correction indispensable sous peine de laisser passer d’énormes boulettes.
À l’heure actuelle, j’ai rencontré quelques dysfonctionnements comme des inversions de lettres (et ce, malgré l’utilisation du module de correction, ce qui est plus étonnant), et le logiciel semble faire parfois la sourde oreille en refusant de prendre en compte une commande plusieurs fois de suite.
À la question, « n’est-il pas plus rentable de prendre une version PC sur virtualisation ? », la réponse est non ! Le coût du système d’exploitation, plus de la version adéquate de reconnaissance (la plus petite ne permet pas par exemple le support de la suite Office), plus l’éventuelle suite logicielle aboutira plus ou moins au même coût, sans compter que l’on se privera alors du mode commande sur la partie Mac
Pour une première version, je pense que l’essai est largement concluant, et j’espère que les petits défauts de jeunesse seront rapidement corrigés. Il reste surtout à prendre l’habitude de parler à son Mac, ce qui n’est pas toujours très bien perçu par les gens qui vous entourent !