Synthèse et reconaissance vocale (2)
- Synthèse vocale : InfoVox iVox & GhostReader.
- Reconnaissance vocale : macSpeech Dictate &
Reconnaissance audio : Scribe
A. Présentation rapide :
Son icône :
Qu’es-aco : Outil de transcription de fichier audio en texte (reconnaissance vocale indirecte)
Site de l’éditeur : MacSpeech
Traduction : oui – non
Payant : oui – prix : 129 € env – disponible chez Applications Systems
Version démo : oui – non
Configuration minimale requise :
- Un ordinateur Macintosh avec processeur Intel
- Mac OS 10.6 (Snow Leopard)
- 1 Go de RAM (2 Go ou plus conseillés)
- 2 Go d’espace libre pour l’installation de MacSpeech Scribe sur votre disque dur. De plus, l’installation doit laisser un espace disque disponible important.
- Comme pour toute autre application, un processeur plus rapide améliore la performance.
- L’accessibilité doit être activée dans les Préférences Système Accès universel.
Interface : nombreuses fenêtres
B. Plus en détail :
1. Introduction :
MacSpeech a sorti une nouvelle version de son logiciel de reconnaissance vocale, c’est à dire permettant de transcrire la voix en texte.
Alors que Dictate permet de dicter à la volée et de commander le Mac par commandes vocales, Scribe, lui, permet dicter sur n’importe quel support numérique, que ce soit un dictaphone, un iPhone, voire même le micro de votre Mac, et l’utiliser les fichiers sonores afin de transposer le texte dicté.
Ceci permet de réaliser un enregistrement sans être forcément enchaîné à un micro et un ordinateur, ce qui donne plus de souplesse. Il suffit ensuite de récupérer l’enregistrement vocal sur le Mac, puis de le soumettre à Scribe, pour voir le contenu décrypté avec le même moteur que Dictate. Si vous avez déjà possesseurs de Dictate, il suffira d’installer le moteur de Scribe qui utilisera la même base de vocabulaire que son prédécesseur (il n’est donc pas nécessaire d’installer le disque de données). Néanmoins, il faudra réaliser, et ce, même si vous êtes le seul utilisateur de votre Mac, un apprentissage pour scribe qui sera indépendant de celui de Dictate.
N’imaginez pas utiliser Scribe pour retranscrire un podcast, une interview ou un enregistrement tout venant, car Scribe n’est capable de travailler que sur six profils prédéfinis, chacun devant réaliser un apprentissage pour améliorer la reconnaissance. Il faut un profil différent par orateur, mais surtout un profil différent par appareil d’enregistrement. Ce qui limite peut-être son utilisation pour les étudiants, mais peut être pratique un professionnel devant faire des comptes-rendus.
2. Installation :
L’installation est sans particularité, on fait un glisser-déposer de l’application vers le dossier Applications. Le disque de données doit être installé uniquement si l’on ne possède pas Dictate. Bien évidemment, il faut entrer le numéro de licence et activer l’application via le net. Scribe est fourni avec un mode d’emploi complet en français ce qui est une très bonne chose.
Il faut ensuite créer un profil (nom d’utilisateur), la langue voulue (entre Français, anglais, italien et allemand). Il est possible de stocker le fichier où l’on souhaite pour par exemple le passer sur une autre machine. Il suffit alors d’activer le profil voulu. La langue ne sera plus modifiable par la suite.
3. L’interface :
Le bouton de transcription ne sera valide qu’une fois l’apprentissage suffisant.
Dès lors, on retrouve une fenêtre de sélection qui donne accès à l’apprentissage et aux outils de transcription, ainsi qu’à l’éditeur de vocabulaire. Ce panneau de choix s’affiche à chaque lancement.
Les fichiers supportés seront du mp4, du wav, de l’aiff, du m4a et même du m4v (fichier vidéo type iTunes). Attention à l’échantillonnage qui doit être au minimum de 11.025 kHz.
4. Apprentissage :
À ce moment-là, il faut offrir à Scribe un fichier d’une durée minimale de 120 secondes. Il est fortement recommandé d’enregistrer un texte simple, en n’oubliant pas de dicter la ponctuation et surtout, en articulant bien. Il est préférable d’éviter les environnements bruyants, et de privilégier un bon micro. Comme chaque profil est lié à un appareil, autant dire qu’il est nécessaire de faire des essais.
Lors de mes tests, j’ai utilisé l’application Dictaphone© fournie de base avec les iPhone, avec soit le micro de l’iPhone intégré, soit celui des écouteurs. Le rendu est meilleur avec les écouteurs.
La fenêtre change alors et l’on dispose en bas de possibilités de paramétrer les points de début et de fin (2). À tout instant, on peut d’écouter (1) le morceau pour vérifier sa qualité. Il suffit ensuite de cliquer sur le bouton transcrire (3) qui va travailler sur les 15 premières secondes uniquement.
La seconde fenêtre qui apparaît affiche le texte reconnu pour le corriger. On va procéder par tronçons (6) (qui sont imposés par le logiciel et que l’on fait défiler à l’aide de flèches (1)). Il suffit de cliquer sur une portion pour que s’affiche une bulle noire avec le texte (3), mais aussi le bouton lecture (4) pour écouter l’original. Le bouton Répéter (5) permet d’écouter en boucle l’audio pour taper les longs textes ou si c’est difficile. Une fois les corrections effectuées, on choisit d’ignorer ou d’accepter (2) afin de passer au tronçon suivant. Dans cette fenêtre, la ponctuation est écrite en majuscule et il faut la laisser comme telle. Les phrases apparaissent en rouge si elles sont ignorées et en vert si elles sont validées (7).
Une fois arrivé au bout des premières 15 secondes, le bouton Transcrire devient Étalonner (remplacé par Apprendre (8) lors des apprentissages suivants). Il s’agit de traiter l’ensemble du fichier audio transmis. Il faudra procéder à sa correction selon le même principe.
Le logiciel vous prévient lorsqu’il a suffisamment d’éléments à sa charge pour commencer une transcription à proprement parler. Il sera possible à tout instant de revenir sur l’apprentissage en lui soumettant de nouveaux textes afin d’améliorer la reconnaissance qui de toute façon va mémoriser au fur et à mesure les différentes erreurs qu’elle a pu provoquer. Tout comme Dictate, le processus est évolutif.
Des erreurs il en aura forcément, le logiciel ne pense pas et ne comprend pas le sens du texte, il se contente de reproduire une correspondance entre un élément écrit et un élément audio, ce qui est directement dépendant de la qualité du fichier sonore, de son volume, et ainsi de suite.
5. La transcription
Une fois l’apprentissage fini, on peut passer à la transcription à proprement parler. L’interface de la fenêtre est différente, se présentant un peu à la manière de TextEdit. Sur la droite, le panneau affiche les différentes propositions. Ici, il n’existe pas de bouton ignorer ou accepter, et il faut impérativement mémoriser les raccourcis pour circuler de tronçon en tronçon, sous peine de devoir utiliser le menu à chaque fois. Un bouton en bas de la fenêtre aurait probablement été une meilleure idée.
ALT+CMD et flèche droite ou gauche permettent ainsi de circuler.
Le principe des tronçons (1) est le même, à la différence qu’ici, on obtient une liste de propositions numérotées (2). Scribe va parfois faire des variations sur un déterminant, un mot, un accord. Il est donc important de bien lire chaque possibilité. Le bouton lire (3) permet bien sûr d’écouter l’original. Il n’y a pas de bouton pour répéter et c’est bien dommage, vu que les tronçons sont parfois assez longs. La ponctuation est cette fois-ci transcrite en signes. Les commandes classiques de mise en forme («A la ligne») sont reconnues et appliquées. Leur liste complète se trouve dans l’éditeur de vocabulaire. Si l’on trouve la bonne transcription, on clique (une fois) sur le chiffre (4) la représentant et elle se substitue au texte dans la fenêtre principale.
Cliquez sur l’image ci-dessus pour l’agrandir.
Si l’on ne trouve pas (ou s’il reste tout de même une erreur), il faut double cliquer sur la phrase la plus proche et corriger manuellement. La touche entrée valide la phrase puis on appuie sur le nombre. Impossible d’ignorer un segment, sous peine de ne plus pouvoir écouter le texte (bug?). Il ne faut pas corriger dans la fenêtre principale, sinon, on perd le lien avec l’audio.
Cliquez sur l’image ci-dessus pour l’agrandir.
6. Export
S’il est possible de simplement copier coller le texte vers un logiciel de traitement de texte, il reste possible d’enregistrer le fichier en RTF (TextEdit). Je n’ai pas trouvé comment enregistrer un travail partiel de correction pour le reprendre plus tard.
7. Enrichissement de vocabulaire
À côté de la fonction de transcription elle-même, on accède (et cette fonction est commune avec Dictate) à l’apprentissage de vocabulaire permettant de donner un texte écrit par les soins de l’utilisateur à Scribe pour qu’il enrichisse sa base de mots.
Quant à l’éditeur de vocabulaire lui-même, il affiche toutes les commandes et mots enregistrés. On retrouve 2 sections : les commandes intégrées (1) et celles de l’utilisateur (2). L’édition se fait grâce au bouton I (4) qui fait apparaître la fenêtre des propriétés.
Parmi les options, on peut modifier les règles de capitalisation (pratique pour les prénoms ou les noms de marque) et l’ajout automatique d’espace avant après (5). Pour ce qui est de leur prononciation éventuelle, le seul vocabulaire accessible est celui spécifique à l’utilisateur. Il faut alors les écrire en phonétique (3) et non les prononcer. Enfin, il est possible de supprimer des mots incorrects. Comme Dictate, on peut exporter ou importer du vocabulaire (grâce à la roue dentée).
8. Les performances et ma conclusion :
Globalement, le traitement est assez rapide, même pour des fichiers assez longs. Comme pour Dictate, il faut prendre soin de sa prononciation, mais le résultat est tout de même excellent, du même ordre que celui de son grand frère. Plus on va pratiquer de reconnaissances, meilleure sera la traduction puisque Scribe s’enrichit au fur et à mesure des corrections. Le mieux pour s’en rendre compte est de vous mettre ici le résultat pur d’une dictée (issue du mode d’emploi du logiciel) avec l’original.
Transcription (sans retouche) :
MacSpeech Scribe et une question de reconnaissance vocale permettant de transcrire des fichiers audio. Ce s’il que transformer un fichier audio contenant du texte enregistré par par quelqu’un d’autre en du texte éditable sauvegarde le texte ainsi transcrit un pied dans n’importe quel autre document. À une comment fonctionne le MacSpeech s’et ? Ce n’est ni magique et mystérieux. En coulisse, MacSpeech s’scribe interprétait moqueuse s’était prononcé grâce au moteur de reconnaissance vocale puissant, rapide et précis qui comprend héritant du trois pour réaliser la transcription, MacSpeech scribe utilise une combinaison de technologie contenue dans Mac OS X. comme par exemple l’accessibilité et l’Usk. On peut commencer à utiliser MacSpeech scribe très rapidement, mais vous devez tout de même effectuer une petite préparation, et devrait ensuite apprend à utiliser."
Texte original :
MacSpeech Scribe est une application de reconnaissance vocale permettant de transcrire des fichiers audio. Ceci veut dire que vous pouvez transformer un fi- chier audio contenant du texte enregistré par vous ou par quelqu’un d’autre en du texte éditable. Vous pouvez alors sauvegarder le texte ainsi transcrit ou le copier dans n’importe quel autre document.
Comment fonctionne le MacSpeech Scribe? Ce n’est ni magique ni mystérieux. En coulisses, MacSpeech Scribes interprète les mots que vous avez prononcé grâce à son moteur de reconnaissance vocale puissant, rapide et précis qui comprend un vocabulaire étendu. Pour réaliser la transcription, MacSpeech Scribe utilise une combinaison de technologies contenues dans Mac OS X comme par exemple l’Accessibilité et AppleScript.
Vous pouvez commencer à utiliser MacSpeech Scribe très rapidement, mais vous devrez tout de même effectuer une petite préparation, et devrez ensuite apprendre à l’utiliser."
Mes essais de traduction d’un de mes podcasts ont par contre été de vrais échecs donnant une bouillie de mots comme exposé ci-dessous, mais les propositions sont elles, irrésistibles.
Quel frimeur ce Mitzi !
C’est probablement sur l’interface que je serais le plus critique. Autant la fenêtre d’apprentissage est assez simple et efficace, autant la fenêtre de transcription est confuse et peu pratique, obligeant à mémoriser les raccourcis clavier et à multiplier les clics inutiles. Pourquoi avoir enlevé la fonction de répétition ou le fait d’ignorer un tronçon ? L’ergonomie n’est ici pas très bonne, rendant la correction plutôt laborieuse.
Dernier reproche : un mode de mise à jour à partir de Dictate (avec un tarif préférentiel) aurait probablement été mieux vu.