Huffpost Algeria mg

Reconnaissance de la parole : Microsoft atteint la parité homme-machine

Publication: Mis à jour:
EQUIPE MICROSOFT
Microsoft
Imprimer

Les dix dernières années témoignent des énormes progrès réalisés dans l’amélioration de la fiabilité des systèmes de traitement automatique de la parole. C’est Microsoft qui a cette fois réalisé une percée exceptionnelle dans ce domaine dont la plupart des travaux sont au stade de la recherche.

Une de ses équipes de chercheurs a créé une technologie vocale visant à permettre à une machine de reconnaître les mots de la parole conversationnelle de la même manière qu’un interlocuteur humain. En effet, des chercheurs de Microsoft viennent de mettre en évidence une nouvelle technique de reconnaissance de la parole conversationnelle qui permet d’atteindre les mêmes performances d’un interlocuteur humain. Inspirée du concept des réseaux de neurones, cette méthode consiste à répertorier les mots synonymes phonologiquement différents dans la même classe des vecteurs analytiques.

Dans un article paru le 17 Octobre dernier, et téléchargeable sur le site arxiv.org (archives ouvertes de publications scientifiques) de la Cornell University Library, une équipe de chercheurs de Microsoft relevant du laboratoire de la recherche en intelligence artificielle a réalisé un système de reconnaissance automatique de la parole en conversation qui s’approche des performances de reconnaissance d’un locuteur humain.

Durant la phase des tests définitifs, les ingénieurs de la firme américaine ont mesuré un taux d’erreur de mots WER (Word Error Rate) de 5.9 % contre 6.3 % il y a encore un mois. Selon les spécialistes de la reconnaissance vocale, un taux de 5.9 % est approximativement identique à celui des interlocuteurs humains qui ont été invités à transcrire le même contenu conversationnel. Pour le géant du logiciel PC, il s’agit du taux d’erreur le plus bas jamais enregistré dans le secteur de l’industrie de la reconnaissance de la parole standard. "Nous avons atteint la parité humaine", a déclaré Xuedong Huang, responsable des sciences de la parole chez Microsoft.

Des décennies d’efforts

Les résultats des travaux de recherches des ingénieurs de Microsoft ont largement dépassé les attentes de leurs encadreurs : pour la première fois de l’histoire de l’informatique, un ordinateur ou un autre équipement terminal peut reconnaître les mots composant un flux de parole conversationnelle de la même façon qu’un interlocuteur humain le fait.

Cette innovation historique s’est finalement réalisée après des décennies d’effort dans le développement des systèmes de reconnaissance de la parole performants. Les travaux de recherche ont débuté durant les années 1970 quand l’agence DARPA (Defense Advanced Projects Agency), un organisme américain chargé de la promotion des technologies multidisciplinaires au profit de la sécurité nationale du pays, a été créé. Au fil des années, plusieurs compagnies technologiques et organismes de recherche se sont joints aux projets de la DARPA.

Cette réalisation technologique aura de larges impacts sur les produits IT dont le système logique sera considérablement amélioré par la reconnaissance de la parole. Les appareils de divertissement grand public comme la Xbox, les outils d’accessibilité tels que la transcription instantanée de la parole en texte et les assistants numériques personnels comme Cortana seront plus adaptés aux utilisateurs. "Pour nous, une telle performance, apportera plus d’intelligence à notre assistant numérique personnel Cortana", a affirmé Harry Shum, vice-président exécutif de Microsoft qui dirige le pôle de recherche dans le domaine de l’intelligence artificielle. Par ailleurs, cette innovation ne mènera pas l’ordinateur vers une reconnaissance parfaite de chaque mot articulé. Il en est de même pour l’être humain.

Plus d’intelligence pour Cortana

L’exploit des chercheurs de Microsoft réside dans le fait que l’outil de reconnaissance de la parole maîtrise parfaitement la vitesse d’articulation des mots du contenu de la parole conversationnelle. A l’image d’un interlocuteur humain, la machine peut par exemple entendre un "ont" à la place d’un "est" si la vitesse d’articulation est élevée.

Les chercheurs affirment dans leur article que le secret du triomphe technologique de leur système est l’utilisation systématique des réseaux de neurones convolutifs et récurrents LSTM (Long Short Term Memory) dans toutes les parties du système. Cette nouvelle méthode de modélisation des signaux de la parole se base sur le principe de représenter les mots de la parole par des vecteurs continus dans l’espace.

Elle permet de répertorier les mots synonymes et phonologiquement différents dans le même groupe vectoriel. Par exemple, les mots anglais "rapid" et "speedy" sont classés dans un même groupe de vecteurs. Le processus de la généralisation des modèles de reconnaissance de la parole par mots sera alors facilité.

Le modèle acoustique LSTM permet aux réseaux de neurones d’utiliser de grandes quantités de données appelées groupes d’entrainement pour apprendre aux systèmes informatiques la meilleure manière de reconnaître les formes à partir des données d’entrées telles que les sons et images. Et pour lever le défi de la parité humaine-machine, les chercheurs ont également utilisé la boite à outils cognitifs de Microsoft CNTK (Computational Network ToolKit). Disponible sur GitHub via une licence open source, ce ToolKit a la capacité de traiter rapidement les algorithmes d’intensification de l’apprentissage en utilisant plusieurs ordinateurs tournant sous une même puce appelée unité de traitement graphique.

Retrouvez les articles de HuffPost Algérie sur notre page Facebook.

Pour suivre les dernières actualités en direct, cliquez ici.