Reconnaissance vocale: Microsoft rivalise avec les humains grâce à une technologie russe

Vostock-Photo
Microsoft a introduit la reconnaissance automatique des conversations téléphoniques en anglais aussi efficace qui n’a rien à envier à l’être humain. Or, cette précision a pu être atteinte grâce aux technologies développées en Russie.

Les chercheurs de Microsoft ont annoncé que la société était désormais capable de transcrire automatiquement les conversations des Américains avec 5,9% de taux d’erreur. Ainsi, le système reconnaît plus de 94% des mots correctement. Les résultats de l’étude ont été publiés début octobre dans un article scientifique. 

La reconnaissance vocale peut également être utilisée dans des appareils de jeux comme la console Xbox, des assistants personnels numériques et par les centres d’appels.

Microsoft précise que cette percée a été possible notamment grâce à la méthode d’architecture d’intelligence artificielle de la société STC Innovations, créée par des chercheurs acousticiens russes il y a plus de 25 ans. Actuellement, les technologies de STC – des dictaphones aux systèmes de sécurité d’envergure nationale – sont commercialisées dans 75 pays.

Discussion avec l’intelligence artificielle

La méthode proposée par STC a permis de réduire considérablement le nombre d’erreurs de reconnaissance. « Lorsque nous parlons devant un large public ou avec un robot, nous le faisons lentement et clairement. Les méthodes de reconnaissance de ce type de parole ont été formées au milieu des années 90, raconte Alexandre Zatvornitski, directeur du département de reconnaissance vocale chez STC. La reconnaissance des dialogues téléphoniques, où la pensée naît spontanément, est une tâche autrement plus compliquée ».

Le réseau neuronal est un modèle mathématique inspiré par le cerveau humain. Chaque neurone est représenté par un petit logiciel. La technologie de réseaux neuronaux a été développée au cours de la dernière décennie, d’abord pour la reconnaissance des images et, depuis récemment, la reconnaissance du son.

Pour cela, l’enregistrement audio est coupé en 100 fragments par seconde et transféré dans le réseau neuronal. À l’entrée, il contient une description mathématique de l’onde sonore et, à la sortie, plusieurs milliers de sons différents – des phonèmes.

Le réseau neuronal ne mémorise pas « l’inutile »

« Chaque phonème sonne un peu différemment, car l’appareil vocal n’a pas le temps de se réajuster après avoir prononcé le son précédent, mais se prépare déjà au suivant, explique Alexandre Zatvornitski. Le son [a] dans les mots +maman+ et +bar+ ne sera pas le même à cause des environnements sonores qui diffèrent. Ce sont ces différences très subtiles entre les sons que le réseau neuronal parvient à distinguer ».

La première génération de réseaux neuronaux n’avait pas de mémoire. Ils ne reconnaissaient les sons qu’à partir des fragments. Les réseaux neuronaux actuels « se souviennent », au milieu de la phrase, de quoi il s’agissait au début. La mémoire leur permet de distinguer des logiques plus longues et les composantes linguistiques et syllabiques, ce qui améliore la qualité de la reconnaissance.

La méthode de STC a permis d’améliorer la mémoire courte des réseaux neuronaux. De plus, elle ne leur empêche de « mémoriser l’inutile ». « Si le réseau se souvient trop de ce qu’il absorbe à l’entrée pendant l’apprentissage, il travaillera avec ce qu’il connaît déjà, mais aura du mal à comprendre tout ce qu’il n’a jamais entendu. Il doit apprendre », explique M. Zatvornitski.

Quand l’intelligence artificielle répondra-t-elle ?

Aujourd’hui, les chercheurs de STC travaillent sur la reconnaissance vocale dans les conditions réelles de bruit de fond. Par exemple, ils essayent de reconnaître des enregistrements pris dans une soirée ou pendant la conduite sur la route ou encore dans des réunions à plusieurs intervenants.

Pour le moment, le réseau neuronal n’est pas capable de reconnaître les émotions des locuteurs, ce qui est important pour le secteur des services. Par ailleurs, les chercheurs devront s’assurer que le programme fonctionne bien indépendamment de l’âge, de l’accent et des capacités vocales.

La reconnaissance de la discussion téléphonique spontanée dans les langues avec une formation complexe des mots, tels que le russe et l’arabe, est loin d’être parfaite. Et à long terme, les chercheurs aimeraient que l’intelligence artificielle soit capable non seulement de reconnaître la parole, mais aussi de répondre aux questions et d’agir en fonction de ce qu’elle entend.

Lire aussi :

Pourquoi la Russie s’intéresse-t-elle à Vénus?

Des scientifiques sibériens créent le « Livre noir » des végétaux-agresseurs

Un « cimetière » de mammouths découvert en Sibérie

Dans le cadre d'une utilisation des contenus de Russia Beyond, la mention des sources est obligatoire.

Ce site utilise des cookies. Cliquez ici pour en savoir plus.

Accepter les cookies