Science

Google Translatotron traduit et imite votre voix

Presque tous les traducteurs vocaux travaillent de la même manière : ils convertissent leur discours en texte, traduisent le texte, puis synthétisent le texte traduit en une nouvelle voix. Google a annoncé ce mercredi (15) le Translatotron, qui élimine la phase intermédiaire et traduit de voix en voix. De plus, elle est capable de conserver les caractéristiques de la voix originale.

Translatotron (je veux vous voir parler aussi vite trois fois) est le nom que Google a donné à un nouveau système expérimental capable de faire une « traduction directe de la parole à la parole sans dépendre de la représentation intermédiaire dans le texte ». En bref, il utilise les spectrogrammes originaux comme source et génère ensuite des spectrogrammes traduits dans la langue définie.

Selon Google, « ce système évite de diviser la tâche en plusieurs étapes, ce qui présente certains avantages par rapport aux systèmes en cascade, notamment une vitesse d’inférence plus rapide, l’évitement naturel des erreurs de composition entre la reconnaissance et la traduction, la conservation de la voix de l’orateur original après la traduction, et un meilleur traitement des mots qui n’ont pas besoin d’être traduits ».

Pourquoi devriez-vous utiliser le filtre de la lumière bleue du téléphone

Et quelle est la qualité du Translatotron ?

Dans ce premier exemple, il est clair que c’est mieux qu’un système en cascade, surtout lorsqu’il y a des noms propres. Ceci est le discours original en espagnol :

Le système basé sur le texte a traduit le nom Guillermo en William (ce qui n’était évidemment pas l’intention) :

Le Translatotron a fait la traduction correcte, en préservant même le ?ahn ?

Les traductions ci-dessus ont été réalisées uniquement avec un vocodeur neural, qui peut analyser et synthétiser une voix humaine. Mais il est également possible d’ajouter un module que Google appelle un encodeur de locuteur : il « maintient les caractéristiques de la voix du locuteur dans le discours traduit synthétisé ». Les deux parties peuvent fonctionner ensemble, en utilisant uniquement des ondes sonores, sans texte.

Le résultat n’est pas parfait, mais il est plus familier que la méthode traditionnelle. Ceci est le discours original en espagnol :

Ici, nous avons déjà la traduction avec Translatotron, mais en utilisant seulement une voix standard :

Au lieu d'un panneau solaire, pourquoi pas une fenêtre solaire ?

Et c’est la traduction qui imite la voix originale (Google explique que ce modèle a été formé avec moins de données, donc la traduction est un peu différente de la précédente) :

Le Translatotron n’est qu’une expérience pour l’instant, mais il n’est pas difficile d’imaginer qu’il sera utilisé dans un futur produit Google, comme le Google Translator. Les détails de la recherche se trouvent sur cette page.

A propos de l'auteur

Zineb

Zineb

Enseignante en lycée, je m'intéresse à tout ce qui touche aux nouvelles technologies. #teamMac sur PerlmOl (je ne me sépare d'ailleurs jamais non plus de mon Iphone).

Laisser un commentaire