C'est ainsi que Google comprend la langue que vous parlez

L’un des plus grands défis de l’intelligence artificielle est de comprendre comment fonctionne le langage humain. Si les robots interagissent directement avec nous, comme dans les outils de service, ils doivent comprendre comment nous communiquons.

Mais cette tâche est très difficile en soi : non seulement des mots ou des caractères libres impliqués, mais aussi le contexte, la connaissance du monde et une bonne interprétation pour savoir comment traiter les ambiguïtés et le sens du texte. Il nous a fallu des décennies pour tout former ? mais cet outil Google n’a pas pris autant de temps.

Sommaire

Comment fonctionne SyntaxNet
Quelle est la difficulté ?
L’importance de la reconnaissance des langues pour l’AI

Comment fonctionne SyntaxNet

Appelé SyntaxNet (et non SkyNet, bien que cela semble beaucoup), l’outil fait partie de TensorFlow, une bibliothèque de apprentissage machine de Google. Il peut être formé à travailler avec n’importe quelle langue, puisqu’on lui apprend avant tout la syntaxe de la langue de l’outil.

C’est-à-dire qu’à partir de réseaux de neurones et de plusieurs tentatives, il apprend à classer chaque mot de la langue et à le comprendre dans la phrase entière comme il se doit. Ils sont classés par catégories grammaticales, telles que les verbes, les noms, les pronoms, les adverbes, les adjectifs, les conjonctions, etc.

Il existe 12 classifications universelles, mais il y a aussi des sous-catégories : les noms, par exemple, peuvent être classés comme un nom singulier ou pluriel.

Ensuite, l’outil interprète en quelque sorte le sens de chaque mot dans la phrase, en construisant des arcs entre les mots et en visualisant leur relation syntaxique. C’est plus ou moins comme notre lecture, mais pour nous c’est un peu automatique ? il a fallu beaucoup réfléchir pour comprendre le texte jusqu’à présent ? Je parie qu’un ordinateur aurait besoin de beaucoup de traitement pour cataloguer toutes ces informations.

Ce qui est intéressant, c’est que tout ce système peut être adapté à d’autres langues et modifié en fonction des besoins de chaque langue. Le chinois, par exemple, a 294 ( !) classifications ; de catégories grammaticales. Après un certain temps, le système peut être formé pour comprendre les spécificités de chaque langue. SyntaxNet serait ce système général, mais Google a déjà formé un outil pour comprendre l’anglais, et l’a nommé Parsey McParseface.

Des chercheurs constatent que le réchauffement de la mémoire flash prolonge sa durée de vie

Les petites phrases, comme le montre Google, sont relativement faciles à lire. L’exemple de Alice a vu Bob est calme à poursuivre car il n’a que deux noms et un verbe. Le verbe “voir” est la racine de la phrase, qui se rapporte à Alice (c’est elle qui a vu Bob) et à Bob (qui a été vu par Alice). Jusqu’à présent, tout va bien.

Une autre phrase de l’exemple ci-dessus elle ne rencontre pas non plus beaucoup de difficultés, même si elle présente deux événements différents et un pari. La traduction est: Alice, qui lisait sur SyntaxNet, a vu Bob dans le hall hier. Vous pouvez facilement identifier le sujet (Alice) et l’objet (Bob) du verbe ver, qui lisait(Alice) et vérifier la flexion de voir par l’expression temporelle hier.

Avec une bonne compréhension de la phrase, cela permettrait même au système de répondre à des questions sur le système, comme “qui Alice a-t-elle vu ?”, “qui a vu Bob ?”, “sur quoi Alice a-t-elle lu ?”, ou même “quand Alice a-t-elle vu Bob ?”.

Les résultats sont impressionnants : selon Google, la précision de ce système est de 94 % dans un texte bien écrit, alors que sur le web, la performance chute à 90 %. Selon eux, les humains peuvent vérifier avec une précision allant jusqu’à 97 %, ce qui est déjà un chiffre très proche. Mais ne faites pas la fête trop tôt.

Quelle est la difficulté ?

Plusieurs obstacles empêchent l’outil de se développer aussi facilement. La principale est l’ambiguïté, qui n’est peut-être pas visible pour beaucoup de gens, mais SyntaxNet (encore) n’a pas la même connaissance du monde que nous. Ainsi, un texte de 30 mots maximum peut avoir des centaines, voire des milliers de structures syntaxiques possibles, que l’ordinateur doit analyser et trouver la bonne.

L’un d’eux, de seulement 8 mots dans l’original, est démontré par Google. Alice est descendue dans la rue dans sa voiture. Pour nous bien sûr, Alice a simplement roulé dans sa voiture, mais une autre interprétation que l’on peut faire est que “voiture” est une sorte d’endroit. Autrement dit, la rue serait à l’intérieur de la voiture ( !). Pour mieux comprendre cette confusion, échangez la voiture contre le quartier. Alice est descendue dans la rue de votre quartier. C’est plus ou moins comme si un ordinateur pouvait interpréter la phrase.

Projet Natick : l'idée de Microsoft pour construire des centres de données dans la mer

C’est une interprétation très inhabituelle pour nous, mais un ordinateur aurait besoin d’une connaissance du monde pour comprendre cette phrase correctement. Selon le chercheur, c’est un énorme défi pour les ordinateurs de traiter des ambiguïtés comme us. “De nombreuses ambiguïtés comme celle-ci dans des phrases plus grandes peuvent créer une explosion de facteurs combinatoires dans le nombre de structures possibles par phrase. En général, la plupart de ces structures sont très peu probables, mais c’est possible et l’ordinateur doit apprendre laquelle mettre en évidence”, explique le blog.

Avec tant de décisions que l’IA doit traiter, SyntaxNet utilise les réseaux neuronaux et la relation entre all les mots analysés plusieurs fois. Ils utilisent un modèle de recherche qui, au lieu de prendre la meilleure décision immédiatement, prend en compte plusieurs hypothèses à chaque étape du processus et les écarte tout au long de la réflexion.

Dans le gif ci-dessus, vous pouvez voir plus ou moins comment fonctionne le traitement des phrases de SyntaxNet. Le tampon vert indique les mots qui n’ont pas encore été traités ; la pile est une sorte de pile de mots qui doivent être traités. Les marqueurs orange sont responsables du traitement des mots.

Notez que lorsque les mots sont lus et classés, des arcs sont créés pour déterminer le sens de la phrase. On imagine que tout cela se fait en quelques secondes, encore et encore pour créer diverses hypothèses qui permettent de comprendre la phrase.

L’importance de la reconnaissance des langues pour l’AI

Depuis le début, l’intelligence artificielle tente de comprendre le langage humain. Mais, comme nous l’avons démontré ci-dessus, l’incertitude est très grande, bien que l’évolution dans ce domaine soit aujourd’hui relativement bonne. Il est nécessaire de créer un contexte pour absorber l’information, ce que les humains ont appris toute leur vie à faire, mais dans les machines, cela doit être créé à partir de zéro.

Google fait une nouvelle percée dans la réalité augmentée d'Android

Il s’agit d’un processus difficile mais strictement nécessaire pour les outils de chat comme le Bot Framework de Microsoft. Là, l’idée est de demander à un accompagnateur humain ce que veut le consommateur et, à mesure que le robot se trompe, son interprétation s’améliore. Il y a aussi un certain nombre d’essais et d’erreurs, mais ils sont plus fréquents.

Dans le cas de SyntaxNet, il est formé à comprendre la langue elle-même, plus ou moins selon un linguiste, et apprend à comprendre quelle phrase est la plus susceptible d’avoir un sens accepté. Google affirme que c’est l’un des systèmes les plus complexes qu’ils aient jamais formés avec TensorFlow ? c’est imaginable, surtout si l’on considère le nombre de chances de comprendre un texte qu’il peut créer pour interpréter ce que cet ensemble de mots signifie.

Comme nous l’expliquons dans special qui détaille l’histoire de l’intelligence artificielle, l’estimation est que seulement dans 20 ans un ordinateur peut tromper l’homme. Le principal test qui mesure cela est celui de Turing, dans lequel un humain doit mener à bien une conversation avec une machine et il doit parler et agir comme une personne normale, afin de tromper le sujet.

C’est plus ou moins ce que fait Google dans la Smart Reply de son client de messagerie, qui utilise l’intelligence artificielle et le traitement du langage pour générer des “réponses toutes faites” aux courriels. C’est encore un projet très brut, mais qui sait, il ne peut pas interpréter ce que dit le courrier électronique et penser à des réponses plus élaborées ? Vous n’auriez donc même pas besoin d’utiliser le courrier électronique en dehors des heures de travail.

Avec les progrès réalisés dans ce domaine, il se peut que les robots commencent à passer pour des animateurs de chat bien plus tôt que nous le pensions. Google reconnaît qu’il y a encore des progrès à faire, comme la connaissance du monde et le raisonnement contextuel, qui doivent être intégrés dans des outils comme celui-ci. Parlerons-nous naturellement aux robots dans quelques années ?