Technologie

La technologie Microsoft génère des descriptions photographiques impressionnantes

Vous savez probablement que des entreprises comme Google et Facebook investissent massivement dans la reconnaissance d’images. Les technologies actuelles permettent déjà d’identifier des visages et de décrire des objets trouvés sur des photos, par exemple. Microsoft, un autre géant qui prend le sujet très au sérieux, en est déjà au stade de s’inquiéter du contexte : l’entreprise a créé un système de réseaux de neurones qui tente de décrire ce qui se passe dans une image de la manière dont nous le ferions.

La reconnaissance des images est plus importante qu’il n’y paraît. Des services comme Google Photos et Flickr disposent de technologies qui tentent de nous éviter d’organiser les photos manuellement ou de les trier à l’aide de balises pour faciliter la recherche. Sur Facebook, comme vous le savez peut-être, la reconnaissance des visages nous aide à marquer les contacts qui sont apparus sur nos photos.

Mais la classe de Mark Zuckerberg ne s’est pas arrêtée là. Au début de ce mois, la société a annoncé une technologie capable d’analyser les photos et de leur créer des sous-titres automatiquement. L’objectif est de décrire les images du fil d’actualité pour les utilisateurs malvoyants. Pas pour moins : la société estime que 39 millions de participants au réseau social sont aveugles ou ont de graves difficultés à voir.

  Google PhotoScan scanne (et traite) vos anciennes photos avec l'apprentissage machine

Une idée noble, non ? Mais il y a un inconvénient : au moins pour l’instant, ce système est capable de décrire des objets dans l’image, mais il n’est pas très précis dans la contextualisation. Le système peut, par exemple, décrire une photo comme “l’image semble montrer trois personnes souriant en plein air”, mais il ne précise pas si les individus sont dans la rue, dans le parc, de toute façon.

Des membres de Microsoft Research se sont associés à des chercheurs de plusieurs universités américaines – et même à un spécialiste de l’intelligence artificielle de Facebook – pour surmonter ce type de limitation : l’idée est de faire en sorte que l’algorithme décrive l'”histoire” que l’image raconte. En ce sens, les chercheurs préfèrent utiliser ce terme, l’histoire, plutôt que “description” ou “légende” pour expliquer ce que fait la technologie.

Frank Ferraro, chercheur à l’université Johns Hopkins et l’un des auteurs du projet, en donne un exemple : un album de photos montre des gens en train de boire dans un bar ; dans l’une des dernières images, quelqu’un a fini par s’allonger sur le canapé. Un système de sous-titrage automatique décrira probablement la scène avec quelque chose comme “il y a une personne allongée sur le canapé”. Le système de Microsoft Research pourra toutefois analyser les photos précédentes (de la classe en train de boire) et légender l’image comme suit : “cette personne est probablement ivre.

  La fièvre des années 80, les montres Casio se connectent maintenant à iOS

C’est difficile à faire. Nous avons une incroyable capacité à identifier ou à imaginer le contexte des photos parce que nous nous basons sur une série de paramètres : les expressions du visage, les expériences dans des environnements similaires, les souvenirs des lieux, etc. Malgré cela, il y a des situations où nous ne pouvons pas comprendre exactement ce qui se passe parce que les informations qui nous aideraient à comprendre le contexte sont insuffisantes.

C’est pourquoi le système de Microsoft Research fonctionne mieux avec des groupes d’images. Au lieu de générer un résultat spécifique pour chaque photo, l’algorithme considère ce qui a été identifié dans les autres images pour renforcer la base de paramètres. Ainsi, un objet qui n’apparaît que sur certaines photos peut aider à expliquer ce qui se passe sur d’autres.

Par exemple, la photo au début du message était décrite comme suit : “c’était le premier anniversaire du bébé”. Voyez comment les sous-titres automatiques ont été générés pour d’autres images dans le même album (en traduction libre) :

  Apple a vendu plus de montres que l'ensemble de l'industrie suisse au cours du dernier trimestre

Comme vous l’avez peut-être imaginé, ce n’est qu’une partie du travail. Les chercheurs ont dû former le système, qui est composé de réseaux neuronaux profonds (un type qui a été utilisé pour la reconnaissance vocale et la traduction de texte), avec des séquences d’images extraites de Flickr. Les participants de Mechanical Turk, le site de crowdsourcing d’Amazon, ont été engagés pour créer des sous-titres individuels et séquentiels afin de construire les bases de l’apprentissage de l’algorithme.

Dans la phase suivante, le système a été alimenté avec de nouvelles images pour les décrire en fonction des connaissances acquises lors de la formation. Pour valider les descriptions, les chercheurs les ont comparées avec les sous-titres des mêmes photos faites par des personnes. Le résultat final a été assez convaincant.

Ce projet n’en est cependant qu’à sa phase initiale. Une formation et une amélioration supplémentaires sont nécessaires pour la rendre vraiment utile. Même s’il devient plus évolué, le système ne devrait pas être complètement précis dans la contextualisation des images (encore une fois, nous non plus). Mais s’ils sont associés à des algorithmes qui reconnaissent des lieux, par exemple, imaginez jusqu’où peuvent aller les outils de description automatique des images.

A propos de l'auteur

Ronan

Le Breton de l'équipe ! Développeur back-end dans une startup française. Internet des objets, domotiques, mes sujets de prédilection sont vastes. #teamLinux sur PerlmOl

Laisser un commentaire