Les appareils photo numériques – y compris ceux qui équipent nos smartphones – ont radicalement changé notre rapport à la photographie. Réfléchissez à ce qu’il faut inscrire car le film ne comporte que 12, 24 ou 36 poses ? Quelque chose d’un passé qui ne manque à personne. Nous pouvons maintenant faire des centaines de photos sur chaque rouleau. Si l’un d’eux n’est pas beau, faites-en un autre. Et une autre.
Seule l’ère de la photographie numérique a aussi ses inconvénients. Par exemple, qui n’a jamais eu de doute sur le lieu où une photo a été prise ? Eh bien, au moins cet effet secondaire a une solution en route : Google travaille sur PlaNet, un système de intelligence artificielle qui promet d’identifier le lieu qui apparaît dans l’image.
L’identification des lieux est facile… pour nous.
Que vous utilisiez votre smartphone pour prendre des photos ou un appareil photo numérique avec GPS, les outils de géolocalisation (geotag) de ces appareils sont le plus souvent capables d’identifier l’endroit où la photo a été prise. Ces informations se trouvent dans l’Exif (une sorte de tableau qui décrit les caractéristiques de la photo) de l’image et sont lues par des services comme Flickr et Google Photos.
Mais il y a des situations où vous ne pouvez pas compter sur les ressources de la géolocalisation. Dans ces circonstances, votre mémoire peut être suffisante au moment de l’identification du lieu, mais seulement si vous avez visité peu d’endroits. Si vous faites un circuit dans une région comportant plusieurs points touristiques, les risques de confusion au moment de l’organisation des images augmentent considérablement (je parle d’après ma propre expérience).
La beauté de tout cela est que la résolution de ce genre de problème n’est pas une bestiole à sept têtes. Votre mémoire est incroyablement bonne et vous serez capable, même avec un certain effort, d’identifier l’emplacement exact des photos la plupart du temps. Si l’incertitude persiste, vous pouvez demander de l’aide à la personne qui vous a accompagné lors de la visite ? les caractéristiques architecturales, le type de végétation et les styles vestimentaires font partie des nombreux détails visuels que l’on remarque lorsqu’on identifie l’emplacement d’une photo.
Ce mécanisme fonctionne bien parce que le cerveau fait des associations complexes entre ces informations. Outre les détails visuels, nous pouvons nous souvenir des émotions, des odeurs et des événements pour accomplir la tâche d’identifier le lieu inscrit dans l’image.
Vous voyez, cependant, qu’une machine ne dispose pas de toute cette collection de détails, il est donc impossible de faire en sorte qu’un ordinateur détermine les emplacements sur les photos, n’est-ce pas ? Jusqu’à présent, les tentatives déjà faites n’ont pas très bien fonctionné, en fait. Mais pour Tobias Weyand, l’ingénieur en logiciel de Google, une quantité généreuse de données visuelles peut permettre de surmonter ce défi.
Weyand est le nom principal de PlaNet. Il explique que le fonctionnement du système est facile à comprendre (ce qui ne veut pas dire que sa mise en œuvre est simple, voyez bien) : en gros, PlaNet fait des comparaisons d’ensembles de pixels dans la photo avec une banque composée de millions d’images correctement géolocalisées. C’est comme essayer de mettre une pièce dans des millions de puzzles jusqu’à ce que vous en trouviez un qui s’adapte parfaitement ? ou presque.
PlaNet
Pour expliquer plus en détail, PlaNet divise le monde en 26 000 images. La taille de chacune varie : plus une région possède d’images géolocalisées, plus son image est grande. Cela signifie que les régions des grandes villes, telles que Paris ou New York, auront une base d’images beaucoup plus riche que les endroits éloignés. Leurs photos sont donc plus représentatives.
En revanche, la carte de 26 000 pièces ignore les zones polaires et d’autres régions peu documentées. Par rapport à l’ensemble de la base, la quantité de photos de ces lieux est insuffisante pour permettre des comparaisons peu fiables.
Weyand et son équipe ont ensuite créé une base de données d’images géolocalisées disponibles sur Internet et ont utilisé les données de localisation de chacune d’entre elles pour déterminer les cadres dans lesquels elles devraient rester. C’est une très grande collection : 126 millions de photos ont été cataloguées.
Sur ce total, 91 millions d’images sont utilisées pour alimenter la base de données principale. La méthode est la suivante : PlaNet reçoit une photo, la compare à cette base et indique dans laquelle des 26 000 images elle doit être intégrée.
Il s’agit d’un processus très complexe. Pour réduire la charge de travail, PlaNet dispose d’un système de réseau neuronal qui analyse les caractéristiques des ensembles de pixels afin d’effectuer des comparaisons cohérentes. Ce mécanisme n’a pas été détaillé par Weyand, mais on peut supposer qu’une image trop verte (comme une pelouse) ne sera pas comparée à une image à prédominance brune (comme un désert), par exemple.
Mais cela ne s’arrête pas là : les 35 millions d’images restantes sont utilisées pour valider chaque tâche d’identification de la première étape (celle qui utilise la base de 91 millions de photos). À ce stade, d’autres tests sont également effectués, tant pour la validation que pour le perfectionnement.
Est-ce que cela fonctionne ?
Il semble que oui. la classe de Weyand ait fait une expérience très complète pour découvrir. Ils ont testé PlaNet avec 2,3 millions d’images disponibles sur Flickr. Les résultats ont été les suivants : 3,6 % ont touché des images au niveau de la rue et 10,1 % avec des images au niveau de la ville. La précision était également de 28,4 % au niveau des pays et enfin de 48 % au niveau des continents.
Pas grand-chose, hein ? Mais, croyez-moi, ce sont de très bons résultats. Étant donné que l’identification de l’emplacement des images se fait à l’échelle mondiale, le système fait mieux que les êtres humains.
Pour le prouver, l’équipe a fait un test avec dix personnes spécialisées dans la provocation de l’envie ? elles voyagent fréquemment dans le monde entier. Ils ont tous été soumis à un jeu qui montre un endroit aléatoire sur Google Street View et demande au joueur d’indiquer sur une carte à côté de cet endroit (si vous voulez, vous pouvez jouer sur geoguessr.com). Au terme de 50 tours, PlaNet a montré une marge d’erreur de localisation de 1 131,7 km ; les humains, 2 230,75 km.
Nous devons nous rappeler qu’il s’agit d’un système qui apprend au fur et à mesure de son utilisation, de sorte que le taux d’erreur de PlaNet devrait diminuer avec le temps.
Weyand n’a pas dit ce qu’il fallait faire de cette technologie si elle atteint un degré de précision vraiment élevé, mais les applications ne manquent pas. Un tel système utilisé dans Google Photos, par exemple, serait tout à fait différent : ne serait-il pas formidable de télécharger des photos et le service identifierait automatiquement l’emplacement de chacune d’entre elles ? Un jour, nous y arriverons.