5Sep

Facebook a appris à un système de vision par ordinateur comment superviser son propre processus d'apprentissage

Aussi impressionnants que soient les systèmes d'IA de nos jours, ils apprennent aux machines à effectuer diverses tâches, qu'elles soient sa traduction vocale en temps réel ou sa différenciation précise entre les chihuahuas et les myrtilles muffins. Mais ce processus implique toujours une certaine prise en main et une conservation des données par les humains qui les forment. Cependant, l’émergence de méthodes d’apprentissage auto-supervisé (SSL), qui ont déjà révolutionné le traitement du langage naturel, pourrait être la clé pour donner à l’IA le bon sens dont elle a tant besoin. La division de recherche sur l’IA de Facebook (FAIR) a pour la première fois appliqué SSL à la formation en vision par ordinateur.

« Nous avons développé SEER (SElf-supERvised), un nouveau modèle de vision par ordinateur auto-supervisé comportant des milliards de paramètres, capable d'apprendre à partir de n'importe quel groupe aléatoire d'images sur le terrain. Internet, sans avoir besoin d'une conservation et d'un étiquetage minutieux qui entrent aujourd'hui dans la plupart des formations en vision par ordinateur », ont écrit les chercheurs de Facebook en IA dans un article de blog. Jeudi. Dans le cas de SEER, Facebook lui a montré plus d’un milliard d’images Instagram publiques aléatoires, sans étiquette et non organisées.

Dans le cadre de programmes d'apprentissage supervisé, Yann LeCunn, scientifique en chef de Facebook AI, a déclaré à Engadget: « pour reconnaître la parole, vous devez étiqueter les mots qui ont été prononcés; si vous souhaitez traduire, vous devez avoir un texte parallèle. Pour reconnaître les images, vous devez avoir des étiquettes pour chaque image.

L’apprentissage non supervisé, en revanche, « est l’idée d’un problème consistant à essayer d’entraîner un système à représenter des images de manière appropriée, sans nécessiter d’images étiquetées », a expliqué LeCunn. L'une de ces méthodes est l'intégration conjointe dans laquelle un réseau neuronal se voit présenter une paire d'images presque identiques: un original et une copie légèrement modifiée et déformée. "Vous entraînez le système de manière à ce que les vecteurs produits par ces deux éléments soient aussi proches que possible l'un de l'autre", a déclaré LeCunn. « Ensuite, le problème est de s’assurer que lorsque le système voit deux images différentes, il produit des vecteurs différents, des « intégrations » différentes, comme nous les appelons. La façon très naturelle de procéder consiste à sélectionner au hasard des millions de paires d'images dont vous savez qu'elles sont différentes, à les diffuser sur le réseau et à espérer que pour le meilleur." Cependant, des méthodes contrastées comme celle-ci ont tendance à nécessiter beaucoup de ressources et de temps étant donné l'ampleur de la formation nécessaire. données.

L'application des mêmes techniques SSL que celles utilisées en PNL à la vision par ordinateur pose des défis supplémentaires. Comme le note LeCunn, les concepts du langage sémantique se décomposent facilement en mots et en phrases distinctes. « Mais avec les images, l’algorithme doit décider quel pixel appartient à quel concept. De plus, le même concept variera considérablement d’une image à l’autre, comme un chat dans différentes poses ou vu sous différents angles », a-t-il écrit. « Nous devons examiner de nombreuses images pour saisir les variations autour d’un seul concept. »

Et pour que cette méthode de formation soit efficace, les chercheurs avaient besoin à la fois d'un algorithme suffisamment flexible pour apprendre de un grand nombre d'images non annotées et un réseau alambiqué capable de trier les images générées algorithmiquement données. Facebook a trouvé le premier dans le rapport récemment publié SWAV, qui « utilise le clustering en ligne pour regrouper rapidement des images avec des concepts visuels similaires et exploiter leurs similitudes », six fois plus rapidement que l'état de l'art précédent, selon LeCunn. Ce dernier pourrait être trouvé dans RegNets, un réseau alambiqué qui peut appliquer des milliards (voire des milliards) de données. paramètres à un modèle de formation tout en optimisant sa fonction en fonction du calcul disponible ressources.

Les résultats de ce nouveau système sont assez impressionnants. Après sa session de pré-formation portant sur un milliard de paramètres, SEER a réussi à surpasser les systèmes autosupervisés de pointe sur ImageNet, avec un score de 84,2 %. précision de premier ordre. Même lorsqu’il a été formé en utilisant seulement 10 % de l’ensemble de données d’origine, SEER a atteint une précision de 77,9 %. Et en utilisant seulement 1 % de l’ensemble de données OG, SEER a quand même réussi à obtenir une précision respectable de 60,5 % dans le top 1.

Essentiellement, cette recherche montre que, comme pour la formation en PNL, les méthodes d'apprentissage non supervisées peuvent être appliquées efficacement aux applications de vision par ordinateur. Avec cette flexibilité supplémentaire, Facebook et les autres plateformes de médias sociaux devraient être mieux équipés pour gérer les contenus interdits.

"Ce que nous aimerions avoir et ce que nous avons déjà dans une certaine mesure, mais que nous devons améliorer, c'est un système universel de compréhension des images", a déclaré LeCunn. "Donc, un système qui, chaque fois que vous téléchargez une photo ou une image sur Facebook, calcule l'une de ces intégrations et à partir de là, nous pouvons vous dire qu'il s'agit d'une photo de chat ou, vous savez, de propagande terroriste."

Comme pour ses autres recherches sur l’IA, l’équipe de LeCunn publie à la fois sa recherche et la bibliothèque de formation SEER, baptisée VISSL, sous une licence open source. Si vous souhaitez essayer le système, rendez-vous sur le Site Internet du VISSL pour une documentation supplémentaire et pour récupérer son code GitHub.