Les CNN Présentent Des Inconvénients importants
Les CNN (réseaux de neurones convolutionnels) sont géniaux. Ils sont l’une des raisons pour lesquelles le deep learning est si populaire aujourd’hui. Ils peuvent faire des choses incroyables que les gens pensaient que les ordinateurs ne seraient pas capables de faire pendant longtemps, longtemps. Néanmoins, elles ont leurs limites et présentent des inconvénients fondamentaux.
Considérons un exemple très simple et non technique. Imaginez un visage. Quels sont les composants ? Nous avons le visage ovale, deux yeux, un nez et une bouche. Pour un CNN, une simple présence de ces objets peut être un indicateur très fort pour considérer qu’il y a un visage dans l’image. Les relations spatiales d’orientation et relatives entre ces composants ne sont pas très importantes pour un CNN.
Comment fonctionnent les CNN ? Le composant principal d’un CNN est une couche convolutive. Son travail consiste à détecter des caractéristiques importantes dans les pixels de l’image. Les calques plus profonds (plus proches de l’entrée) apprendront à détecter des caractéristiques simples telles que les bords et les dégradés de couleurs, tandis que les calques plus élevés combineront des caractéristiques simples en caractéristiques plus complexes. Enfin, des couches denses au sommet du réseau combineront des caractéristiques de très haut niveau et produiront des prédictions de classification.
Une chose importante à comprendre est que les fonctionnalités de niveau supérieur combinent les fonctionnalités de niveau inférieur sous forme de somme pondérée: les activations d’une couche précédente sont multipliées par les poids des neurones de la couche suivante et ajoutées, avant d’être passées à la non-linéarité d’activation. Nulle part dans cette configuration, il n’y a de relation de pose (translation et rotation) entre des fonctionnalités plus simples qui constituent une fonctionnalité de niveau supérieur. L’approche CNN pour résoudre ce problème consiste à utiliser une mise en commun maximale ou des couches convolutives successives qui réduisent la taille spatiale des données circulant dans le réseau et augmentent donc le « champ de vision » des neurones de la couche supérieure, leur permettant ainsi de détecter des caractéristiques d’ordre supérieur dans une plus grande région de l’image d’entrée. La mise en commun maximale est une béquille qui a permis aux réseaux convolutifs de fonctionner étonnamment bien, atteignant des performances surhumaines dans de nombreux domaines. Mais ne vous laissez pas berner par ses performances: alors que les CNN fonctionnent mieux que n’importe quel modèle avant eux, max pooling perd néanmoins des informations précieuses.
Hinton lui-même a déclaré que le fait que la mise en commun maximale fonctionne si bien est une grosse erreur et un désastre:
Hinton: « L’opération de mise en commun utilisée dans les réseaux de neurones convolutifs est une grosse erreur et le fait que cela fonctionne si bien est un désastre. »
Bien sûr, vous pouvez supprimer la mise en commun maximale et obtenir de bons résultats avec les CNN traditionnels, mais ils ne résolvent toujours pas le problème clé:
La représentation des données internes d’un réseau de neurones convolutifs ne prend pas en compte les hiérarchies spatiales importantes entre objets simples et complexes.
Dans l’exemple ci-dessus, une simple présence de 2 yeux, une bouche et un nez dans une image ne signifie pas qu’il y a un visage, il faut aussi savoir comment ces objets sont orientés les uns par rapport aux autres.
Codage en dur du monde 3D dans un réseau neuronal: Approche graphique inverse
L’infographie traite de la construction d’une image visuelle à partir d’une représentation hiérarchique interne de données géométriques. Notez que la structure de cette représentation doit prendre en compte les positions relatives des objets. Cette représentation interne est stockée dans la mémoire de l’ordinateur sous forme de tableaux d’objets géométriques et de matrices qui représentent les positions relatives et l’orientation de ces objets. Ensuite, un logiciel spécial prend cette représentation et la convertit en une image à l’écran. C’est ce qu’on appelle le rendu.
Inspiré par cette idée, Hinton soutient que les cerveaux, en fait, font le contraire du rendu. Il appelle cela des graphiques inverses: à partir d’informations visuelles reçues par les yeux, ils déconstruisent une représentation hiérarchique du monde qui nous entoure et tentent de la faire correspondre avec des modèles et des relations déjà appris stockés dans le cerveau. C’est ainsi que la reconnaissance se produit. Et l’idée clé est que la représentation des objets dans le cerveau ne dépend pas de l’angle de vue.
Donc, à ce stade, la question est: comment modélisons-nous ces relations hiérarchiques à l’intérieur d’un réseau de neurones? La réponse vient de l’infographie. Dans les graphiques 3D, les relations entre les objets 3D peuvent être représentées par une soi-disant pose, qui est essentiellement une translation plus une rotation.
Hinton soutient que pour effectuer correctement la classification et la reconnaissance d’objets, il est important de préserver les relations de pose hiérarchiques entre les parties d’objets. C’est l’intuition clé qui vous permettra de comprendre pourquoi la théorie des capsules est si importante. Il incorpore des relations relatives entre les objets et il est représenté numériquement sous la forme d’une matrice de pose 4D.
Lorsque ces relations sont intégrées à la représentation interne des données, il devient très facile pour un modèle de comprendre que la chose qu’il voit n’est qu’une autre vue de quelque chose qu’il a vu auparavant. Considérez l’image ci-dessous. Vous pouvez facilement reconnaître qu’il s’agit de la Statue de la Liberté, même si toutes les images la montrent sous différents angles. En effet, la représentation interne de la Statue de la Liberté dans votre cerveau ne dépend pas de l’angle de vue. Vous n’en avez probablement jamais vu ces images exactes, mais vous saviez tout de suite de quoi il s’agissait.