forståelse af Hintons Kapselnetværk. Del I: Intuition.

CNN ‘er har vigtige ulemper

CNN’ er (convolutional neurale netværk) er fantastiske. De er en af grundene til, at dyb læring er så populær i dag. De kan gøre fantastiske ting, som folk plejede at tro, at computere ikke ville være i stand til at gøre i lang, lang tid. Ikke desto mindre har de deres grænser, og de har grundlæggende ulemper.

lad os overveje et meget simpelt og ikke-teknisk eksempel. Forestil dig et ansigt. Hvad er komponenterne? Vi har ansigtet ovalt, to øjne, en næse og en mund. For en CNN kan en simpel tilstedeværelse af disse objekter være en meget stærk indikator for at overveje, at der er et ansigt i billedet. Orienterende og relative rumlige forhold mellem disse komponenter er ikke særlig vigtige for en CNN.

til en CNN, begge billeder er ens, da de begge indeholder lignende elementer. Kilde.

hvordan virker CNNs? Hovedkomponenten i en CNN er et indviklet lag. Dens opgave er at opdage vigtige funktioner i billedpunkterne. Lag, der er dybere (tættere på input), lærer at registrere enkle funktioner såsom kanter og farvegradienter, mens højere lag kombinerer enkle funktioner til mere komplekse funktioner. Endelig vil tætte lag øverst på netværket kombinere funktioner på meget højt niveau og producere klassificeringsforudsigelser.

en vigtig ting at forstå er, at funktioner på højere niveau kombinerer funktioner på lavere niveau som en vægtet sum: aktiveringer af et foregående lag ganges med det følgende lag neurons vægte og tilføjes, inden de overføres til Aktivering Ikke-linearitet. Ingen steder i denne opsætning er der pose (translationel og roterende) forhold mellem enklere funktioner, der udgør en højere niveau funktion. CNN tilgang til at løse dette problem er at bruge maksimal pooling eller successive konvolutionære lag, der reducerer rumstørrelsen af de data, der strømmer gennem netværket, og derfor øger “synsfeltet” for højere lags neuroner, hvilket giver dem mulighed for at opdage højere ordensfunktioner i et større område af inputbilledet. Maks pooling er en krykke, der fik konvolutionsnetværk til at fungere overraskende godt og opnå overmenneskelig ydeevne på mange områder. Men lad dig ikke narre af dens ydeevne: mens CNN ‘ er fungerer bedre end nogen model før dem, mister maks.

Hinton sagde selv, at det faktum, at maks.pooling fungerer så godt, er en stor fejl og en katastrofe:

Hinton: “poolingoperationen, der bruges i indviklede neurale netværk, er en stor fejl, og det faktum, at det fungerer så godt, er en katastrofe.”

selvfølgelig kan du fjerne maksimal pooling og stadig få gode resultater med traditionelle CNN ‘ er, men de løser stadig ikke nøgleproblemet:

intern datarepræsentation af et indviklet neuralt netværk tager ikke højde for vigtige rumlige hierarkier mellem enkle og komplekse objekter.

i eksemplet ovenfor betyder en simpel tilstedeværelse af 2 øjne, en mund og en næse i et billede ikke, at der er et ansigt, vi skal også vide, hvordan disse objekter er orienteret i forhold til hinanden.

Hardcoding 3D-verden til et neuralt Net: Inverse Graphics Approach

computergrafik beskæftiger sig med at konstruere et visuelt billede fra en intern hierarkisk repræsentation af geometriske data. Bemærk, at strukturen af denne repræsentation skal tage hensyn til relative positioner af objekter. Den interne repræsentation gemmes i computerens hukommelse som arrays af geometriske objekter og matricer, der repræsenterer relative positioner og orientering af disse objekter. Derefter tager specielle programmer denne repræsentation og konverterer den til et billede på skærmen. Dette kaldes rendering.

computergrafik tager intern repræsentation af objekter og producerer et billede. Den menneskelige hjerne gør det modsatte. Kapselnetværk følger en lignende tilgang til hjernen. Kilde.

inspireret af denne ide hævder Hinton, at hjerner faktisk gør det modsatte af gengivelse. Han kalder det omvendt grafik: fra visuel information modtaget af øjne dekonstruerer de en hierarkisk repræsentation af verden omkring os og prøver at matche den med allerede lærte mønstre og forhold, der er gemt i hjernen. Sådan sker anerkendelse. Og nøgleideen er, at repræsentation af objekter i hjernen ikke afhænger af synsvinklen.

så på dette tidspunkt er spørgsmålet: hvordan modellerer vi disse hierarkiske forhold inde i et neuralt netværk? Svaret kommer fra computergrafik. I 3D-grafik kan forholdet mellem 3D-objekter repræsenteres af en såkaldt pose, som i det væsentlige er Oversættelse plus rotation.Hinton hævder, at for at kunne foretage klassificering og objektgenkendelse korrekt er det vigtigt at bevare hierarkiske positionsrelationer mellem objektdele. Dette er den vigtigste intuition, der giver dig mulighed for at forstå, hvorfor kapselteori er så vigtig. Det inkorporerer relative forhold mellem objekter, og det er repræsenteret numerisk som en 4D-positionsmatrice.

når disse forhold er indbygget i intern repræsentation af data, bliver det meget let for en model at forstå, at det, den ser, bare er et andet syn på noget, den har set før. Overvej billedet nedenfor. Du kan nemt genkende, at dette er Frihedsgudinden, selvom alle billederne viser det fra forskellige vinkler. Dette skyldes, at intern repræsentation af Frihedsgudinden i din hjerne ikke afhænger af synsvinklen. Du har sandsynligvis aldrig set disse nøjagtige billeder af det, men du vidste stadig straks, hvad det var.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.