CNNs Har Viktige Ulemper
CNNs (convolutional neural networks) er kjempebra. De er en av grunnene til at dyp læring er så populær i dag. De kan gjøre fantastiske ting som folk pleide å tenke datamaskiner ikke ville være i stand til å gjøre i lang, lang tid. Likevel, de har sine grenser, og de har grunnleggende ulemper.
la oss vurdere et veldig enkelt og ikke-teknisk eksempel. Tenk deg et ansikt. Hva er komponentene? Vi har ansiktet ovalt, to øyne, en nese og en munn. FOR EN CNN kan bare tilstedeværelsen av disse objektene være en veldig sterk indikator for å vurdere at det er et ansikt i bildet. Orienterings-og relative romlige forhold mellom disse komponentene er ikke veldig viktige for EN CNN.
hvordan fungerer CNNs? Hovedkomponenten I EN CNN er et innviklet lag. Dens jobb er å oppdage viktige funksjoner i bildepunktene. Lag som er dypere (nærmere inngangen) vil lære å oppdage enkle funksjoner som kanter og fargeoverganger, mens høyere lag vil kombinere enkle funksjoner til mer komplekse funksjoner. Til slutt, tette lag på toppen av nettverket vil kombinere svært høyt nivå funksjoner og produsere klassifisering spådommer.en viktig ting å forstå er at funksjoner på høyere nivå kombinerer funksjoner på lavere nivå som en vektet sum: aktiveringer av et foregående lag multipliseres med følgende lag neurons vekter og legges til, før de sendes til aktiveringslinearitet. Ingen steder i dette oppsettet er det pose (translasjonell og roterende) forhold mellom enklere funksjoner som utgjør en høyere nivå funksjon. CNN tilnærming til å løse dette problemet er å bruke maks pooling eller påfølgende convolutional lag som reduserer spacial størrelsen på data som strømmer gjennom nettverket og derfor øke» synsfelt » av høyere lag nevroner, og dermed tillater dem å oppdage høyere orden funksjoner i et større område av inngangsbildet. Max pooling er en krykke som gjorde convolutional nettverk fungerer overraskende bra, oppnå overmenneskelig ytelse i mange områder. Men vær ikke lurt av ytelsen: mens CNNs fungerer bedre enn noen modell før dem, mister max pooling likevel verdifull informasjon.
Hinton selv uttalt at det faktum at max pooling fungerer så bra er en stor feil og en katastrofe:
Hinton: «pooling operasjonen brukes i convolutional nevrale nettverk er en stor feil, og det faktum at det fungerer så bra er en katastrofe.»
selvfølgelig kan du gjøre unna med maksimal pooling og fortsatt få gode resultater med tradisjonelle CNNs, men de løser fortsatt ikke nøkkelproblemet:
Intern datarepresentasjon Av et innviklet nevralt nettverk tar ikke hensyn til viktige romlige hierarkier mellom enkle og komplekse objekter.
i eksemplet ovenfor betyr bare tilstedeværelse av 2 øyne, en munn og en nese i et bilde ikke at det er et ansikt, vi må også vite hvordan disse objektene er orientert i forhold til hverandre.
Hardkoding 3D-Verden inn I Et Nevralt Nett: Inverse Graphics Approach
datagrafikk handler om å konstruere et visuelt bilde fra en intern hierarkisk representasjon av geometriske data. Merk at strukturen i denne representasjonen må ta hensyn til relative posisjoner av objekter. Den interne representasjonen lagres i datamaskinens minne som matriser av geometriske objekter og matriser som representerer relative posisjoner og orientering av disse objektene. Deretter tar spesiell programvare den representasjonen og konverterer den til et bilde på skjermen. Dette kalles gjengivelse.
Inspirert av denne ideen, Hevder Hinton at hjerner faktisk gjør det motsatte av gjengivelse. Han kaller det inverse grafikk: fra visuell informasjon mottatt av øynene dekonstruerer de en hierarkisk representasjon av verden rundt oss og prøver å matche den med allerede lærte mønstre og relasjoner lagret i hjernen. Slik skjer anerkjennelse. Og nøkkelideen er at representasjon av objekter i hjernen ikke er avhengig av synsvinkel.Så på dette punktet er spørsmålet: hvordan modellerer vi disse hierarkiske relasjonene inne i et nevralt nettverk? Svaret kommer fra datagrafikk. I 3d-grafikk kan relasjoner MELLOM 3d-objekter representeres av en såkalt pose, som i hovedsak er oversettelse pluss rotasjon.
Hinton hevder at for å korrekt gjøre klassifisering og objektgjenkjenning, er det viktig å bevare hierarkiske positur relasjoner mellom objektdeler. Dette er nøkkelen intuisjon som vil tillate deg å forstå hvorfor kapselteori er så viktig. Den inkorporerer relative relasjoner mellom objekter, og det er representert numerisk SOM EN 4d positur matrise.
når disse relasjonene er bygget inn i intern representasjon av data, blir det veldig enkelt for en modell å forstå at det som den ser, bare er et annet syn på noe som den har sett før. Vurder bildet nedenfor. Du kan lett gjenkjenne at Dette Er Frihetsgudinnen, selv om alle bildene viser det fra forskjellige vinkler. Dette skyldes at intern representasjon Av Frihetsgudinnen i hjernen din ikke er avhengig av synsvinkelen. Du har sikkert aldri sett disse eksakte bildene av det, men du visste fortsatt umiddelbart hva det var.