Understanding Hinton ’ s Capsule Networks. Osa I: Intuitio.

CNNs: llä on tärkeitä haittoja

CNNs (convolutional neural networks) on mahtava. Ne ovat yksi syy siihen, miksi syväoppiminen on nykyään niin suosittua. He voivat tehdä uskomattomia asioita, joita ihmiset ajattelivat ennen, että tietokoneet eivät pystyisi tekemään pitkään, pitkään aikaan. Niillä on kuitenkin rajansa, ja niillä on perustavanlaatuisia haittoja.

Tarkastellaanpa hyvin yksinkertaista ja ei-teknistä esimerkkiä. Kuvittele Kasvot. Mitkä ovat komponentit? Kasvot ovat soikeat, kaksi silmää, nenä ja suu. CNN: lle pelkkä näiden esineiden läsnäolo voi olla hyvin vahva osoitus siitä, että kuvassa on kasvot. Orientational ja suhteellinen spatiaalinen suhteet näiden komponenttien eivät ole kovin tärkeitä CNN.

a CNN: n mukaan molemmat kuvat ovat samankaltaisia, sillä molemmissa on samanlaisia elementtejä. Lähde.

miten CNNs vaikuttaa? CNN: n pääkomponentti on convolutionaalinen kerros. Sen tehtävänä on havaita tärkeitä ominaisuuksia kuvapikseleissä. Syvemmät (lähempänä syöttöä olevat) kerrokset oppivat havaitsemaan yksinkertaisia ominaisuuksia, kuten reunoja ja värigradientteja, kun taas korkeammat kerrokset yhdistävät yksinkertaiset ominaisuudet monimutkaisemmiksi ominaisuuksiksi. Lopuksi verkon yläosassa olevat tiheät kerrokset yhdistävät hyvin korkean tason ominaisuuksia ja tuottavat luokitteluennusteita.

on tärkeää ymmärtää, että korkeamman tason ominaisuudet yhdistävät alemman tason ominaisuuksia painotettuna summana: edellisen kerroksen aktivaatiot kerrotaan seuraavan kerroksen hermosolun painoilla ja lisätään, ennen kuin ne siirtyvät aktivoitumattomuuteen. Missään tässä setup ei ole pose (translational ja rotational) suhde yksinkertaisempia ominaisuuksia, jotka muodostavat korkeamman tason ominaisuus. CNN lähestymistapa tämän ongelman ratkaisemiseksi on käyttää max yhdistämistä tai peräkkäisiä convolutional kerrokset, jotka vähentävät tilakokoa tietojen virtaa verkon läpi ja siksi lisätä ”näkökenttä” korkeamman kerroksen neuronien, jolloin ne voivat havaita korkeamman kertaluvun ominaisuuksia suuremmalla alueella tulokuvan. Max pooling on kainalosauva, joka sai convolutionaaliset verkostot toimimaan yllättävän hyvin ja saavutti yli-inhimillisen suorituskyvyn monilla aloilla. Mutta älä anna sen suorituskyvyn hämätä: vaikka CNNs toimii paremmin kuin mikään malli ennen niitä, max yhdistäminen kuitenkin menettää arvokasta tietoa.

Hinton itse totesi, että se, että max pooling toimii niin hyvin, on suuri virhe ja katastrofi:

Hinton: ”convolutionaalisissa neuroverkoissa käytetty yhdistämisoperaatio on suuri virhe ja se, että se toimii niin hyvin, on katastrofi.”

Toki max-yhdistelystä voi päästä eroon ja silti saada hyviä tuloksia perinteisillä CNNs: llä, mutta ne eivät silti ratkaise keskeistä ongelmaa:

convolutionaalisen neuroverkon sisäinen dataesitys ei ota huomioon tärkeitä avaruudellisia hierarkioita yksinkertaisten ja monimutkaisten kohteiden välillä.

yllä olevassa esimerkissä pelkkä 2 silmän, suun ja nenän läsnäolo Kuvassa ei tarkoita kasvojen olemassaoloa, vaan meidän on myös tiedettävä, miten nämä kohteet ovat suuntautuneet toisiinsa nähden.

Hardcoding 3D World into a Neural Net: Käänteisgrafiikan lähestymistapa

Tietokonegrafiikka käsittelee visuaalisen kuvan rakentamista jostakin geometrisen tiedon sisäisestä hierarkkisesta esityksestä. Huomaa, että tämän esityksen rakenteessa on otettava huomioon kappaleiden suhteelliset kannat. Tämä sisäinen esitys tallentuu tietokoneen muistiin geometristen objektien ja matriisien ryhminä, jotka edustavat näiden objektien suhteellisia kantoja ja orientaatiota. Sitten, erityinen ohjelmisto ottaa että esitys ja muuntaa sen kuvan ruudulla. Tätä kutsutaan renderöinniksi.

Tietokonegrafiikka ottaa sisäisen esityksen esineiden ja tuottaa kuvan. Ihmisaivot tekevät päinvastoin. Kapseliverkostot noudattavat samanlaista lähestymistapaa aivoihin. Lähde.

tämän idean innoittamana Hinton väittää, että aivot itse asiassa tekevät päinvastoin kuin renderöinti. Hän kutsuu sitä käänteisgrafiikaksi.: silmien saamasta visuaalisesta informaatiosta he purkavat hierarkkisen esityksen ympäröivästä maailmasta ja yrittävät sovittaa sen jo opittuihin kaavoihin ja aivoihin tallennettuihin suhteisiin. Näin tunnustaminen tapahtuu. Avainajatus on, että aivojen kohteiden edustus ei riipu kuvakulmasta.

tässä vaiheessa kysymys kuuluu: miten mallintamme nämä hierarkkiset suhteet neuroverkon sisällä? Vastaus tulee tietokonegrafiikasta. 3D-grafiikassa 3D-objektien välisiä suhteita voidaan esittää niin sanotulla pose: lla, joka on pohjimmiltaan translaatio plus rotaatio.

Hinton väittää, että jotta luokittelu ja objektin tunnistus voidaan tehdä oikein, on tärkeää säilyttää hierarkkiset pose-suhteet objektin osien välillä. Tämä on keskeinen intuitio, jonka avulla voit ymmärtää, miksi kapseliteoria on niin tärkeä. Se sisältää kappaleiden välisiä suhteellisia suhteita ja se esitetään numeerisesti 4D-pose-matriisina.

kun nämä suhteet rakentuvat datan sisäiseksi representaatioksi, mallin on hyvin helppo ymmärtää, että sen näkemä asia on vain toinen näkemys jostakin, minkä se on nähnyt aiemmin. Tarkastellaan alla olevaa kuvaa. Voit helposti tunnistaa, että kyseessä on Vapaudenpatsas, vaikka kaikki kuvat näyttävät sen eri näkökulmista. Tämä johtuu siitä, että Vapaudenpatsaan sisäinen esitys aivoissasi ei riipu kuvakulmasta. Et ole varmaan koskaan nähnyt näitä tarkkoja kuvia siitä, mutta silti tiesit heti, mikä se on.

Vastaa

Sähköpostiosoitettasi ei julkaista.