NN, mindkét kép hasonló, mivel mindkettő hasonló elemeket tartalmaz. Forrás.
hogyan működnek a CNN-ek? A CNN fő összetevője egy konvolúciós réteg. Feladata a képpontok fontos jellemzőinek felismerése. A mélyebb rétegek (közelebb a bemenethez) megtanulják felismerni az egyszerű funkciókat, például az éleket és a színátmeneteket, míg a magasabb rétegek az egyszerű funkciókat összetettebb funkciókká egyesítik. Végül a hálózat tetején lévő sűrű rétegek egyesítik a nagyon magas szintű jellemzőket és osztályozási előrejelzéseket készítenek.
fontos megérteni, hogy a magasabb szintű funkciók súlyozott összegként kombinálják az alacsonyabb szintű jellemzőket: az előző réteg aktivációit megszorozzuk a következő réteg neuron súlyával, majd hozzáadjuk, mielőtt átadjuk az aktivációs nemlinearitásnak. Ebben a beállításban sehol nincs póz (transzlációs és rotációs) kapcsolat az egyszerűbb funkciók között, amelyek egy magasabb szintű funkciót alkotnak. A CNN megközelítése a probléma megoldására az, hogy max pooling vagy egymást követő konvolúciós rétegeket használ, amelyek csökkentik a hálózaton átáramló adatok térbeli méretét, és ezért növelik a magasabb réteg idegsejtjeinek “látómezőjét”, ezáltal lehetővé téve számukra a magasabb rendű jellemzők észlelését a bemeneti kép nagyobb régiójában. A Max pooling egy mankó, amely a konvolúciós hálózatokat meglepően jól működtette, sok területen emberfeletti teljesítmény elérése. De ne tévesszen meg a teljesítménye: míg a CNN-ek jobban működnek, mint bármelyik modell előttük, a max pooling ennek ellenére értékes információkat veszít.
maga Hinton kijelentette, hogy az a tény, hogy a max pooling ilyen jól működik, nagy hiba és katasztrófa:
Hinton: “a konvolúciós neurális hálózatokban használt pooling művelet nagy hiba, és az a tény, hogy ilyen jól működik, katasztrófa.”
természetesen megszüntetheti a maximális összevonást, és továbbra is jó eredményeket érhet el a hagyományos CNN-ekkel, de még mindig nem oldják meg a legfontosabb problémát:
a konvolúciós neurális hálózat belső adatábrázolása nem veszi figyelembe az egyszerű és összetett objektumok közötti fontos térbeli hierarchiákat.
a fenti példában pusztán 2 szem, száj és orr jelenléte a képen nem jelenti azt, hogy van arc, azt is tudnunk kell, hogy ezek a tárgyak hogyan orientálódnak egymáshoz képest.
Hardcoding 3D világ egy neurális háló: Inverz grafikus megközelítés
a számítógépes grafika vizuális kép felépítésével foglalkozik a geometriai adatok belső hierarchikus ábrázolásából. Vegye figyelembe, hogy ennek a reprezentációnak a struktúrájában figyelembe kell venni az objektumok relatív helyzetét. Ezt a belső ábrázolást a számítógép memóriájában geometriai objektumok és mátrixok tömbjeiként tárolják, amelyek ezen objektumok relatív helyzetét és orientációját képviselik. Ezután egy speciális szoftver veszi ezt az ábrázolást, és átalakítja a képernyőn megjelenő képpé. Ezt renderelésnek hívják.
árgyakat, és létrehoz egy képet. Az emberi agy az ellenkezőjét teszi. A kapszulahálózatok hasonló megközelítést követnek az agyhoz. Forrás.
Ezen ötlet ihlette Hinton azt állítja, hogy az agy valójában ellentétes a rendereléssel. Inverz grafikának nevezi: a szem által kapott vizuális információkból a körülöttünk lévő világ hierarchikus ábrázolását bontják le, és megpróbálják összehangolni az agyban tárolt, már megtanult mintákkal és kapcsolatokkal. Így történik az elismerés. A legfontosabb ötlet az, hogy az objektumok ábrázolása az agyban nem függ a látószögtől.
tehát ezen a ponton a kérdés: hogyan modellezzük ezeket a hierarchikus kapcsolatokat egy neurális hálózaton belül? A válasz a számítógépes grafikából származik. A 3D-s grafikában a 3D-s objektumok közötti kapcsolatokat egy úgynevezett póz reprezentálhatja, amely lényegében fordítás plusz forgatás.
Hinton azt állítja, hogy az osztályozás és az objektumfelismerés helyes elvégzéséhez fontos az objektumrészek közötti hierarchikus pózkapcsolatok megőrzése. Ez a legfontosabb intuíció, amely lehetővé teszi, hogy megértse, miért olyan fontos a kapszulaelmélet. Magában foglalja az objektumok közötti relatív kapcsolatokat, és számszerűen 4D-s pózmátrixként jelenik meg.
amikor ezek a kapcsolatok beépülnek az adatok belső ábrázolásába, nagyon könnyű lesz a modell számára megérteni, hogy az a dolog, amit lát, csak egy másik nézet valamiről, amit korábban látott. Tekintsük az alábbi képet. Könnyen felismerheti, hogy ez a Szabadság-szobor, annak ellenére, hogy az összes kép különböző szögekből mutatja. Ez azért van, mert a Szabadság-szobor belső ábrázolása az agyadban nem függ a látószögtől. Valószínűleg még soha nem látta ezeket a pontos képeket róla, de még mindig azonnal tudta, mi az.