CNN mají významné nevýhody
CNN (konvoluční neuronové sítě) jsou úžasné. Jsou jedním z důvodů, proč je hluboké učení dnes tak populární. Mohou dělat úžasné věci, které si lidé mysleli, že počítače nebudou schopny dělat po dlouhou, dlouhou dobu. Nicméně mají své limity a mají zásadní nevýhody.
uvažujme o velmi jednoduchém a netechnickém příkladu. Představte si obličej. Jaké jsou komponenty? Máme obličej oválný, dvě oči, nos a ústa. Pro CNN může být pouhá přítomnost těchto objektů velmi silným ukazatelem, aby se zvážilo, že na obrázku je tvář. Orientační a relativní prostorové vztahy mezi těmito složkami nejsou pro CNN příliš důležité.
Jak funguje CNN? Hlavní složkou CNN je konvoluční vrstva. Jeho úkolem je detekovat důležité funkce v obrazových pixelech. Vrstvy, které jsou hlubší (blíže ke vstupu), se naučí detekovat jednoduché funkce, jako jsou hrany a barevné přechody, zatímco vyšší vrstvy kombinují jednoduché funkce do složitějších funkcí. Konečně, husté vrstvy v horní části sítě budou kombinovat vlastnosti na velmi vysoké úrovni a vytvářet předpovědi klasifikace.
důležité je pochopit, že funkce vyšší úrovně kombinují funkce nižší úrovně jako vážený součet: aktivace předchozí vrstvy se vynásobí hmotností následující vrstvy neuronu a přidá se, než se předá aktivační nelinearitě. Nikde v tomto nastavení není pose (translační a rotační) vztah mezi jednoduššími funkcemi, které tvoří funkci vyšší úrovně. CNN přístup k řešení tohoto problému je použít max pooling nebo postupné konvoluční vrstvy, které snižují prostorové velikosti a tok dat přes síť a tím zvýšit „zorné pole“ z vyšší vrstvy neuronů, což jim umožňuje detekovat vyššího řádu funkce ve větší oblasti vstupního obrazu. Max sdružování je berlička, která udělala konvoluční sítě fungují překvapivě dobře, dosažení nadlidský výkon v mnoha oblastech. Nenechte se však zmást jeho výkonem: zatímco CNN fungují lépe než jakýkoli model před nimi, max pooling přesto ztrácí cenné informace.
Hinton sám uvedl, že skutečnost, že max pooling funguje tak dobře, je to velká chyba a katastrofa:
Hinton: „sdružování operace používané v konvoluční neuronové sítě je velká chyba a skutečnost, že to funguje tak dobře, je to katastrofa.“
samozřejmě můžete odstranit maximální sdružování a stále dosáhnout dobrých výsledků s tradičními CNN, ale stále nevyřeší klíčový problém:
interní reprezentace dat konvoluční neuronové sítě nezohledňuje důležité prostorové hierarchie mezi jednoduchými a složitými objekty.
ve výše uvedeném příkladu pouhá přítomnost 2 očí, úst a nosu na obrázku neznamená, že existuje obličej, musíme také vědět, jak jsou tyto objekty vzájemně orientovány.
Hardcoding 3D World do neuronové sítě: Inverzní grafický přístup
Počítačová grafika se zabývá konstrukcí vizuálního obrazu z nějaké vnitřní hierarchické reprezentace geometrických dat. Všimněte si, že struktura této reprezentace musí brát v úvahu relativní polohy objektů. Tato vnitřní reprezentace je uložena v paměti počítače jako pole geometrických objektů a matic, které představují relativní polohy a orientaci těchto objektů. Poté speciální software vezme tuto reprezentaci a převede ji na obrázek na obrazovce. Tomu se říká Vykreslování.
inspirován touto myšlenkou Hinton tvrdí, že mozky ve skutečnosti dělají opak Vykreslování. Říká tomu inverzní grafika: z vizuální informace získané oči, oni zpochybnit hierarchické reprezentace světa kolem nás a pokusit se zápas s již naučené vzory a vztahy uloženy v mozku. Takto dochází k uznání. A klíčovou myšlenkou je, že reprezentace objektů v mozku nezávisí na úhlu pohledu.
takže v tomto bodě je otázka: jak modelujeme tyto hierarchické vztahy uvnitř neuronové sítě? Odpověď pochází z počítačové grafiky. Ve 3D grafice mohou být vztahy mezi 3D objekty reprezentovány takzvanou pózou, což je v podstatě překlad plus rotace.
Hinton tvrdí, že pro správnou klasifikaci a rozpoznávání objektů je důležité zachovat hierarchické vztahy mezi částmi objektů. Toto je klíčová intuice, která vám umožní pochopit, proč je teorie kapslí tak důležitá. Zahrnuje relativní vztahy mezi objekty a je numericky reprezentován jako 4D pose matrix.
když jsou tyto vztahy zabudovány do vnitřní reprezentace dat, je pro model velmi snadné pochopit, že věc, kterou vidí, je jen další pohled na něco, co předtím viděl. Zvažte obrázek níže. Můžete snadno rozpoznat, že se jedná o sochu svobody, i když všechny obrázky ji ukazují z různých úhlů. Je to proto, že vnitřní reprezentace Sochy Svobody ve vašem mozku nezávisí na úhlu pohledu. Pravděpodobně jste nikdy neviděli tyto přesné obrázky, ale stále jste okamžitě věděli, co to je.