ヒントンのカプセルネットワークを理解する。 パートI:直感。

Cnnには重要な欠点があります

Cnn(畳み込みニューラルネットワーク)は素晴らしいです。 彼らは深い学習が今日とても人気がある理由の一つです。 彼らは、人々がコンピュータが長い、長い時間のために行うことができないだろうと思っていた驚くべきことを行うこ それにもかかわらず、彼らには限界があり、根本的な欠点があります。

非常に単純で非技術的な例を考えてみましょう。 顔を想像してみてください。 コンポーネントは何ですか? 私たちは顔の楕円形、二つの目、鼻と口を持っています。 CNNの場合、これらのオブジェクトの単なる存在は、画像内に顔があることを考慮するための非常に強力な指標となり得る。 これらの構成要素間の指向的および相対的な空間的関係は、CNNにとってあまり重要ではありません。

CNNには、両方の画像が似ています。 ソース。Figcaption>

Cnnはどのように機能しますか? CNNの主な構成要素は畳み込み層です。 その仕事は、画像ピクセルの重要な特徴を検出することです。 深い(入力に近い)レイヤーは、エッジや色のグラデーションなどの単純なフィーチャを検出する方法を学習しますが、高いレイヤーは単純なフィーチャをより複雑なフィーチャに結合します。 最後に、ネットワークの上部にある密な層は、非常に高いレベルの特徴を組み合わせて、分類予測を生成します。

理解すべき重要なことは、上位レベルのフィーチャが下位レベルのフィーチャを加重和として結合することです: 前の層の活性化は、活性化非線形性に渡される前に、次の層ニューロンの重みで乗算され、追加されます。 この設定では、より高いレベルのフィーチャを構成する単純なフィーチャ間にポーズ(並進および回転)の関係はありません。 この問題を解決するためのCNNアプローチは、ネットワークを流れるデータの空間サイズを小さくし、したがって、より高い層のニューロンの”視野”を増加させ、入力画像のより大きな領域における高次の特徴を検出することを可能にする最大プーリングまたは連続した畳み込み層を使用することである。 Max poolingは、畳み込みネットワークを驚くほどうまく機能させ、多くの分野で超人的なパフォーマンスを達成した松葉杖です。 Cnnは以前のどのモデルよりも優れていますが、max poolingはそれにもかかわらず貴重な情報を失っています。

Hinton自身は、max poolingがうまく機能しているという事実は大きな間違いであり、災害であると述べました。

Hinton:”畳み込みニューラルネットワークで使用されているプーリング操作は大きな間違いであり、それがうまく機能しているという事実は災害である。もちろん、最大プーリングを廃止しても、従来のCnnでは良好な結果を得ることができますが、依然として重要な問題は解決しません:

畳み込みニューラルネットワークの内部データ表現は、単純なオブジェクトと複雑なオブジェクト間の重要な空間階層を考慮しません。

上記の例では、画像内の2つの目、口、鼻の単なる存在は、顔があることを意味するものではなく、これらのオブジェクトが互いに

ニューラルネットに3Dの世界をハードコーディング: Inverse Graphics Approach

コンピュータグラフィックスは、幾何学的データのいくつかの内部階層表現から視覚的な画像を構築することを扱っています。 この表現の構造は、オブジェクトの相対位置を考慮する必要があることに注意してください。 その内部表現は、幾何学的オブジェクトの配列と、これらのオブジェクトの相対的な位置と向きを表す行列としてコンピュータのメモリに格納され その後、特別なソフトウェアは、その表現を取り、画面上の画像に変換します。 これはレンダリングと呼ばれます。

コンピュータグラフィックスは、オブジェクトの内部表現を取り、画像を生成します。 人間の脳は反対のことをします。 カプセルネットワークは、脳と同様のアプローチに従います。 ソース。

このアイデアに触発され、ヒントンは、脳は、実際には、レンダリングの反対を行うと主張しています。 彼はそれを逆グラフィックスと呼んでいます: 目で受け取った視覚情報から、彼らは私たちの周りの世界の階層的な表現を解体し、脳に保存されているすでに学習されたパターンや関係と一致させ これは認識が起こる方法です。 そして、重要なアイデアは、脳内のオブジェクトの表現は視野角に依存しないということです。

この時点で問題は、ニューラルネットワークの内部でこれらの階層関係をどのようにモデル化するのですか? 答えはコンピュータグラフィックスから来ています。 3Dグラフィックスでは、3Dオブジェクト間の関係は、本質的に平行移動と回転である、いわゆるポーズで表すことができます。

Hintonは、分類と物体認識を正しく行うためには、物体部分間の階層的な姿勢関係を維持することが重要であると主張している。 これは、カプセル理論が非常に重要である理由を理解することを可能にする重要な直感です。 これは、オブジェクト間の相対関係を組み込んでおり、4Dポーズ行列として数値的に表されます。

これらの関係がデータの内部表現に組み込まれている場合、モデルが見るものは以前に見たものの単なる別のビューであることをモデルが理解す 下の画像を考えてみましょう。 あなたは簡単にすべての画像が異なる角度からそれを示しているにもかかわらず、これは自由の女神であることを認識することができます。 これは、あなたの脳内の自由の女神像の内部表現が視野角に依存しないためです。 あなたはおそらくそれのこれらの正確な写真を見たことがありませんが、あなたはまだすぐにそれが何であるかを知っていました。

コメントを残す

メールアドレスが公開されることはありません。