1.5.1因果仮定のモデル化
前回の記事では、有向アシクリカルグラフについて説明しました。 このセクションでは、Dagを使用して、モデルの因果関係の仮定を推論する方法を学びます。
数学的には、構造因果モデル(SCM)は、内因性(V)のセットと、Uの変数の値に基づいてVの変数の値を決定する関数(F)のセットによって接続された外因性(U)変数のセットで構成されています。直感的には、DAGが情報の流れを表すと考えると、変数Uはシステムへの入力であり、変数Vはその情報が処理されるノードです。
各SCMは、各ノードがUまたはVの変数であり、各エッジが関数fであるグラフィカルモデル(DAG)に関連付けられています。
- 変数Yが変数Xの子である場合、YはXによって引き起こされる、またはXがYの直接の原因であると言います。
- 変数Yが変数Xの子孫である場合、YはXによって潜在的に引き起こされるか、XがYの潜在的な原因であると言います。
図1.9の例を考えてみましょう。
単にこのグラフを見てから、我々はすぐに直感的に、基礎となるscmの詳細の多くを把握:
- XとYには入ってくるエッジがないので、外生変数(Uに属する)です。
- Zは2つの入ってくるエッジを持っているので、それは内生変数(Vに属する)です。つまり、Zの値はXとYの値とfz=f(x,Y)に明示的に依存します。
- Zは二つの直接的な原因XとYを持っています。
- Zの値はXとYの値に明示的に依存し、fz=f(x,Y)。
しかし、Zの値を決定する関数fzが何であるかを正確に知るためには、SCMの完全な仕様が必要です。:DIV>
SCM1.5.1モデルのシミュレーション
完全に指定されたSCMの利点の一つは、シミュレーションが非常に簡単であることです。 たとえば、上記のSCM用の偽の(決定論的な)データを作成できます。
X、Y、Zの値を持つ単純なpandas DataFrameを生成します。
たちは、xとZの両方に条件付けています:私たちは、各個人が特定の集団(Z)に属し、投薬(X)を服用するかどうかを課しています。一方、母集団全体の平均効果だけが必要な場合は、治療(X)だけを条件付ける必要があります。
一方、母集団全体の平均効果だけが必要な場合は、治療(X) この場合、P(Y=1|X=1)-P(Y=1|X=0)を計算します。 この式を次のように書き直します:
Where we can easily plugin the expressions defined above.