Strukturelle Kausalmodelle

1.5.1 Modellierung kausaler Annahmen

Im vorherigen Beitrag haben wir gerichtete azyklische Graphen behandelt. In diesem Abschnitt erfahren wir, wie wir DAGs verwenden können, um über die kausalen Annahmen in unseren Modellen nachzudenken.Mathematisch besteht ein strukturelles Kausalmodell (SCM) aus einer Menge endogener (V) und einer Menge exogener (U) Variablen, die durch eine Menge von Funktionen (F) verbunden sind, die die Werte der Variablen in V basierend auf den Werten der Variablen in U bestimmen.

Wenn wir uns eine DAG intuitiv als einen Informationsfluss vorstellen, sind die Variablen U die Eingaben in das System, während die Variablen V die Knoten sind, an denen diese Informationen verarbeitet werden.

Jedes SCM ist einem grafischen Modell (DAG) zugeordnet, wobei jeder Knoten eine Variable in U oder V und jede Kante eine Funktion f ist. Jede Kante (Funktion) entspricht einer kausalen Annahme:

  • Wenn die Variable Y das Kind einer Variablen X ist, sagen wir, dass Y durch X verursacht wird oder dass X die direkte Ursache von Y ist.
  • Wenn die Variable Y der Nachkomme einer Variablen X ist, dann sagen wir, dass Y potentiell durch X verursacht wird, oder dass X die potentielle Ursache von Y ist.

Betrachten wir das Beispiel in Abb. 1.9:

Abb.1.9 — Grafisches Modell des SCM 1.5.1

Durch einfaches Betrachten dieses Diagramms erfassen wir sofort und intuitiv viele Details des zugrunde liegenden SCM:

  • X und Y haben keine eingehenden Kanten, sind also exogene Variablen (gehören zu U).
  • Z hat zwei ankommende Kanten, also ist es eine endogene Variable (gehört zu V).
  • Z hat zwei direkte Ursachen X und Y, oder mit anderen Worten, der Wert von Z hängt explizit von den Werten von X und Y ab und fz=f(X, Y) .

Wir benötigen jedoch die vollständige Spezifikation des SCM, um genau zu wissen, welche Funktion fz den Wert von Z bestimmt. Das strukturelle Kausalmodell ist nur dann vollständig spezifiziert, wenn wir zusätzlich zu der obigen DAG auch angeben:

SCM 1.5.1

Hier ist es wichtig zu beachten, dass DAGs, obwohl sie weniger Informationen enthalten als der vollständig angegebene SCM, oft nützlicher sind. Diagramme sind extrem visuelle Objekte, wodurch sie einfacher zu interpretieren und zu analysieren sind. Es ist auch oft der Fall, dass wir einfach nicht genügend Informationen haben, um den SCM vollständig zu spezifizieren, aber intuitiv definieren können, wie der Kausalgraph aussehen soll.

Modelle simulieren

Einer der Vorteile eines vollständig spezifizierten SCM besteht darin, dass sie relativ einfach zu simulieren sind. Zum Beispiel können wir einige gefälschte (deterministische) Daten für das oben beschriebene SCM erstellen:

Dies generiert einen einfachen Pandas-Datenrahmen mit den Werten von X, Y und Z:

Ich vergebe Ihnen, wenn Sie von diesem Beispiel nicht besonders beeindruckt sind. Letztendlich, Das einzige, was wir getan haben, war, einige gefälschte Daten basierend auf einer einfachen Gleichung zu generieren. Dies ist nicht besonders beeindruckend, bis wir ein wenig unter die Oberfläche schauen:

Dieser Datenrahmen stellt eine vollständig numerische Beschreibung unseres Modells dar … mit anderen Worten, dies ist eine Spielzeugversion der ursprünglichen Daten, die in Verbindung mit DAG oben verwendet werden könnten, um die Funktion fz anzupassen.

Wenn wir diesen Datenrahmen als unsere „empirischen Daten“ behandeln und (basierend auf einigen Domänenkenntnissen) davon ausgehen, dass fz eine lineare Regression von X und Y sein sollte, dann können wir einfach passen Z ~ X + Y:

Um sich als Koeffizienten, die X bzw. Y multiplizieren:

eitere Details zur späteren Bewertung und Anpassung von Kausalmodellen, aber selbst dieses einfache Spielzeugmodell gibt uns bereits einen Vorgeschmack auf das, was kommen wird, und die Einfachheit (und Allgemeinheit) dieses Ansatzes.

Ein stochastisches Beispiel

Schauen wir uns nun ein komplexeres Beispiel an, SCM 1.5.3. In diesem Fall ist der SCM gegeben durch:

SCM 1.5.3

From this specification, we can easily obtain the corresponding DAG:

Graphical Model for SCM 1.5.3

We are also told that all exogenous variables are independently distributed with an expected value zero. Dies impliziert, dass die exogenen Variablen unbeobachteten Einflüssen in unserem Modell entsprechen und daher als Fehlerfaktoren behandelt werden können.

Wenn wir normalverteilte Zufallswerte für Ux, Uy und Uz einstecken, können wir schnell einen Datenrahmen erstellen, der die Werte von X, Y und Z spezifiziert.

Vergessen wir für eine Sekunde, dass wir die expliziten analytischen Formeln haben, die die Werte unserer endogenen Variablen erzeugen und nur die numerischen Werte in unserem Datenrahmen verwenden.

Alle Fragen, die wir zum Verhalten dieses Modells haben könnten, können mit einem ähnlichen Verfahren wie dem oben verwendeten beantwortet werden: anpassen eines linearen Modells (da wir davon ausgehen, dass alle Abhängigkeiten linear sind), bei dem unsere beobachteten Werte die unabhängigen Variablen und unsere Unbekannten die abhängigen Variablen sind.Zum Beispiel, wenn wir wissen wollen, was der Wert von Z für einen bestimmten Wert von Y sein könnte, würden wir einfach Z ~ Y passen und dann den entsprechenden Wert von Y. Wenn Y=3 , dann ist der erwartete Wert von Z 0,189261, wie leicht überprüft werden kann, indem man Y = 3 in den obigen Ausdruck für fZ einfügt (wo wir schnell sehen, dass Z= 3/16).

Was wäre andererseits der Wert von Z, wenn wir zusätzlich zur Beobachtung von Y=3 auch beobachten, dass X=1 ? Wenn wir diese Anpassung durchführen, erhalten wir:

=“abdeckac4350″>

Wo wir einfach die Koeffizienten für Y und X ablesen können. Wenn wir nun die Werte von X und Y einstecken, erhalten wir Z=0,189821, was dem oben erhaltenen Wert ähnlich ist.

Wir hätten vermuten können, dass dies das Ergebnis sein würde, wenn wir uns die Übersichtstabelle oben angesehen hätten. Wir wissen, dass der Koeffizient für X 0,0053 ± 0,003 ist, was ihn sehr nahe an Null macht, praktisch vernachlässigbar.

Dies mag zwar überraschend erscheinen, ist aber einer der Hauptgründe, warum diese Modellklasse so leistungsstark ist.

Der Wert einer bestimmten endogenen Variablen kann nur von den Werten ihrer Eltern abhängen

Diese einfache Beobachtung bedeutet, dass wir unsere Berechnungen erheblich vereinfachen können, indem wir alle Variablen ignorieren, die nicht zu den Eltern der Variablen gehören, an der wir interessiert sind.

Was uns zu unserem nächsten Thema führt…

1.5.2 Produktzerlegung

Wir können auf unserer obigen Beobachtung aufbauen, um eine einfache, aber mächtige Regel zu definieren, die „Regel der Produktzerlegung“, die im Buch als:

Für jedes Modell, dessen Graph azyklisch ist, ist die gemeinsame Verteilung der Variablen im Modell durch das Produkt der bedingten Verteilungen P(Kind |Eltern) über alle „Familien“ im Graph gegeben

Also für einen einfachen Kettengraphen:

Wir können sofort schreiben:

Dies bedeutet, dass anstelle von eine große Beobachtungstabelle für jede mögliche Kombination von X, Y und X Wir brauchen nur viel kleinere Tabellen für X, Y | X und Z | Y, die die gleichen Informationen enthalten und viel einfacher zu erhalten sind.Noch wichtiger ist, dass grafische Modelle es uns ermöglichen, diese Zerlegung aufzuschreiben, ohne explizit etwas über die Funktionen zu wissen, die jeder Variablen zugrunde liegen.

In general, we write:

Let us now consider the example in Fig 1.10:

DAG from Fig 1.10 with the associated probability tables.

From this figure, we can immediately write:

and:

Which could also be obtained from the definition of the conditional probability P(X|Z). We can further write:

by the theorem of total probability. And if we plugin the values from the conditional probability tables above, we obtain:

And, similarly:

die Auswirkung der Einnahme des Arzneimittels auf die Mortalität (Y=1) (X=1) durch Berechnung der Differenz P(Y=1|X= 1) -P(Y=1|X= 0). Für die Population mit (Z = 1) und ohne (Z = 0) der Krankheit haben wir:

Hier sollte klar sein, warum wir konditionieren sowohl X als auch Z: Wir imponieren, dass jedes Individuum zu einer bestimmten Population gehört (Z) und die Medikamente einnimmt oder nicht (X).Auf der anderen Seite, wenn wir nur durchschnittliche Wirkung über die gesamte Bevölkerung wollen, dann müssen wir nur auf die Behandlung (X) konditionieren. In diesem Fall möchten wir P(Y= 1 | X= 1) -P(Y= 1 | X= 0) berechnen. Wir schreiben diesen Ausdruck um als:

Where we can easily plugin the expressions defined above.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.