strukturalne modele Przyczynowe

1.5.1 Modelowanie założeń przyczynowych

w poprzednim poście omówiliśmy ukierunkowane wykresy acykliczne. W tej sekcji dowiadujemy się, jak możemy używać dag do rozumowania o założeniach przyczynowych w naszych modelach.

matematycznie, strukturalny Model przyczynowy (SCM) składa się ze zbioru endogennych (V) i zbioru egzogennych (U) zmiennych połączonych zestawem funkcji (F), które określają wartości zmiennych w V na podstawie wartości zmiennych w U.

intuicyjnie, jeśli myślimy o DAG jako reprezentującym przepływ informacji, to zmienne U są wejściami do systemu, podczas gdy zmienne V są węzłami, w których ta informacja jest przetwarzana.

każdy SCM jest powiązany z modelem graficznym (dag), w którym każdy węzeł jest zmienną w U lub V, a każda krawędź jest funkcją f. Każda krawędź (funkcja) odpowiada założeniu przyczynowemu:

  • jeśli zmienna Y jest potomkiem zmiennej X, mówimy, że Y jest spowodowane przez X lub że X jest bezpośrednią przyczyną Y.
  • jeśli zmienna Y jest potomkiem zmiennej X, to mówimy, że Y jest potencjalnie spowodowane przez X lub że X jest potencjalną przyczyną Y.

rozważmy przykład na Rys. 1.9:

  • X i Y nie mają przychodzących krawędzi, więc są zmiennymi egzogennymi (należącymi do U).
  • Z ma dwie przychodzące krawędzie, więc jest zmienną endogenną (należącą do V).
  • Z ma dwie bezpośrednie przyczyny X i Y, czyli, innymi słowy, wartość Z zależy wprost od wartości x I Y oraz fz=f (X, Y).

jednak potrzebujemy pełnej specyfikacji SCM, aby dokładnie wiedzieć, jaka jest funkcja fz, która określa wartość Z. strukturalny Model przyczynowy jest w pełni określony tylko wtedy, gdy oprócz powyższego DAG określamy również:

SCM 1.5.1

w tym miejscu należy zauważyć, że chociaż dag zawierają mniej informacji niż w pełni określony SCM, są one często bardziej użyteczne. Wykresy są niezwykle wizualnymi obiektami, co ułatwia ich interpretację i analizę. Ponadto często zdarza się, że po prostu nie mamy wystarczającej ilości informacji, aby w pełni określić SCM, ale możemy intuicyjnie zdefiniować, jak powinien wyglądać Wykres przyczynowy.

symulowanie modeli

jedną z zalet w pełni określonego SCM jest to, że są one dość łatwe do symulacji. Na przykład możemy utworzyć fałszywe (deterministyczne) dane dla opisanego powyżej SCM:

, które generują prostą ramkę danych pandy o wartościach X, Y i Z:

wybaczam ci, jeśli nie jesteś szczególnie pod wrażeniem tego przykładu. W końcu jedyne, co zrobiliśmy, to wygenerowanie fałszywych danych na podstawie prostego równania. Nie jest to szczególnie imponujące, dopóki nie spojrzymy nieco pod powierzchnię:

Ta ramka danych reprezentuje w pełni numeryczny opis naszego modelu… innymi słowy, jest to zabawkowa wersja oryginalnych danych, które mogły być użyte, w połączeniu z dag powyżej, aby pasowały do funkcji fz.

Jeśli Traktujemy tę ramkę danych jako nasze „dane empiryczne” i zakładamy (na podstawie pewnej wiedzy z dziedziny), że fz powinna być regresją liniową X i Y, to możemy po prostu dopasować Z ~ X + Y:

odzyskać jako współczynniki mnożące odpowiednio X i y:

o wiele bardziej szczegółowo przyjrzymy się później, jak oceniać i dopasowywać modele przyczynowe, ale nawet ten prosty model zabawki już daje nam przedsmak tego, co nadejdzie i prostoty (i ogólności) tego podejścia.

przykład stochastyczny

przyjrzyjmy się teraz bardziej złożonemu przykładowi, SCM 1.5.3. W tym przypadku SCM jest podawany przez:

SCM 1.5.3

From this specification, we can easily obtain the corresponding DAG:

Graphical Model for SCM 1.5.3

We are also told that all exogenous variables are independently distributed with an expected value zero. Oznacza to, że zmienne egzogenne odpowiadają oddziaływaniom nieobserwowanym w naszym modelu, więc mogą być traktowane jako czynniki błędu.

podłączając normalnie rozmieszczone wartości losowe dla Ux, Uy i Uz możemy szybko zbudować ramkę danych określającą wartości X, Y i Z.

zapomnijmy na chwilę, że mamy jawne formuły analityczne, które wytwarzają wartości naszych zmiennych endogennych i używają tylko wartości liczbowych w naszej ramce danych.

wszelkie pytania, które możemy mieć na temat zachowania tego modelu, można odpowiedzieć za pomocą podobnej procedury do powyższej: dopasowanie modelu liniowego (ponieważ zakładamy, że wszystkie zależności są liniowe), gdzie nasze obserwowane wartości są zmiennymi niezależnymi, a nasze niewiadome są zmiennymi zależnymi.

na przykład, jeśli chcemy wiedzieć, jaka może być wartość Z dla określonej wartości Y, po prostu dopasujemy Z ~ Y, a następnie podłączymy odpowiednią wartość Y. Jeśli Y=3, to oczekiwana wartość Z wynosi 0,189261, co można łatwo sprawdzić, podłączając y=3 w wyrażeniu dla FZ powyżej (gdzie szybko widzimy, że Z=3/16).

z drugiej strony, jaka byłaby wartość Z, jeśli oprócz obserwacji Y=3, zaobserwujemy również, że X=1? Aby odpowiedzieć na to pytanie możemy dopasować Z~X+Y. po wykonaniu tego dopasowania otrzymujemy:

gdzie możemy po prostu odczytać współczynniki dla Y i X. Jeśli teraz podłączymy wartości X i y, otrzymamy z=0.189821, co jest podobne do wartości uzyskanej powyżej.

mogliśmy się domyślić, że będzie to wynik, patrząc na powyższą tabelę podsumowującą. Wiemy, że współczynnik dla X wynosi 0,0053±0,003, co czyni go bardzo bliskim zeru, praktycznie nieistotnym.

choć może się to wydawać zaskakujące, jest to jeden z głównych powodów, dla których ta klasa modeli jest tak potężna.

wartość określonej zmiennej endogennej może zależeć tylko od wartości jej rodziców

Ta prosta obserwacja oznacza, że możemy znacznie uprościć nasze obliczenia, ignorując wszelkie zmienne, które nie należą do rodziców tej, którą jesteśmy zainteresowani.

co prowadzi nas do następnego tematu…

1.5.2 rozkład produktu

możemy zbudować na naszej powyższej obserwacji, aby zdefiniować prostą, ale potężną regułę,” regułę rozkładu produktu”, która jest zdefiniowana w książce jako:

dla każdego modelu, którego wykres jest acykliczny, wspólny rozkład zmiennych w modelu jest podany przez iloczyn rozkładów warunkowych P(dziecko|rodzice) we wszystkich „rodzinach” na wykresie

więc dla prostego wykresu łańcucha:

możemy od razu napisać:

oznacza to, że zamiast dużej tabeli obserwacji dla każdej możliwej kombinacji x, y i X potrzebujemy tylko znacznie mniejszych tabel dla X, Y/X i z|Y, które będą zawierały te same informacje i będą znacznie łatwiejsze do uzyskania.

co ważniejsze, modele graficzne pozwalają nam zapisać ten rozkład bez konieczności jawnej wiedzy o funkcjach leżących u podstaw każdej zmiennej.

In general, we write:

Let us now consider the example in Fig 1.10:

DAG from Fig 1.10 with the associated probability tables.

From this figure, we can immediately write:

and:

Which could also be obtained from the definition of the conditional probability P(X|Z). We can further write:

by the theorem of total probability. And if we plugin the values from the conditional probability tables above, we obtain:

And, similarly:

wreszcie, możemy oszacować wpływ na śmiertelność (y=1) przyjmowania leku (x=1), obliczając różnicę p(y=1/x=1)-p(y=1|x=0). Dla populacji Z (Z=1) i bez (Z=0) choroby mamy:

tutaj powinno być jasne, dlaczego warunkujemy zarówno X, jak i z: narzucamy, że każda osoba należy do określonej populacji (z) i przyjmuje lub nie leki (x).

z drugiej strony, jeśli chcemy tylko średni efekt w całej populacji, to musimy warunkować tylko na leczeniu (X). W tym przypadku chcemy obliczyć P (Y = 1 / X = 1) – P(Y=1|X=0). Przepisujemy to wyrażenie jako:

Where we can easily plugin the expressions defined above.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.