rakenteelliset Kausaalimallit

1.5.1 Kausaalioletusten mallinnus

edellisessä kirjoituksessa käsittelimme suunnattuja Suhdannekuvioita. Tässä osiossa opimme, miten voimme käyttää DAGs perustella syy-oletukset meidän malleja.

matemaattisesti rakenteellinen Kausaalinen malli (SCM) koostuu joukosta endogeenisia (V) ja joukosta eksogeenisia (U) muuttujia, joita yhdistää joukko funktioita (F), jotka määrittävät V: n muuttujien arvot U: n muuttujien arvojen perusteella.

intuitiivisesti, jos ajattelemme DAG: n edustavan informaatiovirtaa, niin muuttujat U ovat järjestelmän syötteitä, kun taas muuttujat V ovat niitä solmuja, joissa informaatiota käsitellään.

jokainen SCM liittyy graafiseen malliin (dag), jossa jokainen solmu on muuttuja U tai V ja jokainen reuna on funktio f. Jokainen reuna (funktio) vastaa kausaalista oletusta:

  • Jos muuttuja Y on muuttujan X lapsi, sanotaan, että Y on X: n aiheuttama tai että X on Y: n suora syy.
  • Jos muuttuja Y on muuttujan X jälkeläinen, sanotaan, että Y on mahdollisesti X: n aiheuttama, tai että X on Y: n mahdollinen aiheuttaja.

Tarkastellaanpa esimerkkiä Kuvassa 1.9:

kuva 1.9 — SCM: n graafinen malli 1.5.1

yksinkertaisesti katsomalla tätä kuviota, ymmärrämme välittömästi ja intuitiivisesti paljon taustalla olevan SCM:

  • X: llä ja Y: llä ei ole saapuvia reunoja, joten ne ovat eksogeenisia muuttujia (jotka kuuluvat U: hun).
  • Z: ssä on kaksi saapuvaa reunaa, joten se on endogeeninen muuttuja (joka kuuluu V: hen).
  • Z: llä on kaksi suoraa syytä X ja Y, eli toisin sanoen z: n arvo riippuu eksplisiittisesti X: n ja Y: n arvoista ja fz=f(X, Y).

tarvitsemme kuitenkin SCM: n täyden spesifikaation tietääksemme tarkalleen, mikä on funktio fz, joka määrittää z: n arvon. rakenteellinen Kausaalinen malli on täsmentynyt vasta, kun yllä olevan Dag: n lisäksi määrittelemme myös:

SCM 1.5.1

tässä on tärkeää huomata, että vaikka dag: t sisältävät vähemmän tietoa kuin täysin määritellyt SCM: T, ne ovat usein hyödyllisempiä. Graafit ovat erittäin visuaalisia objekteja, mikä tekee niistä helpommin tulkittavia ja analysoitavia. Usein on myös niin, että meillä ei yksinkertaisesti ole tarpeeksi tietoa SCM: n täsmentämiseksi, mutta voimme intuitiivisesti määritellä, miltä syy-seuraus-kuvaajan pitäisi näyttää.

mallien simulointi

yksi täysin määritellyn SCM: n eduista on se, että niitä on melko helppo simuloida. Esimerkiksi edellä kuvatulle SCM: lle voidaan luoda väärennettyjä (deterministisiä) tietoja:

, jolloin saadaan yksinkertainen pandas-DataFrame, jonka arvot ovat X, Y ja Z:

div>

annan anteeksi, jos tämä esimerkki ei tee sinuun erityisen suurta vaikutusta. Loppujen lopuksi ainoa asia, jonka teimme, oli tuottaa väärennettyä dataa yksinkertaisen yhtälön perusteella. Tämä ei ole erityisen vaikuttavaa, ennen kuin katsomme hieman pinnan alle:

Tämä datakehys edustaa täysin numeerista kuvausta mallistamme… toisin sanoen tämä on leluversio siitä, mitä alkuperäistä dataa olisi voitu käyttää yhdessä yllä olevan DAG: n kanssa funktion fz sovittamiseen.

Jos käsittelemme tätä Datafraamia ”empiirisenä datanamme” ja oletamme (perustuen johonkin domain-tietoon), että fz: n tulisi olla X: n ja Y: n lineaarinen regressio, voimme yksinkertaisesti sovittaa Z ~ X + Y:

palauttaa kertoimina kertomalla x ja Y:

tarkastelemme myöhemmin paljon yksityiskohtaisemmin, miten kausaalisia malleja voidaan arvioida ja sovittaa, mutta jo tämä yksinkertainen lelumalli antaa meille esimakua tulevasta ja tämän lähestymistavan yksinkertaisuudesta (ja yleisyydestä).

Stokastinen esimerkki

Katsotaanpa nyt monimutkaisempaa esimerkkiä, SCM 1.5.3. Tällöin SCM saadaan:

SCM 1.5.3

From this specification, we can easily obtain the corresponding DAG:

Graphical Model for SCM 1.5.3

We are also told that all exogenous variables are independently distributed with an expected value zero. Tämä tarkoittaa, että eksogeeniset muuttujat vastaavat havaitsemattomia vaikutuksia mallissamme, joten niitä voidaan käsitellä virhetekijöinä.

liittämällä normaalisti jaetut satunnaisarvot Ux: lle, Uy: lle ja Uz: lle voimme nopeasti rakentaa datakehyksen, jossa määritellään X: n, Y: n ja Z: n arvot.

Unohtakaamme hetkeksi, että meillä on eksplisiittiset analyyttiset kaavat, jotka tuottavat endogeenisten muuttujiemme arvot, ja käyttäkäämme Datakehyksessämme vain numeerisia arvoja.

kaikkiin tämän mallin käyttäytymistä koskeviin kysymyksiin voidaan vastata vastaavalla menettelyllä kuin edellä: sopiva lineaarinen malli (koska oletamme, että kaikki riippuvuudet ovat lineaarisia), jossa meidän havaittu arvot ovat riippumattomia muuttujia ja meidän tuntemattomia ovat riippuvaisia muuttujia.

esimerkiksi, jos haluamme tietää, mitä arvo Z voisi olla tietyn arvon Y, me yksinkertaisesti sovi Z ~ Y ja sitten plugin vastaava arvo Y. Jos Y=3, niin odotusarvo Z on 0,189261, kuten voidaan helposti todentaa kytkemällä y=3 lauseke FZ edellä (jossa me nopeasti nähdä, että Z=3/16).

toisaalta, mikä olisi z: n arvo, jos sen lisäksi, että tarkkailemme y=3, havaitsemme myös, että X=1? Tähän kysymykseen voisimme vastata Z~X+Y. kun teemme tämän sovituksen, saamme:

div>

jossa voidaan vain lukea y: n ja X: n kertoimet.Jos nyt pisteytämme X: n ja Y: n arvot, saadaan Z=0,189821, joka on samanlainen kuin yllä saatu arvo.

tämän olisi voinut arvata katsomalla yllä olevaa yhteenvetotaulukkoa. Me siemen, että kerroin X on 0,0053±0,003 joten se on hyvin lähellä nollaa, käytännössä merkityksetön.

vaikka tämä saattaa tuntua yllättävältä, se on yksi tärkeimmistä syistä, miksi tämä malliluokka on niin voimakas.

tietyn endogeenisen muuttujan arvo voi riippua vain sen vanhempien arvoista

Tämä yksinkertainen havainto tarkoittaa sitä, että voimme yksinkertaistaa laskutoimituksiamme merkittävästi jättämällä huomiotta kaikki muuttujat, jotka eivät ole sen vanhempien joukossa, josta olemme kiinnostuneita.

joka johtaa meidät seuraavaan aiheeseemme …

1.5.2 Tuotteen hajoaminen

voimme rakentaa yllä olevan havaintomme pohjalta määrittelemään yksinkertaisen, mutta voimakkaan säännön, ”Tuotteen hajoamisen säännön”, joka on määritelty kirjassa seuraavasti:

mille tahansa mallille, jonka kuvaaja on asyklinen, mallin muuttujien yhteisjakauma saadaan konditionaalisten jakaumien P(lapsi|vanhemmat) tulona kaikille kaavion ”perheille”

niin yksinkertaiselle ketjukaaviolle:

voimme heti kirjoittaa:

tämä tarkoittaa, että sen sijaan, että suuri taulukko havaintoja kunkin mahdollisen yhdistelmän X, Y ja X tarvitsemme vain paljon pienempiä taulukoita X, Y / X ja Z / Y, joka sisältää samat tiedot ja on paljon helpompi saada.

vielä tärkeämpää on, että graafiset mallit antavat meille mahdollisuuden kirjoittaa tämän hajotelman ylös ilman, että tarvitsee eksplisiittisesti tietää mitään kunkin muuttujan taustalla olevista funktioista.

In general, we write:

Let us now consider the example in Fig 1.10:

DAG from Fig 1.10 with the associated probability tables.

From this figure, we can immediately write:

and:

Which could also be obtained from the definition of the conditional probability P(X|Z). We can further write:

by the theorem of total probability. And if we plugin the values from the conditional probability tables above, we obtain:

And, similarly:

lopuksi voidaan arvioida lääkkeen (x=1) ottamisen vaikutusta kuolleisuuteen (y=1) laskemalla ero p(y=1 / x=1)-p(y=1 / x=0). Väestölle, jolla on (Z=1) ja ilman (Z=0) tautia, meillä on:

tässä pitäisi olla selvää, miksi me ehdollistamme sekä X: ää että Z: ää: me asetamme, että jokainen yksilö kuuluu tiettyyn väestöön (Z) ja ottaa tai ei ota lääkettä (X).

toisaalta, jos haluamme vain keskivertovaikutuksen koko väestössä, meidän on ehdollistuttava pelkästään hoitoon (X). Tällöin halutaan laskea P(Y=1|X=1)-P (Y=1|X=0). Me kirjoittaa tämän ilmaisun:

Where we can easily plugin the expressions defined above.

Vastaa

Sähköpostiosoitettasi ei julkaista.