strukturelle kausale modeller

1.5.1 modellering kausale antagelser

i det forrige indlæg dækkede vi rettede acykliske grafer. I dette afsnit lærer vi, hvordan vi kan bruge Dag ‘ er til at begrunde årsagsforudsætningerne i vores modeller.

matematisk består en strukturel kausal Model (SCM) af et sæt endogene (V) og et sæt eksogene (U) variabler forbundet med et sæt funktioner (F), der bestemmer værdierne for variablerne i V baseret på værdierne for variablerne i U.

intuitivt, hvis vi tænker på en DAG som repræsenterer en strøm af information, så er variablerne U input til systemet, mens variablerne V er de noder, hvor disse oplysninger behandles.

hver SCM er forbundet med en grafisk model (DAG), hvor hver node er en variabel i U eller V, og hver kant er en funktion f. hver kant (funktion) svarer til en kausal antagelse:

  • hvis variablen Y er barnet til en variabel, så siger vi, at Y er forårsaget af H, eller at H er den direkte årsag til Y. 1.9:

    fig 1.9 — grafisk model af SCM 1.5.1

    fra blot at se på denne graf, vi straks og intuitivt, forstå en masse af detaljerne i den underliggende SCM:og Y har ingen indkommende kanter, så de er eksogene variabler (tilhører U).

  • Å har to indkommende kanter, så det er en endogen variabel (tilhørende V).
  • S har to direkte årsager S og Y, eller med andre ord afhænger værdien af S eksplicit af værdierne S og Y og FS=f(S, Y).
  • Vi har dog brug for den fulde specifikation af SCM for at vide nøjagtigt, hvad der er funktionen FS, der bestemmer værdien af Å. den strukturelle Årsagsmodel er kun fuldt specificeret, når vi ud over DAG ovenfor også specificerer:

    SCM 1.5.1

    Her er det vigtigt at bemærke, at selvom dag ‘ er indeholder mindre information end den fuldt specificerede SCM, er de ofte mere nyttige. Grafer er ekstremt visuelle objekter, hvilket gør dem lettere at fortolke og analysere. Det er også ofte tilfældet, hvor vi simpelthen ikke har nok information til fuldt ud at specificere SCM, men intuitivt kan definere, hvordan årsagsgrafen skal se ud.

    simulering af modeller

    en af fordelene ved en fuldt specificeret SCM er, at de er ret nemme at simulere. For eksempel kan vi oprette nogle falske (deterministiske) data for SCM beskrevet ovenfor:

    som genererer en simpel pandas DataFrame med værdierne af H, Y og å:

    Jeg tilgiver dig, hvis du ikke er særlig imponeret over dette eksempel. Trods alt, det eneste, vi gjorde, var at generere nogle falske data baseret på en simpel ligning. Dette er ikke særlig imponerende, før vi ser lidt under overfladen:

    denne DataFrame repræsenterer en fuldt numerisk beskrivelse af vores model… med andre ord, Dette er en legetøjsversion af, hvad de originale data, der kunne have været brugt sammen med DAG ovenfor, til at passe til funktionen FS.

    Hvis vi behandler denne DataFrame som vores “empiriske data”, og vi antager (baseret på en vis domænekendskab), at FS skal være en lineær regression af Y og Y, så kan vi simpelthen passe til ~ y:

    for at komme sig som koefficienterne multiplicerer hhv. hhv:

    Vi vil se meget mere detaljeret på, hvordan man vurderer og passer til kausale modeller senere, men selv denne enkle legetøjsmodel giver os allerede en smag af, hvad der skal komme og enkelheden (og generaliteten) af denne tilgang.

    et stokastisk eksempel

    lad os nu se på et mere komplekst eksempel, SCM 1.5.3. I dette tilfælde er SCM givet af:

    SCM 1.5.3

    From this specification, we can easily obtain the corresponding DAG:

    Graphical Model for SCM 1.5.3

    We are also told that all exogenous variables are independently distributed with an expected value zero. Dette indebærer, at de eksogene variabler svarer til uobserverede påvirkninger i vores model, så de kan behandles som fejlfaktorer.

    Vi kan hurtigt opbygge en DataFrame, der specificerer værdierne for H, Y og å.

    lad os glemme et øjeblik, at vi har de eksplicitte analytiske formler, der producerer værdierne for vores endogene variabler og kun bruger de numeriske værdier i Vores DataFrame.

    eventuelle spørgsmål, vi måtte have om opførslen af denne model, kan besvares ved en lignende procedure som den, der blev brugt ovenfor: montering af en lineær model (da vi antager, at alle afhængigheder er lineære), hvor vores observerede værdier er de uafhængige variabler, og vores ukendte er de afhængige variabler.

    for eksempel, hvis vi vil vide, hvad værdien af Å kan være for en bestemt værdi af Y, Ville vi simpelthen passe på Y ~ Y og derefter plugin den tilsvarende værdi af Y. Hvis Y=3, så er den forventede værdi af Å 0.189261, som det let kan verificeres ved at tilslutte Y=3 i udtrykket for FS ovenfor (hvor vi hurtigt ser at Å=3/16).

    på den anden side, hvad ville værdien af å være, hvis vi ud over at observere Y=3 også observerer det H=1? Når vi udfører denne pasform, får vi:

    hvor vi lige kan aflæse koefficienterne for Y og H. hvis vi nu tilslutter værdierne for H og y, opnår vi h=0,189821, hvilket svarer til den ovenfor opnåede værdi.

    Vi kunne have gættet, at dette ville være resultatet ved at se på oversigtstabellen ovenfor. Vi frø, at koefficienten for H er 0,0053 liter 0,003, hvilket gør det meget tæt på nul, praktisk talt ubetydelig.

    selvom dette kan virke overraskende, er det en af hovedårsagerne til, at denne klasse af modeller er så kraftig.

    værdien af en specifik endogen variabel kan kun afhænge af forældrenes værdier

    denne enkle observation betyder, at vi kan forenkle vores beregninger betydeligt ved at ignorere variabler, der ikke er blandt forældrene til den, vi er interesseret i.

    hvilket fører os til vores næste emne…

    1.5.2 produktnedbrydning

    Vi kan bygge op på vores observation ovenfor for at definere en simpel, men alligevel kraftig regel, “Reglen om produktnedbrydning”, der er defineret i bogen som:

    for enhver model, hvis Graf er acyklisk, er den fælles fordeling af variablerne i modellen givet af produktet af de betingede distributioner P(barn|forældre) over alle “familier” i grafen

    så for en simpel kædegraf:

    Vi kan straks skrive:

    Dette betyder, at i stedet for en stor tabel med observationer for hver mulig kombination af X -, Y-og X-vi skal bare meget mindre borde for X, Y|X og Z|Y, som vil indeholde de samme oplysninger, og det er meget mere let at opnå.

    endnu vigtigere giver grafiske modeller os mulighed for at nedskrive denne nedbrydning uden at skulle eksplicit vide noget om de funktioner, der ligger til grund for hver variabel.

    In general, we write:

    Let us now consider the example in Fig 1.10:

    DAG from Fig 1.10 with the associated probability tables.

    From this figure, we can immediately write:

    and:

    Which could also be obtained from the definition of the conditional probability P(X|Z). We can further write:

    by the theorem of total probability. And if we plugin the values from the conditional probability tables above, we obtain:

    And, similarly:

    Endelig, vi kan vurdere effekten på dødelighed (Y=1) for at tage lægemidlet (X=1) ved at beregne forskellen P(Y=1|X=1)-P(Y=1|X=0). For befolkningen med (å=1) og uden (å=0) sygdommen har vi:

    Her skal det være klart, hvorfor vi konditionerer både h og å: vi pålægger, at hver enkelt tilhører en bestemt befolkning (Å) og tager eller ikke medicinen (h).

    på den anden side, hvis vi ønsker bare gennemsnitlig effekt på tværs af hele befolkningen, så er vi nødt til at konditionere bare på behandlingen. I dette tilfælde vil vi beregne P(Y=1|H=1)-P (Y=1|h=0). Vi omskriver dette udtryk som:

    Where we can easily plugin the expressions defined above.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.