Jeg tilgiver dig, hvis du ikke er særlig imponeret over dette eksempel. Trods alt, det eneste, vi gjorde, var at generere nogle falske data baseret på en simpel ligning. Dette er ikke særlig imponerende, før vi ser lidt under overfladen:
denne DataFrame repræsenterer en fuldt numerisk beskrivelse af vores model… med andre ord, Dette er en legetøjsversion af, hvad de originale data, der kunne have været brugt sammen med DAG ovenfor, til at passe til funktionen FS.
Hvis vi behandler denne DataFrame som vores “empiriske data”, og vi antager (baseret på en vis domænekendskab), at FS skal være en lineær regression af Y og Y, så kan vi simpelthen passe til ~ y:
for at komme sig som koefficienterne multiplicerer hhv. hhv:
Vi vil se meget mere detaljeret på, hvordan man vurderer og passer til kausale modeller senere, men selv denne enkle legetøjsmodel giver os allerede en smag af, hvad der skal komme og enkelheden (og generaliteten) af denne tilgang.
et stokastisk eksempel
lad os nu se på et mere komplekst eksempel, SCM 1.5.3. I dette tilfælde er SCM givet af:
SCM 1.5.3
From this specification, we can easily obtain the corresponding DAG:
Graphical Model for SCM 1.5.3
We are also told that all exogenous variables are independently distributed with an expected value zero. Dette indebærer, at de eksogene variabler svarer til uobserverede påvirkninger i vores model, så de kan behandles som fejlfaktorer.
Vi kan hurtigt opbygge en DataFrame, der specificerer værdierne for H, Y og å.
lad os glemme et øjeblik, at vi har de eksplicitte analytiske formler, der producerer værdierne for vores endogene variabler og kun bruger de numeriske værdier i Vores DataFrame.
eventuelle spørgsmål, vi måtte have om opførslen af denne model, kan besvares ved en lignende procedure som den, der blev brugt ovenfor: montering af en lineær model (da vi antager, at alle afhængigheder er lineære), hvor vores observerede værdier er de uafhængige variabler, og vores ukendte er de afhængige variabler.
for eksempel, hvis vi vil vide, hvad værdien af Å kan være for en bestemt værdi af Y, Ville vi simpelthen passe på Y ~ Y og derefter plugin den tilsvarende værdi af Y. Hvis Y=3, så er den forventede værdi af Å 0.189261, som det let kan verificeres ved at tilslutte Y=3 i udtrykket for FS ovenfor (hvor vi hurtigt ser at Å=3/16).
på den anden side, hvad ville værdien af å være, hvis vi ud over at observere Y=3 også observerer det H=1? Når vi udfører denne pasform, får vi:
hvor vi lige kan aflæse koefficienterne for Y og H. hvis vi nu tilslutter værdierne for H og y, opnår vi h=0,189821, hvilket svarer til den ovenfor opnåede værdi.
Vi kunne have gættet, at dette ville være resultatet ved at se på oversigtstabellen ovenfor. Vi frø, at koefficienten for H er 0,0053 liter 0,003, hvilket gør det meget tæt på nul, praktisk talt ubetydelig.
selvom dette kan virke overraskende, er det en af hovedårsagerne til, at denne klasse af modeller er så kraftig.
værdien af en specifik endogen variabel kan kun afhænge af forældrenes værdier
denne enkle observation betyder, at vi kan forenkle vores beregninger betydeligt ved at ignorere variabler, der ikke er blandt forældrene til den, vi er interesseret i.
hvilket fører os til vores næste emne…
1.5.2 produktnedbrydning
Vi kan bygge op på vores observation ovenfor for at definere en simpel, men alligevel kraftig regel, “Reglen om produktnedbrydning”, der er defineret i bogen som:
for enhver model, hvis Graf er acyklisk, er den fælles fordeling af variablerne i modellen givet af produktet af de betingede distributioner P(barn|forældre) over alle “familier” i grafen
så for en simpel kædegraf: