1.5.1 modelarea ipotezelor cauzale
în postarea anterioară am acoperit graficele aciclice direcționate. În această secțiune, învățăm cum putem folosi dag-urile pentru a raționa despre ipotezele cauzale din modelele noastre.matematic, un model cauzal Structural (SCM) constă dintr-un set de variabile endogene (V) și un set de variabile exogene (U) conectate printr-un set de funcții (F) care determină valorile variabilelor din V pe baza valorilor variabilelor din U.
intuitiv, Dacă ne gândim la un DAG ca reprezentând un flux de informații, atunci variabilele U sunt intrările în sistem, în timp ce variabilele V sunt nodurile în care sunt procesate informațiile respective.
fiecare SCM este asociat cu un model grafic (DAG) în care fiecare nod este o variabilă în U sau V și fiecare margine este o funcție f. fiecare margine (funcție) corespunde unei presupuneri cauzale:
- dacă variabila Y este copilul unei variabile X, atunci spunem că Y este cauzat de X sau că X este cauza directă a lui Y.
- dacă variabila Y este descendentul unei variabile X, atunci spunem că Y este potențial cauzat de X sau că X este cauza potențială a lui Y.
să luăm în considerare exemplul din Fig 1.9:
vom analiza mult mai detaliat cum să evaluăm și să potrivim modelele cauzale mai târziu, dar chiar și acest model simplu de jucărie ne oferă deja un gust al ceea ce urmează și simplitatea (și generalitatea) acestei abordări.
un exemplu stocastic
Să aruncăm acum o privire la un exemplu mai complex, SCM 1.5.3. În acest caz, CSM este dat de:
From this specification, we can easily obtain the corresponding DAG:
We are also told that all exogenous variables are independently distributed with an expected value zero. Aceasta implică faptul că variabilele exogene corespund influențelor neobservate din modelul nostru, deci pot fi tratate ca factori de eroare.conectând valori aleatorii distribuite normal pentru Ux, Uy și Uz putem construi rapid un cadru de date specificând valorile X, Y și Z.
să uităm pentru o secundă că avem formulele analitice explicite care produc valorile variabilelor noastre endogene și folosesc doar valorile numerice din cadrul nostru de date.
orice întrebări pe care le-am putea avea despre comportamentul acestui model pot fi răspuns printr-o procedură similară cu cea utilizată mai sus: montarea unui model liniar (deoarece presupunem că toate dependențele sunt liniare) unde valorile noastre observate sunt variabilele independente și necunoscutele noastre sunt variabilele dependente.
de exemplu, dacă vrem să știm care ar putea fi valoarea lui Z pentru o anumită valoare a lui Y, ne-am potrivi pur și simplu Z ~ Y și apoi plugin valoarea corespunzătoare a lui Y. Dacă Y=3, atunci valoarea așteptată a lui Z este 0.189261, așa cum se poate verifica cu ușurință prin conectarea Y=3 în expresia pentru fZ de mai sus (unde vedem rapid că Z=3/16).
pe de altă parte, care ar fi valoarea lui Z dacă pe lângă observarea lui Y=3, observăm și că X=1? Pentru a răspunde la această întrebare am putea potrivi Z~X+Y. când efectuăm această potrivire, obținem:
unde putem citi doar coeficienții pentru Y și X. Dacă acum conectăm valorile lui X și y, obținem z=0.189821 care este similar cu valoarea obținută mai sus.
am fi putut ghici acest lucru ar fi rezultatul uitandu-se la tabelul rezumat de mai sus. Semănăm că coeficientul pentru X este 0.0053 0.003, ceea ce îl face foarte aproape de zero, practic neglijabil.
deși acest lucru ar putea părea surprinzător, este unul dintre principalele motive pentru care această clasă de modele este atât de puternică.
valoarea unei variabile endogene specifice poate depinde doar de valorile părinților săi
această observație simplă înseamnă că ne putem simplifica semnificativ calculele ignorând orice variabile care nu sunt printre părinții celui care ne interesează.
ceea ce ne conduce la următorul subiect…
1.5.2 descompunerea produsului
putem construi pe observația noastră de mai sus pentru a defini o regulă simplă, dar puternică, „regula descompunerii produsului” care este definită în carte ca:
pentru orice model al cărui grafic este aciclic, distribuția comună a variabilelor din model este dată de produsul distribuțiilor condiționale P(copil|părinți) peste toate „familiile” din grafic
deci pentru un grafic simplu în lanț:
putem scrie imediat:
aceasta înseamnă că în loc de un tabel mare de observații pentru fiecare combinație posibilă de X, Y și X avem nevoie doar de tabele mult mai mici pentru X, Y / X și Z / Y care vor conține aceleași informații și sunt mult mai ușor de obținut.mai important, modelele grafice ne permit să notăm această descompunere fără a fi nevoie să știm în mod explicit nimic despre funcțiile care stau la baza fiecărei variabile.
In general, we write:
Let us now consider the example in Fig 1.10:
From this figure, we can immediately write:
and:
Which could also be obtained from the definition of the conditional probability P(X|Z). We can further write:
by the theorem of total probability. And if we plugin the values from the conditional probability tables above, we obtain:
And, similarly:
în cele din urmă, putem estima efectul asupra mortalității (y=1) de a lua medicamentul (x=1) prin calcularea diferenței p(y=1 / x=1)-p(y=1 / x=0). Pentru populația cu (Z=1) și fără (Z=0) boala, avem:
aici ar trebui să fie clar de ce condiționăm atât X, cât și z: impunem ca fiecare individ să aparțină unei populații specifice (Z) și să ia sau nu medicamentul (x).
Pe de altă parte, dacă vrem doar un efect mediu în întreaga populație, atunci trebuie să condiționăm doar tratamentul (X). În acest caz, dorim să calculăm P(Y=1|X=1)-P(Y=1|X=0). Rescriem această expresie ca:
Where we can easily plugin the expressions defined above.