基礎因果模型

February 09, 2022

參考了 Pearl(2009)和 Hitchcock(2018)的整理。

基本說明

基本概念

  • 集合論語言:我們會直接使用某套集合論標準語言,包括 ,,,,=,,\empty, \in, -, \subset, =, \forall, \exists 等。
  • 變數X,X1,X2,...X, X_1, X_2, ...,我們以變數來為世界狀態建立模型。也可以用 Y,ZY, Z 等。
  • x,x1,x2,...x, x_1, x_2, ...,之於變數的值。也可以用 y,zy,z 等,沒有特別說明的話,值用變數的小寫表示。
  • 模型:所有變數的集合。
  • 範圍:變數的所有可能值的集合。
  • 命題:若 xx 屬於 XX 的範圍,X=xX = x 是一個原子命題,用 p,q,rp,q,r 表示。原子命題可透過邏輯連接詞 ¬,,,,\neg, \wedge, \vee, \rightarrow, \equiv 遞迴地連接成複雜命題。這是全部的布林命題。可以使用 ,\bot,\top,分別表示矛盾句與恆真句。
  • 事件:在機率論中,把命題稱作事件,以 A,B,CA,B,C 等表示。
  • 世界:對模型中所有變數的值進行一次完整分配的結果。
  • 向量的表示:用粗體表示向量。變數的向量或說有序集合,表示成 X,Y,...\mathbf{X}, \mathbf{Y}, ...。值的向量表示成 x,y,...\mathbf{x},\mathbf{y},...
  • 集合的表示:用希臘字母表示值的集合。
  • 命題聯集的縮寫:若 ϕ\phi 是包含於變數 XX 的範圍的值的集合,XϕX\in\phi 的意思是,xϕ(X=x)\exists x\in\phi(X=x)
  • (準)世界的縮寫:X=x\mathbf{X} = \mathbf{x} 代表,若 X={X1,...,Xn}\mathbf{X}=\{X_1, ...,X_n\}x={x1,...,xn}\mathbf{x} = \{x_1,...,x_n\},則 i{1,...,n}(Xi=xi)\forall i \in \{1,...,n\}(X_i=x_i)

貝式機率論

機率論語言:

  • PP機率函數,定義域是事件,值域是 [0,1][0,1],表示事件發生的機率。
  • P(A,B)P(A,B)聯合機率,即 P(AB)P(A \wedge B)。形式定義為 P(A)=P(A,B)+P(A,¬B)P(A)=P(A,B)+P(A,\neg B)。更多事件的聯合機率可以寫成多元參數的形式,如 P(A1,A2,...,An)P(A_1,A_2,...,A_n)

機率公設:

  1. 0P(A)10\leq P(A) \leq 1
  2. P()=1P(\top) =1
  3. AB=A\wedge B = \empty,則 P(AB)=P(A)+P(B)P(A\vee B) = P(A)+P(B)

條件機率:

  • P(AB)=P(A,B)P(B)P(A|B) = \frac{P(A,B)}{P(B)}

有向無環圖(DAG, directed acyclic graph)

有向無環圖:

  • 有向圖:由頂點 V\mathbf{V} 和邊 EE (頂點到頂點的關係)構成的結構,表示成 G=(V,E)G=(\mathbf{V}, E)
  • 路徑:如果存在一個邊序列 p=e1,e2,...,enp = \lang e_1, e_2,..., e_n\rang 使得 e1=(a=v0,v1),e2=(v1,v2), ... ,en=(vn1,vn=b)e_1 = (\mathbf{a} = \mathbf{v}_0,\mathbf{v}_1), e_2 = (\mathbf{v}_1,\mathbf{v}_2),\ ...\ , e_n = (\mathbf{v}_{n-1},\mathbf{v}_n = \mathbf{b}),則 pp 是從 a\mathbf{a}b\mathbf{b} 的(有向)路徑。
  • 有向無環圖:如果一個有向圖不存在無限長的路徑,我們稱之為有向無環圖。
  • 我們也可以用箭頭連接頂點來表示單向關係。如果有必要,我們可以引入雙箭頭,這時候的圖形稱之為有向無環混合圖(ADMG, acyclic directed mixed graph)。
  • 圖的父頂點:PAj={XeE e(X,Xj)}PA_j = \{ X | \exists e\in E\ e(X, X_j) \} 代表 XjX_j 的父頂點。

有向無環圖可以由貝式網絡(Bayesian networks)(Pearl, 1985)來構成:

  • 貝式條件(或馬可夫分解條件):若 V={X1,...,Xn}\mathbf{V} =\{X_1,..., X_n\},則 P(x1,...,xn)=P(xjx1,...,xj1)P(xjpaj)P(x_1,...,x_n) =\prod{P(x_j|x_1,...,x_{j-1})} \coloneqq \prod{P(x_j|pa_j)}
  • 分解條件等價於馬可夫屏蔽條件(Pearl 1988):對於所有 XiVX_i\in \mathbf{V} 以及 Y{ZZV且 Z 不在 X的後代節點}Y\subset \{ Z| Z\in \mathbf{V} \text{且 } Z \text{ 不在 } X \text{的後代節點} \},則 P(xipai,y)=P(xipai)P(x_i|pa_i, y)=P(x_i|pa_i)
  • 馬可夫父節點:若 MPAjMPA_j 是滿足 P(xjmpaj)=P(xjx1,...,xj1)P(x_j|mpa_j)=P(x_j|x_1,...,x_{j-1}) (即「XjX_jMPAjMPA_j 以外的所有的其他前節點獨立」)的最小集合,則 MPAjMPA_jXjX_j 的馬可夫父節點。
  • 馬可夫相容性:對一個變數集合,將變數表示為頂點。如果機率函數 PPGG 使每個頂點的在 GG 上的父頂點與馬可夫父節點相同,那麼我們說 GGPP 是相容的,或 GG 表示了 PP,或 PPGG 是馬可夫相關的。

因果貝式網絡PP 是在 V\mathbf{V} 上的機率分配,干預分配 Px(v)P_x(\mathbf{v}) 表示 do(X=x)do(X=x) 干預而來的機率分配。令 P{Px(v)XV , x 是 X 範圍內的常數}P_*\coloneqq \{ P_x(\mathbf{v}) | X \subset \mathbf{V}\text{ , x 是 X 範圍內的常數} \} 。DAG GG 是相容 PP_* 的因果貝式網絡的條件是,對於所有 PxPP_x \in P_*

  1. Px(v)P_x(v)GG 馬可夫相關;
  2. 對於所有 ViXV_i \in X,若 viv_iX=xX = x 一致,則 Px(vi)=1P_x(v_i)=1
  3. 對於所有 ViXV_i \notin X,若 paipa_iX=xX= x 一致,Px(vipai)=P(vipai)P_x(v_i|pa_i)=P(v_i|pa_i)

表示成有向無環圖,讓獨立的機率關係可以看得更清楚:

  • d-分隔判準:給定 DAG,如果路徑 pp 被頂點集合 ZZ 所阻擋(d-分隔),若且唯若:
    (1) 存在 mm 屬於 ZZ 使得,pp 包含鏈 imji\rightarrow m\rightarrow j,或分叉 imji\leftarrow m \rightarrow j
    (2) pp 的所有對撞(collider) imji\rightarrow m \leftarrow j 中的 mmmm 的後代節點都不在 ZZ 裡面。
  • 如果節點 XX 到節點 YY 的所有路徑都被 ZZ 集合阻擋,那麼 ZZ d-分隔了 XXYY
  • d-分隔的機率蘊含:若 XXYYZZ 在 DAG GG 所 #d# 隔離,則對於所有與 GG 相容的機率分配 PPXXZZ 條件下都獨立於 YY,即 P(x,yZ)=P(xZ)P(yZ)P(x,y|Z)=P(x|Z)P(y|Z)

一些重要定理:

  • 有序馬可夫條件:PP 對 DAG GG 是馬可夫相容的,若且唯若,對於所有節點,存在符合 GG 的箭頭順序的方式進行某個變數排序,使得以它在 GG 的父節點作為條件時,它和所有它前面的變數都是獨立的。
  • 父節點馬可夫條件:PP 對 DAG GG 是馬可夫相容的,若且唯若,所有的變數,當它以在 GG 的父節點為條件時,它和它在 GG 的非後代節點都是獨立的。
  • 觀察等同性:如果兩個 DAG 的骨架相同,和 v-結構的集合(Verma 與 Pearl 1990)。

結構方程

結構方程:

  • 將因果網絡表示成一系列的等式,形式為:xi=fi(pai,ui)x_i=f_i(pa_i, u_i)i=1,...,ni=1,...,nV={Xii=1,...,n}\mathbf{V} = \{X_i|i=1,...,n\} 稱之為內生變數(endogenous variables)的集合。
  • 其中 UiU_i 代表隱性變數,或誤差,或外生變數(exogenous variables)的集合。
  • 外生變數不在 DAG 圖形上,與相容於 PP 的 DAG 中的節點以 \leftrightarrow 連接,形成 ADMG。
  • 透過結構方程,我們可以更容易計算干預造成的結果,而不需要計算出所有的干預分配。
  • 不難看出,變數的機率由誤差提供,並且會因為干預改變而改變分配。
  • 馬可夫條件定理(Pearl and Verma 1991):假設如果誤差變數 UiU_iPP 中是獨立的,則在 V\mathbf{V} 上的機率分配滿足馬可夫分解條件。

結構反事實句:

  • 我們可以為命題擴充反事實條件句的構式規則:若 p,qp,q 是命題,則 pqp \overrightarrow{\square} q 是一個命題,來表達在干預意義下的因果關係。(這符號有點怪,但 \Box\rightarrow 沒辦法對齊。)
  • 結構反事實句有兩個特徵:
    (1) 反事實句的前件要以干預來理解,無論它是否在某世界已經為真。
    (2) 反事實的真值完全由這些世界的因果結構及由前件而定的干預來決定。
  • 這使得結構反事實的語言(Briggs)沒有類似 modus ponens(逆否命題等同性)的規則,並且對反事實句前件做邏輯等同命題的交換不會總是保證真值。

實然原因問題:

A 和 B 考慮往窗戶丟石頭,實然上,B 丟石頭(B=1B = 1)打破了窗戶(W=1W = 1)。B 丟石頭為何是窗戶破掉的原因?

  • A=1A=1
  • W=1W=1
  • A=0W=0A=0\overrightarrow{\Box}W=0

不包含干預觀點的分析(Lewis,1973):

  • 存在 aa,wwa'\not = a, w'\not = w,使得 A=aW=WA=a'\overrightarrow{\Box}W=W' 實然地真。

預先搶占(preemption)與過度決定(overdetermination):

  • 預先搶占:如果 B 不丟石頭,A 就會丟石頭,如果 B 丟石頭,A 就不丟石頭。
  • 過度決定:A 和 B 同時丟石頭,窗戶同時被兩顆石頭打破。
  • Lewis 的分析在這兩個案例都不對。

干預觀點的分析(Halpern,2016):

  • 存在不相交變數的最小集合 (A)X(A\in) X,和另一個集合 ZZ,實然地 X=x,Z=z\mathbf{X} =\mathbf{x}, \mathbf{Z}=\mathbf{z},使得:存在 xx\mathbf{x'}\not = \mathbf{x},使得 (X=xZ=z)Ww(\mathbf{X}=\mathbf{x'}\wedge\mathbf{Z}=\mathbf{z})\overrightarrow{\Box}W\not = w 實然地真。

因果馬可夫條件(CMC,Causal Markov Condition)

  • Pearl 的 CMC(2009):若 V\mathbf{V} 的所有變數都從它在 V\mathbf{V} 中的父節點決定性地生產出來(避免量子力學等的狀況),若所有的誤差變數都在機率上彼此獨立(如果我們模型的變數夠多,誤差變數就可以接近獨立),那麼考慮表示了 V\mathbf{V} 中變數的函數獨立關係的 DAG GGV\mathbf{V} 的機率分配會滿足馬可夫條件。
  • SGS 的 CMC(2000):若 V\mathbf{V} 是妥善挑選的巨觀變數的集合,DAG GG 表示了 V\mathbf{V} 的因果結構,且 PP 是該因果結構的經驗的機率分配結果,那麼 PPGG 是馬可夫相容的,

最小與忠實條件(Faithfulness Conditions)

馬可夫條件是條件機率獨立的充分條件,但不是必要條件。根據 Spirtes(SGS 2000)的術語,可以考慮這兩個條件(忠實條件比最小條件更嚴格):

  • 最小條件:假設在 V\mathbf{V} 上的 DAG GGPP 來說滿足了馬可夫條件。最小化條件表示,對 PP 來說,沒有 GG 的在 V\mathbf{V} 上的子圖形能滿足馬可夫條件。
  • 忠實條件:所有在 V\mathbf{V} 的變數間的條件與非條件的機率依賴性都必須是馬可夫條件所要求的。

因果結構的識別性(identifiability)

給定一組變數 V\mathbf{V} 和它的機率分配 PP,如何推論出上面的因果結構?


給定時間序的識別性(Pearl 1988):若

  • V\mathbf{V} 中的變數按照時間排列;
  • PP 為每個在 V\mathbf{V} 中的變數分配正的機率值;
  • 沒有誤差變數,因此正卻的因果圖形 GG 是 DAG;
  • GG 來看,PP 滿足馬可夫條件與最小條件;

則以 PP 為基礎能夠識別出唯一的 GG


如果沒有給定時間序,這裡的唯一性就無法確定。簡單來說,考慮 {X,Y,Z}\{X,Y,Z\} 的模型,若條件獨立關係是:

  • XXYY 無條件依賴,對 ZZ 也是;
  • YYZZ 無條件依賴,對 XX 也是;
  • XXZZ 無條件依賴,對 YY 條件獨立。

則下面三個圖形是馬可夫等價的:

  • XYZX\rightarrow Y \rightarrow Z
  • XYZX\leftarrow Y \leftarrow Z
  • XYZX\leftarrow Y \rightarrow Z

但如果條件改為:

  • XXYY 無條件依賴,對 ZZ 也是;
  • YYZZ 無條件依賴,對 XX 也是;
  • XXZZ 無條件獨立,對 YY 條件依賴。

(滿足忠實條件的)馬可夫等價類只有:

  • XYZX\rightarrow Y\leftarrow Z

如果 V\mathbf{V} 是非離散的,透過對結構方程的函數進行形式上的假設,我們可能得出比馬可夫等價類更好的結論。

潛在的共因

如果不能確保潛在變數是獨立的,馬可夫屏蔽條件和分解條件都可能會失敗。我們可以用雙箭頭連結兩個有潛在共同因果的變數,這樣的圖形稱作「半馬可夫因果模型(semi-Markov causal model, SMCM)」。

在這樣的情況下,我們的馬可夫等價類可能變得過度膨脹,如果是這樣,我們會需要不同種類的機率限制來排除掉一些馬可夫等價類。

干預

從知識論的角度來看,干預和觀察有所區別:

  • 觀察只是在看一個變數如何取值。變數的值會帶來許多訊息,包括原因的訊息和結果的訊息。
  • 干預則會推翻上述的因果結構,迫使一個變數取得特定的值。在圖形上,等於我們「破壞」了所有指向該變數的箭頭。

Pearl 發展了一個叫作行動計算(do-calculus)的公理系統,能夠讓我們透過圖形去計算干預後的機率分配:

行動計算:若 GG 是一個在變數集合 V\mathbf{V} 的 DMG ,PP 是機率分配,滿足馬可夫條件。對於 V\mathbf{V} 的互斥子集合 X,Y,Z,WX, Y, Z, W,有以下規則:

  • 規則 1(觀察的插入與刪除):若 (YZX,W)GX(Y\bot Z|X,W)_{G_{\overline{X}}},則 P(yx^,z,w)=P(yx^,w)P(y | \hat{x},z,w) = P(y | \hat{x}, w)
  • 規則 2(行動與觀察的交換):若 (YZX,W)GXZ(Y\bot Z|X,W)_{G_{{\overline{X}}\underline{{Z}}}},則 P(yx^,z^,w)=P(yx^,z,w)P(y | \hat{x},\hat{z},w) = P(y | \hat{x},z, w)
  • 規則 3(行動的插入與刪除):若 (YZX,W)GX,Z(W)(Y\bot Z|X,W)_{G_{{\overline{X}},\overline{Z(W)}}},則 P(yx^,z^,w)=P(yx^,w)P(y | \hat{x},\hat{z},w) = P(y | \hat{x}, w)

其中,P(XYZ)P(X\bot Y|Z)ZZ d-分隔了 XXYY 的縮寫,GXG_{\overline{X}} 代表把 GG 中箭頭朝向 XX 的邊移除的圖形,GXG_{\underline{X}} 代表把 GG 中箭頭從 XX 出去的邊移除的圖形,Z(W)Z(W) 代表所有的不是 WW 的前節點的 zz 的集合。x^\hat{x}do(X=x)do(X=x)xx

根據行動計算,可以得到:

後門判準:若 XXYY 是在 V\mathbf{V} 中的變數,且 ZV{X,Y}Z\subset \mathbf{V}-\{X,Y\},使得

  1. ZZ 的成員都不是 XX 的前節點;並且
  2. 所有從 YY 進入 XX 的路徑都被 ZZ 所 d-分隔;

P(yx^,z)=P(yx,z)P(y|\hat{x},z)=P(y|x,z)

干預主義決策理論

這個紐康悖論的例子來自 Hitchcock:Cheryl 有週期性的缺鉀症,這會造成兩個高機率的效果:會讓他吃香蕉(他喜歡),也會讓他引起微弱偏頭痛(他不喜歡)。而他沒辦法發現自己有沒有缺鉀,也沒意識到自己有吃香蕉的渴望(他都隨便亂吃)。

K=1K=1 代表缺鉀症,B=1B=1 代表吃香蕉,M=1M=1 代表偏頭痛。假設機率分配是:

  • P(K=1)=0.2P(K=1)=0.2
  • P(B=1K=1)=0.9P(B=1|K=1)=0.9
  • P(M=1K=1)=0.9P(M=1|K=1)=0.9

若世界 w={K=k,B=b,M=m}w=\{K=k, B=b, M=m\},則效益 U(w)=b20mU(w)=b-20m。那他應該吃香蕉嗎?

根據證據決策理論(EDT, Evidential Decision Theory),他要採取能帶來最大預期效益的行動,根據計算,不吃香蕉的效益更高,因為吃香蕉和偏頭痛有很高的統計相關性。但這樣的結論很怪,因為吃香蕉和偏頭痛並沒有關係。

根據因果決策理論(CDT),應該要把行為者的行動看作干涉,而非上述作為觀察事件,再來計算期望值。透過干涉,切斷從 KKBB 的箭頭,並且讓吃香蕉和偏頭痛的相關性消失。

有個值得注意的地方是,如果 Cheryl 知道自己的行為是干預,那原先的因果結構就消失了,這麼一來 KKBB 的箭頭本來就不會在圖形上,這樣的話就會有 P(wB=b)=P(wdo(B=b))P(w|B=b)=P(w|do(B=b)),這麼一來 EDT 和 CDT 就沒有區別了。

反事實

反事實條件句可能不會總是為真,我們可以機率來考慮這個句子為真的情況有多少。

令內生變數 V={X1,X2,...,Xn}\mathbf{V}=\{X_1, X_2,...,X_n\} 與外生變數 V={U1,U2,...,Un}\mathbf{V} =\{ U_1,U_2,...,U_n \},結構方程的形式是 xi=fi(pai,ui)x_i = f_i(pa_i,u_i)PP' 是在 U\mathbf{U} 上的機率分配,可以推出 UV\mathbf{U}\cup \mathbf{V} 上的機率分配 PP

我們觀察到 Xj=xjX_j = x_j,對於所有 jS{1,...,n}j \in \mathbf{S}\subset \{1,...,n\} 。考慮反事實條件句「假若 Xk=xkX_k=x_kXl=xlX_l=x_l」,要如何估計它的機率?

  1. U\mathbf{U} 上以觀察到的條件 S\mathbf{S} 更新 P=P(XS)P''=P(\centerdot |X_{\mathbf{S}})
  2. 將等式中的 XkX_k 替換成 Xk=xkX_k =x_k
  3. PP'' 去更新在 V\mathbf{V} 上的機率 PP^*,這就是反事實條件句的機率。

但如果我們沒有完整的結構方程模型,我們就得不到反事實條件句的機率,只能以上下限來進行估計,有兩種相對的估計方式(可以使用 Pearl 的 twin network):

  1. 假如前件為假,後件因此不發生的機率有多少?Pearl 將這稱作「必然機率(probability of necessity)」。
  2. 假如前件為真,後件因此發生的機率有多少?Pearl 稱作「充分機率」。

Profile picture

Wei Hung 的筆記 / 部落格。