第41 章貝葉斯統計入門| 醫學統計學
文章推薦指數: 80 %
41.2 貝葉斯概率推理/逆概率Bayesian reasoning/inverse probability. 首先,不得不承認的一個事實是,所有的概率都是條件概率。
要麼是根據已知的信息。
在LSHTM的統計學筆記
前言
我是誰
I概率論Probability
1概率論入門:定義與公理
1.1三個概率公理:
1.2條件概率Conditionalprobability
1.3獨立(independence)的定義
1.4賭博問題
1.5賭博問題的答案
2Bayes貝葉斯理論的概念
3期望Expectation(或均值ormean)和方差Variance
3.1方差的性質:
4伯努利分佈Bernoullidistribution
5二項分佈的概念Binomialdistribution
5.1二項分佈的期望和方差
5.2超幾何分佈hypergeometricdistribution
5.3樂透中獎概率問題:
5.3.1如果我只想中其中的\(3\)個號碼,概率有多大?
6泊松分佈PoissonDistribution
7正(常)態分佈NormalDistribution
7.1概率密度曲線probabilitydensityfunction,PDF
7.2正(常)態分佈
7.3標準正(常)態分佈
8中心極限定理theCentralLimitTheorem
8.1協方差Covariance
8.2相關Correlation
8.3中心極限定理theCentralLimitTheorem
8.4二項分佈的正(常)態分佈近似
8.5泊松分佈的正(常)態分佈近似
8.6正(常)態分佈模擬的校正:continuitycorrections
8.6.1例題
8.7兩個連續隨機變量
8.8兩個連續隨機變量例子:
8.9條件分佈和邊緣分佈的概念
8.10條件分佈和邊緣分佈的例子
8.10.1例題
II統計推斷Inference
9統計推斷的概念
9.1人羣與樣本(populationandsample)
9.2樣本和統計量(sampleandstatistic)
9.3估計Estimation
9.4信賴區間confidenceintervals
10估計和精確度EstimationandPrecision
10.1估計量和他們的樣本分佈
10.2估計量的特質
10.2.1偏倚
10.2.2估計量的效能Efficiency
10.2.3均值和中位數的相對效能
10.2.4均方差meansquareerror(MSE)
10.3總體方差的估計,自由度
10.4樣本方差的樣本分佈
11卡方分佈Chi-squaredistribution
11.1卡方分佈的期望和方差的證明
11.2卡方分佈的期望
11.3卡方分佈的方差
11.3.1下面來求\(E(X_1^4)\)
11.4把上面的推導擴展
12似然Likelihood
12.1概率vs. 推斷Probabilityvs. Inference
12.2似然和極大似然估計Likelihoodandmaximumlikelihoodestimators
12.3似然方程的一般化定義
12.4對數似然方程log-likelihood
12.5極大似然估計(maximumlikelihoodestimator,MLE)的性質:
12.6率的似然估計Likelihoodforarate
12.7有\(n\)個獨立觀察時的似然方程和對數似然方程
13對數似然比Log-likelihoodratio
13.1正態分佈數據的極大似然和對數似然比
13.2\(n\)個獨立正態分佈樣本的對數似然比
13.3\(n\)個獨立正態分佈樣本的對數似然比的分佈
13.4似然比信賴區間
13.4.1以二項分佈數據爲例
13.4.2以正態分佈數據爲例
13.5InferencePractical05
13.5.1Q1
13.5.2Q2
13.5.3Q3
14二次方程近似法求對數似然比approximatelog-likelihoodratios
14.1正態近似法求對數似然Normalapproximationtothelog-likelihood
14.1.1近似法估算對數似然比的信賴區間
14.1.2以泊松分佈爲例
14.1.3以二項分佈爲例
14.2參數转换parametertransformations
14.2.1以泊松分佈爲例
14.2.2以二項分佈爲例
14.3InferencePractical06
14.3.1Q1
14.3.2Q2
15假設檢驗的構建Constructionofahypothesistest
15.1什麼是假設檢驗Hypothesistesting
15.2錯誤概率和效能方程errorprobabilitiesandthepowerfunction
15.2.1以二項分佈爲例
15.3如何選擇要檢驗的統計量
15.3.1以已知方差的正態分佈爲例
15.4複合假設compositehypotheses
15.4.1單側替代假設
15.4.2雙側替代假設
15.5爲反對零假設\(H_0\)的證據定量
15.5.1回到正態分佈的均值比較問題上來(單側替代假設)
15.6雙側替代假設情況下,雙側\(p\)值的定量方法
15.7假設檢驗構建之總結
15.8InferencePractical07
15.8.1Q1
16假設檢驗的近似方法
16.1近似和精確檢驗approximateandexacttests
16.2精確檢驗法之–似然比檢驗法Likelihoodratiotest
16.3練習題
16.4近似檢驗法之–Wald檢驗
16.4.1再以二項分佈爲例
16.5近似檢驗法之–Score检验
16.5.1再再以二項分佈爲例
16.6LRT,Wald,Score檢驗三者的比較
16.7InferencePractical08
16.7.1Q1
16.7.2Q2
16.7.3Q3
17正態誤差模型Normalerrormodels
17.1服從正態分佈的隨機變量
17.2\(F\)分佈和\(t\)分佈的概念
17.3兩個參數的模型
17.3.1一組數據兩個參數
17.3.2兩組數據各一個參數
17.4正態分佈概率密度方程中總體均值和方差都未知(單樣本\(t\)檢驗onesample\(t\)test的統計學推導)
17.5比較兩組獨立數據的均值twosample\(t\)testwithequalunknown\(\sigma^2\)
17.6各個統計分佈之間的關係
17.7InferencePractical09
18多個參數時的統計推斷InferencewithmultipleparametersI
18.1多參數multipleparameters-LRT
18.1.1似然likelihood
18.1.2對數似然比檢驗
18.2多參數Wald檢驗-Waldtest
18.3多參數Score檢驗-Scoretest
18.4條件似然conditionallikelihood
18.5InferencePractical10
19多個參數時的統計推斷–子集似然函數profilelog-likelihoods
19.1子集似然法推導的過程總結
19.1.1子集對數似然方程的分佈
19.1.2假設檢驗過程舉例
19.2子集對數似然比的近似
19.2.1子集對數似然比近似的一般化
19.2.2事件發生率之比的Wald檢驗統計量
19.3InferencePractical11
20統計推斷總結
20.0.1快速複習
20.0.2試爲下面的醫學研究問題提出合適的統計學模型
20.0.3醫生來找統計學家問問題
III統計分析方法AnalyticalTechniques
21探索數據和簡單描述
21.1數據分析的流程
21.1.1研究設計和實施
21.1.2數據分析
21.2數據類型
21.3如何總結並展示數據
21.3.1離散型分類型數據的描述-頻數分佈表frequencytable
21.3.2連續型變量
21.4數據總結方案:位置,分散,偏度,和峰度
21.4.1位置
21.4.2分散
21.4.3偏度skewness
21.4.4峯度kurtosis
22信賴區間confidenceintervals
22.1定義
22.2利用總體參數的樣本分佈求信賴區間
22.3情況1:已知方差的正態分佈數據均值的信賴區間
22.4信賴區間的意義
22.5情況2:未知方差,但是已知服從正態分佈數據均值的信賴區間
22.6情況3:服從正態分佈的隨機變量方差的信賴區間
22.7當樣本量足夠大時
22.8情況4:求人羣百分比的信賴區間
22.8.1一般原則
22.8.2二項分佈的“精確法”計算信賴區間
22.8.3二項分佈的近似法計算信賴區間
22.9率的信賴區間
22.9.1利用泊松分佈精確計算
22.9.2利用正態近似法計算
23假設檢驗
23.1拋硬幣的例子
23.1.1單側和雙側檢驗
23.1.2\(p\)值的意義
23.1.3\(p\)值和信賴區間的關係
23.2二項分佈的精確假設檢驗
23.3當樣本量較大
23.4二項分佈的正態近似法假設檢驗
23.4.1連續性校正continuitycorrection
23.5情況1:對均值進行假設檢驗(方差已知)
23.6情況2:對均值進行假設檢驗(方差未知)theone-samplet-test
23.7情況3:對配對實驗數據的均值差進行假設檢驗thepairedt-test
24相關association
24.1背景介紹
24.2兩個連續型變量的相關分析
24.2.1相關係數的定義
24.2.2相關係數的性質
24.2.3對相關係數是否爲零進行假設檢驗
24.2.4相關係數的\(95\%\)信賴區間
24.2.5比較兩個相關係數是否相等
24.2.6相關係數那些事兒
24.2.7在R裏面計算相關係數
24.3二元變量之間的相關性associationbetweenpairsofbinaryvariables
24.3.1OR的信賴區間
24.3.2比值比的假設檢驗
24.3.3兩個百分比的卡方檢驗
24.3.4確切檢驗法Fisher’s“exact”test
24.4多分類(無排序)的情況\(M\timesN\)表格
25比較Comparisons
25.1比較兩個均值comparingtwopopulationmeans
25.1.1當方差已知,且數據服從正態分佈Z-test
25.1.2當方差未知,但是方差可以被認爲相等,且數據服從正態分佈twosample\(t\)test
25.1.3練習
25.1.4當方差未知,但是方差不可以被認爲相等,且數據服從正態分佈
25.2兩個人羣的方差比較
25.2.1方差比值檢驗varianceratiotest
25.2.2信賴區間
25.3比較兩個百分比
25.3.1兩個百分比差是否爲零的推斷Riskdifference
25.3.2兩個百分比商是否爲1的推斷relativerisk/riskratio
26前提和數據轉換Assumptionsandtransformations
26.1穩健性
26.2正態性
26.2.1正態分佈圖normalplot
26.3總結連續型變量不服從正態分佈時的處理方案
26.4數學冪轉換powertransformations
26.4.1對數轉換logarithmicTransformation
26.4.2逆轉換信賴區間back-transformationofCIs
26.4.3對數正態分佈log-normaldistribution
26.4.4百分比的轉換
IV線性迴歸LinearRegression
27簡單線性迴歸SimpleLinearRegression
27.1一些背景和術語
27.2簡單線性迴歸模型simplelinearregressionmodel
27.2.1數據A
27.2.2數據B
27.3區分因變量和預測變量
27.3.1均值(期待值)公式
27.3.2條件分佈和方差theconditionaldistributionandthevariancefunction
27.3.3定義簡單線性迴歸模型
27.3.4殘差residuals
27.4參數的估計estimationofparameters
27.4.1普通最小二乘法估計\(\alpha,\beta\)
27.5殘差方差的估計Estimationoftheresidualvariance\((\sigma^2)\)
27.6R演示例1:圖@ref(fig:age-wt)數據
27.7R演示例2:表@ref(tab:walk)數據
27.8LMpractical01
27.8.1兩次測量的膽固醇水平分別用\(C_1,C_2\)來標記的話,考慮這樣的簡單線性迴歸模型:\(C_2=\alpha+\betaC_2+\varepsilon\)。
我們進行這樣迴歸的前提假設有哪些?
27.8.2計算普通最小二乘法(OLS)下,截距和斜率的估計值\(\hat\alpha,\hat\beta\)
27.8.3和迴歸模型計算的結果作比較,解釋這些估計值的含義
27.8.4加上計算的估計值直線(即迴歸直線)
27.8.5下面的代碼用於模型的假設診斷
28最小二乘估計的性質和推斷OrdinaryLeastSquaresEstimatorsandInference
28.1OLS估計量的性質
28.2\(\hat\beta\)的性質
28.2.1\(Y\)對\(X\)迴歸,和\(X\)對\(Y\)迴歸
28.2.2例1:還是圖@ref(fig:age-wt)數據
28.3截距和迴歸係數的方差,協方差
28.3.1中心化centring
28.4\(\alpha,\beta\)的推斷
28.4.1對迴歸係數進行假設檢驗
28.4.2迴歸係數,截距的信賴區間
28.4.3預測值的信賴區間(置信帶)-測量迴歸曲線本身的不確定性
28.4.4預測帶Referencerange-包含了95%觀察值的區間
28.5線性迴歸模型和Pearson相關係數
28.5.1\(r^2\)可以理解爲因變量平方和被模型解釋的比例
28.6Pearson相關係數和模型迴歸係數的檢驗統計量\(t\)之間的關係
28.7LMpractical02
29方差分析IntroductiontoAnalysisofVariance
29.1背景
29.2簡單線性迴歸模型的方差分析
29.2.1兩個模型的參數估計
29.2.2分割零假設模型的殘差平方和
29.2.3\(R^2\)–我的名字叫決定係數coefficientofdetermination
29.2.4方差分析表格theANOVAtable
29.2.5用ANOVA進行假設檢驗
29.2.6簡單線性迴歸時的\(F\)檢驗
29.2.7簡單線性迴歸時\(F\)檢驗和\(t\)檢驗的一致性
29.3分類變量用作預測變量時的ANOVA
29.3.1一個二分類預測變量
29.3.2一個模型,兩種表述
29.3.3分組變量的平方和
29.3.4簡單模型的分組變量大於兩組的情況
29.4LMpractical03
30多元模型分析MultivariableModels
30.1兩個預測變量的線性迴歸模型
30.1.1數學標記法和解釋
30.1.2最小平方和估計LeastSquaresEstimation
30.2線性回歸模型中使用分組變量
30.3協方差分析模型theAnalysisofCovariance(ANCOVA)Model
30.4偏回歸係數的變化
30.4.1情況1:\(\beta_1>\beta_1^*\)
30.4.2情況2:\(\beta_1\text{plaus}(B)\)and
\(\text{plaus}(B)>\text{plaus}(A)\)then
\(\text{plaus}(C)>\text{plaus}(A)\)
一致性,consistency:事件\(A\)發生的可能性只取決於所有與\(A\)直接相關的信息,而不包括那些推理到與\(A\)相關信息之前的信息。
Theplausibilityofproposition\(A\)dependsonlyontherelevantinformationon\(A\)andnotonthepathofreasoningfollowedtoarriveat\(A\).
R.T.Cox證明了他提出的這些規則可以完全適用於所有的可能性計算,而且可能性(plausibility)的這些規則和概率(probability)的微積分計算完全一致。
所以利用上面的可能性規則,我們可以對條件概率進行更深層次的定義:
\[\text{Pr}(A|B)=\frac{\text{Pr}(B|A)\text{Pr}(A)}{\text{Pr}(B)}\propto\text{Pr}(B|A)\text{Pr}(A)\]
用文字表述爲:
事後概率\(\propto\)似然\(\times\)先驗概率
其中:
事後概率,posteriorprobability:\(B\)發生的條件下,\(A\)發生的概率;
\(\propto\):與…成正比;
似然,likelihood:\(A\)發生的條件下,\(B\)發生的概率;
先驗概率,priorprobability:事件\(A\)發生的概率。
這就是貝葉斯定理。
這個定理也告訴我們爲什麼貝葉斯論證在18,19世紀時被叫做“逆概率推理,inverseprobabilityreasoning”。
因爲似然(\(A\)發生的條件下,\(B\)發生的概率)在與先驗概率相乘以後,概率發生了逆轉–事後概率(\(B\)發生的條件下,\(A\)發生的概率)。
回頭再來看之前的珠寶店盜竊案:
事件\(A\):珠寶店正在發生盜竊案;
事件\(B\):一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出。
所以:
\(\text{Pr}(A)=\)珠寶店發生盜竊案的概率–先驗概率(priorprobability);
\(\text{Pr}(B|A)=\)當珠寶店發生盜竊案時,觀察到“一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”事件的可能性–似然(likelihood);
\(\text{Pr}(A|B)\)當觀察到“一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”事件時,倒推珠寶店發生了盜竊案的概率–事後概率(posteriorprobability)。
用例子來解釋貝葉斯推理之後你會發現,其實貝葉斯思想也是純粹的概率理論。
與經典概率論不同的是,我們沒有必要認爲某些事件發生的概率需要被重複實驗驗證。
貝葉斯對整個世界的理解源於我們每個人自己認爲的事件發生概率(personalisiticprobability),或者叫信念度(degreeofbelief)。
41.3貝葉斯推理的統計學實現
在經典概率論中,概率分佈的標記\(f_X(x;\theta)\)的涵義爲:
對於一個隨機變量\(X\),它在我們假設的某種固定的真實(上帝才知道是多少的)參數\(\theta\)的分佈框架下,不斷重複相同的實驗之後獲得的概率分佈。
在貝葉斯統計推理中,一切都被看作是一個服從概率分佈的隨機變量。
利用貝葉斯定理,我們將先驗隨機概率分佈(priorprobabilitydistribution),和觀察數據作條件概率(conditionontheobserveddata),從而獲得事後概率分佈(posteriorprobabilitydistribution)。
41.3.1醫學診斷測試diagnostictesting
貝葉斯推理最常用的實例是在診斷測試中,即當一個人拿着陽性的檢驗報告結果來找你,你如何判斷這個人有多大的概率真的患有該疾病。
用\(D\)標記患病,\(\bar{D}\)標記不患病;\(T\)標記檢查結果爲陽性,\(\bar{T}\)標記檢查結果爲陰性。
那麼,陽性檢查結果時,真的患病的概率\(\text{Pr}(D|T)\):
\[
\begin{aligned}
\text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T)}\\
&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}
\end{aligned}
\]
其中分母的轉換用到了LawofTotalProbability(L.T.P):
\[
\begin{aligned}
\text{Pr}(T)&=\text{Pr}(T\capD)+\text{Pr}(T\cap\bar{D})\\
&=\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})
\end{aligned}
\]
所以說,貝葉斯定理在這裏告訴我們,要計算\(\text{Pr}(D|T)\)我們只需要下列幾個信息:
患病率:\(\text{Pr}(D)\)
檢測手段的敏感度(sensitivity):\(\text{Pr}(T|D)\)
檢測手段的1-特異度(specificity):\(\text{Pr}(T|\bar{D})=1-\text{Pr}(\bar{T}|\bar{D})\)
41.3.2HIV檢查時的應用
假設人羣中患病率爲\(1/1000\),所用的HIV檢測手段的敏感度爲\(0.99\),特異度爲\(0.98\)。
試計算該檢測HIV手段的事後概率(即拿到陽性結果時,患病的概率\(\text{Pr}(D|T)\))。
解
令\(D=\text{HIVpositive},\bar{D}=\text{HIVnegative}\\T=\text{testpostive},\bar{T}=\text{testnegative}\)
\[
\begin{aligned}
\text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}\\
&=\frac{0.99\times0.001}{0.99\times0.001+(1-0.98)\times0.999}\\
&=0.0472
\end{aligned}
\]
如果特異度能達到\(0.99\)
\[
\begin{aligned}
\text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}\\
&=\frac{0.99\times0.001}{0.99\times0.001+(1-0.99)\times0.999}\\
&=0.0901
\end{aligned}
\]
如果特異度能達到\(0.999\)
\[
\begin{aligned}
\text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}\\
&=\frac{0.99\times0.001}{0.99\times0.001+(1-0.999)\times0.999}\\
&=0.497
\end{aligned}
\]
可見,對於像HIV這樣人羣中患病率較爲罕見的疾病,其檢驗手段的敏感度,特異度都要達到極高才能讓檢驗結果可靠,即拿到陽性結果的人的確患有該疾病。
其中當敏感度爲\(0.99\),特異度爲\(0.999\)時,才能讓這樣的檢驗手段達到接近一半的可靠程度(即只有接近一半的陽性結果是真陽性)。
注意本例爲貝葉斯理論的特例,即我們使用的是一個固定的先驗概率(prior)和似然(likelihood)。
一般情況下,先驗概率和似然會有自己的概率分佈(probabilitydistribution),而很少會是一個固定的值,其相應的事後概率(posterior)也擁有概率分佈,並且使用它本身的均值和方差來描述。
41.3.3離散概率分佈實例:遺傳學分析
這裏輔助我們理解的實例來自經典書目BDA(Gelmanetal.2013)第一章節1.4小節P8-9。
這一實例同樣可以讓我們清晰的理解先驗概率,似然,和後驗概率。
已知血友病(Hemophilia)是一種遺傳性疾病。
它是X-染色體隱性疾病。
也就是說,當性別為男性時,攜帶該缺陷基因意味著必然會發病,因為男性只有一條X染色體。
相反,女性則需要兩條X染色體同時攜帶該缺陷基因才會發病。
而且女性患有血友病的話,是很致命的,意味著患有血友病的女性長到成年並育有子女的概率極為罕見。
41.3.3.1先驗概率Priordistribution
假如來了一名女性就醫者進行遺傳諮詢,她訴說她的一個同父同母的親兄弟是血友病患者。
那麼,我們可以推論該女性的母親應該是一位血友病基因攜帶者。
且該女性告訴我們她的父親不是血友病患者,故她本人是否攜帶血友病缺陷基因本身是取決於她的母親,也就是各有50%概率。
所以,總結目前已知的信息,該女性關心的問題,她本人是不是攜帶者只有兩個答案:是攜帶者\(\text{Pr}(\theta=1)=0.5\),不是攜帶者\(\text{Pr}(\theta=0)=0.5\)。
41.3.3.2似然likelihood
假如該女性又告訴我們,她已經育有兩個男孩,他們不是同卵雙胞胎,而且兩個男孩都不是血友病患者,也就是說,我們獲得了兩個觀察數據
\[
y_1=0;y_2=0
\]
那麼我們可根據這個數據計算下列的似然函數:
\[
\begin{aligned}
\text{Pr}(y_1=0,y_2=0|\theta=1)&=0.5\times0.5=0.25\\
\text{Pr}(y_1=0,y_2=0|\theta=0)&=1\times1=1
\end{aligned}
\]
第一行似然函數是說,如果該女性本身是攜帶者,那麼不再遺傳給兩個男孩的概率分別都是\(0.5\)。
第二行似然函數是說,如果該女性本身不是攜帶者,那麼本身兩個男孩不患有血友病的概率就都是\(1\)。
41.3.3.3事後概率Posteriordistribution
下面我們可以利用貝葉斯定理,把先驗概率結合數據給出的似然,計算我們希望獲得的事後概率,也就是在已知上述條件下,該女性是血友病缺陷基因攜帶者的概率\(\text{Pr}(\theta=1|y_1,y_2)\):
\[
\begin{aligned}
\text{Pr}(\theta|y_1,y_2)&=\frac{p(y_1,y_2|\theta=1)\text{Pr}(\theta=1)}{p(y_1,y_2|\theta=1)\text{Pr}(\theta=1)+p(y_1,y_2|\theta=0)\text{Pr}(\theta=0)}\\
&=\frac{0.25\times0.5}{(0.25\times0.5)+1\times0.5}=\frac{0.125}{0.625}=0.20
\end{aligned}
\]
其實我們不用計算可能也能猜出來,因為當一個女性生下無血友病的男孩成為事實時,她本人是血友病缺陷基因攜帶者的概率(在我們腦海裡推算中)會變小。
那麼貝葉斯定理是把這個變小的過程直接呈現給我們看。
從原先的一半一半的概率,現在在知道了該女性生下兩名健康的男嬰之後,同樣事件的概率下降到了\(0.2\)。
這個計算過程同樣可以使用先驗比值(priorodds)和後驗/事後比值(posteriorodds)之間的關係來推理。
從已知的背景看,該女性是攜帶者的先驗比值是:
\[
\text{Priorodds}=\frac{\text{Pr}(\theta=1)=0.5}{\text{Pr}(\theta=0)=0.5}=1
\]
根據已知兩個健康男嬰的數據計算的似然比是:
\[
\text{Likelihoodratio}=\frac{\text{Pr}(y_1=0,y_2=0|\theta=1)}{\text{Pr}(y_1=0,y_2=0|\theta=0)}=\frac{0.25}{1}=0.25
\]
於是,事後比值的結果顯而易見就是:
\[
\text{Posteriorodds}=\text{Priorodds}\times\text{Likelihoodratio}=1\times0.25=0.25
\]
然後我們再把比值和概率之間進行數學轉換,獲得事後概率:
\[
\frac{\text{Pr}(\theta|y_1,y_2)}{1-\text{Pr}(\theta|y_1,y_2)}=0.25\\
\rightarrow\text{Pr}(\theta|y_1,y_2)=0.2
\]
41.3.3.4更新我們的認知:
如果該女性下次再來諮詢時,生下了第三名健康男嬰。
也就是\(y_3=0\),我們取得了新的數據。
此時我們更新該女性是血友病缺陷基因攜帶者的概率最簡便的方法是,直接使用上面計算過的\(\text{Pr}(\theta|y_1,y_2)=0.2\),作為此時的先驗概率(prior):
\[
\text{Pr}(\theta|y_1,y_2,y_3)=\frac{0.5\times0.2}{0.5\times0.2+1\times0.8}=0.111
\]
類似地,如果該女性第三胎生下的是一名患有血友病的男嬰,那麼相應地,該女性是攜帶者的概率會被更新為100%:
\[
\text{Pr}(\theta|y_1,y_2,y_3)=\frac{0.5\times0.2}{0.5\times0.2+0\times0.8}=1
\]
41.3.4說點小歷史
圖41.1:SirRonaldFisher
RonaldAylmerFisher(1890-1962)推動了統計學在20世紀前半頁的重大發展。
他鞏固了概率論統計學堅實的基礎,並且積極提倡這一套理論(Fisher1922)。
但是Fisher本人對於統計學的“統計學意義,levelofsignificance”的認識卻是隨着時間和他年齡的變化而變化的:
表40.1:Fisher’sinterpretationof‘levelofsignificance’andtheNeyman-Pearsoninterpretation
早期Fisher(1935)
晚期Fisher(1956)
NeymanandPearson
統計學有意義的水平(傳統上使用\(\alpha=5\%\)),必須在實施統計檢驗之前就被決定。
因此,統計學意義的水平是相應統計學檢驗本身的性質之一。
Thus,thelevelofsignificanceisapropertyofthetest.
統計學意義的水平,應該被精確計算並且在報告中明確\(p\)值的大小,故統計學意義的水平本身是在實施了統計檢驗之後計算的。
它應該是屬於觀察數據的固有性質。
Herethelevelofsignificanceisapropertyofthedata.
\(\alpha\)和\(\beta\)作爲統計檢驗的第一類錯誤和第二類錯誤指標,應該在實施統計檢驗之前被決定。
所以\(\alpha,\beta\)是屬於統計檢驗的性質。
Yet,todetermine\(\alpha,\beta\)noconventionisrequired,butratheracost-benefitestimationoftheseverityofthetwokindsoferror.
隨着马尔科夫蒙特卡洛(Markov-ChainMonteCarlo,MCMC)法的廣泛應用,貝葉斯統計學在事後概率計算上(計算量超大的)棘手問題,得到了解決。
41.4PracticalIntro-to-Bayes01
從經典概率論的角度,準確定義\(95\%\)信賴區間。
思考,在貝葉斯統計理論中,它會如何被定義。
解
概率論:
對於一個總體參數\(\theta\)來說,\(95\%\)信賴區間是一個從觀察數據中計算得到的數值區間。
如果重複相同的實驗無數次,我們從無數個觀察數據中計算這個區間,那麼這些無數多的信賴區間(confidenceinterval,CI)裏有\(95\%\)包含了總體參數\(\theta\)。
貝葉斯:
對於一組觀察數據,它可以計算獲得可信區間(credibleinterval,CI)。
如果使用\(L,U\)分別表示下限和上限的值,\(\theta\)表示參數,\(x\)表示觀察數據,\(\pi(\theta|x)\)表示事後概率分佈的密度方程,posteriordistribution。
那麼有:
\[\text{Pr}(\theta\in(L,U))=\int_L^U\pi(\theta|x)\text{d}\theta=95\%\]
即,在貝葉斯理論下,95%可信區間就是這一個區間包含了參數的概率是95%。
證明貝葉斯定理。
並且用二項分佈隨機變量的例子來證明:\(\text{posteriorodds}=\text{priorodds}\times\text{likelihoodratio}\)
用前面提到的HIV的案例來說明這個公式的實際應用。
解
參照上面的標記法:
\(\theta\)表示參數
\(x\)表示觀察數據
\(\pi(\theta|x)\)表示事後概率分佈的密度方程,posteriordistribution
\(f(\theta,x)\)表示參數和數據的聯合分佈,jointdistribution
\(f(x)\)表示先驗概率分佈的密度方程,priordistribution
\[
\begin{aligned}
\pi(\theta|x)&=\frac{f(\theta,x)}{f(x)}\\
&=\frac{f(\theta,x)}{f(x)}\cdot\frac{1/\pi(\theta)}{1/\pi(\theta)}\\
&=\frac{\frac{f(\theta,x)}{\pi(\theta)}}{\frac{f(x)}{\pi(\theta)}}
\end{aligned}
\]
其中分子部分\(\frac{f(\theta,x)}{\pi(\theta)}\)就是條件概率\(f(x|\theta)\)。
分母的\(f(x)\)部分
\[
\begin{aligned}
f(x)&=\intf(x,\theta)\text{d}\theta\\
&=\int\frac{f(x,\theta)}{\pi(\theta)}\cdot\pi(\theta)\text{d}\theta\\
&=\intf(x|\theta)\cdot\pi(\theta)\text{d}\theta
\end{aligned}
\]
所以,
\[\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\intf(x|\theta)\cdot\pi(\theta)\text{d}\theta}\]
用二項分佈隨機變量(\(\theta=1,0\))來證明:\(\text{posteriorodds}=\text{priorodds}\times\text{likelihoodratio}\)
解
假設\(\theta\)是一個二項分佈的隨機變量,那麼\(f(\theta|x)=\text{Pr}(\theta|x)\)。
\[
\begin{aligned}
\text{posteriorodds}&=\frac{\text{Pr}(\theta=1|x)}{\text{Pr}(\theta=0|x)}\\
&=\frac{\frac{\text{Pr}(x|\theta=1)\text{Pr}(\theta=1)}{\text{Pr}(x)}}{\frac{\text{Pr}(x|\theta=0)\text{Pr}(\theta=0)}{\text{Pr}(x)}}\\
&=\frac{\text{Pr}(\theta=1)}{\text{Pr}(\theta=0)}\cdot\frac{\text{Pr}(x|\theta=1)}{\text{Pr}(x|\theta=0)}\\
&=\text{priorodds}\times\text{likelihoodratio}
\end{aligned}
\]
用前面提到的HIV案例來驗證:
HIV的患病率爲\(1/1000\),所以\(\text{priorodds}=1:999\),似然比\(\text{likelihoodratio}=0.99:(1-0.98)\)。
所以就有:
\[
\begin{aligned}
\text{posteriorodds}&=\text{priorodds}\times\text{likelihoodratio}\\
&=\frac{1}{999}\times\frac{0.99}{1-0.98}\\
&=\frac{0.99}{19.98}\\
&=\frac{1}{20.18182}
\end{aligned}
\]
所以事後概率(陽性結果患病的概率)爲\(1/(1+20.18182)=0.0472\)。
史密斯先生有2個孩子,其中之一是男孩。
另一個孩子是女孩的概率是多少?如下前提默認成立:
男女比例爲:50-50。
這個家庭中沒有對男孩或者女孩的偏好。
這兩個孩子不是同胞雙胞胎。
一個家庭有兩個孩子的性別組合的所有可能性:
男孩
男孩
男孩
女孩
女孩
男孩
女孩
女孩
所以根據已知條件,其中之一是男孩,所以最後一種情況:“兩個女孩”是不可能的。
故另一孩子是女孩的概率就是\(\frac{2}{3}\)。
如果用貝葉斯理論來正式計算的話:
\[
\begin{aligned}
&\text{Pr(1girlinfamilyof2|familydoesnothave2girls)}\\
&=\frac{\text{Pr(familydoesn'thave2girls|1girlinafamilyof2)}\times\\\text{Pr(1girlinafamilyof2)}}{\sum_{j=0,1,2}\text{Pr(familydoesn'thave2girls|jgirlinafamilyof2)}\times\\\text{Pr(jgirlinafamilyof2)}}\\
&=\frac{1\times\frac{1}{2}}{1\times\frac{1}{4}+1\times\frac{1}{2}+0\times\frac{1}{4}}\\
&=\frac{\frac{1}{2}}{\frac{3}{4}}=\frac{2}{3}
\end{aligned}
\]
也是一樣的結論。
下表是全國普查以後得出的家庭有兩個孩子,且至少一個是男孩的數據分佈:
男孩
男孩
657
男孩
女孩
591
女孩
男孩
610
女孩
女孩
0
求同樣的概率問題:
解
另一個孩子是女孩的概率是:\(\frac{610+591}{610+591+657}=0.646\)
References
Cox,D.R.2006.PrinciplesofStatisticalInference.CambridgeUniversityPress.https://books.google.co.jp/books?id=nRgtGZXi2KkC.
Cox,R.T.1946.“Probability,FrequencyandReasonableExpectation.”AmericanJournalofPhysics14(1):1–13.https://doi.org/10.1119/1.1990764.
Fisher,R.A.1922.“OntheMathematicalFoundationsofTheoreticalStatistics.”PhilosophicalTransactionsoftheRoyalSocietyofLondon.SeriesA,ContainingPapersofaMathematicalorPhysicalCharacter222:309–68.http://www.jstor.org/stable/91208.
Gelman,A.,J.B.Carlin,H.S.Stern,D.B.Dunson,A.Vehtari,andD.B.Rubin.2013.BayesianDataAnalysis,ThirdEdition.Chapman&Hall/CRCTextsinStatisticalScience.Taylor&Francis.https://books.google.co.uk/books?id=ZXL6AQAAQBAJ.
Lesaffre,E.,andA.B.Lawson.2012.BayesianBiostatistics.StatisticsinPractice.Wiley.https://books.google.co.uk/books?id=WV7KVjEQnJMC.
http://www.senns.demon.co.uk/wdict.html↩︎
延伸文章資訊
- 1貝葉斯統計分析及其應用 - 博客來
第一篇貝葉斯分析基礎第1章Bayes統計推斷 1.1先驗分布與后驗分布 1.1.1Bayes統計模型 1.1.2后驗分布 1.1.3Bayes統計推斷原則 1.1.4先驗分布的Bayes假設
- 2Bayesian statistics - 貝氏統計 - 國家教育研究院雙語詞彙
統計學名詞, Bayesian statistics, 貝氏統計學;貝氏統計. 學術名詞 電子計算機名詞, Bayesian statistics, 貝斯統計理論. 學術名詞 工業工程名詞
- 3貝葉斯推斷和各類機率Bayesian Inference - 資料科學・機器・人
他寫過兩本書,一本和神學有關,另一本和統計學有關,其中包含了當今有名的貝氏定理(Bayes Theorem)的雛形。這個定理之後被廣泛應用於推斷問題,即用來做出有根據的推測 ...
- 4第41 章貝葉斯統計入門| 醫學統計學
41.2 貝葉斯概率推理/逆概率Bayesian reasoning/inverse probability. 首先,不得不承認的一個事實是,所有的概率都是條件概率。 要麼是根據已知的信息。
- 5貝氏定理在生活中很有用,可是它到底怎麼算? - 林澤民的部落格
作者:林澤民、巫俊穎(Photo Credit: Wikipedia) 對於許多上過統計課的學生而言,貝氏定理(Bayes Theorem)是又熟悉又陌生的。