第40 章貝葉斯統計入門 - Bookdown

2025-01-08

文章推薦指數： 80 %

投票人數：10人

A Bayesian statistician is one who, vaguely expecting a horse and ... 利用貝葉斯定理，我們將先驗隨機概率分佈(prior probability distribution)，和觀察數據作 ... 在LSHTM的學習筆記前言我是誰 I概率論Probability 1概率論入門：定義與公理 1.1三個概率公理： 1.2條件概率Conditionalprobability 1.3獨立(independence)的定義 1.4賭博問題 1.5賭博問題的答案 2Bayes貝葉斯理論的概念 3期望Expectation(或均值ormean)和方差Variance 3.1方差的性質： 4伯努利分佈Bernoullidistribution 5二項分佈的概念Binomialdistribution 5.1二項分佈的期望和方差 5.2超幾何分佈hypergeometricdistribution 5.3樂透中獎概率問題： 5.3.1如果我只想中其中的\(3\)個號碼，概率有多大？ 6泊松分佈PoissonDistribution 7正態分佈 7.1概率密度曲線probabilitydensityfunction，PDF 7.2正態分佈 7.3標準正態分佈 8中心極限定理theCentralLimitTheorem 8.1協方差Covariance 8.2相關Correlation 8.3中心極限定理theCentralLimitTheorem 8.4二項分佈的正態分佈近似 8.5泊松分佈的正態分佈近似 8.6正態分佈模擬的校正：continuitycorrections 8.6.1例題 8.7兩個連續隨機變量 8.8兩個連續隨機變量例子： 8.9條件分佈和邊緣分佈的概念 8.10條件分佈和邊緣分佈的例子 8.10.1例題 II統計推斷Inference 9統計推斷的概念 9.1人羣與樣本(populationandsample) 9.2樣本和統計量(sampleandstatistic) 9.3估計Estimation 9.4信賴區間confidenceintervals 10估計和精確度EstimationandPrecision 10.1估計量和他們的樣本分佈 10.2估計量的特質 10.2.1偏倚 10.2.2估計量的效能Efficiency 10.2.3均值和中位數的相對效能 10.2.4均方差meansquareerror(MSE) 10.3總體方差的估計，自由度 10.4樣本方差的樣本分佈 11卡方分佈Chi-squaredistribution 11.1卡方分佈的期望和方差的證明 11.2卡方分佈的期望 11.3卡方分佈的方差 11.3.1下面來求\(E(X_1^4)\) 11.4把上面的推導擴展 12似然Likelihood 12.1概率vs. 推斷Probabilityvs. Inference 12.2似然和極大似然估計Likelihoodandmaximumlikelihoodestimators 12.3似然方程的一般化定義 12.4對數似然方程log-likelihood 12.5極大似然估計(maximumlikelihoodestimator,MLE)的性質： 12.6率的似然估計Likelihoodforarate 12.7有\(n\)個獨立觀察時的似然方程和對數似然方程 13對數似然比Log-likelihoodratio 13.1正態分佈數據的極大似然和對數似然比 13.2\(n\)個獨立正態分佈樣本的對數似然比 13.3\(n\)個獨立正態分佈樣本的對數似然比的分佈 13.4似然比信賴區間 13.4.1以二項分佈數據爲例 13.4.2以正態分佈數據爲例 13.5練習題 13.5.1Q1 13.5.2Q2 13.5.3Q3 14二次方程近似法求對數似然比approximatelog-likelihoodratios 14.1正態近似法求對數似然Normalapproximationtothelog-likelihood 14.1.1近似法估算對數似然比的信賴區間 14.1.2以泊松分佈爲例 14.1.3以二項分佈爲例 14.2參數转换parametertransformations 14.2.1以泊松分佈爲例 14.2.2以二項分佈爲例 14.3練習題 14.3.1Q1 14.3.2Q2 15假設檢驗的構建Constructionofahypothesistest 15.1什麼是假設檢驗Hypothesistesting 15.2錯誤概率和效能方程errorprobabilitiesandthepowerfunction 15.2.1以二項分佈爲例 15.3如何選擇要檢驗的統計量 15.3.1以已知方差的正態分佈爲例 15.4複合假設compositehypotheses 15.4.1單側替代假設 15.4.2雙側替代假設 15.5爲反對零假設\(H_0\)的證據定量 15.5.1回到正態分佈的均值比較問題上來(單側替代假設) 15.6雙側替代假設情況下，雙側\(p\)值的定量方法 15.7假設檢驗構建之總結 15.8練習題 15.8.1Q1 16假設檢驗的近似方法 16.1近似和精確檢驗approximateandexacttests 16.2精確檢驗法之–似然比檢驗法Likelihoodratiotest 16.3練習題 16.4近似檢驗法之–Wald檢驗 16.4.1再以二項分佈爲例 16.5近似檢驗法之–Score检验 16.5.1再再以二項分佈爲例 16.6LRT,Wald,Score檢驗三者的比較 16.7練習題 16.7.1Q1 16.7.2Q2 16.7.3Q3 17正態誤差模型Normalerrormodels 17.1服從正態分佈的隨機變量 17.2\(F\)分佈和\(t\)分佈的概念 17.3兩個參數的模型 17.3.1一組數據兩個參數 17.3.2兩組數據各一個參數 17.4正態分佈概率密度方程中總體均值和方差都未知(單樣本\(t\)檢驗onesample\(t\)test的統計學推導) 17.5比較兩組獨立數據的均值twosample\(t\)testwithequalunknown\(\sigma^2\) 17.6各個統計分佈之間的關係 18多個參數時的統計推斷InferencewithmultipleparametersI 18.1多參數multipleparameters-LRT 18.1.1似然likelihood 18.1.2對數似然比檢驗 18.2多參數Wald檢驗-Waldtest 18.3多參數Score檢驗-Scoretest 18.4條件似然conditionallikelihood 18.5練習 19多個參數時的統計推斷–子集似然函數profilelog-likelihoods 19.1子集似然法推導的過程總結 19.1.1子集對數似然方程的分佈 19.1.2假設檢驗過程舉例 19.2子集對數似然比的近似 19.2.1子集對數似然比近似的一般化 19.2.2事件發生率之比的Wald檢驗統計量 19.3練習Practical 19.4總結 19.4.1快速複習 19.4.2試爲下面的醫學研究問題提出合適的統計學模型 19.4.3醫生來找統計學家問問題 III統計分析方法AnalyticalTechniques 20探索數據和簡單描述 20.1數據分析的流程 20.1.1研究設計和實施 20.1.2數據分析 20.2數據類型 20.3如何總結並展示數據 20.3.1離散型分類型數據的描述-頻數分佈表frequencytable 20.3.2連續型變量 20.4數據總結方案：位置，分散，偏度，和峰度 20.4.1位置 20.4.2分散 20.4.3偏度skewness 20.4.4峯度kurtosis 21信賴區間confidenceintervals 21.1定義 21.2利用總體參數的樣本分佈求信賴區間 21.3情況1：已知方差的正態分佈數據均值的信賴區間 21.4信賴區間的意義 21.5情況2：未知方差，但是已知服從正態分佈數據均值的信賴區間 21.6情況3：服從正態分佈的隨機變量方差的信賴區間 21.7當樣本量足夠大時 21.8情況4：求人羣百分比的信賴區間 21.8.1一般原則 21.8.2二項分佈的“精確法”計算信賴區間 21.8.3二項分佈的近似法計算信賴區間 21.9率的信賴區間 21.9.1利用泊松分佈精確計算 21.9.2利用正態近似法計算 22假設檢驗 22.1拋硬幣的例子 22.1.1單側和雙側檢驗 22.1.2\(p\)值的意義 22.1.3\(p\)值和信賴區間的關係 22.2二項分佈的精確假設檢驗 22.3當樣本量較大 22.4二項分佈的正態近似法假設檢驗 22.4.1連續性校正continuitycorrection 22.5情況1：對均值進行假設檢驗(方差已知) 22.6情況2：對均值進行假設檢驗(方差未知)theone-samplet-test 22.7情況3：對配對實驗數據的均值差進行假設檢驗thepairedt-test 23相關association 23.1背景介紹 23.2兩個連續型變量的相關分析 23.2.1相關係數的定義 23.2.2相關係數的性質 23.2.3對相關係數是否爲零進行假設檢驗 23.2.4相關係數的\(95\%\)信賴區間 23.2.5比較兩個相關係數是否相等 23.2.6相關係數那些事兒 23.2.7在R裏面計算相關係數 23.3二元變量之間的相關性associationbetweenpairsofbinaryvariables 23.3.1OR的信賴區間 23.3.2比值比的假設檢驗 23.3.3兩個百分比的卡方檢驗 23.3.4確切檢驗法Fisher’s“exact”test 23.4多分類(無排序)的情況\(M\timesN\)表格 24比較Comparisons 24.1比較兩個均值comparingtwopopulationmeans 24.1.1當方差已知，且數據服從正態分佈Z-test 24.1.2當方差未知，但是方差可以被認爲相等，且數據服從正態分佈twosample\(t\)test 24.1.3練習 24.1.4當方差未知，但是方差不可以被認爲相等，且數據服從正態分佈 24.2兩個人羣的方差比較 24.2.1方差比值檢驗varianceratiotest 24.2.2信賴區間 24.3比較兩個百分比 24.3.1兩個百分比差是否爲零的推斷Riskdifference 24.3.2兩個百分比商是否爲1的推斷relativerisk/riskratio 25前提和數據轉換Assumptionsandtransformations 25.1穩健性 25.2正態性 25.2.1正態分佈圖normalplot 25.3總結連續型變量不服從正態分佈時的處理方案 25.4數學冪轉換powertransformations 25.4.1對數轉換logarithmicTransformation 25.4.2逆轉換信賴區間back-transformationofCIs 25.4.3對數正態分佈log-normaldistribution 25.4.4百分比的轉換 IV線性迴歸LinearRegression 26簡單線性迴歸SimpleLinearRegression 26.1一些背景和術語 26.2簡單線性迴歸模型simplelinearregressionmodel 26.2.1數據A 26.2.2數據B 26.3區分因變量和預測變量 26.3.1均值(期待值)公式 26.3.2條件分佈和方差theconditionaldistributionandthevariancefunction 26.3.3定義簡單線性迴歸模型 26.3.4殘差residuals 26.4參數的估計estimationofparameters 26.4.1普通最小二乘法估計\(\alpha,\beta\) 26.5殘差方差的估計Estimationoftheresidualvariance\((\sigma^2)\) 26.6R演示例1：圖@ref(fig:age-wt)數據 26.7R演示例2：表@ref(tab:walk)數據 26.8練習 26.8.1兩次測量的膽固醇水平分別用\(C_1,C_2\)來標記的話，考慮這樣的簡單線性迴歸模型：\(C_2=\alpha+\betaC_2+\varepsilon\)。

我們進行這樣迴歸的前提假設有哪些？ 26.8.2計算普通最小二乘法(OLS)下，截距和斜率的估計值\(\hat\alpha,\hat\beta\) 26.8.3和迴歸模型計算的結果作比較，解釋這些估計值的含義 26.8.4加上計算的估計值直線(即迴歸直線) 26.8.5下面的代碼用於模型的假設診斷 27最小二乘估計的性質和推斷OrdinaryLeastSquaresEstimatorsandInference 27.1OLS估計量的性質 27.2\(\hat\beta\)的性質 27.2.1\(Y\)對\(X\)迴歸，和\(X\)對\(Y\)迴歸 27.2.2例1：還是圖@ref(fig:age-wt)數據 27.3截距和迴歸係數的方差，協方差 27.3.1中心化centring 27.4\(\alpha,\beta\)的推斷 27.4.1對迴歸係數進行假設檢驗 27.4.2迴歸係數，截距的信賴區間 27.4.3預測值的信賴區間(置信帶)-測量迴歸曲線本身的不確定性 27.4.4預測帶Referencerange-包含了95%觀察值的區間 27.5線性迴歸模型和Pearson相關係數 27.5.1\(r^2\)可以理解爲因變量平方和被模型解釋的比例 27.6Pearson相關係數和模型迴歸係數的檢驗統計量\(t\)之間的關係 27.7練習 28方差分析IntroductiontoAnalysisofVariance 28.1背景 28.2簡單線性迴歸模型的方差分析 28.2.1兩個模型的參數估計 28.2.2分割零假設模型的殘差平方和 28.2.3\(R^2\)–我的名字叫決定係數coefficientofdetermination 28.2.4方差分析表格theANOVAtable 28.2.5用ANOVA進行假設檢驗 28.2.6簡單線性迴歸時的\(F\)檢驗 28.2.7簡單線性迴歸時\(F\)檢驗和\(t\)檢驗的一致性 28.3分類變量用作預測變量時的ANOVA 28.3.1一個二分類預測變量 28.3.2一個模型，兩種表述 28.3.3分組變量的平方和 28.3.4簡單模型的分組變量大於兩組的情況 29多元模型分析MultivariableModels 29.1兩個預測變量的線性迴歸模型 29.1.1數學標記法和解釋 29.1.2最小平方和估計LeastSquaresEstimation 29.2線性回歸模型中使用分組變量 29.3協方差分析模型theAnalysisofCovariance(ANCOVA)Model 29.4偏回歸係數的變化 29.4.1情況1：\(\beta_1>\beta_1^*\) 29.4.2情況2：\(\beta_1\text{plaus}(B)\)and \(\text{plaus}(B)>\text{plaus}(A)\)then \(\text{plaus}(C)>\text{plaus}(A)\) 一致性，consistency：事件\(A\)發生的可能性只取決於所有與\(A\)直接相關的信息，而不包括那些推理到與\(A\)相關信息之前的信息。

Theplausibilityofproposition\(A\)dependsonlyontherelevantinformationon\(A\)andnotonthepathofreasoningfollowedtoarriveat\(A\). R.T.Cox證明了他提出的這些規則可以完全適用於所有的可能性計算，而且可能性(plausibility)的這些規則和概率(probability)的微積分計算完全一致。

所以利用上面的可能性規則，我們可以對條件概率進行更深層次的定義： \[\text{Pr}(A|B)=\frac{\text{Pr}(B|A)\text{Pr}(A)}{\text{Pr}(B)}\propto\text{Pr}(B|A)\text{Pr}(A)\] 用文字表述爲：事後概率\(\propto\)似然\(\times\)先驗概率其中：事後概率，posteriorprobability：\(B\)發生的條件下,\(A\)發生的概率； \(\propto\)：與…成正比；似然，likelihood：\(A\)發生的條件下，\(B\)發生的概率；先驗概率，priorprobability：事件\(A\)發生的概率。

這就是貝葉斯定理。

這個定理也告訴我們爲什麼貝葉斯論證在18，19世紀時被叫做“逆概率推理,inverseprobabilityreasoning”。

因爲似然(\(A\)發生的條件下，\(B\)發生的概率)在與先驗概率相乘以後，概率發生了逆轉–事後概率(\(B\)發生的條件下,\(A\)發生的概率)。

回頭再來看之前的珠寶店盜竊案：事件\(A\)：珠寶店正在發生盜竊案；事件\(B\)：一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出。

所以： \(\text{Pr}(A)=\)珠寶店發生盜竊案的概率–先驗概率(priorprobability); \(\text{Pr}(B|A)=\)當珠寶店發生盜竊案時，觀察到“一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”事件的可能性–似然(likelihood); \(\text{Pr}(A|B)\)當觀察到“一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”事件時，倒推珠寶店發生了盜竊案的概率–事後概率(posteriorprobability)。

用例子來解釋貝葉斯推理之後你會發現，其實貝葉斯思想也是純粹的概率理論。

與經典概率論不同的是，我們沒有必要認爲某些事件發生的概率需要被重複實驗驗證。

貝葉斯對整個世界的理解源於我們每個人自己認爲的事件發生概率(personalisiticprobability)，或者叫信念度（degreeofbelief）。

40.3貝葉斯推理的統計學實現在經典概率論中，概率分佈的標記\(f_X(x;\theta)\)的涵義爲：對於一個隨機變量\(X\)，它在我們假設的某種固定的真實（上帝才知道是多少的）參數\(\theta\)的分佈框架下，不斷重複相同的實驗之後獲得的概率分佈。

在貝葉斯統計推理中，一切都被看作是一個服從概率分佈的隨機變量。

利用貝葉斯定理，我們將先驗隨機概率分佈(priorprobabilitydistribution)，和觀察數據作條件概率(conditionontheobserveddata)，從而獲得事後概率分佈(posteriorprobabilitydistribution)。

40.3.1醫學診斷測試diagnostictesting 貝葉斯推理最常用的實例是在診斷測試中，即當一個人拿着陽性的檢驗報告結果來找你，你如何判斷這個人有多大的概率真的患有該疾病。

用\(D\)標記患病，\(\bar{D}\)標記不患病；\(T\)標記檢查結果爲陽性，\(\bar{T}\)標記檢查結果爲陰性。

那麼，陽性檢查結果時，真的患病的概率\(\text{Pr}(D|T)\)： \[ \begin{aligned} \text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T)}\\ &=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})} \end{aligned} \] 其中分母的轉換用到了LawofTotalProbability(L.T.P): \[ \begin{aligned} \text{Pr}(T)&=\text{Pr}(T\capD)+\text{Pr}(T\cap\bar{D})\\ &=\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D}) \end{aligned} \] 所以說，貝葉斯定理在這裏告訴我們，要計算\(\text{Pr}(D|T)\)我們只需要下列幾個信息：患病率：\(\text{Pr}(D)\) 檢測手段的敏感度(sensitivity)：\(\text{Pr}(T|D)\) 檢測手段的1-特異度(specificity)：\(\text{Pr}(T|\bar{D})=1-\text{Pr}(\bar{T}|\bar{D})\) 40.3.2HIV檢查時的應用假設人羣中患病率爲\(1/1000\)，所用的HIV檢測手段的敏感度爲\(0.99\)，特異度爲\(0.98\)。

試計算該檢測HIV手段的事後概率（即拿到陽性結果時，患病的概率\(\text{Pr}(D|T)\)）。

解令\(D=\text{HIVpositive},\bar{D}=\text{HIVnegative}\\T=\text{testpostive},\bar{T}=\text{testnegative}\) \[ \begin{aligned} \text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}\\ &=\frac{0.99\times0.001}{0.99\times0.001+(1-0.98)\times0.999}\\ &=0.0472 \end{aligned} \] 如果特異度能達到\(0.99\) \[ \begin{aligned} \text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}\\ &=\frac{0.99\times0.001}{0.99\times0.001+(1-0.99)\times0.999}\\ &=0.0901 \end{aligned} \] 如果特異度能達到\(0.999\) \[ \begin{aligned} \text{Pr}(D|T)&=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})}\\ &=\frac{0.99\times0.001}{0.99\times0.001+(1-0.999)\times0.999}\\ &=0.497 \end{aligned} \] 可見，對於像HIV這樣人羣中患病率較爲罕見的疾病，其檢驗手段的敏感度，特異度都要達到極高才能讓檢驗結果可靠，即拿到陽性結果的人的確患有該疾病。

其中當敏感度爲\(0.99\)，特異度爲\(0.999\)時，才能讓這樣的檢驗手段達到接近一半的可靠程度(即只有接近一半的陽性結果是真陽性)。

注意本例爲貝葉斯理論的特例，即我們使用的是一個固定的先驗概率(prior)和似然(likelihood)。

一般情況下，先驗概率和似然會有自己的概率分佈(probabilitydistribution)，而很少會是一個固定的值，其相應的事後概率(posterior)也擁有概率分佈，並且使用它本身的均值和方差來描述。

40.3.3說點小歷史圖40.1:SirRonaldFisher RonaldAylmerFisher(1890-1962)推動了統計學在20世紀前半頁的重大發展。

他鞏固了概率論統計學堅實的基礎，並且積極提倡這一套理論(R.A.Fisher1922)。

但是Fisher本人對於統計學的“統計學意義,levelofsignificance”的認識卻是隨着時間和他年齡的變化而變化的：表40.1:Fisher’sinterpretationof‘levelofsignificance’andtheNeyman-Pearsoninterpretation 早期Fisher(1935) 晚期Fisher(1956) NeymanandPearson 統計學有意義的水平（傳統上使用\(\alpha=5\%\)），必須在實施統計檢驗之前就被決定。

因此，統計學意義的水平是相應統計學檢驗本身的性質之一。

Thus,thelevelofsignificanceisapropertyofthetest. 統計學意義的水平，應該被精確計算並且在報告中明確\(p\)值的大小，故統計學意義的水平本身是在實施了統計檢驗之後計算的。

它應該是屬於觀察數據的固有性質。

Herethelevelofsignificanceisapropertyofthedata. \(\alpha\)和\(\beta\)作爲統計檢驗的第一類錯誤和第二類錯誤指標，應該在實施統計檢驗之前被決定。

所以\(\alpha,\beta\)是屬於統計檢驗的性質。

Yet,todetermine\(\alpha,\beta\)noconventionisrequired,butratheracost-benefitestimationoftheseverityofthetwokindsoferror. 隨着马尔科夫蒙特卡洛(Markov-ChainMonteCarlo,MCMC)法的廣泛應用，貝葉斯統計學在事後概率計算上（計算量超大的）棘手問題，得到了解決。

40.4練習題從經典概率論的角度，準確定義\(95\%\)信賴區間。

思考，在貝葉斯統計理論中，它會如何被定義。

解概率論：對於一個總體參數\(\theta\)來說，\(95\%\)信賴區間是一個從觀察數據中計算得到的數值區間。

如果重複相同的實驗無數次，我們從無數個觀察數據中計算這個區間，那麼這些無數多的信賴區間(confidenceinterval,CI)裏有\(95\%\)包含了總體參數\(\theta\)。

貝葉斯：對於一組觀察數據，它可以計算獲得可信區間(credibleinterval,CI)。

如果使用\(L,U\)分別表示下限和上限的值，\(\theta\)表示參數，\(x\)表示觀察數據，\(\pi(\theta|x)\)表示事後概率分佈的密度方程，posteriordistribution。

那麼有： \[\text{Pr}(\theta\in(L,U))=\int_L^U\pi(\theta|x)\text{d}\theta=95\%\] 即，在貝葉斯理論下，95%可信區間就是這一個區間包含了參數的概率是95%。

證明貝葉斯定理。

並且用二項分佈隨機變量的例子來證明：\(\text{posteriorodds}=\text{priorodds}\times\text{likelihoodratio}\) 用前面提到的HIV的案例來說明這個公式的實際應用。

解參照上面的標記法： \(\theta\)表示參數 \(x\)表示觀察數據 \(\pi(\theta|x)\)表示事後概率分佈的密度方程，posteriordistribution \(f(\theta,x)\)表示參數和數據的聯合分佈，jointdistribution \(f(x)\)表示先驗概率分佈的密度方程，priordistribution \[ \begin{aligned} \pi(\theta|x)&=\frac{f(\theta,x)}{f(x)}\\ &=\frac{f(\theta,x)}{f(x)}\cdot\frac{1/\pi(\theta)}{1/\pi(\theta)}\\ &=\frac{\frac{f(\theta,x)}{\pi(\theta)}}{\frac{f(x)}{\pi(\theta)}} \end{aligned} \] 其中分子部分\(\frac{f(\theta,x)}{\pi(\theta)}\)就是條件概率\(f(x|\theta)\)。

分母的\(f(x)\)部分\[ \begin{aligned} f(x)&=\intf(x,\theta)\text{d}\theta\\ &=\int\frac{f(x,\theta)}{\pi(\theta)}\cdot\pi(\theta)\text{d}\theta\\ &=\intf(x|\theta)\cdot\pi(\theta)\text{d}\theta \end{aligned} \] 所以， \[\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\intf(x|\theta)\cdot\pi(\theta)\text{d}\theta}\] 用二項分佈隨機變量(\(\theta=1,0\))來證明：\(\text{posteriorodds}=\text{priorodds}\times\text{likelihoodratio}\) 解假設\(\theta\)是一個二項分佈的隨機變量，那麼\(f(\theta|x)=\text{Pr}(\theta|x)\)。

\[ \begin{aligned} \text{posteriorodds}&=\frac{\text{Pr}(\theta=1|x)}{\text{Pr}(\theta=0|x)}\\ &=\frac{\frac{\text{Pr}(x|\theta=1)\text{Pr}(\theta=1)}{\text{Pr}(x)}}{\frac{\text{Pr}(x|\theta=0)\text{Pr}(\theta=0)}{\text{Pr}(x)}}\\ &=\frac{\text{Pr}(\theta=1)}{\text{Pr}(\theta=0)}\cdot\frac{\text{Pr}(x|\theta=1)}{\text{Pr}(x|\theta=0)}\\ &=\text{priorodds}\times\text{likelihoodratio} \end{aligned} \] 用前面提到的HIV案例來驗證： HIV的患病率爲\(1/1000\)，所以\(\text{priorodds}=1:999\)，似然比\(\text{likelihoodratio}=0.99:(1-0.98)\)。

所以就有： \[ \begin{aligned} \text{posteriorodds}&=\text{priorodds}\times\text{likelihoodratio}\\ &=\frac{1}{999}\times\frac{0.99}{1-0.98}\\ &=\frac{0.99}{19.98}\\ &=\frac{1}{20.18182} \end{aligned} \] 所以事後概率（陽性結果患病的概率）爲\(1/(1+20.18182)=0.0472\)。

史密斯先生有2個孩子，其中之一是男孩。

另一個孩子是女孩的概率是多少？如下前提默認成立：男女比例爲:50-50。

這個家庭中沒有對男孩或者女孩的偏好。

這兩個孩子不是同胞雙胞胎。

一個家庭有兩個孩子的性別組合的所有可能性：男孩男孩男孩女孩女孩男孩女孩女孩所以根據已知條件，其中之一是男孩，所以最後一種情況：“兩個女孩”是不可能的。

故另一孩子是女孩的概率就是\(\frac{2}{3}\)。

如果用貝葉斯理論來正式計算的話： \[ \begin{aligned} &\text{Pr(1girlinfamilyof2|familydoesnothave2girls)}\\ &=\frac{\text{Pr(familydoesn'thave2girls|1girlinafamilyof2)}\times\\\text{Pr(1girlinafamilyof2)}}{\sum_{j=0,1,2}\text{Pr(familydoesn'thave2girls|jgirlinafamilyof2)}\times\\\text{Pr(jgirlinafamilyof2)}}\\ &=\frac{1\times\frac{1}{2}}{1\times\frac{1}{4}+1\times\frac{1}{2}+0\times\frac{1}{4}}\\ &=\frac{\frac{1}{2}}{\frac{3}{4}}=\frac{2}{3} \end{aligned} \] 也是一樣的結論。

下表是全國普查以後得出的家庭有兩個孩子，且至少一個是男孩的數據分佈：男孩男孩 657 男孩女孩 591 女孩男孩 610 女孩女孩 0 求同樣的概率問題：解另一個孩子是女孩的概率是：\(\frac{610+591}{610+591+657}=0.646\) References Cox,D.R.2006.PrinciplesofStatisticalInference.CambridgeUniversityPress.https://books.google.co.jp/books?id=nRgtGZXi2KkC. Gelman,A.,J.B.Carlin,H.S.Stern,D.B.Dunson,A.Vehtari,andD.B.Rubin.2013.BayesianDataAnalysis,ThirdEdition.Chapman&Hall/CrcTextsinStatisticalScience.Taylor&Francis.https://books.google.co.uk/books?id=ZXL6AQAAQBAJ. Lesaffre,E.,andA.B.Lawson.2012.BayesianBiostatistics.StatisticsinPractice.Wiley.https://books.google.co.uk/books?id=WV7KVjEQnJMC. Cox,R.T.1946.“Probability,FrequencyandReasonableExpectation.”AmericanJournalofPhysics14(1):1–13.doi:10.1119/1.1990764. Fisher,R.A.1922.“OntheMathematicalFoundationsofTheoreticalStatistics.”PhilosophicalTransactionsoftheRoyalSocietyofLondon.SeriesA,ContainingPapersofaMathematicalorPhysicalCharacter222.TheRoyalSociety:309–68.http://www.jstor.org/stable/91208. http://www.senns.demon.co.uk/wdict.html↩

請為這篇文章評分？

延伸文章資訊

第40 章貝葉斯統計入門 - Bookdown

A Bayesian statistician is one who, vaguely expecting a horse and ... 利用貝葉斯定理，我們將先驗隨機概率分佈(prior p...

[2204.05615] Normalized Power Prior Bayesian Analysis - arXiv

However, in the original form of the joint power prior Bayesian approach, certain positive consta...

Relationship between Bayesian prior, posterior, and data. Prior...

Download scientific diagram | Relationship between Bayesian prior, posterior, and data. Prior kno...

The use of Bayesian priors in Ecology: The good, the bad and ...

Bayesian data analysis (BDA) is a powerful tool for making inference from ecological data, but it...

Prior distribution - Columbia Statistics

The prior distribution is a key part of Bayesian infer- ence (see Bayesian methods and modeling) ...

第40 章貝葉斯統計入門 - Bookdown

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

中日口譯課程

中國生產力中心口譯評價

紙的應用