相關係數與共變異數(Correlation Coefficient and Covariance)
文章推薦指數: 80 %
相關係數很常用在機器學習或是統計分析上使用,主要衡量兩變數間「線性」關聯性的高低程度。
... 什麼是線性關係和非線性關係? ... 下圖舉的例子就是網路抓來 ...
GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWrite相關係數與共變異數(CorrelationCoefficientandCovariance)[2019/11/18]相關文章:「統計學:皮爾森相關係數為什麼小於等於1」一般說的相關係數通常是指「皮爾森相關係數(Pearson’scorrelationcoefficient)」,但當變數之間是順序尺度時用的則是「斯皮爾曼等級相關係數(Spearman’srankcorrelationcoefficient)」,這邊重點不是要講當變數是順序尺度時的狀況,所以以下會以連續變數為主。
相關係數很常用在機器學習或是統計分析上使用,主要衡量兩變數間「線性」關聯性的高低程度。
探討兩個變數(或多變數)間是否存在「線性」關係:CorrelationCoefficient將線性關係以方程式表示:LinearRegression什麼是線性關係和非線性關係?下圖就是在舉兩個變數(Bodyfat和tricepsskinfoldthickness),此兩變數呈現的就是線性關係,也就是兩個變數有高程度的相關,白話一點,三頭肌皮褶厚度越高代表的是體脂肪率越高http://calcnet.mth.cmich.edu/org/spss/Prj_body_fat_data.htm下圖舉的例子就是網路抓來的身高和體重的非線性關係。
身高和體重的關係是曲線的反應,則是非線性關係,當然這只是一個例子,拋物線關係、S型曲線或是彎彎曲曲的線都算是非線性關係。
圖片來源:http://www.biodiversity-science.net/article/2016/1005-0094-24-3-304.html皮爾森相關係數(Pearson’scorrelationcoefficient)假設有兩個變數(xi,yi),i=1,…,n,一般網路看到的相關係數的公式定義如下:correlationcoefficient(ρ,有的時候會用r來表示)會落在-1到1之間:-1≤ρ≤1,μx和μy分別代表變數x和y的平均數。
看公式會很沒有感覺,對於懂得人會覺得簡單,對於不懂的人會覺得是天書。
為什麼這樣設計會稱為相關係數勒,其實相關係數公式等於:這邊共變異數、變異數都是除上(n-1)而不是n的原因是,只用少部分樣本在推論母體時因為偏量(bias)的關係,在推論時樣本推估會少一個自由度(謎之音:這是再說XXX),這不重要想了解網路有很多自由度和為什麼要-1的解釋。
2018/10/29加入文章「統計學:常態分布平均數估計與變異量估計以及為什麼樣本變異量分母要減1」,這邊有解釋為什麼樣本變異數估計n為什麼要減1。
共變異數(covariance)我們從公式看,我們將x和y減去各自的平均數後相乘最後算總和,這邊如果我們假設變數x等於變數y時,那這個共變異數不就等於變異數,這時候ρ的值不就等於1,所以x和y就完全相關(x=y)。
所以共變異數其實就等於在算x和y的相關程度,但此時的相關還是相依在x和y的尺度上,好饒舌唷,什麼意思哩。
假設x變數是身高(單位:公分),y變數是體重(單位:公斤),x的標準差計算出的單位是公分,y的標準差計算出的單位是公斤。
那共變異數算出來的單位是什麼呢?答案是「公分*公斤」。
所以今天如果是比較「身高和體重」的相關度高,還是「身高和年齡」的相關度高,如果只看共變異數就是在一個不同單位下比較的方法,很不公平。
所以在共變異數我們會除上兩個變數間的標準差,如此一來單位也都被消除了,大家都回到同一個基準線上,值會落在正負1之間。
(這個是我自己念書感受出來的解釋方式,不代表數學上這樣解釋是合理的,但我個人認為比較好理解)相關係數實際計算方式如下,我這邊舉了五個點的例子,分別為(x,y)={(1,4),(2,5),(5,10),(6,12),(7,15)}。
下圖示說明不同範圍內的ρ值呈現出來的結果。
MorefromTommyHuangFollow怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。
黃志勝Chih-ShengHuang(Tommy),mail:[email protected]?Learnonthegowithournewapp.TryKnowableAboutHelpTermsPrivacyGettheMediumappGetstartedTommyHuang6.9KFollowers怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。
黃志勝Chih-ShengHuang(Tommy),mail:chih.sheng.huang821@gmail.comFollowMorefromMediumRileyLearningUnderstandingPoolingLayerwithNumpyFatimaSiddiquiPredictingtheSpreadofForestFires🔥🌲NiteenPawarABegineer’sGuideToNLPSanjayKumarMachineLearningusecasesinE-LearningHelpStatusWritersBlogCareersPrivacyTermsAboutKnowable
延伸文章資訊
- 1單元二:多項式與其加減運算
是一種包含「變數」和「係數」的式子,並且只運用到加法、減法和乘 ... 從上面的例子中,我們介紹了同類項合併的做法,下面就讓我們來看一. 些多項式加減的例子。
- 2代数――基本定义 - 数学乐
例子: ax2 + bx + c. x 是变量; a 和b 是系数; c 是常数. 算子(或运算符)是个符号(例如+、×、等),用来表达一个运算(就是,我们想对那个值做什么)。
- 3系数是什么,举个例子 - 百度知道
系数是什么,举个例子 ... 代数式的单项式中的数字因数叫做它的系数(coefficient). ... 所以,“系数”可以解释为“有多少个未知数(相加的和)”。
- 4相關係數與共變異數(Correlation Coefficient and Covariance)
相關係數很常用在機器學習或是統計分析上使用,主要衡量兩變數間「線性」關聯性的高低程度。 ... 什麼是線性關係和非線性關係? ... 下圖舉的例子就是網路抓來 ...
- 5相關係數 - MBA智库百科
相關係數(Correlation coefficient)相關表和相關圖可反映兩個變數之間的相互關係及其相關方向,但無法確切地表明兩個變數 ... 作者你好,文中小麥的例子應該計算錯了。