長尾分佈,肥尾分佈和隨機遊走(Heavy-tailed, Long ... - 台部落
文章推薦指數: 80 %
長尾分佈(Long-tailed distribution) ... 長尾分佈,或者說長尾理論是一個與互聯網發展分不開的概念。
說到這裏就不得不先提一下傳統商業中的帕累托法則( ...
請輸入正確的登錄賬號或密碼
註冊
忘記密碼
首頁
統計相關
正文
重尾分佈,長尾分佈,肥尾分佈和隨機遊走(Heavy-tailed,Long-tailed,Fat-taileddistributionandRandomwalk)
原創
dymodi
2018-09-0302:59
一看題目就知道本文內容較多,但因爲放在一起討論才能互相比較理解異同。
本文主要討論重尾分佈,長尾分佈,肥尾分佈三者的聯繫,同時順帶討論了一下Randomwalk中的Lévyflight和Brownianmotion。
主要內容參考自Wikipedia和RickWicklin的博文Fat-tailedandlong-taileddistributions。
其實我們討論重尾長尾肥尾,數學上並沒有一個明確的對於尾(tail)的定義,但這也並不妨礙我們進行一些推導和分析。
重尾分佈(Heavy-taileddistribution)
從博文概率論基礎概念總結BasicConceptsinStatistics中我們瞭解到指數分佈在x→∞的時候是以指數的速度趨近於0,那麼以指數分佈爲分界線,我們把x→∞時下降速度更快的稱爲Thin-taileddistribution(好像還沒有中文翻譯),比如正態分佈。
也就是說,在遠離峯值的尾部區域,時間發生的概率更低一些。
所以正態分佈用來對那些主流事件發生較多,非主流事件發生較少的情況進行建模更爲合適。
與此相對的,把x→∞時下降速度慢於指數分佈的成爲重尾分佈(Heavy-taileddistribution)。
其數學定義爲:
limx→∞eλxF¯(x)=∞,forall λ>0其中,F¯(x)≡Pr(X>x)是所謂的尾分佈函數。
重尾分佈更適用於對那些離峯值較遠的稀有事件也會有相當的概率發生的情況。
重尾分佈作爲一個大的類別,還包含三個重要的子類別,分別是肥尾分佈(Fat-taileddistribution),長尾分佈(Long-taileddistribution)和次指數分佈(Subexponentialdistribution)。
後文會對前兩者進行討論。
長尾分佈(Long-taileddistribution)
長尾分佈,或者說長尾理論是一個與互聯網發展分不開的概念。
說到這裏就不得不先提一下傳統商業中的帕累托法則(Paretoprinciple),又稱爲二八定律。
比如80%的財富集中在20%的人手裏,圖書館裏20%的書可以滿足80%的顧客。
於是大家往往只關注在PDF圖中最左面的20%的顧客,以期滿足80%,如下圖綠色的部分,來實現效益的最大化。
(注:圖片來源Wikipedia)
但在一些網上零售業中,如Amazon和Netflix,數據表明右端黃色的尾巴雖然平均需求小但是由於數量巨大,導致其總的營銷收益甚至超過主流的商品。
這一發現似乎對商業界的觸動極大,也說明了正確建模的重要性。
如果用指數分佈進行建模,這些遠端的需求也許就會被忽視;而用長尾分佈進行建模就可以發現這些新的需求從而帶來效益的提高。
長尾分佈的數學定義爲:
limx→∞Pr(X>x+t|X>x)=1,就是說,當x很大的時候,很有可能x實際上更大。
另一個等效的定義是:
F¯(x+t)∼F¯(x)
這兩個定義帶給人的一個有趣的直覺是,當一個長尾分佈的變量超過一個閾值時,那麼很有可能它也會超過一個更高的閾值。
也就是說,如果你發現情況很糟糕了,那麼情況很有可能比你想象的更糟糕。
肥尾分佈(Fat-taileddistribution)
從建模的角度來看,肥尾分佈就是針對那些罕見事件雖然發生的概率低,但也必須要考慮到的情況。
比如一個保險公司考慮災害的發生和保險的定價,那麼像自然災害這種情況,如果不考慮的話就可能面臨真的發生時要賠很多的情況。
因爲正如肥尾分佈的名字所體現的,即使在遠離峯值的遠端,那些罕見事件還是有相當的概率會發生的。
雖然我們常常用正態分佈對很多時間進行建模,但當一個事件的本質是肥尾分佈而我們誤用了正態分佈或指數分佈時,就存在着對“小概率事件真的發生”這種危險的低估。
據說美國股市歷史上的黑色星期五,千禧年的互聯網泡沫破滅,以及2008年前後的金融危機都是這種錯誤的真實案例(來源:Wikipedia,Fat-taileddistribution)。
肥尾分佈的數學定義爲:
limx→∞Pr[X>x]∼x−α,α>0也就是說,在x較大的地方,肥尾分佈趨於0的速度是明顯慢於指數分佈和正態分佈的。
柯西分佈(Cauchydistribution)就是一類有名的肥尾分佈。
關於柯西分佈,有幾個有趣的性質,首先它是穩定的(stable),也有着顯式的PDF和CDF,但是它的均值和方差確是無法定義的(undefined)。
於是中心極限定理在這裏就不適用了。
如果試着做一下仿真,我們也可以發現,隨着實驗次數的增大,樣本的均值並不會逐漸收斂到某個值上,而出現這種情況的原因就是時不時出現的“異常大值”會明顯改變樣本的均值。
關於柯西分佈,穩定分佈和正態分佈的關係,以後可能會再寫博文來闡述。
隨機遊走(Randomwalk)
所謂隨機遊走,是統計學中一個很廣泛的概念,包含了很多內容。
我沒能找到一個統一的數學模型來描述隨機遊走,但大意就是在任意維度的空間裏,一個點隨機地向任意方向前進隨機長度的距離,然後重複這一步驟的過程。
有一個有名的醉漢回家問題就是一個典型的一維隨機遊走的問題。
Lévyflight是隨即遊走的一種,它的每一步方向完全隨機而各向同性,但步長的分佈是重尾分佈(heavy-tailed)。
Brownianmotion(好像)也算是隨即遊走的一種,它的步長的分佈取正態分佈。
下面兩張圖來自Wikipedia,分別描述了1000次的基於柯西分佈的Lévyflight(左)和基於正態分佈的Brownianmotion(右)。
從這張圖上也可以比較明顯地看出Lévyflight出現大跨步的頻率確實要比Brownianmotion要多一些。
已經有相當多的研究表明很多動物的移動模式可以用Lévyflight來描述。
而近些年通過對人類的移動數據(通話記錄、出租車等)的挖掘,我們驚奇地發現人類的移動模式也和Lévyflight高度吻合[1]。
也就是說,雖然我們每個人急功近利地去追求自己的目標,但在宏觀的尺度上,我們和山裏的猴子沒什麼區別[2]。
Ref.
[1]Brockmann,D.,Hufnagel,L.,&Geisel,T.(2006).Thescalinglawsofhumantravel.Nature.https://doi.org/10.1038/nature04292
[2]Rhee,I.,Shin,M.,Hong,S.,Lee,K.,&Chong,S.(2008).OntheLevy-walkNatureofHumanMobility:DoHumansWalklikeMonkeys?INFOCOM,19(3),630–643.https://doi.org/10.1109/TNET.2011.2120618
發表評論
登录
所有評論
還沒有人評論,想成為第一個評論的人麼?請在上方評論欄輸入並且點擊發布.
相關文章
三大統計相關係數:Pearson、Spearman秩相關係數、kendall等級相關係數
pillow_L
2020-02-2014:42:08
CompressedSparseColumnformat(CSC)
LiuConey
2018-09-0318:48:54
理解PCA和SVD
LiuConey
2018-09-0318:48:39
概率論基礎概念總結BasicConceptsinStatistics
dymodi
2018-09-0302:59:46
淺談熵和打升級(AbrieftalkaboutentropyandShengji)
dymodi
2018-09-0302:59:14
馬氏距離圖解
ltonghuan
2018-08-2709:12:10
D
dymodi
24小時熱門文章
男人如何日常保健?做好這些事....
吃肉不如吃3種菜!養“精”效果看得到!
【pytest官方文檔】解讀-插件開發之hooks函數(鉤子)
最新文章
TIC6678DSP與PCMatlab串口通信研究
離散LQR:原理,求解與拓展
優化命題的對偶性(Duality)
有效集法介紹(ActiveSetMethod)
EntranceandDepartureDetectionBaseonBLEBeaconRSSI-FilteringandShaving
最新評論文章
[2022]TopRatedCheckPoint156-315.80ExamQuestions
QualifiedWritingServiceinAustraliacanallowstudentstoachievebettergrades
Takeassignmenthelpertoresolvethepaperquerieseasily
UpdatedCompTIADA0-001ExamQuestions(2022)
美國黑金效果和其它速效藥的不同之處
MicrosoftDP-500PDFQuestion[2022]-SecretToPassExamInFirstAttempt-[PremiumDumps]
延伸文章資訊
- 1長尾分佈,肥尾分佈和隨機遊走(Heavy-tailed, Long ... - 台部落
長尾分佈(Long-tailed distribution) ... 長尾分佈,或者說長尾理論是一個與互聯網發展分不開的概念。說到這裏就不得不先提一下傳統商業中的帕累托法則( ...
- 2重尾分佈 - Wikiwand
在概率論中,重尾分佈(英語:Heavy-tailed distribution)是一種概率分佈的模型,它的尾部比指數分佈還要厚。在許多狀況中,通常右邊尾部的分佈會比較受到重視,但 ...
- 3重尾分布- 维基百科,自由的百科全书
在機率論中,重尾分布(英語:Heavy-tailed distribution)是一種機率分佈的模型,它的尾部比指數分布還要厚。在許多狀況中,通常右邊尾部的分布會比較受到重視,但 ...
- 4【AI 訓練路上的絆腳石】數據長尾問題如何解,原來要讓 ... - 報橘
【為什麼我們挑選這篇文章】在機器學習的模型建立時,對於資料來源科學家們會有一個基本假設,就是資料的種類與數量是「平均分布」的。
- 5long-tailed distribution - 長尾分布 - 國家教育研究院雙語詞彙
出處/學術領域, 英文詞彙, 中文詞彙. 學術名詞 海洋科學名詞-水下工程, long-tailed distribution, 長尾分布. 以長尾分布 進行詞彙精確檢索結果 ...