機器學習分類-監督式學習
文章推薦指數: 80 %
一般來說機器學習大致可以分為以下幾種類型:監督式學習(Supervised learning)、非監督式學習(Un-supervised learning)、半監督式 ...
晨晰統計部落格新站(統計、SPSS、BIGDATA討論園地)
跳到主文
一個討論統計的好地方
部落格全站分類:圖文創作
相簿
部落格
留言
名片
公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:[email protected]\網址:http://www.rai-stat.com.tw
Jun22Mon202009:38
機器學習分類-監督式學習
一般來說機器學習大致可以分為以下幾種類型:監督式學習(Supervisedlearning)、非監督式學習(Un-supervisedlearning)、半監督式學習(Semi-supervisedlearning)及強化學習(Reinforcementlearning)。
本次筆者先從監督式學習(概念就是產生一個預測模式)開始介紹監督式學習(Supervisedlearning)à目的在於預測(基於使用者手上已經有每一個人目標變數的答案)
Y=f(X)
Y代表你想要預測的目標類型(類別型資料or連續型資料)
X代表你考慮的特徵(參數)
根據目的(Y的目標類型)可分為兩類
A)分類(Classification):例如:預測病人是否得病
常見的演算法有下列幾種:
1.Logisticregression:類似於一般的線性回歸,只不過Y變成二元分類變項(例如:是否得病)
2.Decisiontree(決策樹)
分類樹:當決策目標為分類變項(例如:今天會不會出門)
回歸樹:當決策目標為連續變項(例如:房價)
可同時處理資料中的連續變項及類別變項
模型與資料配適度高
可用於找到重要變項,可以很清楚明白分類的模式
對資料點特徵數或資料量太少,反而分析效率會更差
同一個分類法會出現在同一個法則,之後解釋可能會出現問題(所以必須做適當的決策樹剪枝)
3.NaiveBayes:把主觀的意見加入客觀的分析的過程,常用於語言資料的處理,例如計算Averyclosegame這個句子是體育運動的機率以及它不是體育運動的機率
樣本大與樣本小都適用
適合多分類的情境(類別資料)
計算不複雜
未考慮特徵之間的相關性(假設是每一個特徵彼此是獨立的)
連續型資料必須假設滿足某一分布(必須有先驗分布的假設)
4.KNN算法(K近鄰法):KNN分類中,Outcome是一個分類變項。
一個物件的分類是由其鄰居的「數量」去決定的,K個最近鄰居(K為正整數,通常較小)中最常見的分類決定了賦予該物件的類別。
若K=1,則該物件的類別直接由最近的一個節點賦予。
KNN回歸中Outcome是連續變項。
該值是其K個最近鄰居的值的平均。
資料分析前不需要有任何的假設,因此又被稱為懶惰演算法
計算效能較差,訓練集筆數很多時會導致嚴重的計算效率問題
穩定性差:因為起始點跟K值設定不同,會產生不同的結果
沒有可擴展能力,即每次判定都需要即時計算(當有新資料的加入必須重新再計算一次)
對於類別在3個及以上,經常會出現投票平局,平局要按照默認規則取默認值,這會讓KNN損失精準度
B)回歸(Regression):預測標的為連續變項(例如:預測2020台灣的失業率)
.
1.Linearregression:透過資料中蒐集的資訊(X,類別變項或連續變項)來去預測某個數值(Y,連續變項),但此種預測模式是基於假設X與Y之間為直線的線性關係
基於線性分佈假設,linearregression可以通過normalequation求閉合解的方式求得Y的預測值(代表有公式解)
因為linearregression是假設資料服從線性分佈的,這一假設前提也限制了該模型的準確率,因為現實中由於噪聲等的存在很少有資料是完全服從線性的
2.Ridge/Lassoregression:為了處理模型可能存在過度配適(簡單來說,是只模型中存在著過多的自變項),因此我們可以透過Ridge/Lasso來去解決這個問題,得到一個相對穩定可外推的模型
3.Polynomialregression(多項式迴歸):當資料中X與Y的關係存在著非線性的關係時,直接用線性回歸預測顯而易見預測效果會很差,因此我們可以透過在原本的預測模型中加入X變項的高次方項(目的在於捕捉X與Y非線性的關係),這樣才能得到更為準確的模型
參考資料:
https://buzzorange.com/techorange/2019/08/13/machine-learning-algorithm-collection/
https://zhuanlan.zhihu.com/p/37575364
全站熱搜
創作者介紹
晨晰部落格新站
晨晰統計部落格新站(統計、SPSS、BIGDATA討論園地)
晨晰部落格新站發表在痞客邦留言(0)人氣()
E-mail轉寄
全站分類:進修深造個人分類:其他類統計知識此分類上一篇:正規化迴歸(RegularizedRegression)
此分類下一篇:降維與維度災難
上一篇:PowerBI資料無法發佈到web?
下一篇:降維與維度災難
歷史上的今天
2015:LOL英雄聯盟戰術分析~助攻的重要性探討!
2010:元培大學放射技術研究所演講心得~林星帆顧問
▲top
留言列表
發表留言
熱門文章
文章分類
powerBI(37)生物醫學統計(129)迴歸與SEM(56)研究方法(66)SAS教學(54)Excel與統計軟體(49)統計應用專題(77)其他類統計知識(114)問卷知識(26)論文寫作(15)統計分析新趨勢(17)晨晰的宣傳與服務專案(57)數據話視頻(15)會員心得分享(10)新聞類(65)我們的故事(77)未分類文章(6)
最新文章
最新留言
文章精選
文章精選
2022五月(3)
2022四月(3)
2022三月(4)
2022二月(3)
2022一月(3)
2021十二月(4)
2021十一月(5)
2021十月(3)
2021九月(3)
2021八月(3)
2021七月(3)
2021六月(3)
2021五月(5)
2021四月(4)
2021三月(5)
2021二月(2)
2021一月(4)
2020十二月(4)
2020十一月(5)
2020十月(4)
2020九月(3)
2020八月(5)
2020七月(3)
2020六月(4)
2020五月(3)
2020四月(4)
2020三月(4)
2020二月(4)
2020一月(3)
2019十二月(4)
2019十一月(4)
2019十月(4)
2019九月(3)
2019八月(3)
2019七月(3)
2019六月(4)
2019五月(4)
2019四月(5)
2019三月(4)
2019二月(3)
2019一月(4)
2018十二月(4)
2018十一月(4)
2018十月(5)
2018九月(3)
2018八月(3)
2018七月(5)
2018六月(4)
2018五月(4)
2018四月(5)
2018三月(3)
2018二月(3)
2018一月(5)
2017十二月(4)
2017十一月(4)
2017十月(4)
2017九月(4)
2017八月(4)
2017七月(4)
2017六月(4)
2017五月(3)
2017四月(3)
2017三月(5)
2017二月(3)
2017一月(4)
2016十二月(4)
2016十一月(5)
2016十月(4)
2016九月(4)
2016八月(5)
2016七月(4)
2016六月(4)
2016五月(4)
2016四月(5)
2016三月(5)
2016二月(4)
2016一月(5)
2015十二月(4)
2015十一月(5)
2015十月(4)
2015九月(4)
2015八月(4)
2015七月(4)
2015六月(5)
2015五月(4)
2015四月(3)
2015三月(5)
2015二月(3)
2015一月(4)
2014十二月(5)
2014十一月(4)
2014十月(4)
2014九月(5)
2014八月(4)
2014七月(4)
2014六月(5)
2014五月(4)
2014四月(4)
2014三月(5)
2014二月(3)
2014一月(4)
2013十二月(6)
2013十一月(4)
2013十月(5)
2013九月(5)
2013八月(4)
2013七月(5)
2013六月(4)
2013五月(4)
2013四月(6)
2013三月(4)
2013二月(4)
2013一月(6)
2012十二月(4)
2012十一月(4)
2012十月(6)
2012九月(4)
2012八月(4)
2012七月(9)
2012六月(4)
2012五月(5)
2012四月(4)
2012三月(3)
2012二月(4)
2012一月(4)
2011十二月(4)
2011十一月(6)
2011十月(4)
2011九月(5)
2011八月(5)
2011七月(4)
2011六月(4)
2011五月(5)
2011四月(4)
2011三月(5)
2011二月(3)
2011一月(4)
2010十二月(5)
2010十一月(5)
2010十月(4)
2010九月(5)
2010八月(5)
2010七月(5)
2010六月(5)
2010五月(4)
2010四月(5)
2010三月(6)
2010二月(5)
2010一月(6)
2009十二月(5)
2009十一月(5)
2009十月(6)
2009九月(5)
2009八月(8)
2009七月(7)
2009六月(6)
2009五月(4)
2009四月(4)
2009三月(4)
2009二月(4)
2009一月(4)
2008十二月(8)
2008十一月(9)
2008十月(8)
2008九月(9)
2008八月(10)
2008七月(10)
2008六月(13)
2008五月(13)
2008四月(10)
2008三月(9)
2008二月(9)
2008一月(10)
2007十二月(10)
2007十一月(12)
2007十月(13)
2007九月(10)
2007八月(9)
2007七月(6)
2007六月(7)
所有文章列表
文章搜尋
新聞交換(RSS)
誰來我家
參觀人氣
本日人氣:
累積人氣:
QRCode
POWEREDBY
(登入)
{{article.user_name}}
{{article.timestamp*1000|date:'MMM.dd.y.hh.mm'}}
{{article.title}}
{{article.content}}
我要留言
回到頁首
回到主文
免費註冊
客服中心
痞客邦首頁
©2003-2022PIXNET
關閉視窗
PIXNET
Facebook
Yahoo!
Google
MSN
{{guestName}}
(登出)
您尚未登入,將以訪客身份留言。
亦可以上方服務帳號登入留言
請輸入暱稱(最多顯示6個中文字元)
請輸入標題(最多顯示9個中文字元)
請輸入內容(最多140個中文字元)
請輸入左方認證碼:
看不懂,換張圖
請輸入驗證碼
送出留言
延伸文章資訊
- 1機器學習任務:分類!迴歸!分群! - Medium
機器學習任務:分類!迴歸!分群! <說說5分鐘>第6說:機器學習的任務種類classification, regression, clustering ...
- 2機器學習分類-監督式學習
一般來說機器學習大致可以分為以下幾種類型:監督式學習(Supervised learning)、非監督式學習(Un-supervised learning)、半監督式 ...
- 3【機器學習懶人包】從數據分析到模型整合,各種好用的演算法 ...
【為什麼我們要挑選這篇文章】機器學習是人工智慧背後的基礎技術,透過 ... 一起來透過這篇文章,回顧一下機器學習分類演算法吧(本文適合已有機器 ...
- 4監督式學習:「分類」和「迴歸」的介紹與比較 - iKala Cloud
監督式學習的目標,就是藉由已知的訓練資料,找到最適合的w 來寫出這個方程式,讓未來我們匯入一筆資料的屬性x1、x2、…xn時,機器就能預測模擬出目標y。在 ...
- 5你知道機器學習(Machine Learning),有幾種學習方式嗎?