機器學習易混淆名詞/演算法比較 - HackMD

文章推薦指數: 80 %
投票人數:10人

機器學習(Machine Learning, ML) ; 分類/分群, 分類(二元樹), 分群(距離、相似特徵) ; 資料型態, 結構化資料, 結構化資料.       Published LinkedwithGitHub Like4 Bookmark Subscribe Edit ######tags:`商業數據分析筆記``KNN``Kmeans``HierarchicalClustering``cluster``ML``分群``監督式學習``非監督式學習` #機器學習易混淆名詞/演算法比較 人工智慧(AI)包含機器學習(ML)和深度學習(DL) ![](https://i.imgur.com/R2npfWr.png) ##機器學習(MachineLearning,ML) +監督式學習 +非監督式學習 +半監督式學習 ||監督式學習|非監督式學習|半監督式學習| |-|--------|--------|--------| |演算法|迴歸、決策樹、隨機森林
XGB、SVM、KNN
(分為TR跟TSdata,做交叉驗證,預測類別及數量)|集群分析、關聯式分析
主成分分析、尺度縮減、異常檢測|監督式學習+非監督式學習| |分類/分群|分類(二元樹)|分群(距離、相似特徵)|| |資料型態|結構化資料|結構化資料|| |資料標籤|有標籤|無標籤|有標籤|| |標準答案|有正確答案,透過機器學習能分辨及預測|沒有給答案,機器需自行尋找規則與不同之處|給少量的標籤,讓機器自我學習|| |法則|演繹法|歸納法||| ##增強式學習: 1.觀察目前環境的狀態→執行動作(也會影響環境進而達到新狀態)→收到報酬(回饋)→觀察新的狀態,循環多次直到某個終止時間 2.透過環境給的正/反回饋(trainingloss)來修正模型 3.不是一次給予全部資料讓機器分類,而是不斷餵給機器資料,透過經驗讓機器不斷修正 ![](https://i.imgur.com/aKAwmbp.png) ##分群vs分類: 分群:群內差異小,群間差異大 +找出比較相似的資料聚集在一起,形成集群(Cluster),相似性的依據是採用歐式距離,相對距離愈近、相似程度越高,被歸類至同一群組。

+演算法:Kmeans,HierarchicalClustering ###KNN(K-Nearnest-Neighbors) +尋找所有點中與新增點i距離最近(以i點為圓心)的前K個樣本,該K個樣本大部分屬於何種類別,則i點就屬於該類。

![](https://i.imgur.com/DQUrSIi.png) ###K-means(K-meansClustering) +在一個二維的空間投射點,先隨機分群,再慢慢調整達到組內差距小、組間差異大。

![](https://i.imgur.com/NRb6eNo.jpg) +計算Computeclustercentroids:![](https://i.imgur.com/rBIOUin.png) +設定K群,若在中間新增一個點i,其屬於哪一群? +Step2.找出各組包含i點形成的群中心(centroids)位置 +Step3.計算i到各組群中心的距離 +Step4.取最短的,重新指定i點所屬的群集 ###階層式分群(HierarchicalClustering) +兩兩最近的會被合併成一個族群,分到最後會只剩一個群。

+對Dendrogram畫水平線,找到兩端點之間距離差距最大的,其穿越過多少條直線代表其分幾組。

![](https://i.imgur.com/qBzfquz.png) ###三者比較 ||KNN|K-means|Hierarchical| |---|--------|--------|--------| |本質|分類|群集(cluster)|群集(cluster)| |ML種類|監督式學習|非監督式學習|非監督式學習| |設定種子|不用|需要(隨機挑選分群)|不用| |如何設定K|需有Domain知識|需有Domain知識|分完群才看圖(dendrogram)選擇K| |明顯的前期訓練過程||有|無| |時間複雜度|O(D*log(N)),D為維度|O(n)|O(n^2)| |對巨量資料分群|可(維度不能過大)|可|無法| 4 × Signin Email Password Forgotpassword or Byclickingbelow,youagreetoourtermsofservice. SigninviaFacebook SigninviaTwitter SigninviaGitHub SigninviaDropbox SigninviaGoogle NewtoHackMD?Signup



請為這篇文章評分?