數據分析入門課:概念要懂,工具要有 - CloudMile

文章推薦指數: 80 %
投票人數:10人

簡單來說,數據分析可分為五個步驟:蒐集、處理、儲存、分析、使用,很像烹飪過程:買菜、備料、冷藏、煮菜、擺盤,每個步驟環環相扣才能端出美味佳餚。

0. 定義問題:資料 ... 數據分析入門課:概念要懂,工具要有#科技新知文/Emily,Anni|編輯/Quen 根據The2017DeloitteStateofCognitiveSurvey《Bullishonthebusinessvalueofcognitive–LeadersincognitiveandAIweighinonwhat’sworkingandwhat’snext》報告指出,目前人工智慧主要用於透過數據分析與歸納,協助企業提升決策能力。

數據分析席捲各行各業,各公司皆致力處理數據分析來加值產品服務、改變既有費時或重工的工作流程、提升未來營運表現等,目的皆是提高營收、降低開銷。

CurrentAIusagebysegment。

圖/DeloitteStateofCognitiveSurvey,August2017icon/enlarge身為公司管理決策者的你、技術人員的你,或是市場先鋒的你,掌握數以千筆的資料在手上,哪些資料可用?哪些資料有價值?你真的知道從何下手嗎?掌握以下五步驟,數據分析就像煮菜一樣淺顯易懂! 數據分析五步驟 簡單來說,數據分析可分為五個步驟:蒐集、處理、儲存、分析、使用,很像烹飪過程:買菜、備料、冷藏、煮菜、擺盤,每個步驟環環相扣才能端出美味佳餚。

0.定義問題:資料需求更明確 在開始動作前,得先定義問題。

清楚問題與需求後,才知道要分析什麼、要如何解決,方能著手蒐集相關且有用的資料。

以烹飪來說,得要先預想好煮什麼菜,才能開始準備需要的食材。

比如說,要煮三杯雞的食材清單,就是雞腿肉、九層塔、薑片、醬油和米酒。

1.蒐集資料:資料從何來 定義問題後,就需要蒐集相關資料,假如沒有資料,數據分析就無從談起。

當然,資料可以是從公司內部、問卷調查或是第三方來源,唯一指南就是重視資料完整性、整體性。

以烹飪來說,選好菜色後就是買菜,菜源要自給自足,還是去傳統市場、超市買菜都非常彈性,唯一要素就是菜要買齊、要新鮮! 2.處理資料:改善資料品質 剛蒐集到的資料都會很雜亂,所以必須下功夫好好整理一番。

根據統計,數據分析師近八成時間都在處理資料、改善資料品質。

舉例來說,今天是某商家的A分店是用天數來計算銷售額,可是B分店是以週數計算,所以需要將這兩家的資料轉變成月銷售額,方便比較。

以烹飪來說,就是備料步驟,將雞腿肉、九層塔和薑片清洗乾淨,該醃製的醃製、該削皮的削皮,最後切成同樣的大小,等待下個步驟。

3.儲存資料:不同屬性有不同環境 根據資料量及複雜性,就有不同的儲存方式與環境。

尤其現今雲端平台不只儲存功能,也能照顧到其他運算需求,將資料儲存在雲端會是不錯的選擇。

另外,將處理好的資料儲存下來,日後有需要時便可隨時取用。

以烹飪來說,儲存環境好比是醬油放常溫櫥櫃、蔬菜類放冷藏、肉類放冷凍,儲存方式可能是瓶裝、袋裝、真空包裝等,依照各個食材屬性選擇保鮮方式。

4.分析資料:資料越多越準確 數據分析並非是新學問,伴隨雲端平台、機器學習技術越趨成熟,越能在短時間內查詢大量資料、分析、演算,並利用分析完的資料找出規律與特徵,就越有機會預測未來趨勢,而有越多資料就能做越多嘗試,分析出的數據就越準確。

以烹飪來說,在只有柴火時代,製作一道菜耗時許久,而且方式單一。

現在工具與食材越來越多樣,有電磁爐、電鍋、烤箱、當地食材、異地香料等,就能不斷嘗試多種菜餚,不斷優良口感,達到每個人要求、做出差異化! 5.使用數據:資料視覺化 最後獲得的數據該如何呈現?該給誰看?該如何使用?也是一門深奧的學問。

以烹飪來說,就是擺盤的重要性,擺盤擺得好也能讓食物更美味! pre定義問題資料需求明顯 step1資料搜集資料從何來 step2處理資料改善資料品質Dataproc、Dataflow、Dataprep step3儲存資料不同屬性有不同環境CloudStorage step4分析資料資料越多越準確BigQuery step5使用數據資料視覺化CloudDatastudio 資料處理三劍客 如上述,因為科技發達而加速數據分析過程,接下來就順帶介紹幾個CloudMile團隊常用的處理資料工具。

CloudDataproc 如果操作數據已經有段時間,累積些既有程式,但考慮將資料搬遷到雲端,必須好好認識CloudDataproc,能省下建置集群時間,直接管理Spark和Hadoop,讓運算更有效率。

CloudDataflow 如果是新開發新使用,建議選擇CloudDataflow,能免於管理叢集以及運算資源的麻煩,同時支援串流與批次處理,不需重複編寫。

CloudDataprep 處理資料過程中,必定會遇到繁雜數值、欄位需要統一,這時CloudDataprep會是個好幫手。

無需下載程式,僅需按鈕及拖拉式操作,入門門檻低,不會編程也能上手!(詳細介紹請看下方影片) 【雲端小教室Ep.12】五個一定要用Dataprep的原因 【雲端小教室Ep.13】Dataprep使用教學小結 複雜分析後,如何解讀數據背後隱藏的秘密,還需仰賴產業經驗,並結合趨勢解讀,才能抓到下個風口處。

其實,同時具備產業面知識以及科技分析人才遠低於目前市場所需,因此企業若能與外部資源合作,例如科技諮詢、研究機構,再配合企業內部的產業權威,會是短期內最有效的方式。

參考連結 [1]處理資料像料理菜餚?淺析做數據分析的六項技能! [2]IntroductiontoGoogleCloudDataflow相關文章CloudScheduler,來自GoogleCloud的全代管企業級Cron工作排程器數位轉型從哪著手?建立「資料旅程」為關鍵第一步資料安全更上層樓的關鍵:機密運算淺談CDP技術如何煉成訂閱CloudMile電子報所有CloudMile最新消息、產品動態、活動資訊和特別優惠,立即掌握。

名字 *姓氏 *公司 *電子信箱 *我已閱讀並同意CloudMile 隱私權政策 與 個資同意書.送出聯絡我們沒問題,我們可以幫您!只要撥打以下電話,即可聯繫銷售了解更多資訊。

新加坡:+65-6993-2383馬來西亞:+603-2280-6902香港:+852-3481-0068台灣:+886-2-2757-6077撥打電話聯絡我們



請為這篇文章評分?