[數據解析實驗室]案例分享:「非結構化資料」轉換為「結構化 ...
文章推薦指數: 80 %
透過「大數據聚合本體」計算標籤彼此間的關係。
完成上述LDA模型實現後,我們亦可透過文本分析找出基於主題下詞組間的關聯性,以下的例子 ...
直接觀看文章
「URCOSME網站上的產品口碑解析」案例分析
一般來說,社群網站中經常出現的文字式「非結構化資料」,如何進一步分析/解讀/匯總,以萃取出群眾智慧….在非結構化資料在以往的數據中,特別是使用者瀏覽後的心得、留言等,此一形態的UGC(UserGeneratedContent)往往大多數只能提供「閱讀」的功能,而在使用大數據的下一步中,我們將透過一個簡單例子,解釋如何將「非結構的數據」轉換成大數據的一部份。
這是一個化妝品的例子,總共有38篇心得。
這些心得中往往都是高度支持的使用者貢獻且極具指標的內容數據,如何在這38篇使用心得中,找到「數據」,首先面臨的是「非結構數據」的困擾,也就是「心得」是以文字組成表達某一種想法,這是一種「給人閱讀」資料,要能讓「機器閱讀」進行分析處理前,需要預備「資料清洗」的工作。
「育成大數據模型-瞭解使用者之於特定產品心得中抽取關心議題」的說明
對非結構化的數據,進行主題歸建,這一部份必須仰賴一個初步的專家系統,一般的做法是透過一套良好的切詞系統,將特定的數據聚集後,透過例如「LDA主題模型」分析文件,計算出基於某些特定主題下,詞組出現的機率。
最常看到的例子是在LDA原始論文中,事先給定了這幾個主題:Arts、Budgets、Children、Education,然後通過機器學習的方式,獲取每個主題Topic對應的詞語。
如下圖所示:
在母體計算下找出某個主題機率,並透過一個選定優化的的機率,預測主題下的某個單詞,不斷的重復這兩步驟,最終生成如下圖所示的一篇文章(其中不同顏色的詞語分別對應上圖中不同主題下的詞):
透過一個基於特定議題的專家分析系統,抽取具有特徵的「標籤」,形成課題
實務上,我們將化妝品,先假設具有Potency、Effect、Package、Price、Time這些主題,將所有的心得文章透過LDA的模型計算,產生下列的結果。
如此機器可以輕易將「分詞後的詞組」,進行預測歸屬於哪一個主題。
透過「大數據聚合本體」計算標籤彼此間的關係。
完成上述LDA模型實現後,我們亦可透過文本分析找出基於主題下詞組間的關聯性,以下的例子即是透過分析特定商品心得所包括的詞組,找出其中詞組的關聯性。
在實驗中,我們可以觀察到當一篇文章中有一個「不悶」的詞出現,簡言之「0.989346」的相似(關)性之於「不膩」。
如此一來,我們便可以將「心得」變成一個「基於某種主題機率」的結構性資料,同時將「詞組」的關聯性「結構化」,轉換成向量結構性型態。
透過這樣的建模方法,「心得」歸建成具有「主題」的結構性資料,同時又透過文本分析,找出「詞組」間的關聯,
這便是一種簡單將「非結構化資料」轉換成「結構化數據」的方法。
綜合上述算法,我們可以把這38篇心得,簡單用一個「圓餅圖」展示「使用者在心得中在意的主題」如下圖,而不再是一堆密密麻麻的文字。
分享此文:TwitterFacebook請按讚:喜歡正在載入...
相關
Publishedby
itruesite
檢視itruesite的所有文章
文章分頁導航
上一篇文章[數據解析實驗室]大數據的第零步:建立目前已經擁有數據之間的關聯性下一篇文章[報告上線]消費者夏日臉部肌膚煩惱調查報告
發表迴響取消回覆
在此輸入你的回應…
在下方填入你的資料或按右方圖示以社群網站登入:
電子郵件(必須填寫)(電子郵件地址不會公開)
名稱(必須填寫)
個人網站
您的留言將使用WordPress.com帳號。
( 登出 /
變更 )
您的留言將使用Twitter帳號。
( 登出 /
變更 )
您的留言將使用Facebook帳號。
( 登出 /
變更 )
取消
連結到%s
透過電子郵件通知我後續回應。
有新文章時用Email通知我。
Δ
文章分類
趨勢報告(17)
排行結果(61)
新聞專區(46)
最新消息(78)
文章彙整
2022年五月(2)
2022年四月(1)
2022年三月(1)
2022年二月(2)
2022年一月(1)
2021年十二月(2)
2021年十一月(1)
2021年十月(1)
2021年九月(1)
2021年八月(1)
2021年七月(1)
2021年六月(3)
2021年五月(1)
2021年四月(1)
2021年三月(1)
2021年二月(1)
2021年一月(1)
2020年十二月(2)
2020年十一月(1)
2020年十月(1)
2020年九月(1)
2020年八月(1)
2020年七月(1)
2020年六月(2)
2020年五月(1)
2020年四月(1)
2020年三月(1)
2020年二月(1)
2020年一月(2)
2019年十二月(2)
2019年十月(1)
2019年九月(1)
2019年八月(1)
2019年七月(1)
2019年六月(2)
2019年五月(1)
2019年四月(1)
2019年三月(1)
2019年二月(1)
2019年一月(1)
2018年十二月(2)
2018年十一月(1)
2018年十月(1)
2018年九月(1)
2018年八月(1)
2018年七月(1)
2018年六月(2)
2018年五月(2)
2018年四月(1)
2018年三月(2)
2018年二月(1)
2018年一月(1)
2017年十二月(4)
2017年十一月(1)
2017年十月(2)
2017年九月(2)
2017年七月(2)
2017年六月(1)
2017年五月(1)
2016年十二月(1)
2016年十一月(2)
2016年九月(2)
2016年八月(2)
2016年七月(4)
2016年六月(2)
2016年五月(5)
2016年四月(1)
2016年二月(1)
2015年三月(1)
2015年二月(1)
2015年一月(1)
2014年二月(1)
2013年十一月(1)
2013年四月(1)
2012年十月(1)
2012年八月(2)
2012年六月(1)
2012年五月(1)
2012年四月(1)
2012年三月(1)
2012年二月(1)
2011年十二月(1)
2011年十一月(1)
2011年九月(1)
2011年八月(1)
2011年七月(2)
2010年十一月(1)
2010年四月(1)
2010年三月(1)
2010年一月(1)
2009年八月(2)
2009年六月(1)
2009年四月(2)
2009年三月(2)
2009年二月(1)
2009年一月(1)
2008年十二月(1)
2008年十一月(1)
2008年十月(1)
2008年九月(2)
在WordPress.com建立網站或網誌
追蹤
已追蹤
i-TRUE艾思網絡
我要註冊
已經有WordPress.com帳號了?立即登入。
i-TRUE艾思網絡
自訂
追蹤
已追蹤
註冊
登入
複製短網址
回報此內容
以閱讀器檢視
管理訂閱
收合此列
%d位部落客按了讚:
延伸文章資訊
- 1非結構化資料分析:文本分類/ Unstructured Text Analytics
這是巨量資料探勘與統計應用課程的投影片「非結構化資料分析:文本分類」。 ... 這份資料集取自於袁梅宇所著的「王者歸來: WEKA機器學習與大數據聖經」中的例子,這是 ...
- 2結構化資料vs. 非結構化資料
非結構化資料可以建立相關中繼資料,因而結構化。舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率(FPS)、影片 ...
- 3有哪些不同資料類型- 常見問題 - Hitachi Vantara
結構化資料以數字資料為主,來源是交易系統和技術空具,例如企業資源規劃(ERP) 系統。 · 非結構化資料由隨機檔案類型組成— 包括影像、音訊/視訊錄製檔,以及Microsoft ...
- 4淺談資料格式— 結構化與非結構化資料 - Medium
非結構化資料在資料庫裡則意指:沒有固定欄位,也沒有固定格式。例如:影像檔、語音檔、圖檔、Office檔案、PDF檔、e-mail、網頁等。半結構化資料在資料 ...
- 5[瞭解資料特徵]Part1-結構化與非結構化資料 - iT 邦幫忙