Page 79 - 金融科技力

文章推薦指數: 80 %
投票人數:10人

非結構化資料(Unstructured Data) 非結構化資料指的是資料本身格式相對不固定, ... 例如一篇文章、一段音樂、 一支影片、一個網頁等,內容則具備有完整的意思表現。

          BasicHTMLVersion TableofContents ViewFullVersion Page79-金融科技力 P.79 2.非結構化資料(UnstructuredData) 非結構化資料指的是資料本身格式相對不固定,資料的型態 也較為多元,但資料的表達及呈現卻也是最直覺清楚,例如一篇 文章、一段音樂、一支影片、一個網頁等,內容則具備有完整的 意思表現。

但是非結構化資料通常較難以數位化直接處理及運 用,例如我們無法快速從一堆小說中找有哪幾篇小說發生地點在 台北市?或者從一堆影片中找到女主角的姓名?我們必須經過一 些前置處理程序,將這些非結構化資料進行格式標準化,產生對 這些非結構化資料的結構化描述資訊,作為未來更多加值的利用。

例如若要從每日新聞中發現當天影響股票市場的訊息,從中 判斷當日股市/個股可能的漲跌變化(前文中提及大數據資料的 真實性待確認,此處不考慮新聞的真實性),新聞資料屬於非結構 化的資料,為了將每篇新聞中重要的訊息擷取出來,通常利用斷 字斷詞技術,找出文章中名詞、動詞及形容詞,將這些斷詞結果, 以結構化方式儲存,再透過語法、語意分析技術來判斷該文章對 於股票市場或個股的評價,藉此預測可能的變化。

3.半結構化資料(Semi-structuredData) 對大多數人來說,最無法理解就是半結構化資料的意思,通 常用來做為資料交換之用,其格式介於結構化資料及非結構化資 料之間。

嚴格來說,半結構化資料解讀起來比較像是結構化資料, 但缺乏結構化資料的好處。

舉例來說,以下為臺鐵局房地產出租 1 情形的部份資料,此資料目前格式廣為資訊系統資料交換使用的 JSON格式,可以很清楚看出這兩筆資料的內容資訊。

[{"縣市":"臺北市", "經管單位":"台北所", "用途限制":"辦公或住宅或法律許可範圍", "實際用途":"商店", "每月租金":22900, 1資料來源為政府OpenData,網址:https://data.gov.tw/dataset/78625。

65    74   75   76   77   78   79   80   81   82   83   84          



請為這篇文章評分?