結構化資料vs. 非結構化資料

文章推薦指數: 80 %
投票人數:10人

非結構化資料可以建立相關中繼資料,因而結構化。

舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率(FPS)、影片 ... 產品 解決方案 服務 支援 公司 合作夥伴 了解費用了解費用 產品 解決方案 服務 支援 公司 合作夥伴 了解費用 選擇其他地區 選擇其他地區 選擇其他地區 Australia(English) Brasil(Português) China(简体中文) Deutschland(Deutsch) España(Español) France(Français) HongKong(English) India(English) Italia(Italiano) Latinoamérica(Español) Nederland(Nederlands) Singapore(English) Türkiye(Türkçe) UnitedKingdom(English) UnitedStates(English) Россия(Русский) 台灣(繁體中文) 日本(日本語) 대한민국(한국어) Pure新知 GuidetoBigData 大數據vs.傳統資料 初學者大數據指南 結構化資料vs.非結構化資料 過去十年來,我們對於資料的理解和定義已產生了劇變,部分是因為越來越多新工具出現,讓我們得以讀取、儲存、分析非結構化資料。

以往,非結構化資料經常未善加利用,因此想要進一步轉譯解讀並不容易。

新技術出現後,不但解讀非結構化資料變得簡單,也能從這些資訊寶藏挖掘出更多珍貴見解。

國際數據資訊(IDC)表示,全球在2024年前每年所產生、捕捉、複製、消耗的資料總量將會超過149ZB,而且多數都會是非結構化資料。

企業組織若能具備分析非結構化資料的能力,將會受益無窮。

想要迎頭趕上?第一步便是了解結構化資料vs.非結構化資料。

我們列出兩種資料的概要差異,下方有更多深度說明: 特點 結構化資料 非結構化資料 資料特性 通常與「量」相關 通常與「質」相關 資料模型 預定義;一經定義並儲存資料後,很難再更動模型 非結構化資料無特定模式;其資料模型極為彈性靈活。

資料格式 有限的資料格式 非結構化資料的資料格式五花八門,種類繁多 資料庫 使用以SQL為基礎的關聯式資料庫 無特定模式,使用NoSQL資料庫 搜尋 在資料庫或資料集內可輕易搜尋查找 由於非結構化的特性,搜尋特定資料相當困難 分析 資料以「量」為特性,因此容易分析 即使用現有的軟體工具也難以分析 儲存方式 結構化資料使用資料倉儲 非結構化資料使用資料湖泊 什麼是結構化資料? 結構化資料的資訊內容有精確定義的模式。

若要簡單定義,意即所有可以透過表單系統(如Google試算表、MicrosoftExcel)呈現出來的資料都是結構化資料。

在這個例子當中,資料可以透過行列式表格呈現出來。

每一行都代表一種特殊的屬性,而每一列會個別列出與該屬性相關的資料。

行與列組成了表格,因而可以輕鬆引用。

不同的表格可以互相連結,意即兩個表格之間同一列的資料可以互相關聯。

假如多個相關表格接續整合起來,便可建立起關聯式資料庫。

舉例來說,百貨公司的客戶、銷售、存貨資料可以視作儲存在關聯式資料庫的結構化資料。

每一位客戶都有專屬的ID號碼,以及他們的姓名、聯絡電話、信用卡資訊、地址⋯⋯等等。

客戶資料庫可以連結到銷售資料庫,銷售資料包括了購買時間、購買單品代碼、消費總金額、客戶ID⋯⋯等等。

兩邊的表格可以透過共通的「客戶ID」這一項屬性連結起來。

最後,銷售資料庫可以利用共通屬性「單品代碼」與存貨資料庫連結起來,進而有效互聯這三個獨立表格成為關聯式資料庫。

像這樣的結構化資料通常儲存在關聯式資料庫管理系統(RDBMS)。

可以利用結構化查詢語言(SQL)來寫入、讀取、操作資料庫,這種程式語言是1970年代IBM開發用來支援資料庫大型主機的,最初名稱叫作「序列英語查詢語言」,或者縮寫為SEQUEL。

這個名稱由來是因為它和英語一樣仰賴大量讀取。

而現行的SQL形式則是由關連式軟體公司(現在的Oracle)所普及化的。

什麼是非結構化資料? 所有不是結構化資料的資料都可以被歸類為非結構化資料。

預估到了2025年我們所接觸的資料會有80%是非結構化資料,形式包括了文字、聲音、圖片、影像等1。

簡單地說,非結構化資料就是現代化資料。

這類資料通常是: 數位化生成、不可預測 持續產生、持續變動 混合、多模式、互通性 地理位置分散,以達更佳的資安保護 非結構化資料可以建立相關中繼資料,因而結構化。

舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率(FPS)、影片所有者⋯⋯等。

但影片本身是無法結構化的。

若非結構化資料有相關的結構化中繼資料,有時可稱為半結構化資料。

例如你可仔細觀察YouTube影片,它也呈現出了中繼資料,像是上傳時間、上傳日期、觀看次數(部分或整體)喜歡和不喜歡的點擊數⋯⋯等。

但是影片標題內容、影片敘述以及影片本身是非結構化的。

它涉及了「質」的內容,因而無單純以數字定量。

NoSQL是最常用來存放非結構化資料的資料庫。

NoSQL代表「不只是SQL」的意思,表示這種資料庫處理更廣泛範圍的資料,能完成SQL資料庫所不能勝任的任務。

NoSQL資料庫沒有固定模式或表格化的架構,它僅只是將資料收集並分類群組。

  使用整合式高速檔案暨高速物件儲存(UFFO)解決方案來儲存非結構化資料 綜合以上內容,雖然非結構化資料能提供重要的深入見解,有很大的變革潛力,要想妥善處理這些資料仍然是艱鉅的挑戰。

PureStorage®FlashBlade®是Pure推出的整合式高速檔案暨高速物件儲存(UFFO)解決方案,提供快閃儲存技術所需的處理速度,並具備靈活擴充基礎架構的能力。

想了解更多嗎?我們提供PureFlashBlade免費試用版,讓你不必擔心投資花費,盡情測試解決方案。

更多大數據指南知識篇 大數據vs.傳統資料 5個方法,大數據助你搶得先機 物聯網與大數據之間的關係 相關產品及解決方案 解決方案 資料分析 解決方案 IT作業分析 解決方案 資料倉儲 產品 FlashBlade檔案及物件資料儲存 產品 AI架構AIRI 1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html 體驗Pure的強大功能 了解特別優惠 實現節省成本、產品試用、方案計算以及更多服務。

資源中心 下載所有電子書、分析報告及白皮書等資料內容。

取得認證 驗證您的知識、技術和能力。

800-379-7873 +442039741869 +43720882474 +32(0)78480560 +33183764254 +498962824144 +35314854307 +390294759422 +31202457440 +46850541356 +4528566610 +4721954481 +351210006108 +966112118066 +27875517857 +34518898963 +41435052817 +908503902164 +97145513176 +79167167308 +6531580960 +60322987123 +66(0)26240641 +84432673630 +622123584628 +85237507835 +81-3-4563-7443 +8226001-3330 +886287292111 +611800983289 +6421536736 +55112655-7370 +52559171-1375 +5622368-4581 +571383-2387 +48223433649 聯絡方式 即時客服 與Pure專家即時聊天 寫電子郵件給我們 希望進一步詢問相關問題 我們的電話 886-2-8729-1172 您的瀏覽器已不受支援! 較舊版的瀏覽器通常存在安全風險。

為讓您使用我們網站時得到最佳體驗,請更新為這些最新瀏覽器其中一個。

safari chrome firefox edge



請為這篇文章評分?