什麼是結構化、半結構化和非結構化資料?

文章推薦指數: 80 %
投票人數:10人

半結構化資料的組織條理性與結構化資料相比要弱,且由於欄位並不完全符合表、行和列的結構,不會以關係格式儲存。

半結構化資料包含突顯資料的組織和層次 ... MdEditor 什麼是結構化、半結構化和非結構化資料? 語言:CN/TW/HK 時間 2021-06-1111:27:47 觀照者說 主題: 技術 在Learning網站上看到了一個關於此問題比較好的回答,這裡整理出來,分享一下。

(一)結構化資料結構化資料(有時稱為關係資料),是遵循某種嚴格架構的資料,因此所有資料都具有相同的欄位或屬性。

共享架構允許使用SQL(結構化查詢語言)等查詢語言輕鬆搜尋此類資料。

此功能使此資料樣式非常適合CRM系統、預留和庫存管理等應用程式。

結構化資料通常儲存在具有行和列的資料庫表中,其中鍵列指示表中的一行與另一個表的另一行中的資料之間的關係。

下圖顯示了學生和班級的資料,這些資料與他們的成績有關。

結構化資料很簡單,易於輸入、查詢和分析。

所有資料都遵循相同的格式。

但強制採用一致的結構也意味著資料演變會更加困難,因為必須更新每個記錄才能符合新的結構。

一個結構化資料的具體例子:業務分析師希望實現商業智慧,以計算庫存管道和檢視銷售資料。

為了執行這些操作,需要將多個月的資料聚合在一起,然後進行查詢。

由於需要聚合類似資料,因此必須對這些資料進行結構化處理,以便將一個月的資料與下個月的進行比較。

(二)半結構化資料半結構化資料的組織條理性與結構化資料相比要弱,且由於欄位並不完全符合表、行和列的結構,不會以關係格式儲存。

半結構化資料包含突顯資料的組織和層次結構的標記,例如鍵/值對。

半結構化資料也稱為非關係資料或NoSQL資料。

此樣式的資料的表示式和結構由序列化語言定義。

對於軟體開發人員來說,資料序列化語言非常重要,因為它們可用於將儲存在記憶體中的資料寫入檔案,併發送到另一個系統進行分析和讀取。

傳送方和接收方無需知道有關另一個系統的詳細資訊,只要使用同樣的序列化語言,這兩個系統便可以理解資料。

半結構化資料常見格式有三種:XML、JSON、YMAL。

分別說明如下。

XML,即“可擴充套件標記語言”(extensiblemarkuplanguage),是首先獲得廣泛支援的一種資料語言。

它是基於文字的,這使得它很容易被人和機器閱讀。

此外,幾乎所有常用的開發平臺都可以找到它的分析程式。

XML使你可以表達關係,並具有架構、轉換甚至在Web上顯示的標準。

以下示例用XML表示一個人的愛好。

John Smith Golf Reading Guitar XML非常靈活,可以輕鬆表達複雜資料。

但是,它往往更加冗長,從而使儲存、處理或通過網路傳遞的規模更大。

因此,其他格式變得更加熱門。

JSON,即“JavaScript物件表示法”(JavaScriptObjectNotation),具有輕型規範,並依賴大括號來表示資料結構。

它沒有XML那麼冗長,且更易於閱讀。

Web服務經常使用JSON返回資料。

下面是以JSON表示同一個人。

{ "firstName":"John", "lastName":"Doe", "age":"23", "hobbies":[ {"type":"Sports","value":"Golf"}, {"type":"Leisure","value":"Reading"}, {"type":"Leisure","value":"Guitar"} ] }請注意,此格式不像XML那樣正式。

它比一個正式的資料表示式更接近鍵/值對模型。

顧名思義,JavaScript內建了對此格式的支援,這使得它在Web開發中非常熱門。

與XML一樣,其他語言也有可用於處理此資料格式的分析程式。

JSON的缺點是它更傾向於面向程式設計師,使得非技術人員更難閱讀和修改。

YAML,即“YAML不是一種標記語言”(YAMLAin’tMarkupLanguage),是一種比較新式的資料語言,因為它比較人性化,所以人氣迅速上漲。

資料結構由分行和縮排定義,並減少了對結構化字元(如圓括號、逗號和方括號)的依賴。

下面是以YAML表示的同一個人的資料。

firstName:John lastName:Doe age:23 hobbies: -type:Sports value:Golf -type:Leisure value:Reading -type:Leisure value:Guitar這種格式比JSON更具可讀性,通常用於需要由人編寫但由程式分析的配置檔案。

然而,YAML是最新的資料格式,在程式語言中沒有JSON和XML那麼多的支援。

一個半結構化資料的具體例子:線上零售業務的產品目錄資料本質上完全是結構化資料,因為每個產品都有產品SKU、說明、數量、價格、尺寸選項、顏色選項、照片,並且可能還有影片。

因此,這些資料最初似乎具有相關性,因為它們都具有相同的結構。

但在推出新產品或不同型別的產品時,隨著時間的推移,可能需要新增不同的欄位。

例如,推出的新網球鞋支援藍芽,可以將感測器資料從鞋傳送到使用者手機上的健身應用。

這種趨勢日益上升,你希望將來能夠讓客戶篩選“支援藍芽”的鞋子。

你不想返回到最初階段,更新所有現有的鞋類資料,在其中新增“支援藍芽”屬性,只想在新鞋中新增該屬性。

通過新增“支援藍芽”屬性,在架構中引入了差異,因此鞋類資料不再是同源資料。

如果這是你預計會遇到的唯一例外,則可返回去將現有資料標準化,使所有產品都包含“支援藍芽”欄位,維持結構化的關係組織形式。

但是,如果這只是你預計未來需要提供支援的眾多特性欄位之一,則應將資料歸為半結構化型別。

資料按標記組織,但目錄中的每個產品都可包含唯一欄位。

(三)非結構化資料非結構化資料的組織結構難以發現。

非結構化資料通常以檔案形式提供,例如照片或影片。

影片檔案本身可具有整體結構並且具有半結構化元資料,但是包括影片檔案本身在內的資料是非結構化資料。

因此,將照片、影片和其他類似檔案歸類為非結構化資料。

非結構化資料示例包括:媒體檔案(如照片、影片和音訊檔案)Office檔案(如Word文件)文字檔案日誌檔案一個非結構化資料的具體例子:產品頁面上顯示的照片和影片是非結構化資料。

儘管媒體檔案可能包含元資料,但媒體檔案的正文是非結構化的。

概括來說,結構化資料是完全符合表中的行和列結構的組織化資料。

半結構化資料也具有組織性且有明確的屬性和值,但資料存在多樣性。

非結構化資料並不符合表結構,也沒有架構。

「技術」 首次搭載OSTurbo技術,效能線上榮耀MagicBook14有哪些亮點? 物流江湖的女創業者蘋果元宇宙步入正軌?小米汽車正研發核心技術 每秒60000公里!幾十年就能到比鄰星,太陽帆技術或將再次提升 2025年技能型人才缺口率將達48%,技術藍領缺口達3000萬人 “個人存取現金超5萬需登記”暫緩實施!央行:技術原因 盤點光伏產業鏈技術變革之二:鑄錠單晶 盤點光伏產業鏈技術變革之三:TOPCon技術 盤點光伏產業鏈技術變革之四:元件串焊 分歧箱技術賦能日立中央空調給你舒適理想之家 可抵禦17級颱風9級地震,中國核電技術再創新高,年發電200億度 「其他文章」 一文讀懂微軟PowerPlatform 什麼是結構化、半結構化和非結構化資料? 管理上最常見的誤區有哪些? 如何每天都保持坦然的心態? 你理解“投其所好”的真正含義了嗎? 接受不舒適才能帶來更多舒適 煙花四月,幫你調整心態 再讀曾國藩(隱忍、堅持) 「內省」做事較真,做人不較真 正念修行的七種方式 軟體架構師必備的12項修煉 活在當下,最重要的三個籃子 領導力的4項修煉和30項自省 一個“鄉下人”的北京週末 知天命而不認命-記錄我認識的一個銷售 一圖讀懂塔勒布的反脆弱 IT國產化調研需要考慮的核心因素 固始鄉村見聞,問題與機遇並存 斗羅大陸中的鬥羅精神 固始地名溯源



請為這篇文章評分?