什麼是結構化、半結構化和非結構化資料?
文章推薦指數: 80 %
半結構化資料的組織條理性與結構化資料相比要弱,且由於欄位並不完全符合表、行和列的結構,不會以關係格式儲存。
半結構化資料包含突顯資料的組織和層次 ...
MdEditor
什麼是結構化、半結構化和非結構化資料?
語言:CN/TW/HK
時間 2021-06-1111:27:47
觀照者說
主題:
技術
在Learning網站上看到了一個關於此問題比較好的回答,這裡整理出來,分享一下。
(一)結構化資料結構化資料(有時稱為關係資料),是遵循某種嚴格架構的資料,因此所有資料都具有相同的欄位或屬性。
共享架構允許使用SQL(結構化查詢語言)等查詢語言輕鬆搜尋此類資料。
此功能使此資料樣式非常適合CRM系統、預留和庫存管理等應用程式。
結構化資料通常儲存在具有行和列的資料庫表中,其中鍵列指示表中的一行與另一個表的另一行中的資料之間的關係。
下圖顯示了學生和班級的資料,這些資料與他們的成績有關。
結構化資料很簡單,易於輸入、查詢和分析。
所有資料都遵循相同的格式。
但強制採用一致的結構也意味著資料演變會更加困難,因為必須更新每個記錄才能符合新的結構。
一個結構化資料的具體例子:業務分析師希望實現商業智慧,以計算庫存管道和檢視銷售資料。
為了執行這些操作,需要將多個月的資料聚合在一起,然後進行查詢。
由於需要聚合類似資料,因此必須對這些資料進行結構化處理,以便將一個月的資料與下個月的進行比較。
(二)半結構化資料半結構化資料的組織條理性與結構化資料相比要弱,且由於欄位並不完全符合表、行和列的結構,不會以關係格式儲存。
半結構化資料包含突顯資料的組織和層次結構的標記,例如鍵/值對。
半結構化資料也稱為非關係資料或NoSQL資料。
此樣式的資料的表示式和結構由序列化語言定義。
對於軟體開發人員來說,資料序列化語言非常重要,因為它們可用於將儲存在記憶體中的資料寫入檔案,併發送到另一個系統進行分析和讀取。
傳送方和接收方無需知道有關另一個系統的詳細資訊,只要使用同樣的序列化語言,這兩個系統便可以理解資料。
半結構化資料常見格式有三種:XML、JSON、YMAL。
分別說明如下。
XML,即“可擴充套件標記語言”(extensiblemarkuplanguage),是首先獲得廣泛支援的一種資料語言。
它是基於文字的,這使得它很容易被人和機器閱讀。
此外,幾乎所有常用的開發平臺都可以找到它的分析程式。
XML使你可以表達關係,並具有架構、轉換甚至在Web上顯示的標準。
以下示例用XML表示一個人的愛好。
但是,它往往更加冗長,從而使儲存、處理或通過網路傳遞的規模更大。
因此,其他格式變得更加熱門。
JSON,即“JavaScript物件表示法”(JavaScriptObjectNotation),具有輕型規範,並依賴大括號來表示資料結構。
它沒有XML那麼冗長,且更易於閱讀。
Web服務經常使用JSON返回資料。
下面是以JSON表示同一個人。
{
"firstName":"John",
"lastName":"Doe",
"age":"23",
"hobbies":[
{"type":"Sports","value":"Golf"},
{"type":"Leisure","value":"Reading"},
{"type":"Leisure","value":"Guitar"}
]
}請注意,此格式不像XML那樣正式。
它比一個正式的資料表示式更接近鍵/值對模型。
顧名思義,JavaScript內建了對此格式的支援,這使得它在Web開發中非常熱門。
與XML一樣,其他語言也有可用於處理此資料格式的分析程式。
JSON的缺點是它更傾向於面向程式設計師,使得非技術人員更難閱讀和修改。
YAML,即“YAML不是一種標記語言”(YAMLAin’tMarkupLanguage),是一種比較新式的資料語言,因為它比較人性化,所以人氣迅速上漲。
資料結構由分行和縮排定義,並減少了對結構化字元(如圓括號、逗號和方括號)的依賴。
下面是以YAML表示的同一個人的資料。
firstName:John
lastName:Doe
age:23
hobbies:
-type:Sports
value:Golf
-type:Leisure
value:Reading
-type:Leisure
value:Guitar這種格式比JSON更具可讀性,通常用於需要由人編寫但由程式分析的配置檔案。
然而,YAML是最新的資料格式,在程式語言中沒有JSON和XML那麼多的支援。
一個半結構化資料的具體例子:線上零售業務的產品目錄資料本質上完全是結構化資料,因為每個產品都有產品SKU、說明、數量、價格、尺寸選項、顏色選項、照片,並且可能還有影片。
因此,這些資料最初似乎具有相關性,因為它們都具有相同的結構。
但在推出新產品或不同型別的產品時,隨著時間的推移,可能需要新增不同的欄位。
例如,推出的新網球鞋支援藍芽,可以將感測器資料從鞋傳送到使用者手機上的健身應用。
這種趨勢日益上升,你希望將來能夠讓客戶篩選“支援藍芽”的鞋子。
你不想返回到最初階段,更新所有現有的鞋類資料,在其中新增“支援藍芽”屬性,只想在新鞋中新增該屬性。
通過新增“支援藍芽”屬性,在架構中引入了差異,因此鞋類資料不再是同源資料。
如果這是你預計會遇到的唯一例外,則可返回去將現有資料標準化,使所有產品都包含“支援藍芽”欄位,維持結構化的關係組織形式。
但是,如果這只是你預計未來需要提供支援的眾多特性欄位之一,則應將資料歸為半結構化型別。
資料按標記組織,但目錄中的每個產品都可包含唯一欄位。
(三)非結構化資料非結構化資料的組織結構難以發現。
非結構化資料通常以檔案形式提供,例如照片或影片。
影片檔案本身可具有整體結構並且具有半結構化元資料,但是包括影片檔案本身在內的資料是非結構化資料。
因此,將照片、影片和其他類似檔案歸類為非結構化資料。
非結構化資料示例包括:媒體檔案(如照片、影片和音訊檔案)Office檔案(如Word文件)文字檔案日誌檔案一個非結構化資料的具體例子:產品頁面上顯示的照片和影片是非結構化資料。
儘管媒體檔案可能包含元資料,但媒體檔案的正文是非結構化的。
概括來說,結構化資料是完全符合表中的行和列結構的組織化資料。
半結構化資料也具有組織性且有明確的屬性和值,但資料存在多樣性。
非結構化資料並不符合表結構,也沒有架構。
「技術」
首次搭載OSTurbo技術,效能線上榮耀MagicBook14有哪些亮點?
物流江湖的女創業者蘋果元宇宙步入正軌?小米汽車正研發核心技術
每秒60000公里!幾十年就能到比鄰星,太陽帆技術或將再次提升
2025年技能型人才缺口率將達48%,技術藍領缺口達3000萬人
“個人存取現金超5萬需登記”暫緩實施!央行:技術原因
盤點光伏產業鏈技術變革之二:鑄錠單晶
盤點光伏產業鏈技術變革之三:TOPCon技術
盤點光伏產業鏈技術變革之四:元件串焊
分歧箱技術賦能日立中央空調給你舒適理想之家
可抵禦17級颱風9級地震,中國核電技術再創新高,年發電200億度
「其他文章」
一文讀懂微軟PowerPlatform
什麼是結構化、半結構化和非結構化資料?
管理上最常見的誤區有哪些?
如何每天都保持坦然的心態?
你理解“投其所好”的真正含義了嗎?
接受不舒適才能帶來更多舒適
煙花四月,幫你調整心態
再讀曾國藩(隱忍、堅持)
「內省」做事較真,做人不較真
正念修行的七種方式
軟體架構師必備的12項修煉
活在當下,最重要的三個籃子
領導力的4項修煉和30項自省
一個“鄉下人”的北京週末
知天命而不認命-記錄我認識的一個銷售
一圖讀懂塔勒布的反脆弱
IT國產化調研需要考慮的核心因素
固始鄉村見聞,問題與機遇並存
斗羅大陸中的鬥羅精神
固始地名溯源
延伸文章資訊
- 1結構化資料vs. 非結構化資料
非結構化資料可以建立相關中繼資料,因而結構化。舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率(FPS)、影片 ...
- 2淺談資料格式— 結構化與非結構化資料 - Medium
例如:影像檔、語音檔、圖檔、Office檔案、PDF檔、e-mail、網頁等。半結構化資料在資料庫裡意指:具有欄位,但內容不一致,例如:人力銀行網站上的職務 ...
- 3半結構化數據 - 中文百科知識
半結構化數據(semi-structured data)模型在資料庫系統中有著獨特的地位:. (1)它是一種適於資料庫集成的數據模型,也就是說,適於描述包含在兩個或多個 ...
- 4半結構化數據_百度百科
半結構化數據(semi-structured data)模型在數據庫系統中有着獨特的地位:. (1)它是一種適於數據庫集成的數據模型,也就是説,適於描述包含在兩個或多個 ...
- 5什麼是結構化、半結構化和非結構化資料?
半結構化資料的組織條理性與結構化資料相比要弱,且由於欄位並不完全符合表、行和列的結構,不會以關係格式儲存。 半結構化資料包含突顯資料的組織和層次 ...