什麼是非結構化資料?
文章推薦指數: 80 %
使用延伸線上分析處理(XOLAP) 等應用程式平台,此類平台可從電子郵件和XML 型文件中提取資訊。
在大數據環境中用於非結構化資料的工具和技術還包括文字分析工具,這些工具 ...
Skiptomaincontent
首頁
ReferenceCenter
字彙
什麼是非結構化資料?
非結構化資料是缺乏可識別的結構或架構的資料,這意味著它不符合預先定義的資料模型,因此不適合用於主流關聯式資料庫,因為沒有易於識別的結構會使電腦程式難以讀取。
今天,大型商業組織產生的資料量估計以每年40%到60%的速度快速增長。
非結構化資料從何而來?
非結構化資料的來源包括:
網頁
影片
使用者在部落格和社交媒體網站上的評論
備忘錄
報告
調查回覆
文件(Word、PPT、PDF、純文字)
非結構化文字
客戶服務電話記錄
網際網路上的圖像(JPEG、PNG、GIF等)
媒體日誌
這些資料儲存在資料庫、交易日誌、電子郵件、語音日誌等地方,通常過於非結構化、碎片化和分散,無法一目瞭然地獲得洞察見解,而簡單地按原樣儲存它又不具有任何用處。
如果能在各個孤島之間匯集這些資料,使它們可在整個組織內輕鬆存取、對其模式進行解碼、並以資料分析來提取洞察見解,那麼它可以為利益相關者提供大量有價值的資訊。
另一種新形式的非結構化資料是機器資料,包括來自記錄大量活動和性能資料的網站、伺服器、網路和行動應用程式的日誌檔案。
公司越來越多地從物聯網和連接設備、甚至是製造設備上的智慧型感應器來捕捉和分析資料。
O'Reilly報告:建立整合的數據基礎設施
只有三分之一的企業已發展成為數據驅動的機構。
解決辦法是什麼?在這電子書尋找答案!
下載電子書
儲存非結構化資料:挑戰
儘管只儲存非結構化資料而不使用它進行分析是沒有任何實際用處的做法,但想要儲存它也不是那麼簡單的事,可能會產生幾個問題:
非結構化資料幾乎無處不在,並且佔用大量的儲存空間。
其中有很大一部分是影片、音訊、圖像等大型檔案形式,它們佔據了儲存容量餅圖中的很大一塊。
與結構緊湊整潔的結構化資料相比,非結構化資料的保留或維護成本要高得多。
由於缺乏結構和體系架構,通常很難在系統中進行搜尋、刪除部分內容、或啟動更新。
非結構化資料量越大,為其建立索引就越困難。
如何儲存非結構化資料?
儲存非結構化資料有幾種可行的方法:
首先應將其轉換為更易於管理的格式,可擴展標記語言(XML)通常是首選格式。
以內容可尋址儲存系統(CAS)來儲存非結構化資料,此類系統透過存取其中繼資料、並為儲存在資料中的每個項目或物件分配唯一名稱來加以儲存,使得物件可根據其內容而非位置來進行檢索。
非結構化資料可以儲存在軟體系統中,再用於維護關聯式資料庫。
一些關聯式資料庫系統可以選擇使用結構化查詢語言(SQL)來提交查詢和維護資料庫。
二進制大物件(也稱為BLOB)是儲存非結構化資料的可行系統,二進制大物件是指在資料庫管理系統中被儲存為單一實體的二進制資料集,二進制大物件通常是圖像、音訊或其他多媒體物件,有時甚至連二進制執行檔也被儲存為二進制大物件。
非結構化資料的缺點
非結構化資料的缺點很明顯:
缺乏模式和結構,使得非結構化資料難以管理,而且儲存起來很麻煩。
檢索非結構化資料不僅困難,而且由於結構模糊和缺乏預先定義的屬性,會很容易產生錯誤。
執行搜尋更是一項痛苦的活動,因為搜尋結果不夠準確,沒有任何助益。
此外,保持非結構化資料的安全也極其困難。
從非結構化資料中提取資訊
如前所述,眾所周知,非結構化資料難以標記、檢索和讀取,它不容易被傳統演算法解讀,出錯的機率很高。
以下是一些有助於挖掘非結構化資料以提取可用資訊的策略:
將資料儲存在Documentum等虛擬儲存庫中,以便自動幫資料標記。
執行各種資料探勘工具。
將資料分類以賦予它結構和階層構造,利用固有的邏輯使搜尋過程簡化。
使用延伸線上分析處理(XOLAP)等應用程式平台,此類平台可從電子郵件和XML型文件中提取資訊。
在大數據環境中用於非結構化資料的工具和技術還包括文字分析工具,這些工具可以相當理想地搜尋文字資料中的模式、關鍵字和情感。
另一種工具是自然語言處理(NLP)技術,這是一種評估情境脈絡、並從文字和人類語言中找出意義的人工智慧技術,透過使用神經網路來分析資料的深度學習演算法來實現。
非結構化資料分析中使用的其他技術還包括資料探勘,或是使用機器學習和預測分析。
現代化您的數據和分析架構
查看這13個用例,以了解怎樣支援當今複雜的數據和分析環境。
閱讀更多
非結構化資料的優勢
不過,非結構化資料並非完全沒有優勢。
它的一些缺點可能反而變得更有利。
缺乏模式,帶來了靈活性
非結構化資料缺乏架構,因此不那麼僵化,事實上,它可以非常靈活。
這種靈活性使非結構化資料更容易擴展且不受限制,而且是可攜的。
更豐富的資訊來源
資料來源的異質性可確保以非結構化格式捕捉到更豐富的資料,如果分析得當,非結構化資料可以有很多種應用,提供有價值的商業情報見解。
非結構化資料有多種格式
資料集可以用多種格式維護,由於缺乏統一的儲存結構,因此分析團隊能夠分析和處理所有的可用資料,而非首先專注於整合和標準化資料。
與較嚴格的資料格式相比,這個特性為更廣泛、更全面的分析奠定了基礎。
非結構化資料與其他資料類型有何不同
大數據除了非結構化資料之外,還包含其他類型的資料,即結構化資料和半結構化資料。
結構數據
結構化資料在各方面都與非結構化資料相反。
任何時候都可以進行有效分析,並可在資料庫或類似的格式化儲存庫中組織整理。
結構化資料在技術上適用於可以儲存在資料庫中的所有資料,它涉及可以透過結構化查詢語言(SQL)儲存在具有行和列的表格中的所有資料。
這種結構的特點是它們的關聯鍵,很容易就能鏡射到預先設計的欄位中。
結構化資料是最能被處理的類型,這是管理資訊的最簡單和有組織的方式,關聯資料便是結構化資料的一個例子。
結構化資料的剛性格式使其很難擴大規模,其中一個例子是金融系統和其他業務應用程式中的交易資料。
在大多數情況下,它通常必須符合指定的結構,以確保流程和分析具有一致性。
半結構化資料
半結構化資料是與資料庫無關的資訊,然而,它仍然具有一些組織屬性,比純粹的非結構化資料更容易挖掘和分析。
例如,如果添加了中繼資料標籤,便能獲得更多關於資料所含資訊和情境脈絡的訊息,XML資料就是這樣一個例子。
根據一些資料管理專家的說法,所有資料,即使是非結構化資料,都有一定程度的結構。
他們認為,非結構化資料和半結構化資料之間的界限很模糊。
有鑑於非結構化資料往往蘊含豐富的見解,資料科學家可以利用這些洞察見解來更好地構建他們的模型,因此非結構化資料的重要性再怎麼強調也不過分。
使用TIBCO處理非結構化資料
了解更多
相關產品
_selfTIBCOEBX™軟體
_selfTIBCO®DataVirtualization
_selfTIBCOSpotfire®
非結構化資料資源
Structured+UnstructuredData:CreatingGreaterValuewithBigDataVariety
Inthiswebcast,SyedMahmoodofTIBCOSpotfireandRikTamm-DanielsofAttiviodiscussdatasource...
On-DemandWebinar
MashingUpStructuredDataandUnstructuredContentforAnalysis
UsefreetextsearchtoexploreandanalyzetheunstructuredcontentinEnronemails.
ProductDemonstrationVideo
2021GartnerMagicQuadrantforMasterDataManagementSolutions
Forthesixthtimeinarow,TIBCOhasbeenrecognizedasaLeaderinthe2021Gartner®Magic...
AnalystReport
UnlockingandPuttingUnstructuredDatatoWork
Intoday’sdigitalworld,wecomeacrossallsortsofinformation,fromemailsandsocialmedia,to...
On-DemandWebinar
tibco-cloud-tm
SignIn
TIBCOLogo
Agloballeaderinenterprisedata,TIBCOempowersitscustomerstoconnect,unify,andconfidentlypredictbusinessoutcomes,solvingtheworld’smostcomplexdata-drivenchallenges.
Copyright©2022TIBCOSoftwareInc.AllRightsReserved.TIBCOfollowstheEUStandardContractualClausesasperTIBCO'sDataProcessingAgreement.
tibco-cloud-tm
SignIn
延伸文章資訊
- 1非結構化數據| Blog
由上圖可見,圖片、影片、即時對話內容、錄音、手寫資料、電郵、二進位檔等都是非結構化數據的最佳例子。而關聯式資料庫、CSV檔、Excel檔案等則是結構化 ...
- 2什麼是非結構化資料?
使用延伸線上分析處理(XOLAP) 等應用程式平台,此類平台可從電子郵件和XML 型文件中提取資訊。 在大數據環境中用於非結構化資料的工具和技術還包括文字分析工具,這些工具 ...
- 3非結構化資料決定競爭力 - 網管人
非結構化資料決定競爭力. 2020-09-25. Andrew Sotiropoulos. 在資訊科技進步、物聯網普及後,資料量將會迅速暴增!根據2019年IDC的預測報告,全球已安裝的儲存容量...
- 4[瞭解資料特徵]Part1-結構化與非結構化資料
非結構化資料:形式自由且不遵循標準的格式規範,一團沒有組織的數據。非結構化數據的示例包括圖像,音頻,視頻,電子郵件,電子表格和文字處理文檔,實質上是存儲為文件 ...
- 5結構化與非結構化資料| Seagate 台灣
結構化資料是經過整理的定量資料,通常大部分是數值或文字資料,這類資料以某種標準格式存在,位於檔案或記錄的固定欄位中。像試算表或關聯式資料庫中存在的資訊,就是結構 ...