什麼是文字分析? - AWS
文章推薦指數: 80 %
企業使用文字分析,從各種非結構化資料來源中擷取可行的洞察。
他們依賴於來自電子郵件、社交媒體和客戶問卷調查回覆等來源的意見回饋來協助做出決策。
然而,若沒有文字 ...
什麼是雲端運算? / 雲端運算概念中心 / 機器學習服務
什麼是文字分析?
檢視免費機器學習服務
什麼是文字分析?
文字分析是一種程序,過程中為了取得商業洞察,使用電腦系統閱讀與理解人類書寫的文字。
文字分析軟體可以從文字中獨立分類、排序與擷取資訊,以識別模式、關係、情感、以及其他可行的知識。
您可以使用文字分析,用於有效率且準確地處理多種以文字為基礎的來源,如電子郵件、文件、社群媒體內容、以及產品評論等;這套軟體可以如人類一般執行工作。
為什麼文字分析很重要?
企業使用文字分析,從各種非結構化資料來源中擷取可行的洞察。
他們依賴於來自電子郵件、社交媒體和客戶問卷調查回覆等來源的意見回饋來協助做出決策。
然而,若沒有文字分析軟體,此類來源中的大量文字無疑勢不可當。
藉助文字分析,您可以更快地從來源中取得準確資訊。
該程序完全自動化且一致,並顯示可以採取行動的資料。
例如,使用文字分析軟體可讓您立即偵測社交媒體張貼上的負面情緒,以便您可以設法解決問題
情緒分析
情緒分析或觀點挖掘利用文字分析方法,來理解一段文字中傳達的觀點。
您可以使用評論、部落格、論壇和其他線上媒體的情緒分析,來確定您的客戶是否對其購買感到滿意。
情緒分析可協助您發現新趨勢、追蹤情緒變化並解決公關問題。
透過使用情緒分析並識別特定關鍵字,您可以追蹤客戶意見的變更並確定問題的根本原因。
記錄管理
文字分析可實現對文件的有效管理、分類和搜尋。
這包括自動化患者記錄管理、監控品牌提及內容以及偵測保險詐騙。
例如,
LexisNexisLegal&Professional使用文字擷取來識別2億份文件中的特定記錄。
個人化客戶體驗
您可以使用文字分析軟體來處理電子郵件、評論、聊天和其他以文字為基礎的通訊。
憑藉對客戶偏好設定、購買習慣和整體品牌認知的洞察,您可以為不同的客戶群量身定製個人化體驗。
文字分析如何運作?
文字分析的核心是訓練電腦軟體,將字詞與特定含義關聯並理解非結構化資料的語義相關內容。
這類似於人類透過將字詞與物件、動作和情緒關聯來學習新語言的方式。
文字分析軟體是以深度學習和自然語言處理原理為依據運作。
深度學習
人工智慧是資料科學領域,指導電腦像人類一樣思考。
機器學習是人工智慧中的一種技術,其使用特定的方法來指導或訓練電腦。
深度學習是一種高度專業化的機器學習方法,其使用模仿人腦的神經網路或軟體結構。
深度學習技術為文字分析軟體提供支援,因此這些網路能夠以類似於人腦的方式閱讀文字。
自然語言處理
自然語言處理(NLP)是人工智慧的一個分支,讓電腦能夠從自然、人工建立的文字中自動衍生含義。
它利用語言模型和統計數字來訓練深度學習技術,以處理和分析文字資料,包括手寫文字影像。
光學字元辨識(OCR)等NLP方法,透過尋找並理解影像中的字詞,將文字影像轉換為文字文件。
文字分析技術有哪些類型?
文字分析軟體使用以下常用技術。
文字分類
在文字分類中,文字分析軟體學習如何將某些關鍵字與特定主題、使用者意圖或情緒關聯。
它透過使用以下方法來實現:
以規則為基礎的分類,可根據語義元件或句法模式的預先定義規則,將標籤指派給文字。
以機器學習為基礎的系統,透過使用範例來訓練文字分析軟體,並提高其標記文字的準確性來運作。
他們使用NaiveBayes、SupportVectorMachines和深度學習等語言模型來處理結構化資料,對字詞進行分類,以及在字詞之間建立語義理解。
例如,好評通常包含good、fast、和great(好、快、很棒)等詞。
但是,負面評論可能包含unhappy、slow、和bad(不滿意、慢、糟糕)等詞。
資料科學家會訓練文字分析軟體,以尋找這些特定術語並將評論分類為正面或負面。
這樣,客戶支援團隊就能輕鬆地從評論中監控客戶情緒。
文字擷取
文字擷取會掃描文字並提取關鍵資訊。
它可以在一段文字中識別關鍵字、產品屬性、品牌名稱、地名等。
擷取軟體採用以下方法:
正則表達式(REGEX):這是一個格式化符號陣列,用作需要擷取的前提條件。
條件隨機場(CRF):這是一種機器學習方法,透過評估特定模式或片語來擷取文字。
它相較於REGEX更精細和靈活。
例如,您可以使用文字擷取來監控社交媒體上的品牌提及內容。
要手動追蹤您的品牌在社交媒體上每一次出現的情況,這很難實現。
文字擷取將即時提醒您品牌提及內容。
主題建模
主題建模方法可識別出現在非結構化文字中的相關關鍵字,並將其分組為主題或話題。
這些方法可以讀取多個文字文件,並根據文件中各種字詞的出現頻率將其分類為主題。
主題建模方法可提供關聯內容以作進一步分析。
例如,您可以使用主題建模方法,來閱讀掃描的文件封存,並將文件分類為發票、法律文件和客戶協議。
然後,您可以在發票上執行不同的分析方法,以獲得財務洞察,或對客戶協議執行不同的分析方法以獲得客戶洞察。
PII編輯
PII編輯會自動偵測並移除文件中的個人身分識別資訊(PII),如姓名、地址或帳戶號碼。
PII編輯有助於保護隱私權並遵守當地的法律法規。
例如,您可以分析支援工單和知識文章,以偵測並編輯PII,然後再在搜尋解決方案中為文件編制索引。
之後,搜尋解決方案不再包含文件中的PII。
文字分析包含哪些階段?
若要實作文字分析,您需要遵循經過四個階段的系統程序。
第1階段–資料收集
在此階段,您從內部或外部來源收集文字資料。
內部資料
內部資料是企業內部的文字內容,並且隨時可用,例如電子郵件、聊天記錄、發票和員工調查。
外部資料
您可以在社交媒體張貼、線上評論、新聞文章和線上論壇等來源尋找外部資料。
獲取外部資料更加困難,因為它超出您的控制範圍。
您可能需要使用Web抓取工具,或與第三方解決方案整合來擷取外部資料。
第2階段–資料準備
資料準備是文字分析的重要組成部分。
它涉及以可接受的格式建構原始文字資料以進行分析。
文字分析軟體會自動化該程序,並涉及以下常見的自然語言處理(NLP)方法。
字符化
字符化將原始文字分隔成多個具有語義的部分。
例如,片語textanalytics(文字分析)benefitsbusiness(惠及企業)標記為字詞text(文字)、analytics(分析)、benefits(惠及)和企業(企業)。
詞性標記
詞性標記將語法標記指派給字符化文字。
例如,將此步驟套用至之前提及的字符,會產生文字︰名詞;分析:名詞;惠及:動詞;企業:名詞。
解析
解析在字符化字詞與英文語法之間建立了有意義的聯繫。
它可協助文字分析軟體視覺化字詞之間的關係。
詞形還原
詞形還原是一種語言程序,可將字詞簡化為字典形式或引理。
例如,visualizing的字典形式是visualize。
停用詞移除
停用詞是為句子提供很少或沒有語義關聯內容的詞,例如and、or和for。
根據使用案例,軟體可能會將其從結構化文字中移除。
第3階段–文字分析
文字分析是該程序的核心部分,其中文字分析軟體使用不同的方法對文字進行處理。
文字分類
分類是根據規則或以機器學習為基礎的系統,為文字資料指派標籤的程序。
文字擷取
擷取涉及識別文字中特定關鍵字的出現,並將其與標籤關聯。
該軟體使用正則表達式和條件隨機欄位(CRF)等方法,來執行此操作。
第4階段–視覺化
視覺化是指將文字分析結果轉換為易於理解的格式。
您將在圖形、圖表和表格中找到文字分析結果。
視覺化結果可協助您識別模式和趨勢,並建置行動計畫。
例如,假設您的產品退貨量激增,但您很難找出原因。
透過視覺化,您可以在意見回饋中尋找defects(缺陷)、wrongsize(錯誤尺寸)或notagoodfit(不合適)之類的詞,並將其製成圖表。
然後,您就會知道哪個是優先考慮的主要問題。
什麼是文字挖掘?
文字挖掘是指透過分析非結構化文字取得定性洞察的程序。
文字分析與文字挖掘
文字分析與文字挖掘沒有區別。
這兩個術語都是指從電子郵件、問卷調查回覆和社交媒體摘要等來源,獲得有價值洞察的相同程序。
什麼是文字分析?
文字分析是指您可以透過分析多個文字範例中的模式所獲得的定量資料。
它以圖表、表格或圖形的形式呈現。
文字分析與文字分析結果
文字分析結果可協助您透過分析數千條意見回饋的結果,確定是否存在特定趨勢或模式。
同時,您可以使用文字分析結果,來確定客戶的意見回饋是正面的還是負面。
AmazonComprehend如何提供協助?
AmazonComprehendAmazonComprehend是一項自然語言處理服務,使用機器學習來發現文字中的有價值洞察和連線。
使用該服務,您可以透過自動分類和從中擷取資訊,以簡化文件處理工作流程。
例如,您可以使用AmazonComprehend執行以下任務:
對客戶支援工單、產品評論、社交媒體源等執行情緒分析。
將AmazonComprehend與AmazonLex整合,以開發智慧的對話式聊天chatbot。
從文件中擷取醫學術語,並使用AmazonComprehendMedical識別它們之間的關係。
立即建立AWS帳戶以開始使用。
什麼是AmazonComprehend?
文字分析後續步驟
查看額外的產品相關資源
進一步了解文字分析
註冊免費帳戶
立即存取AWS免費方案。
建立免費帳戶
開始在主控台進行建置
開始在AWS管理主控台使用AmazonComprehend。
登入
頁面內容
什麼是文字分析?
為什麼文字分析很重要?
文字分析如何運作?
文字分析技術有哪些類型?
文字分析包含哪些階段?
什麼是文字挖掘?
什麼是文字分析?
AmazonComprehend如何提供協助?
文字分析後續步驟
結束對InternetExplorer的支援
知道了
AWS對InternetExplorer的支援將於07/31/2022結束。
支援的瀏覽器包括Chrome、Firefox、Edge和Safari。
進一步了解»
知道了
延伸文章資訊
- 1結構化與非結構化資料| Seagate 台灣
裝置或軟體將移往資料湖的原始格式資訊收集後,原始的輸出資料便是非結構化資料。結構化資料會以數值或文字格式整理妥當,可在預先定義的參數內將資料分門別類、重組分析。
- 2[數據解析實驗室]案例分享:「非結構化資料」轉換為「結構化 ...
「URCOSME網站上的產品口碑解析」案例分析一般來說,社群網站中經常出現的文字式「非結構化資料」,如何進一步…
- 3非結構化資料分析平台 - Micro Focus
IDOL 提供了單一整合式文字分析、語音分析和視訊分析,並支援超過1000 種資料格式。它能讓您立即存取防火牆內外150 個資料儲存 ...
- 4非結構化(文字)資料 - 商業大數據平台
... 大數據分析平台服務使用說明 · UAP平台使用說明 · 文字分析平台使用說明 · 帳號申請. 非結構化(文字)資料. 非結構化(文字)資料. Ashe Theme by WP Royal.
- 5結構化資料vs. 非結構化資料
企業組織若能具備分析非結構化資料的能力,將會受益無窮。 ... 預估到了2025 年我們所接觸的資料會有80% 是非結構化資料,形式包括了文字、聲音、圖片、影像等1。