AI 關鍵技術:機器學習與實務應用— 以公文系統為例 - 叡揚資訊

文章推薦指數: 80 %
投票人數:10人

近年來人工智能(Artificial Intelligence, AI) 發展太快,範圍太廣,AI 的議題就像是陽光、空氣、水一樣,無時無刻在我們生活中充斥著,任何事情只要牽扯到人工智慧, ... 首頁 叡揚e論壇 EIS90 AI關鍵技術:機器學習與實務應用—以公文系統為例 企業e化應用AI關鍵技術:機器學習與實務應用—以公文系統為例 下一篇-NCC內化KM十年經驗大集成 前往目錄 pdf下載AI關鍵技術:機器學習與實務應用—以公文系統為例 檔案大小:4.03 MBs 下載次數:1842 近年來人工智能(ArtificialIntelligence,AI)發展太快,範圍太廣,AI的議題就像是陽光、空氣、水一樣,無時無刻在我們生活中充斥著,任何事情只要牽扯到人工智慧,總是受人注目跟關切。

2016年3月世界矚目的人機對弈,南韓圍棋九段李世乭代表人類與Google公司的AlphaGo進行大戰,最後以1:4成績戰敗,終究人工智慧電腦戰勝了人腦。

近年來人工智能(ArtificialIntelligence,AI)發展太快,範圍太廣,AI的議題就像是陽光、空氣、水一樣,無時無刻在我們生活中充斥著,任何事情只要牽扯到人工智慧,總是受人注目跟關切。

2016年3月世界矚目的人機對弈,南韓圍棋九段李世乭代表人類與Google公司的AlphaGo進行大戰,最後以1:4成績戰敗,終究人工智慧電腦戰勝了人腦。

    人工智能在多場戰役中陸續打敗各國高手後,接著又跨足文學創作領域,2014年微軟在中國大陸成立了亞洲研究院,創造了一個人工智慧的詩人小冰,於2016年出版了首部詩集《陽光失了玻璃窗》,她透過519位中國現代詩人的作品學習,進而擁有「看圖作詩」的能力,只要透過一個圖像就可以寫出跟他相對應的詩句來,這又再度掀起人工智慧的討論。

    未來10年50%的工作將會被AI取代-人工智慧工程院院長李開復 要以AI取代現有的工作模式,當然是希望藉此讓工作績效翻倍成長,或是減少錯誤發生,但哪些工作或項目,才適合透過AI或是機器學習來輔助企業成長? 越是重複性高、可以透過大量有效的資料加以邏輯歸納,進而產生正確的決策,又或者可以定義出SOP的工作,且SOP是需要人們數年、數十年、甚至數百年的時間才能學習的事情,在人工智慧時代,透過機器學習只要數小時或數天即可掌握;上述的工作項目,都將會被人工智慧優先取代。

同時因為機器不會有情緒影響、不需要睡覺休息,便可做出正確的判斷與處理,所以這些工作,AI都可以做得比人類更好。

  以公文系統為例 應用系統要如何跟AI做結合? 想把AI運用到企業中需考量以下幾個因素:重複性工作、有大量適切的資料、執行後容許錯誤、可繼續不斷學習校正。

而在公文系統的日常中,每天重複性最高的工作,就是處理分文了,舉凡從機關收到一份公文要正確且快速的分給正確的單位以及人員,這部分就可以借用AI來進行協助。

在自動分文的新科技中,使用最重要的關鍵技術就是自然語言處理(NLP-NaturalLanguageProcessing),大多文章或文字內容都是複雜且凌亂的非結構性資料,無法利用傳統的結構性資料處理方式進行統計分析,必須先經過清整才能使用,我們經由以下四個步驟來進行中文的處理:     1.斷詞處理 中文的自然語言處理之所以複雜跟困難,一個重要的環節是斷詞,在外國語文中,字跟字中間都有使用空白隔開,要透過系統處理相對簡單,但中文都是一句話、一篇文章,因此,第一要件就是把一句話進行解析,比如:公文文書中「主旨:敬請辦理新公文系統教育訓練乙事。

」,系統要斷詞成「主旨/:/敬請/辦理/新/公文/系統/教育/訓練/乙/事/。

」。

  2.詞性標註 接著就要將已經斷好的詞字進行詞性的標註,其中「主旨/公文/系統/教育/訓練/事」為普通名詞;「敬請/辦理」為動詞;「新」為形容詞...等。

  3.消除贅字 每個詞都標注好自己的屬性後,接著就是過濾贅字,將一些對分類判斷邏輯無用的的詞句(如連接詞等)先行去除,只留下一些關鍵詞。

  4.特徵擷取 此階段也是相對困難與專業的,在特徵擷取中,我們使用兩個關鍵的機器學習的演算法,其中一個是TF-IDF(TermFrequency-InverseDocumentFrequency),也就是這個詞在這篇文章出現的次數跟頻率,表示該字詞對這篇文章的比重,但相反的,如果該詞在每一份文章都有出現,則同時代表著,該詞對這篇文章的重要性將成反比。

舉例來說,雖然我們第三步驟已經將一些贅詞去除,留下有用的關鍵詞,但也不代表所留下的詞都是同等重要的。

比如每份公文都有「主旨」兩個字,雖然他出現的頻率很高,也因為每份公文都有,因此這兩個字一點也不影響分文的結果,我們就是透過TF-IDF來計算這些關鍵字在文章中的權重。

  另一個是使用到的機器學習演算法是Word2Vec,此模型可用來映射每個詞到一個詞的向量,可用來表示詞對詞之間的關係,舉例來說,就是「男人」與「女人」或是「男孩」與「女孩」,雖然它們文字看起來是不同的,但分別轉換成詞向量後,兩組的向量是相同或是相近的,以至於可以利用這個向量分析,進而找到「國王」與「皇后」之間也是類似的向量關係,透過這樣的向量相關,可以找出看似不同但實際有相關的公文內文。

  當我們有能力將複雜的公文內容拆解分析後,利用數十萬、數百萬件歷史公文進行分析,並與這些大量的公文實際處理的主辦單位/人進行比對、訓練後,建立出一個分類模組,這樣未來當企業或機關收到一份新公文時,經由分類模組就可透過類別的評分,產生出分類的結果,順利達到自動分文的效果,這樣結果未來也需要透過不斷回饋校正,才能維持它的準確度。

這樣的執行方式,我們曾用6,000筆公文資料進行模擬,經由兩天的機器學習,再利用600筆資料來驗證結果,實驗結果自動分文的正確率可高達85%以上。

  雖然有了上述優秀的實驗結果,但我們不能期待這樣的模組搬到任何企業都可以即刻開罐使用,事實上這都還需要針對不同企業的資料特性,進行重新調教與學習,即使在同一企業中,也會因為組織改變、業務內容的調整,都會影響每次的分文結果準確度,因此,機器學習(MachineLearning)是需要持續不斷進行調校,才能長期發揮其功效。

  AI應用三步驟: 釐清問題、評估資訊、不斷回饋 除了上述的應用例子外,還可以用於協助新進同仁在最短的時間內,學習如何簽辦公文。

例如主動辨識來文內容加上自然語言的處理,建立另一個類別模組,自動推薦該份公文適合回覆的文稿範本內容,就可縮短承辦人自行找尋資料與撰文時間;系統更可貼心提供預排流程供承辦人員參考,讓新手承辦人在最短的時間內辦理各項業務,增進工作效率。

在撰文的過程中,系統還可以更進階的自動進行公文用語解析,提醒承辦人誤用之語詞,並做正確態樣對照建議,以提升撰文品質。

  雖然AI看似很強大,但必需有方法實際應用,才能享受到AI的高績效少錯誤的優勢,而最佳的方式便是AI三步驟: ●Step1:了解人工智能能幫你解決怎樣的問題。

●Step2:是否有足夠且適切的資訊,可以讓機器進行解析與學習。

●Step3:最後經過不斷的回饋與調教,進而提升準確率。

  在上述的公文系統例子當中,便是經過上述AI的三步驟進行思考、考慮實際情況及設計應用情景,我們才能真正感受到AI帶來的好處及價值。

AI關鍵技術:機器學習與實務應用—以公文系統為例 目錄 封面故事 導入企業應用系統的敏捷思維 特別企劃 如何利用敏捷開發管理軟體開發的不確定性 突顯IT服務的重要性快速部署ITSM的第一步 企業e化應用 AI關鍵技術:機器學習與實務應用—以公文系統為例 NCC內化KM十年經驗大集成 研發與設計專欄 可觀測資料流的兩大工具PKRxJSobservableVS.Mobx... Angular切版實戰:如何在Angular專案裡切模組Figureo... 資訊中心管理 全球著名開源軟體管理領導品牌WhiteSource發佈最新技術 Arxan攜手叡揚協助企業保護App安全 你的產品中是否還有這些漏洞?不要成為下一個EQUIFAX2017十大O... 兆豐銀行導入Dynatrace-AppMon持續創造良好消費者體驗 雲端應用 一小時到兩秒鐘的高效奇蹟VitalCRM協助棨楊學員管理化繁為簡 亞力通訊善用叡揚VitalKnowledge協同知識管理 交流園地 叡揚資訊揭示全新BI數據分析雲端CRM系統 轉型『智』造華創車電、台灣汽電共生有秘訣 因應新興科技佈局未來叡揚攜手AI、區塊鏈、雲端及資安專家深入對談



請為這篇文章評分?