CKIP Lab 中文詞知識庫小組| 廣義知網 - 中央研究院
文章推薦指數: 80 %
廣義知網(E-HowNet) 是中央研究院資訊所詞庫小組於2003年與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,將中央研究院詞庫小組辭典(CKIP ...
概念網是指一表達及處理詞彙知識和常識的本體架構。
它的建構主要依賴兩項工作的完成:建立知識表達模型以及自動抽取常識。
概念網的知識表達模型是以「個體—關係」
(entity-relation)框架為本的模型,由於它延伸自
知網(HowNet)
的語意定義機制,在本計畫中又稱為「廣義知網」。
在廣義知網中,每一個詞彙都可根據「個體—關係」框架來定義,並能由簡單概念組合成複雜概念,或反向地由複雜概念分解為簡單概念。
概念網中所涵蓋的知識內容則包括詞彙概念定義與一般常識。
廣義知網(E-HowNet)
是中央研究院資訊所詞庫小組於2003年與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,將中央研究院詞庫小組辭典
(CKIPChineseLexicalKnowledgeBase)
中的九萬多詞條與知網連結。
在研究過程中,詞庫小組對知網的定義架構做了一些更動,新增了多層次定義架構與複雜關係表示式,我們以簡單概念取代義原,作為定義複雜概念的元素;並設計了複雜關係的表達架構,使繁體字知網逐漸發展成為一個新的知識表達模型,稱為「廣義知網」。
細節請參見
“多層次概念定義與複雜關係表達—繁體字知網的新增架構”(Chenetal.2005)
一文。
此處僅整合廣義知網的優點如下:廣義知網不受有限義原的限制,能夠更精確的表達知識。
廣義知網符合人的認知方式,對標注者而言較簡單,他們可以靈活的運用簡單概念進行定義。
標注者使用不同的簡單概念定義同一詞彙時,最後仍可轉換為相同或相近的義原,並可利用上下位承襲規範進行整合,有利於知識庫建立的方便性與一致性。
廣義知網利用簡單概念定義複雜概念,可以減少訊息的重複登錄,只需把額外的訊息補充說明即可,因此表示式較清楚易懂。
當簡單概念出現歧義時,我們的解決方法是以
WordNet同義詞集(synset)加以限定,藉著與WordNet
同義詞集的連結,將可以限定詞義,解決歧義詞的問題。
廣義知網的表示式比較容易轉換為自然語言。
複雜關係表示式便於用來定義任何具有多重結合關係的人際概念、時空概念與比較概念。
目前,我們已針對比較詞、疑問詞及情態詞的表達制訂定義規範,也持續分析複合詞、否定詞及其他功能詞,並建立角色的上下位關係及變數指派,因為角色的本體架構也有上下位共性承襲的優點,可以輔助計算機理解概念與概念間的關係。
未來,我們仍將朝下位角色繼續擴充,藉由關係的合成產生複雜的下位關係,希望建立更細密完整的知識表達架構,使每個概念都能以框架為基礎
(frame-based)
來進行定義。
廣義知網的技術報告內有對於角色關係更詳細的說明,請參見
“E-HowNetTechnicalReport”(詞庫小組2009)。
將原有語法詞類訊息的CKIP辭典,約八萬目詞,增加英文翻譯與廣義知網定義,使辭典內容涵蓋以詞彙為本的語法與語義訊息,實例如下:中文詞彙汽油彈注音ㄑㄧˋ ㄧㄡˊ ㄉㄢˋ漢語拼音qi4you2dan4詞類Nab英文翻譯petrol_bomb廣義知網概念式{weapon|武器:material={汽油}}廣義知網展開式{weapon|武器:material={material|材料:attribute={StateLiquid|液態},telic={burn|焚燒:material={~},purpose={VehicleGo|駛}}}}
建立詞彙自動分類器。
自動將有相同語義中心的詞彙,放置於本體知識架構中適切的上下階位置。
開放廣義知網本體架構線上瀏覽。
概念和概念之間的關係是透過中文剖析系統分析大量文本所抽取得到的。
經過剖析抽取後,我們首先得到詞與詞之間的關係。
例如:在「我們都喜歡蝴蝶」一句中,經過斷詞與剖析之後得到它的結構樹如下:
再從其中抽出詞與詞的關係如下:experiencer我們NhaaHead[S]喜歡VK1quantify都DabHead[S]喜歡VK1Head[S]喜歡VK1goal蝴蝶Nab
經過大量抽取詞與詞的關係後,我們把這些詞彙和廣義知網所提供的訊息作一連結,得到更多的詞與詞關係,接著用這些關係來定義詞彙的意義,把有類似上下文脈絡的詞彙整合在一起,就成為概念網的知識架構。
例如:(喜歡,
goal-蝴蝶)(experiencer-我們,喜歡)用廣義知網表示式可分別表達為:
({FondOf|喜歡},goal-{InsectWorm|蟲:{fly|飛:agent={~}}})(experiencer-{human|人:PersonPro={1stPerson|我},quantity={mass|眾}},{FondOf|喜歡})
從而我們可以推知凡是和「我們」一樣以
{human|人}
作為中心語的詞彙,例如:你、張三、媽媽…等等都可能是喜歡的經驗者。
凡是和「蝴蝶」一樣以
{InsectWorm|蟲}
做為中心語的詞彙,例如昆蟲、蜜蜂、蚊子⋯⋯等等都可能作為喜歡的終點角色。
在剖析大量文本後,我們得到許多概念訊息,概念網的詞彙知識及一般常識便由此建立。
廣義知網(九萬目中文詞知識庫)視覺化展示將Ehownet字詞的定義式視覺化,以好理解的方式呈現。
Demo
廣義知網(九萬目中文詞知識庫)線上系統廣義知網承續知網(HowNet)的語意定義機制,將中央研究院詞庫小組辭典(CKIPChineseLexicalKnowledgeBase)中的九萬多詞條與知網連結,目的在建立一表達概念與概念之間,以及概念所具有之屬性間的關係的詞彙知識庫,並形成基本知識的概念網。
Demo
大廣義知網線上系統基於廣義知網系統之架構、詞條,再加上中文Wikipedia中的條目而建成的知識本體架構。
Demo
康熙字典知識本體基於廣義知網系統之架構,以《康熙字典》中收錄4萬8千多字為詞條,建成的知識本體架構。
提供使用者了解古漢語詞彙的使用方式。
Demo
Shu-LingHuang,Yu-MingHsieh,Su-ChuLin,Keh-JiannChen.
“ResolvingtheRepresentationalProblemsofPolarityandInteractionBetweenProcessandStateVerbs”.
IJCLCLP,Vol.19,No.2,pp.33–52,Jun2014.Shu-LingHuang,Keh-JiannChen.
“SemanticAnalysisandContextualHarmonyofDurations”.
JournalofChineseLinguistics,Vol.41,No.1,pp.118–144,Jan2013.Shu-LingHuang,Yu-MingHsieh,Su-ChuLin,Keh-JiannChen.
“LexicalRepresentationandClassificationofEventiveVerbs—PolarityandInteractionbetweenProcessandState”.
SIGHAN,Oct2013.You-shanChung,Keh-JiannChen.
“TransitivityofaChineseVerb-ResultCompoundandAffectedArgumentoftheResultVerb”.
Vol.17,No.2,pp.1–20,Jun2012.You-shanChung,Keh-JiannChen.
“TransitivityofaChineseVerb-resultCompoundandAffectedArgumentoftheResultVerb”.
ROCLING,Sep2011.Wei-TeChen,Su-ChuLin,Shu-LingHuang,You-ShanChung,Keh-JiannChen.
“E-HowNetandAutomaticConstructionofaLexicalOntology”.
COLING,Aug2010.You-shanChung,Keh-JiannChen.
“AnalysisofChineseMorphemesandItsApplicationtoSenseandPart-Of-SpeechPredictionforChineseCompounds”.
ICCPOL,Jul2010.Ming-HongBai,Jia-MingYou,Keh-JiannChen,JasonS.Chang.
“AcquiringTranslationEquivalencesofMultiwordExpressionsbyNormalizedCorrelationFrequencies”.
EMNLP,Aug2009.Chia-HungTai,Jia-ZenFan,Shu-LingHuang,Keh-JiannChen.
“AutomaticSenseDerivationforDeterminative-MeasureCompoundsundertheFrameworkofE-HowNet”.
IJCLCLP,Vol.14,No.1,pp.19–44,Mar2009.Shu-LingHuang,Keh-JiannChen.
“ASemanticAnalysisofTimeIntervals—CoreSensesandRelationalSensesofaTimeInterval”.
CLSW,Jul2009.Ming-HongBai,Keh-JiannChen,JasonS.Chang.
“ImprovingWordAlignmentbyAdjustingChineseWordSegmentation”.
IJCNLP,Jan2008.Shu-LingHuang,Keh-JiannChen.
“KnowledgeRepresentationandSenseDisambiguationforInterrogativesinE-HowNet”.
IJCLCLP,Vol.13,No.3,pp.255–278,Dec2008.Chia-hungTai,Shu-LingHuang,Keh-JiannChen.
“ASemanticCompositionMethodforDerivingSenseRepresentationsofDeterminative-MeasureCompoundsinE-HowNet”.
ROCLING,Sep2008.Shu-LingHuang,You-ShanChung,Keh-JiannChen.
“E-HowNet:theExpansionofHowNet”.
NationalHowNetWorkshop,May2008.Shu-LingHuang,Yueh-YinShih,Keh-JiannChen.
“KnowledgeRepresentationforComparativeConstructionsinExtended-HowNet”.
LanguageandLinguistics,Vol.9,No.2,pp.395–413,Apr2008.You-ShanChung,Shu-LingHuang,Keh-JiannChen.
“ModalityandModalSenseRepresentationinE-HowNet”.
PACLIC,Nov2007.Shu-LingHuang,You-ShanChung,Yueh-YinShih,Keh-JiannChen.
“KnowledgeRepresentationforInterrogativesinE-HowNet”.
ROCLING,Sep2007.Yueh-YinShih,Shu-LingHuang,Keh-JiannChen.
“SemanticRepresentationandCompositionforUnknownCompoundsinE-HowNet”.
PACLIC,Nov2006.Shu-LingHuang,Yueh-YinShih,Keh-JiannChen.
“TheKnowledgeRepresentationforComparisonWordsinExtended-HowNet”.
CLSW,May2006.Yi-JunChen,Shu-LingHuang,Yueh-YinShih,Keh-JiannChen.
“多層次概念定義與複雜關係表達—繁體字知網的新增架構”.
漢語詞彙語義研究的現狀與發展趨勢國際學術研討會,Nov2005.Yueh-YinShih,Shu-LingHuang,Yi-JunChen,Keh-JiannChen.
“SemanticRepresentationandCompositionforSpatialConceptsinExtended-HowNet”.
IEEENLPKE,Oct2005.Keh-JiannChen,Shu-LingHuang,Yueh-YinShih,Yi-JunChen.
“Extended-HowNet:ARepresentationalFrameworkforConcepts”.
IJCNLP,Oct2005.Yi-JunChen,Shu-LingHuang,Yueh-YinShih,Keh-JiannChen.
“繁體字知網架構下之功能詞表達初探”.
CLSW,Apr2005.Jia-MingYou,Yu-MingHsieh.
“AutomaticSemanticRoleAssignmentforaTreeStructure”.
SIGHAN,Jul2004.Keh-JiannChen,Jia-MingYou.
“AStudyonWordSimilarityUsingContextVectorModels”.
IJCLCLP,Vol.7,No.2,pp.37–58,Aug2002.施悅音、陳怡君、游佳明、鍾友珊、劉立群、陳維德、林素朱、黃淑齡、白明弘、謝佑明、李婕瑜、楊慕CKIPLab中文詞知識庫小組詞庫簡介最新消息研究領域深度學習知識表達自然語言理解知識擷取聊天機器人專案介紹中文剖析中文斷詞中文句結構樹現代漢語平衡語料庫廣義知網康熙字典知識本體語言模型中文向量表達專有名詞辨識指代消解輿情分析系統詞庫小妍GuessWhat線上系統展示下載軟體與資源論文發表計畫主持人詞庫成員詞庫生活聯絡我們加入我們研究助理軟體工程師GitHub回報錯誤內部資訊
延伸文章資訊
- 1HowNet and Its Computation of Meaning - ACL Anthology
HowNet and Its Computation of Meaning. Zhendong Dong. Research Center of Computer. & Language Eng...
- 2「三名本科生搞事情」用HowNet成功融入深度學習模型
HowNet是董振東先生、董強先生父子畢數十年之功標註的大型語言知識庫,主要面向中文(也包括英文)的詞彙與概念[1]。 HowNet秉承還原論思想,認為詞彙/ ...
- 3HowNet介绍及相关API的使用方法 - CSDN博客
知网(英文名称HowNet),是一个以汉语和英语的词语所代表的的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识 ...
- 4HowNet - a hybrid language and knowledge resource - IEEE ...
Abstract: HowNet is an online common-sense knowledge base unveiling inter-conceptual relations an...
- 5CKIP Lab 中文詞知識庫小組| 廣義知網 - 中央研究院
廣義知網(E-HowNet) 是中央研究院資訊所詞庫小組於2003年與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,將中央研究院詞庫小組辭典(CKIP ...