現代漢語平衡語料庫 - CKIP Lab 中文詞知識庫小組
文章推薦指數: 80 %
中央研究院漢語平衡語料庫(簡稱Sinica Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。
由於加詞類標記的漢語語料庫是史無前例的嘗試,第一步先以較小規模(但 ...
中央研究院漢語平衡語料庫(簡稱Sinica
Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。
由於加詞類標記的漢語語料庫是史無前例的嘗試,第一步先以較小規模(但仍大於較早英語語料庫的一百萬詞規模),於1994年公開提供給國內外學術研究使用,以期在使用過程中得到回饋。
本語料庫中每個文句都依詞斷開,並標示詞類標記。
語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語料中一個代表性的樣本。
建構一個平衡帶詞類標記的語料庫,收集語料是第一個起步工作。
接下來是語料整理的工作,包括語料清潔、為語料分類、加詞類標記等等〔陳克健 1994〕。
因此構建一個中文的帶詞類標記的平衡語料庫需要考慮的中心問題為:
如何為語料做分類,分類的標準以及各類的比例各類分配比例如下:8%13%28%38%8%5%
本語料庫的分詞原則依據中央標準局「資訊處理用中文分詞規範」處理。
詞類標記的原則以及每一個標記所代表的涵義。
我們採用的是由詞庫小組八萬目辭典中的
178
個詞類〔詞庫小組 1993〕經簡化後所得的43個標記,另外加上3個特殊標記,共46個標記。
包含詞類分析及相對應的詞彙結構,詳見技術報告93-05。
搜集1,000萬詞之語料,將上述文獻依主題、出處、文類、年代、作者等加以標記。
並將語料斷詞及標誌詞類。
提供一千萬目詞的平衡語料庫4.0版本,所蒐集的文章為1981年到2007
年之間的文章,欲利用語料庫的研究單位或學者,可透過中華民國計算機語言學會申請此版本的平衡語料庫。
建構介面程式,方便使用者查詢語料庫中的詞彙。
五百萬目詞查詢介面。
一千萬語料查詢介面。
(2013更新)
平衡語料庫(五百萬目詞)專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。
語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。
Demo
平衡語料庫(一千萬語料)專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。
語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。
Demo
Chih-MingChiu,Ji-ChinLo,Keh-JiannChen.
“CompositionalSemanticsofMandarinAffixVerbs”.
ROCLING,Sep2004.Wei-YunMa,Yu-MingHsieh,Chang-HuaYang,Keh-JiannChen.
“DesignofManagementSystemforChineseCorpusConstruction”.
ROCLING,Aug2001.黃居仁,陳克健,陳鳳儀,魏文真,張麗麗.
“資訊用中文分詞規範設計理念及規範內容”.
語言文字應用學刊,Vol.6,No.1,pp.92–100,1997.詞庫小組.
“『搜』文解字:中文詞界研究與資訊用分詞標準”.
No.96-01,Jan1996.張麗麗,黃居仁.
“漢語數量詞後置”.
NAACL,Jul1995.黃居仁.
“科際整合與整合科技-談計算語言學與語料庫語言學之角色與發展”.
「語言學研究之現況與發展」研討會,Jul1995.陳克健.
“素材語言學與文本處理”.
漢語語言學國際會議,Jul1994.詞庫小組.
“中文詞類分析”.
No.93-05,May1993.MarieMeiliYeh,Chih-ChenTang,Chu-RenHuang,Keh-JiannChen.
“APreliminaryStudyonNominalizationinMandarinChinese—Argument-TakingDeverbalNouns”.
ROCLING,Sep1992.魏文真,莫若萍.
“「是」的語法表達模式”.
民國八十年國科會報告,1991.魏文真,葉美利,莫若萍.
“「有」的語法表達模式”.
民國八十年國科會報告,1991.Wen-JenWei,Keh-JiannChen.
“TheGrammarRepresentationofConjunctions—ARepresentationBasedonICG”.
ROCLING,Aug1991.陳克健.
“中文詞知識庫計劃與中文電子辭典”.
中日雙邊資訊研討會論文集,1991.林素朱、邱智銘CKIPLab中文詞知識庫小組詞庫簡介最新消息研究領域深度學習知識表達自然語言理解知識擷取聊天機器人專案介紹中文剖析中文斷詞中文句結構樹現代漢語平衡語料庫廣義知網康熙字典知識本體語言模型中文向量表達專有名詞辨識指代消解輿情分析系統詞庫小妍GuessWhat線上系統展示下載軟體與資源論文發表計畫主持人詞庫成員詞庫生活聯絡我們加入我們研究助理軟體工程師GitHub回報錯誤內部資訊
延伸文章資訊
- 1現代漢語平衡語料庫 - CKIP Lab 中文詞知識庫小組
中央研究院漢語平衡語料庫(簡稱Sinica Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嘗試,第一步先以較小規模(但 ...
- 2中文詞義全文標記語料庫之設計與雛形製作 - ACL Anthology
本文使用『中央研究院現代漢語平衡語料庫』 (Sinica Corpus) [1] 作為語料標的。語料. 中的每個文句都已依詞斷開,並標示詞性。本研究為求表達出文脈結構與前後 ...
- 3政治大學中文口語語料庫
NCCU Corpus of Spoken Taiwan Mandarin. 政治大學中文口語語料庫. Home · About the corpus · Corpus data · Stati...
- 4語言資料庫 - 謝佳玲老師- 國立臺灣師範大學
「國立政治大學漢語口語語料庫」包含三個語言的口語語料:中文、客語、閩南語。語料庫記錄口語語料,並提供外界作為非營利的研究和教學之用。學生和教師(或其他)經會員 ...
- 5中文NLP福利!大規模中文自然語言處理語料 - 人人焦點
【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料, ...