語料庫- 維基百科,自由的百科全書
文章推薦指數: 80 %
中文
語料庫
維基百科,自由的百科全書
跳至導覽
跳至搜尋
語料庫一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。
目次
1語料庫列表
1.1多語
1.2英文
1.3中文
1.3.1繁體中文
1.3.2簡體中文
1.4日語
2外部連結
語料庫列表[編輯]
多語[編輯]
點通多語言語音語料庫
賓州大學語料庫(頁面存檔備份,存於網際網路檔案館)
WikipediaXML語料庫
英文[編輯]
Collin'sCobuildProject-成果:Collin's當代英語辭典、及當代英語文法。
CorpusofContemporaryAmericanEnglish
CorpusofPoliticalSpeeches(香港浸會大學圖書館提供)
中文[編輯]
LIVAC漢語共時語料庫
蘭開斯特大學漢語平衡語料庫
蘭開斯特-洛杉磯漢語口語語料庫
政治人物演講語料庫(香港浸會大學圖書館提供)
繁體中文[編輯]
臺灣華語文語料庫
中央研究院漢語平衡語料庫
簡體中文[編輯]
國家語委現代漢語語料庫
北京大學語料庫
語料庫語言學在線
日語[編輯]
現代日語書面語均衡語料庫BCCWJ
日語口語詞彙語料庫CSJ
筑波網絡語料庫TWC
外部連結[編輯]
Free,web-basedcorpora(45-425millionwordseach):American(COCA,COHA,TIME),British(BNC),Spanish,Portuguese(頁面存檔備份,存於網際網路檔案館)
開放式目錄計劃中和ComputationalLinguistics相關的內容
ACLSIGLEXResourceLinks:TextCorpora
TheLeipzigGlossingRules(頁面存檔備份,存於網際網路檔案館):Conventionsforinterlinearmorpheme-by-morphemeglosses
DevelopingLinguisticCorpora:aGuidetoGoodPracticeArchive.is的存檔,存檔日期2012-12-22
Aninterfaceforqueryingautomatically-constructedvirtualcorpora[失效連結].
TEP:TehranEnglish-PersianParallelCorpus.
[1]BuildingsynchronousparallelcorporaofthelanguagestaughtattheFacultyofArtsofCharlesUniversity.
TSCorpus-ATurkishCorpusfreelyavailableforacademicresearch.(頁面存檔備份,存於網際網路檔案館)
TurkishNationalCorpus-Ageneral-purposecorpusforcontemporaryTurkish(頁面存檔備份,存於網際網路檔案館)
Freeweb-basedEnglishcorpustodownload(3billionwords)(頁面存檔備份,存於網際網路檔案館)
閱論編自然語言處理一般術語
語料庫
口語語料庫
停用詞
詞袋
完全人工智慧(英語:AI-complete)
n元語法(雙字母組,三元語法(英語:Trigrams))
文本挖掘
文本分割
詞性標註(英語:Part-of-speechtagging)
拆句處理(英語:Shallowparsing)
複合詞處理(英語:Compoundtermprocessing)
搭配提取(英語:Collocationextraction)
詞幹提取
詞形還原(英語:Lemmatisation)
命名實體識別
指代
文本情感分析
概念挖掘(英語:Conceptmining)
語法分析
詞義消歧
術語提取(英語:Terminologyextraction)
真實大小寫處理(英語:Truecasing)
自動摘要(英語:Automaticsummarization)
多文檔摘要(英語:Multi-documentsummarization)
句子抽取(英語:Sentenceextraction)
文本簡化(英語:Textsimplification)
機器翻譯
電腦輔助翻譯
基於實例(英語:Example-basedmachinetranslation)
基於規則(英語:Rule-basedmachinetranslation)
自動識別與數據採集
語音識別
語音合成
光學字符識別
自然語言生成
主題模型
彈珠分布(英語:Pachinkoallocation)
隱含狄利克雷分布
潛在語義索引
計算機輔助審查(英語:Computer-assistedreviewing)
自動作文評分(英語:Automatedessayscoring)
語料庫檢索工具(英語:Concordancer)
文法檢查器(英語:Grammarchecker)
預測文本(英語:Predictivetext)
拼寫檢查
語法猜測(英語:Syntaxguessing)
自然語言用戶界面(英語:Naturallanguageuserinterface)
自動在線助手
聊天機器人
文字冒險遊戲
問答系統
取自「https://zh.wikipedia.org/w/index.php?title=语料库&oldid=68975322」
分類:語言學自然語言處理中文信息檢索隱藏分類:Webarchive模板archiveis連結自2017年10月帶有失效連結的條目
導覽選單
個人工具
沒有登入討論貢獻建立帳號登入
命名空間
條目討論
臺灣正體
不转换简体繁體大陆简体香港繁體澳門繁體大马简体新加坡简体臺灣正體
查看
閱讀編輯檢視歷史
更多
搜尋
導航
首頁分類索引特色內容新聞動態近期變更隨機條目資助維基百科
說明
說明維基社群方針與指引互助客棧知識問答字詞轉換IRC即時聊天聯絡我們關於維基百科
工具
連結至此的頁面相關變更上傳檔案特殊頁面靜態連結頁面資訊引用此頁面維基數據項目
列印/匯出
下載為PDF可列印版
其他專案
維基共享資源
其他語言
AfrikaansالعربيةБеларускаяБеларуская(тарашкевіца)БългарскиCatalàČeštinaЧӑвашлаDanskDeutschΕλληνικάEnglishEsperantoEspañolEestiEuskaraفارسیSuomiFrançaisGalegoहिन्दीMagyarՀայերենIdoItaliano日本語മലയാളംBahasaMelayuNederlandsNorskbokmålPolskiPortuguêsРусскийSlovenčinaSlovenščinaไทยУкраїнськаOʻzbekcha/ўзбекчаTiếngViệt粵語
編輯連結
延伸文章資訊
- 1zake7749/Gossiping-Chinese-Corpus: PTT 八卦版問答中文語料
PTT 八卦版問答中文語料. Contribute to zake7749/Gossiping-Chinese-Corpus development by creating an account...
- 2以中文十億詞語料庫為基礎之兩岸詞彙對比研究 - ACL Anthology
同概念詞彙的使用狀況。本文進一步使用中文概念辭典與中文詞網所使用的詞彙,在. Gigaword Corpus 中繁體語料與簡體語料的相對使用率,探究兩岸對於使用相同詞彙,.
- 3中文NLP福利!大規模中文自然語言處理語料 - 人人焦點
【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料, ...
- 4政治大學中文口語語料庫
NCCU Corpus of Spoken Taiwan Mandarin. 政治大學中文口語語料庫. Home · About the corpus · Corpus data · Stati...
- 5語料庫- 維基百科,自由的百科全書
中文