國內可外用免費語料庫下載資源匯總, 語言翻譯必備
文章推薦指數: 80 %
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫( ...
碼上快樂
首頁
榜單
標簽
關於
搜索
相關內容
簡體
繁體
國內可外用免費語料庫下載資源匯總,語言翻譯必備:國內外23個語料庫推薦
本文轉載自
xxxxxxxx1x2xxxxxxx
查看原文
2017-09-0423:02
5768
nlp
國內可外用免費語料庫下載資源匯總
(一)國家語委1.國家語委現代漢語語料庫http://www.cncorpus.org/現代漢語通用平衡語料庫現在重新開放網絡查詢了。
重開后的在線檢索速度更快,功能更強,同時提供檢索結果下載。
現代漢語語料庫在線提供免費檢索的語料約2000萬字,為分詞和詞性標注語料。
2.古代漢語語料庫http://www.cncorpus.org/login.aspx網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。
同時,還提供了分詞、詞性標注軟件、詞頻統計、字頻統計軟件,基於國家語委語料庫的字頻詞頻統計結果和發布的詞表等,以供學習研究語言文字的老師同學使用。
(二)北京大學計算語言學研究所《人民日報》標注語料庫http://www.icl.pku.edu.cn/icl_res/《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。
其中一個月的語料(1998年1月)近200萬字在互聯網上公布,供自由下載。
(三)北京語言大學漢語國際教育技術研發中心:HSK動態作文語料庫http://202.112.195.192:8060/hsk/login.asp語言研究所:北京口語語料查詢系統(BJKY)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp (四)台灣中央研究院中研院語料庫WWW版所有功能均開放使用,但為防主機資源耗用過劇及顧及數據傳輸之實際限制,暫以檢索結果為限制的條件:院內檢索限兩萬行數據,院外檢索限兩千行數據。
1.現代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。
語料的搜集也盡量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。
現有語料庫主要針對語言分析而設計,由中央研究院信息所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。
2.古漢語語料庫http://www.sinica.edu.tw/ftms-bin/ftmsw 古漢語語料庫包含以下五個語料庫:上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。
部分數據取自史語所漢籍全文數據庫,故兩者間略有重迭。
此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所制作的數據庫。
3.近代漢語標記語料庫http://www.sinica.edu.tw/Early_Mandarin/為應漢語史研究需求而建構的語料庫。
目前素語料庫所搜集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,並視結果逐步提供上線檢索。
4.樹圖數據庫http://treebank.sinica.edu.tw/「中文句結構樹資料庫」(SinicaTreebankVersion3.0)包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫(SinicaCorpus)中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。
在中文句結構樹中,我們標示了中文句語意和語法的訊息。
此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。
另有1000個句結構樹開放下載。
5.中英雙語知識本體詞網http://bow.sinica.edu.tw/結合詞網,知識本體,與領域標記的詞匯知識庫。
6.搜文解字http://words.sinica.edu.tw/包含「搜詞尋字」、「文學之美」、「游戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、庄、唐詩中的出處,及直接連結到出處,閱讀原文。
7.文國尋寶記http://www.sinica.edu.tw/wen/在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網絡上國語文學習的素材。
8.唐詩三百首http://cls.admin.yzu.edu.tw/300/以國中、小學學生為主要使用對象,提供吟唱、繪畫、書法等多媒體數據,文字數據報含作者生平、讀音標注、翻譯、批注、評注、典故出處等資料;檢索點包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體數據。
並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。
9.漢籍電子文獻http://www.sinica.edu.tw/~tdbproj/handy1/包含整部25史整部阮刻13經、超過2000萬字的台灣史料、1000萬字的大正藏以及其他典籍。
10.紅樓夢網絡教學研究數據中心http://cls.hs.yzu.edu.tw/HLM/home.htm元智大學中國文學網絡系統研究室所開發的「網絡展書讀—中國文學網絡系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。
此網站為國內Internet最大中國文學研究數據庫,提供用戶最完整的中國文學研究數據。
(五)中國傳媒大學1.中國傳媒大學文本語料庫檢索系統http://ling.cuc.edu.cn/RawPub/2.在線分詞標注系統http://ling.cuc.edu.cn/cucseg/3.新詞語研究資源庫http://ling.cuc.edu.cn/newword/web/index.asp4.音視頻語料檢索系統http://ling.cuc.edu.cn/mmcpub(目前系統正在升級改造中) (六)哈爾濱工業大學哈工大信息檢索研究室對外共享語料庫資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm該語料庫為漢英雙語語料庫,10萬對齊雙語句對,文本文件格式,同義詞詞林擴展版,77,343條詞語,秉承《同義詞詞林》的編撰風格,同時采用五級編碼體系,多文檔自動文摘語料庫,40個主題,文本文件格式,同一主題下是同一事件的不同報道,漢語依存樹庫,不帶關系5萬句,帶關系1萬句,LTML化,分詞、詞性、句法部分人工標注,可以圖形化查看,問答系統問題集,6264句,已標注問題類型,LTML化,分詞、詞性、句法、詞義、淺層語義等程序處理得到,單文檔自動文摘語料庫,211篇,分不同體裁,LTML化,文摘句標注,分詞、詞性、句法、詞義、淺層語義、文本分類、指代消解等程序處理得到。
(七)清華大學漢語均衡語料庫TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去) (八)香港教育學院語言資訊科學中心及其語料庫實驗室http://www.livac.org/index.php?lang=sc自1995年開始,以「共時」方式處理了超常的大量漢語語料,通過精密的技術,累積眾多精確的統計數據,建立了LIVAC(LinguisticVariationinChineseSpeechCommunities)共時語料庫。
本語料庫最大特點是采用「共時性」視窗模式,嚴謹地定時分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關的信息科技發展與應用。
此外,語料庫又兼顧了「歷時性」,方便各方人士客觀地觀察與研究視窗內的有代表性的語言發展全面動態。
(九)中國科學院計算技術研究所跨語言語料庫http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級)目前的雙語句對數據庫中有約180,000對已對齊的中英文句子。
本數據庫支持簡單的中英文查詢服務。
查詢結果包括句對編號、中文句子、英文句子、句對來源。
(十)中文語言資源聯盟中文語言資源聯盟http://www.chineseldc.org/(ChineseLinguisticDataConsortium,簡稱ChineseLDC)的建立。
ChineseLDC是吸收國內高等院校,科研機構和公司參加的開放式語言資源聯盟。
其目的是建成能代表當今中文信息處理水平的,通用的中文語言信息知識庫。
ChineseLDC將建設和收集中文信息處理所需要的各種語言資源,包括詞典,語料庫,數據,工具等。
在建立和收集語言資源的基礎上,分發資源,促成統一的標准和規范,推薦給用戶,並且針對中文信息處理領域的關鍵技術建立評測機制,為中文信息處理的基礎研究和應用開發提供支持。
(之所以排名這么后,是因為是國家出錢的項目,卻沒有什么免費資源。
)國外語料庫資源(鏈接皆可用,內有語料庫簡介)1.楊百翰大學 楊百翰大學語料庫http://view.byu.edu/楊百翰大學的MarkDavies教授開發的語料庫統一檢索平台,整合了美國當代英語語料庫、美國歷史英語語料庫、美國時代雜志語料庫、BNC、西班牙語料庫、葡萄牙語料庫等6個語料庫的資源。
該網站每月有60,000人的使用量,也許是目前最廣泛使用的網絡語料庫。
2.聯合國官方資料庫聯合國文件數據庫(提供80萬份六種語言平行文檔)http://documents.un.org/simple.asp本文件系統包括了1993年以來聯合國印發的所有正式文件。
不過,聯合國的早期文件也逐日添加到本系統。
本文件系統也提供從1946年以來聯合國大會、安全理事會、經濟及社會理事會和托管理事會通過的所有決議。
本系統不提供新聞稿、聯合國出版物、聯合國條約匯編或新聞部印發的新聞材料。
由日本捐贈的3萬多份數字化文件已被增添進正式文件系統。
3.蘭開斯特大學蘭開斯特漢語語料庫(LCMC)http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474應學術界對免費對公眾開放的平衡的現代漢語語料庫的需求的情況下籌建的。
LCMC語料庫是由蘭開斯特大學語言學系承擔的並得到英國經社研究委員會資助(項目代號:RES-000-220135)的研究項目。
LCMC語料庫是與Freiburg-LOBCorpusofBritishEnglish(即FLOB)平行對應的漢語語料庫,它有助於我們從事漢語的單語和英漢雙語的對比研究。
通過該網址可以免費索取LCMC預料用於研究之用。
http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474 4.語言開放典藏社群(OLAC)OLAC(OpenLanguageArchivesCommunity)http://search.language-archives.org/index.html語言開放典藏社群是由個人或組織所組成的國際性合作協會。
許多種類的協會需要語言資源,如:語言學家、工程師、教師、演說家,也有許多機構提供片段性的架構,如:文件管理器、軟件開發者和出版者。
理論上,用戶希望透過單一接口便可以取得任何需要的資源,其中資源種類涵蓋:①資料(Data):任何描述語言的相關信息;②工具(Tool):有助於創造、瀏覽、查詢或使用語言數據的計算器資源;③建議(Advice):譬如,告知使用者什么資源具有高可靠度?在此情境中哪一種工具適合采用?當新的數據衍生出時該如何創造?但實際上,卻有着語言資源散布在不同的網站、使用者無法得到想要的資源、語言資源在不同網站擁有不同名字(Name)造成召回率(recallrate)低,在其他領域有相同意義,造成正確率低(precisionrate)、許多語言資源並非以文字為基礎、不確定是否有建議適當軟件,以及所提出的建議是否中肯…等問題。
OLAC由此誕生。
藉由下列步驟進行創造世界性語言資源的虛擬圖書館:針對語言資源數字典藏發展一致性的實踐指引;發展網絡上具有互操作性且提供存取相關語言資源的儲存器(Repositories)和服務中心。
簡介可以參看http://140.109.18.114/blog/?p=1049 5.SKETCHENGINE多語言語料庫www.sketchengine.co.uk每個郵箱可以注冊一次,免費期是一個月,免費期過了就再注冊一個郵箱,再注冊一次。
其中漢語語料庫是沒有加工的生語料庫,使用價值不大。
關鍵是其中的英語語料庫實際上是原來要付費才能使用的BNC,可以好好利用。
6.COCA———美國當代英語語料庫(CorpusofContemporaryA2mericanEnglish)http://www.americancorpus.org/由美國BrighamYoungUniversity的MarkDavies教授開發的高達3.6億詞匯的美國最新當代英語語料庫,是當今世界上最大的英語平衡語料庫。
與其它語料庫不同的是它是免費在線供大家使用,給全世界英語學習者帶來了福音,是不可多得的一個英語學習寶庫,也是觀察美國英語使用和變化的一個絕佳窗口。
國內外語料庫建設一覽北京大學語言信息工程系捷譯雙語語料庫Web對齊工具(自動+手動)開放注冊訪問地址在http://aligner.pkucat.com文檔:http://aligner.pkucat.net/doc/html/如果有需要者可以給 [email protected]老師寫信申請,說明身份和理由即可。
http://bbs.pkucat.com/modcp.php?action=moderate&op=members已證實可用的英漢平行語料庫(部分)--TEChttp://www.umist.ac.uk/ctis/research/research-overview.htm翻譯語料庫方面則以英國曼徹斯特大學科技學院(UMIST)翻譯研究中心1995年創建的世界上第一個翻譯語料庫(TranslationalEnglishCorpus,TEC)最為著名。
該語料庫主要收集從各國語言翻譯成英語的文本,目前已有上千萬詞的語料(目標是5千萬詞),分小說(約占80%)傳記、報紙和期刊4個子庫。
它並不要求必須雙語對齊。
該庫不僅對語料進行了附碼標注,還帶有許多超語言信息的標注,如對譯者情況(包括譯者姓名、性別、民族、職業、翻譯方向等)、翻譯方式、翻譯類型、源語、原書情況、出版社等等均一一予以標注。
--北大雙語語料庫北大計算語言學研究所的雙語語料庫,英漢對齊的句子已有5萬多對,並開發了相應的對齊工具和雙語語料庫管理軟件。
正在此基礎上做漢英對照短語庫,預計規模將達數十萬條。
--中英雙語在線(CEO)測試開通網址為http://www.fleric.org.cn/ceo/--紅樓夢漢英平行語料庫http://score.crpp.nie.edu.sg/hlm/index.htm--TheBabelEnglish-ChineseParallelCorpushttp://www.lancs.ac.uk/fass/projects...abel/babel.htm
TheBabelEnglish-ChineseParallelCorpus,whichwascreatedonourresearchprojectContrastingEnglishandChinese(ESRCAwardReferenceRES-000-23-0553),consistsof327EnglisharticlesandtheirtranslationsinMandarinChinese.Ofthese115texts(121,493Englishtokensplus135,493Chinesetokens)werecollectedfromtheWorldofEnglishbetweenOctober2000andFebruary2001whiletheremaining212texts(132,140Englishtokensplus151,969Chinesetokens)werecollectedfromTimefromSeptember2000toJanuary2001.Thecorpuscontainsatotalof544,095words(253,633Englishwordsand287,462Chinesetokens).Hereisalistofthetitlesofthearticlesincludedinthecorpus.
Thecorpusistaggedforpartofspeechandalignedatthesentencelevel.TheEnglishtextsweretaggedusingtheCLAWSC7tagsetwhileChinesetextsweretaggedusingthePekingUniversitytagset.Sentencealignmentwasdoneautomaticallyandcorrectedbyhand.Thecorpusisalsomarkedforparagraphandsentence.Butdifferentmarkupsystemswereadoptedforthetwosubcorpora.ForthecomponentoftheWorldofEnglish,sentencesweremarkedconsecutivelythroughoutwhereasforTime,sentencesweremarkedwithineachparagraph.
TheBabelparallelcorpuscanbeaccessedviatheParaConcWeborMySqlinterface(bothhostedatTheInstituteofEducation,Singapore).UserscansearchineitherEnglishorChinesetexts.Theconcordancerreturnsmatchedwholesentencesandtheirtranslationsaswellasthetheirlocations.Atthebottomoftheresultingconcordancepageisaqueryreportthatindicatethequerystringsanddistributionofmatches.UserscanalsospecifytheformattheoutputconcordancesasPOS-taggedorplaintexts.--上海交通大學語言工程研究所目前有JDEST,LOB,BROWN,CLEC四個語料庫共計700萬詞可供網上檢索,並可以對檢索和統計數據結果下載.http://corpus.sjtu.edu.cn/WebCast/--TheTranslationalEnglishCorpus(TEC)http://www.llc.manchester.ac.uk/ctis/research/english-corpus/http://ronaldo.cs.tcd.ie/tec/jnlp/--EnglishChineseParallelConcordancer(E-CConcord)TheHongKongInstituteofEducation.Projectleader:Dr.WangLixun.Programdesigners:ChrisGreaves,WangLixunhttp://ec-concord.ied.edu.hk/paraconc/index.htm--AcademiaSinicaBalancedCorpusofModernChinese中央研究院現代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/--LancasterCorpusofMandarinChinesehttp://bowland-files.lancs.ac.uk/cor...gi-bin/conc.plmaybechangedtohttp://www.lancs.ac.uk/fass/projects/corpus/LCMC/--People'sDaily2000corpussomerelatedinformationherehttp://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm--AParallelCorpusofChineseLegalTexts中國法律文件漢英平行語料庫http://score.crpp.nie.edu.sg/law/index.htm--語料庫語言學與英語教育教學。
華南師范大學外國語言文化學院語料庫語言學研究室http://sfs.scnu.edu.cn/corpus4u/default.aspx語料庫工具http://www.fleric.org.cn/crg/tools.htm北外語料庫語言學沙龍BeiwaiCorpusResearchGroup(CRG)CorpustoolsdevelopedbygroupmembersChi-squareandloglikelihoodCalculator,(卡方檢驗和對數似然率計算工具)TreeTaggerforWindows,(語料庫詞性標注工具TreeTagger的Windows界面)Colligator1.0&2.0,(語料庫類聯接分析工具)PatternBuilder1.0,(賦碼語料庫檢索輔助工具)TheEdinburghAssociativeThesaurus(EAT)forWindows,(愛丁堡聯想詞庫Windows查詢工具)WordlistTools1.0Beta,(詞表分析工具)MyGoodOldBlackboard,(我的電子黑板)BFSUStanfordParser1.0,(英文自動句法分析工具)。
BFSUStanfordPOSTagger1.0,(英文自動詞性賦碼工具)。
BFSUSentenceCollector1.0,(例句提取工具)。
BFSUNewWordMarker1.0,(生詞標注工具)。
BFSUSentenceSegmenter1.0,(英文自動分句工具)。
WebColligator。
Collocator1.0:Acollocationextractiontool,(搭配分析工具)。
Log-likelihoodratiocalculator,(對數似然率計算器)。
ReadabilityAnalyzer1.0,(英文文本可讀性分析工具)。
OtherfreecorpustoolsAntConc:Afreeconcordancer(跟WordSmith主要功能接近的語料庫索引工具)Range:Vocabularycoveragetools(基於底表的分級詞匯測量工具)語料庫檢索軟件Paraconc和Multiconcord:Paraconc由Barlow制作(該軟件的演示版可在網上下載),該軟件的特點是可以進行多達四種語言的同時檢索,或者是一個原文的三個譯本的檢索。
這一軟件的特點是可以靈活定義語言、索引行的大小、標注符號的隱顯,而且支持通配符檢索。
Multiconcord也是一個在Windows窗口下運行的軟件。
這種軟件和Paraconc在檢索功能上相似,但檢索結果在呈現方式上不同。
另外,Paraconc可以檢索純文本格式的文件;Multiconcord則需要一個Minimark程序來最低程度地標記文本,如
(段落)和(句子)。
【新書推介】《語料庫與翻譯》
Original 2017-04-06 管新潮陶友蘭 當代外語研究
語料庫與翻譯
管新潮 陶友蘭 著
(復旦大學出版社,2017)
目錄
第1章緒論
1.1語料庫的起源與發展
1.1.1語料庫的定義
1.1.2代表性語料庫及其特征
1.2語料庫的類型
1.2.1單語與雙語(多語)類型
1.2.2平行與可比類型
1.2.3通用與專用類型
1.2.4單向與雙向(多向)類型
1.2.5小結
1.3語料庫語言學與翻譯學
1.3.1語料庫語言學
1.3.2語料庫翻譯學
1.4本書概要
本章亮點:
l 對具有代表性的18種語料庫進行了概述
l 對各種語料庫類型的定義與作用進行了說明
l 對語料庫語言學和語料庫翻譯學進行了實用性介紹
第2章語料庫技術和翻譯技術
2.1引言
2.2語料庫技術
2.2.1語料格式轉換工具
2.2.2語料降噪工具
2.2.3語料對齊工具
2.2.4語料庫檢索和分析工具
2.2.5問題與展望
2.3翻譯技術
2.3.1文檔管理類工具
2.3.2源文准備類工具
2.3.3譯文處理類工具
2.3.4翻譯管理類工具
2.3.5語料管理類工具
2.3.6本地化工具
2.3.7問題與展望
本章亮點:
l 實例介紹如何針對不同的PDF文檔利用不同的轉換工具,達到最佳效果
l 舉例說明如何使用最強降噪工具WORD軟件
l 系統介紹語料對齊工具、原則、效果與檢索和應用
l 詳細描述系統的翻譯技術需要用到的六大類工具:
文檔管理類工具——內容管理系統、撰寫系統、桌面排版系統
源文准備類工具——文字處理軟件、語音識別軟件
譯文處理類工具——計算機輔助翻譯、機器翻譯、校訂工具
翻譯管理類工具——翻譯管理系統、質量保證工具、項目管理軟件
語料管理類工具——翻譯記憶工具、術語管理工具
第3章語料庫創建流程
3.1引言
3.2語料庫的設計
3.3語料采集和降噪
3.3.1語料采集
3.3.2語料降噪
3.4語料對齊及其保存格式
3.4.1語料對齊
3.4.2語料對齊保存格式
3.5語料庫應用
3.5.1案例1:計算機輔助翻譯項目應用
3.5.2案例2:以組合語料庫訓練翻譯能力
3.5.3案例3:某大型客車制造企業的語料質量提升
3.5.4案例4:對法律法規術語外譯的建議
3.5.5案例5:語料庫證據在美國的法庭應用
3.5.6案例6:兩岸三地英漢科普歷時平行語料庫
3.5.7案例7:德漢《資本論》雙語平行語料庫
本章亮點:
l 介紹語料庫設計需要關注的設計參數
l 講述語料選擇原則與操作標准、庫容規模、文件名命名等細節
l 提出如何給語料降噪,如何進行語料對齊操作以及保存格式、格式互換等,有些是作者個人實踐心得,具體說明創建過程中遇到的不同問題以及解決方案
l列舉了具有代表性的七個語料庫案例,說明如何在翻譯實踐中利用語料庫提升翻譯效果和質量,如以組合語料庫訓練翻譯能力、語料庫證據的法庭應用等
第4章語料庫質量
4.1引言
4.2語料庫質量的多維性
4.2.1語料庫的設計質量
4.2.2語料的翻譯質量
4.2.3語料的采集與降噪質量
4.2.4平行語料庫的對齊質量
4.2.5應用於具體項目的語料組合質量
4.3源自於翻譯實踐的語料庫質量
4.3.1相關標准的翻譯流程設置
4.3.2質量保證理念與工具
4.3.3句對庫中的高質量句對
4.4應用於譯學研究的語料庫質量
本章亮點:
l 首次對語料庫質量進行了多維性描述,包括語料庫的設計質量、語料的翻譯質量、語料的采集與降噪質量、平行語料庫的對齊質量、語料組合質量
l 分析了源自於翻譯實踐的語料庫質量存在的一些問題,並提出相應對策
l 根據譯文錯誤類型與翻譯質量關系模型,嘗試提出翻譯質量評估建模
l 提出專門的質量保證理念來解決翻譯質量問題
第5章語料庫與翻譯實踐
5.1引言
5.1.1計算機輔助翻譯的特點
5.1.2計算機輔助翻譯的分類
5.2語料庫與記憶庫
5.2.1語料庫與記憶庫的區別
5.2.2記憶庫的創建與維護
5.2.3記憶庫的匹配
5.2.4記憶庫的更新與組合
5.2.5記憶庫的其他作用
5.3翻譯項目中語料庫的使用
5.3.1雙語平行語料庫的翻譯應用
5.3.2可比語料庫的翻譯應用
5.3.3單語語料庫的翻譯應用
5.4雙語平行語料庫數據挖掘
5.4.1專業通用詞概念
5.4.2法律雙語平行語料庫的數據挖掘
5.4.3醫學雙語平行語料庫的數據挖掘
5.5譯入非母語時的語料庫作用
5.5.1漢譯外現狀
5.5.2語料庫的應用
5.6大規模句對庫與機器翻譯
5.6.1句對庫的定義和質量
5.6.2計算機輔助翻譯與機器翻譯的結合
本章亮點:
l 區別語料庫和記憶庫之間的關系,論述記憶庫的創建、維護、匹配、更新、組合等概念與功能
l 實例演示如何在翻譯項目中使用雙語平行語料庫、可比語料庫或單語語料庫
l 論述一種最大提升翻譯實踐成效的創新方法:從雙語平行語料庫(如醫學、法律)中挖掘出特定領域專屬的專業通用詞,實踐證明效果顯著
l 闡述如何確保句對庫的質量,如何將所獲取的句對歸入相關的領域,如何以高質量的句對來實現機器翻譯
第6章語料庫與翻譯教學
6.1引言
6.2基於語料庫的翻譯教學實踐
6.2.1使用語料庫自主學習
6.2.2創建學習者語料庫
6.2.3學生自建英漢平行語料庫
6.3語料庫與翻譯教材編寫
6.3.1實現翻譯教材具體內容和相關語料庫鏈接
6.3.2確定語料難易程度
6.3.3以真實語料編寫翻譯例句並提供多種譯文范例
6.4翻譯教學語料庫平台設計與構想
本章亮點:
l 教會學生如何使用語料庫進行自主學習
l 教會學生如何創建學習者語料庫、英漢平行語料庫
l 引導教師利用語料庫編寫翻譯教材
l 設計與構想一體化翻譯教學語料庫平台
附錄
漢英雙語對照術語表
本書特點
提筆寫作本書的目的在於對自己20多年來從事翻譯實踐經驗的總結,具體說是對翻譯實踐與翻譯技術、語料庫、翻譯教學等相結合的實踐經驗的總結,期望能夠通過經驗總結進而在翻譯實踐理論上有所長進。
文中所呈現的經總結歸納后的文字表述定能對翻譯實踐和MTI教學實踐有所幫助。
本人自認為本書已經具備了以下三大特點:
l 對翻譯實踐的可應用性;
l 對MTI教學的可適應性;
l 對翻譯理論的可拓展性。
第一,對翻譯實踐的可應用性。
本書所呈現的知識均以本人多年來所做的大量翻譯實踐為依據,可以說有近80%的內容是完全依賴於經驗的總結、歸納、提煉和升華。
這是可應用性特點的一種面向翻譯實踐的體現。
另一體現是將經過總結、歸納、提煉和升華后的文字表述交由業界專家審定,確認其對具體翻譯實踐具有指導意義后才予以定稿。
本書對翻譯實踐的可應用性還體現在散落於書中不同章節的各種有關翻譯或語料庫技術應用的“小技巧”。
第二,對MTI教學的可適應性。
MTI教學中的計算機輔助翻譯是翻譯技術的一部分或其中的一個環節,其並不能代表整個翻譯技術。
因而,翻譯技術的MTI教學有其復雜性,即如何將不同的翻譯技術知識揉合在一起並有效地傳授給學生,以及如何教會學生以習得的翻譯技術知識去解決實際應用問題。
因為技術在不斷更新和進步,而且更新和進步的速度在不斷加快,現有的技術可能會在若干年后不見其蹤影。
由此可見,翻譯技術或語料庫技術教學的關鍵並不在於教會某項技術,而是如何使學生習得應用技術去解決問題的能力。
第三,對翻譯理論的可拓展性。
一種理論的產生在其初始階段必然是進行實驗,然后是總結歸納,最后才上升為理論層面。
翻譯技術理論的產生也不例外。
翻譯技術有多面內容可供學術研究,如人機互動翻譯的邊界研究、技術環境下的翻譯策略、技術背景下的譯者行為研究、企業翻譯研究,等等。
作者簡介
管新潮,職業譯者,長期從事德英漢翻譯實踐,至今已累計翻譯和審校德英漢字數達3000萬(包括審校);主要翻譯領域涉及海洋工程與船舶制造(英語)、醫學(英語)、法律(德語)、機電(德語)等;建有各類相關語料庫,如英漢醫學平行語料、英漢海洋工程平行語料庫、英漢法律平行語料庫、德漢合同文本平行語料庫、馬克思《資本論》德漢平行語料庫(百年)等。
曾經或正在為國際知名企業提供語言服務解決方案,如德國勞氏船級社、挪威船級社、艾斯維爾出版社和施普林格出版社、華為技術公司、畢馬威咨詢公司等。
現任上海交通大學外國語學院MTI導師。
語言翻譯必備:國內外23個語料庫推薦
2016-10-29 譯匠
語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。
經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。
下面推薦一些優質的語料庫資源。
國內語料庫資源
1.國家語委現代漢語語料庫
http://www.cncorpus.org
現代漢語通用平衡語料庫現在重新開放網絡查詢了。
重開后的在線檢索速度更快,功能更強,同時提供檢索結果下載。
現代漢語語料庫在線提供免費檢索的語料約2000萬字,為分詞和詞性標注語料。
2.國家語委古代漢語語料庫
http://www.cncorpus.org/login.aspx
網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。
同時,還提供了分詞、詞性標注軟件、詞頻統計、字頻統計軟件,基於國家語委語料庫的字頻詞頻統計結果和發布的詞表等,以供學習研究語言文字的老師同學使用。
3.北京大學“《人民日報》標注語料庫”
http://www.icl.pku.edu.cn/icl_res
4.北大語料庫——北京大學中國語言學研究中心
http://ccl.pku.edu.cn/corpus.asp
北大語料庫由“現代漢語語料庫”、“古代漢語語料庫”、“漢英雙語語料庫”三個語料庫組成。
其中,北大計算語言學研究所的雙語語料庫,英漢對齊的句子已有5萬多對,並開發了相應的對齊工具和雙語語料庫管理軟件。
正在此基礎上做漢英對照短語庫,預計規模將達數十萬條。
(漢英雙語語料庫目前僅對北大校內用戶開放)
5.北京語言大學高翻學院的“高翻記憶庫”
http://stitm.blcu.edu.cn
6.清華大學漢語均衡語料庫TH-ACorpus
http://www.lits.tsinghua.edu.cn/ainlp/source.htm
7.中央研究院“現代漢語平衡語料庫”
http://www.sinica.edu.tw/SinicaCorpus
專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。
語料的搜集也盡量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。
現有語料庫主要針對語言分析而設計,由中央研究院信息所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。
8.中央研究院“近代漢語標記語料庫”
http://app.sinica.edu.tw/kiwi/pkiwi/index.html
9.中央研究院漢籍電子文獻(瀚典全文檢索系統)
http://hanji.sinica.edu.tw
包含整部25史整部阮刻13經、超過2000萬字的台灣史料、1000萬字的大正藏以及其他典籍。
10.紅樓夢網絡教學研究資料中心
http://cls.hs.yzu.edu.tw/HLM/home.htm
元智大學中國文學網絡系統研究室所開發的“網絡展書讀—中國文學網絡系統”,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。
此網站為國內Internet最大中國文學研究數據庫,提供用戶最完整的中國文學研究數據。
11.《紅樓夢》漢英平行語料庫
http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
12.搜文解字
http://words.sinica.edu.tw
包含“搜詞尋字”、“文學之美”、“游戲解惑”、“古文字的世界”四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、庄、唐詩中的出處,及直接連結到出處,閱讀原文。
13.中國傳媒大學“傳媒語言語料庫在線分詞標注系統”
http://ling.cuc.edu.cn/cucseg
14.中國傳媒大學“媒體語言語料庫(MLC)”
http://ling.cuc.edu.cn/RawPub
15.哈工大信息檢索研究室對外共享語料庫資源
http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語料庫為漢英雙語語料庫,10萬對齊雙語句對,同義詞詞林擴展版。
77,343條詞語,秉承《同義詞詞林》的編撰風格,同時采用五級編碼體系,多文檔自動文摘語料庫。
40個主題,同一主題下是同一事件的不同報道。
漢語依存樹庫,不帶關系5萬句,帶關系1萬句,LTML化,分詞、詞性、句法部分人工標注,可以圖形化查看。
問答系統問題集,6264句,已標注問題類型,LTML化,分詞、詞性、句法、詞義、淺層語義等程序處理得到。
單文檔自動文摘語料庫,211篇,分不同體裁,LTML化,文摘句標注,分詞、詞性、句法、詞義、淺層語義、文本分類、指代消解等程序處理得到。
16.香港教育學院“LIVAC漢語共時語料庫”
http://www.livac.org/index.php?lang=sc
自1995年開始,以“共時”方式處理了超常的大量漢語語料,通過精密的技術,累積眾多精確的統計數據,建立了LIVAC(LinguisticVariationinChineseSpeechCommunities)共時語料庫。
本語料庫最大特點是采用“共時性”視窗模式,嚴謹地定時分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關的信息科技發展與應用。
此外,語料庫又兼顧了“歷時性”,方便各方人士客觀地觀察與研究視窗內的有代表性的語言發展全面動態。
17.中文語言資源聯盟
http://www.chineseldc.org
ChineseLinguisticDataConsortium(簡稱ChineseLDC)是吸收國內高等院校,科研機構和公司參加的開放式語言資源聯盟。
其目的是建成能代表當今中文信息處理水平的,通用的中文語言信息知識庫。
ChineseLDC將建設和收集中文信息處理所需要的各種語言資源,包括詞典、語料庫、數據、工具等。
在建立和收集語言資源的基礎上,分發資源,促成統一的標准和規范,推薦給用戶,並且針對中文信息處理領域的關鍵技術建立評測機制,為中文信息處理的基礎研究和應用開發提供支持。
(之所以排名這么后,是因為是國家出錢的項目,卻沒有什么免費資源。
)
國外語料庫資源
1.楊百翰大學語料庫
http://view.byu.edu
楊百翰大學的MarkDavies教授開發的語料庫統一檢索平台,整合了美國當代英語語料庫、美國歷史英語語料庫、美國時代雜志語料庫、BNC、西班牙語料庫、葡萄牙語料庫等6個語料庫的資源。
該網站每月有60,000人的使用量,也許是目前最廣泛使用的網絡語料庫。
2.聯合國文件數據庫
http://documents.un.org/simple.asp
本文件系統包括了1993年以來聯合國印發的所有正式文件。
不過,聯合國的早期文件也逐日添加到本系統。
本文件系統也提供從1946年以來聯合國大會、安全理事會、經濟及社會理事會和托管理事會通過的所有決議。
本系統不提供新聞稿、聯合國出版物、聯合國條約匯編或新聞部印發的新聞材料。
由日本捐贈的3萬多份數字化文件已被增添進正式文件系統。
3.蘭開斯特漢語語料庫(LCMC)
http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
應學術界對免費對公眾開放的平衡的現代漢語語料庫的需求的情況下籌建的。
LCMC語料庫是由蘭開斯特大學語言學系承擔的並得到英國經社研究委員會資助(項目代號:RES-000-220135)的研究項目。
LCMC語料庫是與Freiburg-LOBCorpusofBritishEnglish(即FLOB)平行對應的漢語語料庫,它有助於我們從事漢語的單語和英漢雙語的對比研究。
通過上述網址可以免費索取LCMC預料用於研究之用。
4.語言開放典藏社群(OLAC)
http://search.language-archives.org/index.html
OpenLanguageArchivesCommunity(OLAC),語言開放典藏社群是由個人或組織所組成的國際性合作協會。
許多種類的協會需要語言資源,如:語言學家、工程師、教師、演說家,也有許多機構提供片段性的架構,如:文件管理器、軟件開發者和出版者。
理論上,用戶希望透過單一接口便可以取得任何需要的資源,其中資源種類涵蓋:①資料(Data):任何描述語言的相關信息;②工具(Tool):有助於創造、瀏覽、查詢或使用語言數據的計算器資源;③建議(Advice):譬如,告知使用者什么資源具有高可靠度?在此情境中哪一種工具適合采用?當新的數據衍生出時該如何創造?但實際上,卻有着語言資源散布在不同的網站、使用者無法得到想要的資源、語言資源在不同網站擁有不同名字(Name)造成召回率(recallrate)低,在其他領域有相同意義,造成正確率低(precisionrate)、許多語言資源並非以文字為基礎、不確定是否有建議適當軟件,以及所提出的建議是否中肯……等問題。
OLAC由此誕生。
5.SKETCHENGINE多語言語料庫
http://www.sketchengine.co.uk
每個郵箱可以注冊一次,免費期是一個月,免費期過了就再注冊一個郵箱,再注冊一次。
其中漢語語料庫是沒有加工的生語料庫,使用價值不大。
關鍵是其中的英語語料庫實際上是原來要付費才能使用的BNC,可以好好利用。
6.美國當代英語語料庫(COCA)
http://www.americancorpus.org
CorpusofContemporaryAmericanEnglish(COCA),由美國BrighamYoungUniversity的MarkDavies教授開發的高達3.6億詞匯的美國最新當代英語語料庫,是當今世界上最大的英語平衡語料庫。
與其它語料庫不同的是它是免費在線供大家使用,給全世界英語學習者帶來了福音,是不可多得的一個英語學習寶庫,也是觀察美國英語使用和變化的一個絕佳窗口。
×
免責聲明!
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。
如果侵犯了您的隱私權益,請聯系本站郵箱[email protected]刪除。
猜您在找
【轉】國內可用免費語料庫
自然語言處理——NLTK中文語料庫語料庫
國內可用免費語料庫(已經整理過,凡沒有標注不可用的鏈接均可用)
自然語言處理----語料庫
數據挖掘-語料庫的構建
NLP&Python筆記——語料庫
解析搜狗新聞語料庫
CCL語料庫檢索系統(網絡版)
python自然語言處理——2.1獲取文本語料庫
spark處理大規模語料庫統計詞匯
粵ICP備18138465號
©2018-2021CODEPRJ.COM
延伸文章資訊
- 1國網中心資料集平台
需同意授權 TE_02_中文新聞語料庫_抽樣資料. 更新頻率 不定期 瀏覽次數 11805 下載次數 106. 使用條款使用此資料集前,請詳閱下列條款: 資料庫之電子型式,組成資料內容 ...
- 2中文自然語言處理百萬級語料庫-ChineseSemanticKB免費下載
- 3brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 ...
大规模中文自然语言处理语料Large Scale Chinese Corpus for NLP. ... 语料库将会不断扩充。 ... 训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
- 4CKIP Lab 中文詞知識庫小組
下載軟體與資源 ... CKIP Tagger — 中文斷詞暨實體辨識系統 ... 中文詞向量評估資料集. 下載 · 中文向量表達. 漢語平衡語料庫詞集及詞頻統計.
- 5中文自然语言处理百万级语料库-ChineseSemanticKB免费下载
ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万...