zake7749/Gossiping-Chinese-Corpus: PTT 八卦版問答中文語料

文章推薦指數: 80 %
投票人數:10人

PTT 八卦版問答中文語料. Contribute to zake7749/Gossiping-Chinese-Corpus development by creating an account on GitHub. Skiptocontent {{message}} zake7749 / Gossiping-Chinese-Corpus Public Notifications Fork 29 Star 171 PTT八卦版問答中文語料 www.kaggle.com/zake7749/pttgossipingcorpus License Apache-2.0license 171 stars 29 forks Star Notifications Code Issues 0 Pullrequests 0 Actions Projects 0 Wiki Security Insights More Code Issues Pullrequests Actions Projects Wiki Security Insights zake7749/Gossiping-Chinese-Corpus Thiscommitdoesnotbelongtoanybranchonthisrepository,andmaybelongtoaforkoutsideoftherepository. master Branches Tags Couldnotloadbranches Nothingtoshow {{refName}} default Couldnotloadtags Nothingtoshow {{refName}} default 2 branches 0 tags Code Latestcommit ailabslu [C]Cleanedthedeprecatedfunctions. … 8177e2e Jan18,2021 [C]Cleanedthedeprecatedfunctions. 8177e2e Gitstats 19 commits Files Permalink Failedtoloadlatestcommitinformation. Type Name Latestcommitmessage Committime data [U]Uploadthenewcorpus. Sep9,2019 .gitignore Batman. Jun28,2017 Explore-Gossiping-Dataset.ipynb Fixconflict. Jun29,2017 LICENSE CreateLICENSE Jun3,2019 README.md [C]Cleanedthedeprecatedfunctions. Jan18,2021 Viewcode PTT中文語料 資料說明 Gossiping-QA-Dataset.txt Gossiping-QA-Dataset-2_0.csv Citation README.md PTT中文語料 嗨,這裡是PTT中文語料集,我透過某些假設與方法將每篇文章化簡為問答配對,其中問題來自文章的標題,而回覆是該篇文章的推文。

可惜的是目前這份資料集的噪聲還有點大,若您有更好的方法能提取出文章的問答配對,或發現這份資料集有什麼能改進的部份,還請與我聯繫,也祝各位開發順利:> 資料說明 資料集一共有兩份,您可於PTT-Gossiping-Corpus或是從本專案的data資料夾裡取得。

Gossiping-QA-Dataset.txt 蒐集了PTT八卦版於2015年至2017年6月的文章,每一行都是一個問答配對,問與答之間以一個tab(\t)區隔開,比如說 matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫 有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話免費的一餐 姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生有機會喔 有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導東森不意外 情人節該帶女朋友去哪慶祝? 用了一整年對她好一點送專業乾洗店吧 為什麼聖結石會被酸而這群人不會? 質感劇本成員都差很多好嗎不要拿腎結石來污辱這群人 為什麼慶祝228會被罵可是慶端午不會? 因為屈原不是台灣人,是楚國人。

有沒有戰神阿瑞斯的八卦? 爵士就是阿瑞斯男主角最後死了 理論與實務最脫節的系 哪個系不脫節...你問最不脫節的簡單多了... 為什麼PTT這麼多人看棒球 肥宅才看棒球 系壘一堆胖子 為什麼達摩祖師傳那麼好看? 達摩從頭到尾都是被動(別人問他問題 目前共有418,202筆問答配對,但並不是所有配對都是有效的,因為有些文章並沒有推文,這類問題的回覆會被標記為沒有資料(共有650筆),使用時還請注意。

Gossiping-QA-Dataset-2_0.csv 擴充自Gossiping-QA-Dataset.txt的新版資料集,追加了部分2018與2019年的文章,一共包含了774,114筆問答配對。

資料格式調整為csv,包含了兩個columns:question和answer,可用pandas輕鬆載入: importpandasaspd qa_corpus=pd.read_csv("data/Gossiping-QA-Dataset-2_0.csv") qa_corpus.head() #question answer #173763 今年房市是多還是空? 有台北市的房子再來討論 #216985 有沒有台灣高登拉姆齊-劉一帆的八卦? 餐飲界賈伯斯 #679552 什麼時候會覺得台灣治安很差? 台灣一年輾死三千多人 #349323 有沒有早上起來運動很舒服的八卦? 肥宅每天都在運動,手部運動 #42228 迪士尼還有什麼片子適合拍成真人版 想說我剛剛不是進sex版啊... Citation Ifyouthinkthedatasetishelpfulforyourresearch,pleaseciteourproject: @misc{ kai-chouyang_2019, title={PTT-Gossiping-Corpus}, url={https://www.kaggle.com/dsv/676336}, DOI={10.34740/DVS/676336}, publisher={Kaggle}, author={Kai-ChouYang}, year={2019} } About PTT八卦版問答中文語料 www.kaggle.com/zake7749/pttgossipingcorpus Topics chatbot dialog corpus dataset question-answering chinese-nlp ptt chinese-corpus chinese-chatbot chinese-dataset chatbot-corpus Resources Readme License Apache-2.0license Stars 171 stars Watchers 12 watching Forks 29 forks Releases Noreleasespublished Packages0 Nopackagespublished Languages JupyterNotebook 100.0% Youcan’tperformthatactionatthistime. Yousignedinwithanothertaborwindow.Reloadtorefreshyoursession. Yousignedoutinanothertaborwindow.Reloadtorefreshyoursession.



請為這篇文章評分?