zake7749/Gossiping-Chinese-Corpus: PTT 八卦版問答中文語料
文章推薦指數: 80 %
PTT 八卦版問答中文語料. Contribute to zake7749/Gossiping-Chinese-Corpus development by creating an account on GitHub.
Skiptocontent
{{message}}
zake7749
/
Gossiping-Chinese-Corpus
Public
Notifications
Fork
29
Star
171
PTT八卦版問答中文語料
www.kaggle.com/zake7749/pttgossipingcorpus
License
Apache-2.0license
171
stars
29
forks
Star
Notifications
Code
Issues
0
Pullrequests
0
Actions
Projects
0
Wiki
Security
Insights
More
Code
Issues
Pullrequests
Actions
Projects
Wiki
Security
Insights
zake7749/Gossiping-Chinese-Corpus
Thiscommitdoesnotbelongtoanybranchonthisrepository,andmaybelongtoaforkoutsideoftherepository.
master
Branches
Tags
Couldnotloadbranches
Nothingtoshow
{{refName}}
default
Couldnotloadtags
Nothingtoshow
{{refName}}
default
2
branches
0
tags
Code
Latestcommit
ailabslu
[C]Cleanedthedeprecatedfunctions.
…
8177e2e
Jan18,2021
[C]Cleanedthedeprecatedfunctions.
8177e2e
Gitstats
19
commits
Files
Permalink
Failedtoloadlatestcommitinformation.
Type
Name
Latestcommitmessage
Committime
data
[U]Uploadthenewcorpus.
Sep9,2019
.gitignore
Batman.
Jun28,2017
Explore-Gossiping-Dataset.ipynb
Fixconflict.
Jun29,2017
LICENSE
CreateLICENSE
Jun3,2019
README.md
[C]Cleanedthedeprecatedfunctions.
Jan18,2021
Viewcode
PTT中文語料
資料說明
Gossiping-QA-Dataset.txt
Gossiping-QA-Dataset-2_0.csv
Citation
README.md
PTT中文語料
嗨,這裡是PTT中文語料集,我透過某些假設與方法將每篇文章化簡為問答配對,其中問題來自文章的標題,而回覆是該篇文章的推文。
可惜的是目前這份資料集的噪聲還有點大,若您有更好的方法能提取出文章的問答配對,或發現這份資料集有什麼能改進的部份,還請與我聯繫,也祝各位開發順利:>
資料說明
資料集一共有兩份,您可於PTT-Gossiping-Corpus或是從本專案的data資料夾裡取得。
Gossiping-QA-Dataset.txt
蒐集了PTT八卦版於2015年至2017年6月的文章,每一行都是一個問答配對,問與答之間以一個tab(\t)區隔開,比如說
matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫
有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話免費的一餐
姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生有機會喔
有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導東森不意外
情人節該帶女朋友去哪慶祝? 用了一整年對她好一點送專業乾洗店吧
為什麼聖結石會被酸而這群人不會? 質感劇本成員都差很多好嗎不要拿腎結石來污辱這群人
為什麼慶祝228會被罵可是慶端午不會? 因為屈原不是台灣人,是楚國人。
有沒有戰神阿瑞斯的八卦? 爵士就是阿瑞斯男主角最後死了
理論與實務最脫節的系 哪個系不脫節...你問最不脫節的簡單多了...
為什麼PTT這麼多人看棒球 肥宅才看棒球 系壘一堆胖子
為什麼達摩祖師傳那麼好看? 達摩從頭到尾都是被動(別人問他問題
目前共有418,202筆問答配對,但並不是所有配對都是有效的,因為有些文章並沒有推文,這類問題的回覆會被標記為沒有資料(共有650筆),使用時還請注意。
Gossiping-QA-Dataset-2_0.csv
擴充自Gossiping-QA-Dataset.txt的新版資料集,追加了部分2018與2019年的文章,一共包含了774,114筆問答配對。
資料格式調整為csv,包含了兩個columns:question和answer,可用pandas輕鬆載入:
importpandasaspd
qa_corpus=pd.read_csv("data/Gossiping-QA-Dataset-2_0.csv")
qa_corpus.head()
#question answer
#173763 今年房市是多還是空? 有台北市的房子再來討論
#216985 有沒有台灣高登拉姆齊-劉一帆的八卦? 餐飲界賈伯斯
#679552 什麼時候會覺得台灣治安很差? 台灣一年輾死三千多人
#349323 有沒有早上起來運動很舒服的八卦? 肥宅每天都在運動,手部運動
#42228 迪士尼還有什麼片子適合拍成真人版 想說我剛剛不是進sex版啊...
Citation
Ifyouthinkthedatasetishelpfulforyourresearch,pleaseciteourproject:
@misc{
kai-chouyang_2019,
title={PTT-Gossiping-Corpus},
url={https://www.kaggle.com/dsv/676336},
DOI={10.34740/DVS/676336},
publisher={Kaggle},
author={Kai-ChouYang},
year={2019}
}
About
PTT八卦版問答中文語料
www.kaggle.com/zake7749/pttgossipingcorpus
Topics
chatbot
dialog
corpus
dataset
question-answering
chinese-nlp
ptt
chinese-corpus
chinese-chatbot
chinese-dataset
chatbot-corpus
Resources
Readme
License
Apache-2.0license
Stars
171
stars
Watchers
12
watching
Forks
29
forks
Releases
Noreleasespublished
Packages0
Nopackagespublished
Languages
JupyterNotebook
100.0%
Youcan’tperformthatactionatthistime.
Yousignedinwithanothertaborwindow.Reloadtorefreshyoursession.
Yousignedoutinanothertaborwindow.Reloadtorefreshyoursession.
延伸文章資訊
- 1中文NLP福利!大規模中文自然語言處理語料 - 頭條新聞
本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,
- 2語料庫- 維基百科,自由的百科全書
中文
- 3中文NLP福利!大規模中文自然語言處理語料 - 人人焦點
【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料, ...
- 4現代漢語平衡語料庫 - CKIP Lab 中文詞知識庫小組
中央研究院漢語平衡語料庫(簡稱Sinica Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嘗試,第一步先以較小規模(但 ...
- 5政治大學中文口語語料庫
NCCU Corpus of Spoken Taiwan Mandarin. 政治大學中文口語語料庫. Home · About the corpus · Corpus data · Stati...