資源簡介
1、資源中有語料,本語料庫由復旦大學李榮陸提供。test_corpus為測試語料,共9833篇文檔;train_corpus為訓練語料,共9804篇文檔,兩個預料各分為20個相同類別。訓練語料和測試語料基本按照1:1的比例來劃分。使用時盡量注明來源(復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組)。
2、資源中還附有一份停用詞。
2、資源中還附有一份停用詞。
代碼片段和文件信息
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件??106752845??2019-11-29?20:44??語料(附停用詞)\data.rar
?????文件??????21539??2019-11-29?16:02??語料(附停用詞)\stopword.txt
?????目錄??????????0??2019-12-01?21:36??語料(附停用詞)
-----------?---------??----------?-----??----
????????????106774384????????????????????3
-----------?---------??----------?-----??----
?????文件??106752845??2019-11-29?20:44??語料(附停用詞)\data.rar
?????文件??????21539??2019-11-29?16:02??語料(附停用詞)\stopword.txt
?????目錄??????????0??2019-12-01?21:36??語料(附停用詞)
-----------?---------??----------?-----??----
????????????106774384????????????????????3
評論
共有 條評論