資源簡介
數據集為依據與“新冠肺炎”相關的230個主題關鍵詞進行隨機數據采集的2020年1月1日—2020年2月20日期間共計100萬條微博數據,公開數據集:
其中每列的含義:
- id: 微博序號,主鍵
- weibo_id: 微博id
- daytime: 微博發布時間, 從0000-2359
- name:發布人賬號
- content:微博中文內容
- day:日期
- month:月份
- sentiments:使用snowNLP分析得出的情感數值,范圍為-0.5 ~ 0.5,大于0為正面情感,小于0為負面情感;
- keyword0-4:使用jieba分詞提取的主題關鍵詞,取前四位;
使用該數據集進行的可視化分析實現:http://flask.yunwei123.tech/
github地址:https://github.com/yunwei37/COVID-19-NLP-vis
代碼片段和文件信息
評論
共有 條評論