xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

  • 大小: 2.71MB
    文件類型: .zip
    金幣: 2
    下載: 0 次
    發(fā)布日期: 2023-11-18
  • 語言: 其他
  • 標(biāo)簽: svm??文本分類??

資源簡介

問題發(fā)現(xiàn): 本次案例為工作中遇到的實(shí)際問題,在語音識別中的語料準(zhǔn)備部分,需要從網(wǎng)絡(luò)中爬取相當(dāng)數(shù)量的相關(guān)文本,其中發(fā)現(xiàn)爬取到了一些不相關(guān)的內(nèi)容,如何把這些不相關(guān)的內(nèi)容剔除掉成為筆者需要思考的問題。 初步思考: 遇到此問題筆者第一時(shí)間考慮是將文本分詞后向量化,使用聚類看一下分布情況,然而發(fā)現(xiàn)在不同訓(xùn)練集中,訓(xùn)練樣本變化時(shí),向量隨之變化,在測試集中表現(xiàn)一般,在實(shí)測中幾乎無用。于是想到向量化的方法問題,使用sklearn CountVectorizer方法進(jìn)行向量化,僅僅是將所有詞頻無序的向量化,看到另外博文時(shí),發(fā)現(xiàn)應(yīng)該先將目標(biāo)主題的文本進(jìn)行詞頻統(tǒng)計(jì),將統(tǒng)計(jì)結(jié)果當(dāng)做向量化模板,實(shí)測發(fā)現(xiàn)效果不錯(cuò),現(xiàn)將此方法分享給大家

資源截圖

代碼片段和文件信息

€csklearn.naive_bayes
GaussianNB
q