資源簡介
針對中文短文本篇幅較短、特征稀疏性等特征,提出了一種基于隱含狄利克雷分布模型的特征擴(kuò)展的短文本分類方法。在短文本原始特征的基礎(chǔ)上,利用 LDA 主題模型對短文本進(jìn)行預(yù)測,得到對應(yīng)的主題分布,把主題中的詞作為短文本的部分特征,并擴(kuò)充到原短文本的特征中去,最后利用 SVM 分類方法進(jìn)行短文本的分類。實(shí)驗(yàn)表
明,該方法在性能上與傳統(tǒng)的直接使用 VSM 模型來表示短文本特征的方法相比,對不同類別的短文本進(jìn)行分類,都有不同程度的提高與改進(jìn),對于短文本進(jìn)行補(bǔ)充 LDA 特征信息的方法是切實(shí)可行的。
明,該方法在性能上與傳統(tǒng)的直接使用 VSM 模型來表示短文本特征的方法相比,對不同類別的短文本進(jìn)行分類,都有不同程度的提高與改進(jìn),對于短文本進(jìn)行補(bǔ)充 LDA 特征信息的方法是切實(shí)可行的。
代碼片段和文件信息
評論
共有 條評論