-
大小: 1.45MB文件類型: .doc金幣: 1下載: 0 次發(fā)布日期: 2023-08-09
- 語言: Matlab
- 標(biāo)簽: 數(shù)學(xué)建模??
資源簡介
本文通過對文本人物關(guān)系、文本結(jié)構(gòu)分層、作者行文風(fēng)格的分析來分析中文文本。
針對問題一,我們運用聚類分析和層次分析建立模型從物理結(jié)構(gòu)與邏輯結(jié)構(gòu)兩方面來分析文本,我們提取文本中和文本標(biāo)題中的人名作為特征項,用matlab編程分別統(tǒng)計每個人名在各個段落中的頻數(shù)。通過運用主成分分析法對文本進(jìn)行的分析我們得出自變量與常數(shù)項幾乎不相關(guān),因此不需要采取主成分回歸分析。通過系統(tǒng)聚類分析,我們得到了聚類圖,從中得出了主演人物之間的關(guān)系。通過層次劃分,我們將樣本一劃分為兩層,樣本二劃分為兩層,樣本三劃分為兩層。最后通過matlab編程統(tǒng)計樣本中虛詞的頻數(shù),并且分別對樣本中虛詞總體和各個虛詞進(jìn)行統(tǒng)計,運用計算風(fēng)格學(xué)理論,我們得出前八十回與后四十回作者的行文風(fēng)格存在差異。
針對問題二,我們對聚類分析、層次劃分、行文風(fēng)格進(jìn)行了檢驗。對于聚類分析的結(jié)果,我們與從對文本概述的文學(xué)概括分析得到的人物關(guān)系進(jìn)行比較檢驗,驗證了聚類分析結(jié)果是可靠性。對于層次分析,我們通過用Excel對數(shù)據(jù)做出折線圖,對圖形進(jìn)行分析,得出與用層次分析算法得出的相同的人物關(guān)系結(jié)論。
針對問題三,我們計算了各個樣本中主要人物的比重,做出了折線圖,從圖中我們得出了文本結(jié)構(gòu)一致性的結(jié)論,體現(xiàn)了三個樣本的相同性。通過計算同一個人物在不同樣本中的頻數(shù)(以黛玉為例),我們得出各個樣本由于主題思想的不同主要人物也有差異。
代碼片段和文件信息
- 上一篇:干涉相位濾波均值、中值、圓周期.7z
- 下一篇:MATLAB中模糊控制的表格生成方法
評論
共有 條評論