資源簡介
針對(duì)K-means聚類算法受初始類中心影響,聚類結(jié)果容易陷入局部最優(yōu)導(dǎo)致聚類準(zhǔn)確率較低的問題,提出了一種基于自適應(yīng)布谷鳥搜索的K-means聚類改進(jìn)算法,并利用MapReduce編程模型實(shí)現(xiàn)了改進(jìn)算法的并行化。通過搭建的Hadoop分布式計(jì)算平臺(tái)對(duì)不同樣本數(shù)據(jù)集分別進(jìn)行10次準(zhǔn)確性實(shí)驗(yàn)和效率實(shí)驗(yàn),結(jié)果表明:a)聚類的平均準(zhǔn)確率在實(shí)驗(yàn)所采用的四種UCI標(biāo)準(zhǔn)數(shù)據(jù)集上,相比原始K-means聚類算法和基于粒子群優(yōu)化算法改進(jìn)的K-means聚類算法都有所提高;b)聚類的平均運(yùn)行效率在實(shí)驗(yàn)所采用的五種大小遞增的隨機(jī)數(shù)據(jù)集上,當(dāng)數(shù)據(jù)量較大時(shí),顯著優(yōu)于原始K-means串行算法,稍好于粒子群優(yōu)化算法改進(jìn)的并行K-means聚類算法。可以得出結(jié)論,在大數(shù)據(jù)情景下,應(yīng)用該算法的聚類效果較好。
代碼片段和文件信息
評(píng)論
共有 條評(píng)論