資源簡介
網絡爬蟲是一種自動搜集互聯網信息的程序。通過網絡爬蟲不僅能夠為搜索引擎采集網絡信息,而且可以作為定向信息采集器,定向采集某些網站下的特定信息,如招聘信息,租房信息等。
本文通過JAVA實現了一個基于廣度優先算法的多線程爬蟲程序。本論文闡述了網絡爬蟲實現中一些主要問題:為何使用廣度優先的爬行策略,以及如何實現廣度優先爬行;為何要使用多線程,以及如何實現多線程;系統實現過程中的數據存儲;網頁信息解析等。
通過實現這一爬蟲程序,可以搜集某一站點的URLs,并將搜集到的URLs存入數據庫。
代碼片段和文件信息
評論
共有 條評論