資源簡介
1.CSpider文件夾下是我開始編寫前參考的開源代碼,結(jié)構(gòu)比較清晰。單線程
2.任務(wù)概述是我這次寫spider的過程的描述,我做這次spider的目的是完成一項(xiàng)課程設(shè)計(jì)。
3.整個(gè)spider的開發(fā)過程為增量式,從最開始的單頁搜索url到最后的多線程spider,這在版本規(guī)劃中又很明顯的體現(xiàn)。每個(gè)版本都有自己的readme,其中詳細(xì)敘述了各個(gè)版本的不同
4.由于是初學(xué)者,我在每個(gè)版本中都是邊寫邊測試,以查找爬蟲的bug,所以代碼中有很多被注釋的段落可能是測試使用。
5.具體版本信息查看各自的readme
另外,爬蟲不止提取了url,同時(shí)提取了相應(yīng)的錨文本。這個(gè)提取過程導(dǎo)致了爬蟲速度的下降,
代碼片段和文件信息
- 上一篇:C# 、.NET 讀取AD域里用戶名或組
- 下一篇:VB和C#互相調(diào)用
評(píng)論
共有 條評(píng)論