資源簡介
簡單的爬蟲程序,以某小說網(wǎng)站的一個小說為例,對其進(jìn)行爬取
代碼片段和文件信息
#?導(dǎo)入模塊
from?lxml?import?html
import?requests
import?re
import?os.path
starturl?=?‘http://www.wuxia.net.cn/book/qijianxiatianshan.html‘?#初始URL
dir?=?‘d:\\爬蟲目錄\\‘??#文件存放目錄
page?=?requests.get(starturl?timeout=600)??#?請求網(wǎng)頁數(shù)據(jù)
if?page.status_code?==?requests.codes.ok:???#?如果網(wǎng)頁傳輸正常
????m?=?[]?#?m是一個空的列表
????tree?=?html.fromstring(page.content)??#?將網(wǎng)頁解析為一個樹狀結(jié)構(gòu)
????elem?=?tree.xpath(‘//*[@id=“main“]/div[2]/dl‘)?#在樹中導(dǎo)航,找到對應(yīng)的節(jié)點列表
????dl?=?elem[0]??#定位到其中的第一個節(jié)點
????for?dd?in?dl.xpath(‘./dd‘):??#定位子節(jié)點
????????href?=?dd.xpath(‘./a/@href‘)
????????if?href:
????????????m.append(‘http://www.wuxia.net.cn‘+‘‘.join(href))
????print(m)
????
- 上一篇:實現(xiàn)chi、ig、mi計算python
- 下一篇:樸素貝葉斯代碼
評論
共有 條評論