網絡爬蟲python源代碼

大小: 2KB

文件類型: .py

金幣: 1

下載: 0 次

發布日期: 2021-01-06
語言: Python
標簽: 爬蟲??Python??

高速下載

資源簡介

簡單的爬蟲程序，以某小說網站的一個小說為例，對其進行爬取

資源截圖

小圖大圖

代碼片段和文件信息

#?導入模塊
from?lxml?import?html
import?requests
import?re
import?os.path

starturl?=?‘http://www.wuxia.net.cn/book/qijianxiatianshan.html‘?#初始URL
dir?=?‘d:\\爬蟲目錄\\‘??#文件存放目錄


page?=?requests.get（starturl?timeout=600）??#?請求網頁數據
if?page.status_code?==?requests.codes.ok:???#?如果網頁傳輸正常
????m?=?[]?#?m是一個空的列表
????tree?=?html.fromstring（page.content）??#?將網頁解析為一個樹狀結構
????elem?=?tree.xpath（‘//*[@id=“main“]/div[2]/dl‘）?#在樹中導航，找到對應的節點列表
????dl?=?elem[0]??#定位到其中的第一個節點
????for?dd?in?dl.xpath（‘./dd‘）:??#定位子節點
????????href?=?dd.xpath（‘./a/@href‘）
????????if?href:
????????????m.append（‘http://www.wuxia.net.cn‘+‘‘.join（href））
????print（m）

????

上一篇：實現chi、ig、mi計算python
下一篇：樸素貝葉斯代碼

xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

網絡爬蟲python源代碼

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源