xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

資源簡介

百度貼吧的爬蟲制作和糗百的爬蟲制作原理基本相同,都是通過查看源碼扣出關(guān)鍵數(shù)據(jù),然后將其存儲到本地txt文件。 項目內(nèi)容: 用Python寫的百度貼吧的網(wǎng)絡(luò)爬蟲。 使用方法: 新建一個BugBaidu.py文件,然后將代碼復(fù)制到里面后,雙擊運行。 程序功能: 將貼吧中樓主發(fā)布的內(nèi)容打包txt存儲到本地。 http://blog.csdn.net/wxg694175346/article/details/8934726

資源截圖

代碼片段和文件信息

#?-*-?coding:?utf-8?-*-
#---------------------------------------
#???程序:百度貼吧爬蟲
#???版本:0.4
#???作者:why
#???日期:2013-05-16
#???語言:Python?2.7
#???操作:輸入網(wǎng)址后自動只看樓主并保存到本地文件
#???功能:將樓主發(fā)布的內(nèi)容打包txt存儲到本地。
#---------------------------------------
?
import?string
import?urllib2
import?re

#-----------?處理頁面上的各種標(biāo)簽?-----------
class?HTML_Tool:
????#?用非?貪婪模式?匹配?\t?或者?\n?或者?空格?或者?超鏈接?或者?圖片
????BgnCharToNoneRex?=?re.compile(“(\t|\n|?||)“)
????
????#?用非?貪婪模式?匹配?任意<>標(biāo)簽
????EndCharToNoneRex?=?re.compile(“<.*?>“)

????#?用非?貪婪模式?匹配?任意

標(biāo)簽
????BgnPartRex?=?re.compile(““)
????CharToNewLineRex?=?re.compile(“(
|

||
|
)“)
????CharToNextTabRex?=?re.compile(““)

????#?將一些html的符號實體轉(zhuǎn)變?yōu)樵挤?br/>????replaceTab?=?[(“<““<“)(“>““>“)(“&““&“)(“&am

評論

共有 條評論