資源簡介
利用Python爬蟲抓取網頁上的圖片,當遇到不合法的URL時,會自動處理異常,不會導致程序崩潰。直到下載完整個頁面的圖片,程序才會退出
代碼片段和文件信息
import?urllib
import?urllib.request
import?re
#傳入URL,返回該URL所指的文件的數據流
def?download_page(url):
????headers?=?{‘User-Agent‘:?‘Mozilla/5.0?(Macintosh;?Intel?Mac?OS?X?10_11_2)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/47.0.2526.80?Safari/537.36‘}?#對爬蟲進行偽裝
????request?=?urllib.request.Request(url?headers=headers)??#構建請求
????response?=?urllib.request.urlopen(request)??#獲取服務器響應
????data?=?response.read()
????return?data
def?get_image(html):
????regx?=?r‘http://[\S][^:]*\.jpg‘
????pattern?=?re.compile(regx?re.I)??#忽略大小寫
????get_img?=?re.fin
評論
共有 條評論