xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

  • 大小: 0M
    文件類型: .py
    金幣: 1
    下載: 0 次
    發布日期: 2021-05-27
  • 語言: Python
  • 標簽: 其他??

資源簡介

wenku_test.py

資源截圖

代碼片段和文件信息

#Python3.5
#2018/2/14
#參考教程:http://blog.csdn.net/c406495762/article/details/72331737#31-selenium
#待改進:中文字體;代碼的通用性;無法爬取圖片
?
from?selenium?import?webdriver??#webdriver用來打開網頁
from?bs4?import?BeautifulSoup???#用來爬取內容
import?time?????#用來等待完全加載
from?docx?import?Document???????#新建文檔
from?docx.enum.text?import?WD_ALIGN_PARAGRAPH???#用來居中顯示標題????
?
def?find_doc(driver?i):
????time.sleep(3)
????html?=?driver.page_source
????soup1?=?BeautifulSoup(html?‘html.parser‘)
?
????result?=?soup1.find(‘div‘?attrs?=?{‘class‘:‘doc-title‘}?)
????doc_title?=?result.get_text()???###得到文檔標題
?
????try:
????????elem?=?driver.find_element_by_xpath(“//div[@data-flod-fun=‘continue-read‘]“)
????????elem.click()
????????global?doc_content_list
????????doc_content_list?=?[]
????except:
????????pass
?
????result2?=?soup1.find_all(‘p‘?attrs?=?{‘class‘:‘txt‘}?)
????for?each?in?result2:
????????text2?=?each.get_text()
?????????
????????if?‘????????????‘?in?text2:
????????????text3?=?text2.replace(?‘????????????‘?‘‘?)
????????else:
????????????text3?=?text2
?????????????
????????doc_content_list.append(text3)??###得到正文內容
?????????
????try:
????????elem?=?driv

評論

共有 條評論