用Python進行爬取網(wǎng)頁文字的代碼:
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下載一個網(wǎng)頁
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模擬瀏覽器發(fā)送http請求
response = requests.get(url)
# 編碼方式
response.encoding='utf-8'
# 目標小說主頁的網(wǎng)頁源碼
html = response.text
print(html)
1、編寫爬蟲思路:
確定下載目標,找到網(wǎng)頁,找到網(wǎng)頁中需要的內容。對數(shù)據(jù)進行處理。保存數(shù)據(jù)。
2、知識點說明:
1)確定網(wǎng)絡中需要的信息,打開網(wǎng)頁后使用F12打開開發(fā)者模式。
在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response,文字信息都包含在response中。
對于需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前后包含哪些特定字段。
對于超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節(jié)名。
2)注意編碼格式
輸入字符集一定要設置成utf-8。頁面大多為GBK字符集。不設置會亂碼。
初級會計職稱中級會計職稱經(jīng)濟師注冊會計師證券從業(yè)銀行從業(yè)會計實操統(tǒng)計師審計師高級會計師基金從業(yè)資格稅務師資產(chǎn)評估師國際內審師ACCA/CAT價格鑒證師統(tǒng)計資格從業(yè)
一級建造師二級建造師消防工程師造價工程師土建職稱房地產(chǎn)經(jīng)紀人公路檢測工程師建筑八大員注冊建筑師二級造價師監(jiān)理工程師咨詢工程師房地產(chǎn)估價師 城鄉(xiāng)規(guī)劃師結構工程師巖土工程師安全工程師設備監(jiān)理師環(huán)境影響評價土地登記代理公路造價師公路監(jiān)理師化工工程師暖通工程師給排水工程師計量工程師
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級職稱護士資格證初級護師主管護師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實踐技能內科主治醫(yī)師外科主治醫(yī)師中醫(yī)內科主治兒科主治醫(yī)師婦產(chǎn)科醫(yī)師西藥士/師中藥士/師臨床檢驗技師臨床醫(yī)學理論中醫(yī)理論