當前位置：中華考試網(wǎng) >> python >> python爬蟲 >> 文章內容

怎么用python爬取網(wǎng)頁文字?

來源：中華考試網(wǎng) [2020年10月16日] 【大中小】

　　　用Python進行爬取網(wǎng)頁文字的代碼：

　　#!/usr/bin/python

　　# -*- coding: UTF-8 -*-

　　import requests

　　import re

　　# 下載一個網(wǎng)頁

　　url = 'https://www.biquge.tw/75_75273/3900155.html'

　　# 模擬瀏覽器發(fā)送http請求

　　response = requests.get(url)

　　# 編碼方式

　　response.encoding='utf-8'

　　# 目標小說主頁的網(wǎng)頁源碼

　　html = response.text

　　print(html)

　　1、編寫爬蟲思路：

　　確定下載目標，找到網(wǎng)頁，找到網(wǎng)頁中需要的內容。對數(shù)據(jù)進行處理。保存數(shù)據(jù)。

　　2、知識點說明：

　　1)確定網(wǎng)絡中需要的信息，打開網(wǎng)頁后使用F12打開開發(fā)者模式。

　　在Network中可以看到很多信息，我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response，文字信息都包含在response中。

　　對于需要輸入的信息，可以使用ctrl+f，進行搜索。查看信息前后包含哪些特定字段。

　　對于超鏈接的提取，可以使用最左邊的箭頭點擊超鏈接，這時Elements會打開有該條超鏈接的信息，從中判斷需要提取的信息。從下載小說來看，在目錄頁提取出小說的鏈接和章節(jié)名。

　　2)注意編碼格式

　　輸入字符集一定要設置成utf-8。頁面大多為GBK字符集。不設置會亂碼。

責編：hym

編輯推薦

python問答

python教程