华南俳烁实业有限公司

python

當前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內容

怎么用python爬取網(wǎng)頁文字?

來源:中華考試網(wǎng)  [2020年10月16日]  【

   用Python進行爬取網(wǎng)頁文字的代碼:

  #!/usr/bin/python

  # -*- coding: UTF-8 -*-

  import requests

  import re

  # 下載一個網(wǎng)頁

  url = 'https://www.biquge.tw/75_75273/3900155.html'

  # 模擬瀏覽器發(fā)送http請求

  response = requests.get(url)

python課程免費試聽預約

  • 地區(qū):
  • 姓名:
  • 手機:

  # 編碼方式

  response.encoding='utf-8'

  # 目標小說主頁的網(wǎng)頁源碼

  html = response.text

  print(html)

  1、編寫爬蟲思路:

  確定下載目標,找到網(wǎng)頁,找到網(wǎng)頁中需要的內容。對數(shù)據(jù)進行處理。保存數(shù)據(jù)。

  2、知識點說明:

  1)確定網(wǎng)絡中需要的信息,打開網(wǎng)頁后使用F12打開開發(fā)者模式。

  在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response,文字信息都包含在response中。

  對于需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前后包含哪些特定字段。

  對于超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節(jié)名。

  2)注意編碼格式

  輸入字符集一定要設置成utf-8。頁面大多為GBK字符集。不設置會亂碼。

責編:hym
  • 會計考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學歷考試
察哈| 渭源县| 湘阴县| 剑阁县| 积石山| 万荣县| 邯郸县| 彭泽县| 海淀区| 静宁县| 琼海市| 西安市| 南康市| 五大连池市| 平阴县| 皮山县| 黄石市| 泾源县| 安福县| 富平县| 马公市| 高邑县| 军事| 大连市| 黄浦区| 鹤壁市| 莱芜市| 临湘市| 临邑县| 民权县| 罗田县| 沂南县| 民勤县| 西林县| 伊春市| 柏乡县| 绥宁县| 宁武县| 兰溪市| 延津县| 黔西县|