华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

如何使用python解決網(wǎng)站的反爬蟲

來源:中華考試網(wǎng)  [2020年12月30日]  【

  1、從用戶請(qǐng)求的Headers反爬蟲是最常見的反爬蟲策略。

  偽裝header。很多網(wǎng)站都會(huì)對(duì)Headers的User-Agent進(jìn)行檢測(cè),還有一部分網(wǎng)bai站會(huì)對(duì)Referer進(jìn)行檢測(cè)(一些資源網(wǎng)站的防盜鏈就是檢測(cè)Referer)。如果遇到了這類反爬蟲機(jī)制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中;或者將Referer值修改為目標(biāo)網(wǎng)站域名[評(píng)論:往往容易被忽略,通過對(duì)請(qǐng)求的抓包分析,確定referer,在程序中模擬訪問請(qǐng)求頭中添加]。對(duì)于檢測(cè)Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。

  2、基于用戶行為反爬蟲

  還有一部分網(wǎng)站是通過檢測(cè)用戶行為,例如同一IP短時(shí)間內(nèi)多次訪問同一頁(yè)面,或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。[這種防爬,需要有足夠多的ip來應(yīng)對(duì)]

  (1)、大多數(shù)網(wǎng)站都是前一種情況,對(duì)于這種情況,使用IP代理就可以解決?梢詫iT寫一個(gè)爬蟲,爬取網(wǎng)上公開的代理ip,檢測(cè)后全部保存起來。有了大量代理ip后可以每請(qǐng)求幾次更換一個(gè)ip,這在requests或者urllib中很容易做到,這樣就能很容易的繞過第一種反爬蟲。

  三、正常的時(shí)間訪問路徑

  合理控制采集速度,是Python爬蟲不應(yīng)該破壞的規(guī)則,盡量為每個(gè)頁(yè)面訪問時(shí)間增加一點(diǎn)兒間隔,可以有效幫助你避免反爬蟲。

  四、使用https

  對(duì)于分布式爬蟲和已經(jīng)遭遇反爬蟲的人來說,使用https將成為你的首選。

責(zé)編:zp032348

上一篇:python網(wǎng)絡(luò)爬蟲可以干什么?

下一篇: 沒有了

  • 會(huì)計(jì)考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學(xué)歷考試
兴安盟| 绥芬河市| 阿拉善左旗| 普兰县| 张家口市| 武强县| 璧山县| 池州市| 称多县| 开平市| 宁陵县| 安图县| 梁山县| 巴楚县| 漠河县| 那坡县| 津南区| 休宁县| 南木林县| 白河县| 山阴县| 肃北| 德令哈市| 古浪县| 丁青县| 安宁市| 合肥市| 富锦市| 玉门市| 洞口县| 福鼎市| 凤台县| 潜江市| 响水县| 营山县| 汪清县| 北川| 西华县| 平果县| 新竹县| 清水河县|