當(dāng)前位置：中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

如何使用python解決網(wǎng)站的反爬蟲

來源：中華考試網(wǎng) [2020年12月30日] 【大中小】

　　1、從用戶請(qǐng)求的Headers反爬蟲是最常見的反爬蟲策略。

　　偽裝header。很多網(wǎng)站都會(huì)對(duì)Headers的User-Agent進(jìn)行檢測(cè)，還有一部分網(wǎng)bai站會(huì)對(duì)Referer進(jìn)行檢測(cè)(一些資源網(wǎng)站的防盜鏈就是檢測(cè)Referer)。如果遇到了這類反爬蟲機(jī)制，可以直接在爬蟲中添加Headers，將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中;或者將Referer值修改為目標(biāo)網(wǎng)站域名[評(píng)論：往往容易被忽略，通過對(duì)請(qǐng)求的抓包分析，確定referer，在程序中模擬訪問請(qǐng)求頭中添加]。對(duì)于檢測(cè)Headers的反爬蟲，在爬蟲中修改或者添加Headers就能很好的繞過。

　　2、基于用戶行為反爬蟲

　　還有一部分網(wǎng)站是通過檢測(cè)用戶行為，例如同一IP短時(shí)間內(nèi)多次訪問同一頁(yè)面，或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。[這種防爬，需要有足夠多的ip來應(yīng)對(duì)]

　　(1)、大多數(shù)網(wǎng)站都是前一種情況，對(duì)于這種情況，使用IP代理就可以解決�？梢詫ｉT寫一個(gè)爬蟲，爬取網(wǎng)上公開的代理ip，檢測(cè)后全部保存起來。有了大量代理ip后可以每請(qǐng)求幾次更換一個(gè)ip，這在requests或者urllib中很容易做到，這樣就能很容易的繞過第一種反爬蟲。

　　三、正常的時(shí)間訪問路徑

　　合理控制采集速度，是Python爬蟲不應(yīng)該破壞的規(guī)則，盡量為每個(gè)頁(yè)面訪問時(shí)間增加一點(diǎn)兒間隔，可以有效幫助你避免反爬蟲。

　　四、使用https

　　對(duì)于分布式爬蟲和已經(jīng)遭遇反爬蟲的人來說，使用https將成為你的首選。

責(zé)編：zp032348

上一篇：python網(wǎng)絡(luò)爬蟲可以干什么？

下一篇： 沒有了

相關(guān)文章

編輯推薦

python問答

python教程

华南俳烁实业有限公司

python

如何使用python解決網(wǎng)站的反爬蟲

編輯推薦