- 首頁(yè)|
- 網(wǎng)校|
- 焚題庫(kù)|
- APP |
-
微信公眾號(hào)
1、從用戶請(qǐng)求的Headers反爬蟲是最常見的反爬蟲策略。
偽裝header。很多網(wǎng)站都會(huì)對(duì)Headers的User-Agent進(jìn)行檢測(cè),還有一部分網(wǎng)bai站會(huì)對(duì)Referer進(jìn)行檢測(cè)(一些資源網(wǎng)站的防盜鏈就是檢測(cè)Referer)。如果遇到了這類反爬蟲機(jī)制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中;或者將Referer值修改為目標(biāo)網(wǎng)站域名[評(píng)論:往往容易被忽略,通過對(duì)請(qǐng)求的抓包分析,確定referer,在程序中模擬訪問請(qǐng)求頭中添加]。對(duì)于檢測(cè)Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。
2、基于用戶行為反爬蟲
還有一部分網(wǎng)站是通過檢測(cè)用戶行為,例如同一IP短時(shí)間內(nèi)多次訪問同一頁(yè)面,或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。[這種防爬,需要有足夠多的ip來應(yīng)對(duì)]
(1)、大多數(shù)網(wǎng)站都是前一種情況,對(duì)于這種情況,使用IP代理就可以解決?梢詫iT寫一個(gè)爬蟲,爬取網(wǎng)上公開的代理ip,檢測(cè)后全部保存起來。有了大量代理ip后可以每請(qǐng)求幾次更換一個(gè)ip,這在requests或者urllib中很容易做到,這樣就能很容易的繞過第一種反爬蟲。
三、正常的時(shí)間訪問路徑
合理控制采集速度,是Python爬蟲不應(yīng)該破壞的規(guī)則,盡量為每個(gè)頁(yè)面訪問時(shí)間增加一點(diǎn)兒間隔,可以有效幫助你避免反爬蟲。
四、使用https
對(duì)于分布式爬蟲和已經(jīng)遭遇反爬蟲的人來說,使用https將成為你的首選。
上一篇:python網(wǎng)絡(luò)爬蟲可以干什么?
下一篇: 沒有了
初級(jí)會(huì)計(jì)職稱中級(jí)會(huì)計(jì)職稱經(jīng)濟(jì)師注冊(cè)會(huì)計(jì)師證券從業(yè)銀行從業(yè)會(huì)計(jì)實(shí)操統(tǒng)計(jì)師審計(jì)師高級(jí)會(huì)計(jì)師基金從業(yè)資格稅務(wù)師資產(chǎn)評(píng)估師國(guó)際內(nèi)審師ACCA/CAT價(jià)格鑒證師統(tǒng)計(jì)資格從業(yè)
一級(jí)建造師二級(jí)建造師消防工程師造價(jià)工程師土建職稱房地產(chǎn)經(jīng)紀(jì)人公路檢測(cè)工程師建筑八大員注冊(cè)建筑師二級(jí)造價(jià)師監(jiān)理工程師咨詢工程師房地產(chǎn)估價(jià)師 城鄉(xiāng)規(guī)劃師結(jié)構(gòu)工程師巖土工程師安全工程師設(shè)備監(jiān)理師環(huán)境影響評(píng)價(jià)土地登記代理公路造價(jià)師公路監(jiān)理師化工工程師暖通工程師給排水工程師計(jì)量工程師
人力資源考試教師資格考試出版專業(yè)資格健康管理師導(dǎo)游考試社會(huì)工作者司法考試職稱計(jì)算機(jī)營(yíng)養(yǎng)師心理咨詢師育嬰師事業(yè)單位教師招聘公務(wù)員公選考試招警考試選調(diào)生村官
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級(jí)職稱護(hù)士資格證初級(jí)護(hù)師主管護(hù)師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實(shí)踐技能內(nèi)科主治醫(yī)師外科主治醫(yī)師中醫(yī)內(nèi)科主治兒科主治醫(yī)師婦產(chǎn)科醫(yī)師西藥士/師中藥士/師臨床檢驗(yàn)技師臨床醫(yī)學(xué)理論中醫(yī)理論