华南俳烁实业有限公司

python

當前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

面對python反爬蟲如何進行ip切換?

來源:中華考試網(wǎng)  [2020年11月24日]  【

  在面對網(wǎng)頁的阻攔后,如果我們想繼續(xù)收集一些數(shù)據(jù)的話,比較常見的辦法是改變我們請求訪問的地址,這就涉及到了地址的切換。對于剛?cè)腴T的python新手來說,如何切換ip有一  定的難度,畢竟很多人都沒有學習中都沒有嘗試過。所以小編整理了有關(guān)面對python反爬蟲的切換方法,具體內(nèi)容在接下來的內(nèi)容中進行展示,想要學習的小伙伴可以跟著一起看看。

  調(diào)試開多少個線程,多長時間撥號切換IP一次最優(yōu)。每個網(wǎng)站對短時間內(nèi)訪問次數(shù)的屏蔽策略不一樣,這需要實際測試,找出抓取效率最大化的時間點。先開一個線程,一直抓取到IP被屏蔽,記錄下抓取耗時,總抓取次數(shù),和成功抓取次數(shù)。 再開2個線程,重復上面步驟,記錄抓取耗時,總的和成功的抓取次數(shù)。再開4個線程,重復上面步驟。整理成一個表格如下,下圖是我抓天眼查時,統(tǒng)計抓取極限和細節(jié)調(diào)優(yōu)的表格

  從上圖比較可以看出,當有6個線程時,是比較好的情況。耗時6秒,成功抓取80-110次。

  開多少個線程調(diào)試出來了,那多久撥號一次呢?

python課程免費試聽預約

  • 地區(qū):
  • 姓名:
  • 手機:

  從上面的圖片看到,貌似每隔6秒撥號是一個不錯的選擇?梢赃@樣做,但是我選了另一個度量單位,就是每總抓取120次就重新?lián)芴枴槭裁催@樣選呢?從上圖也能看到,基本抓到120次左右就會被屏蔽,每隔6秒撥號其實誤差比較大,因為網(wǎng)絡(luò)延遲等各種問題,導致6秒內(nèi)可能抓100次,也可能抓120次。

責編:fushihao

上一篇:如何用編輯器在python爬蟲中改變header?

下一篇: 沒有了

  • 會計考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學歷考試
大英县| 贵溪市| 定州市| 绩溪县| 合山市| 闽清县| 通道| 邵阳市| 河北省| 电白县| 安吉县| 达日县| 余江县| 水富县| 黑山县| 行唐县| 绥化市| 长兴县| 临沂市| 巴林右旗| 石楼县| 庆元县| 安吉县| 大庆市| 沈丘县| 藁城市| 红河县| 凤庆县| 绥滨县| 鄂托克旗| 兰坪| 晋中市| 祥云县| 惠水县| 宿松县| 渭源县| 秭归县| 阳曲县| 铜山县| 恩平市| 垫江县|