华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

python爬蟲有哪些小技巧?

來源:中華考試網(wǎng)  [2020年9月25日]  【

  使用代理IP

  開發(fā)爬蟲過程中經(jīng)常會遇到IP被封掉的情況,這時就需要用到代理IP;

  在urllib2包中有ProxyHandler類,通過此類可以設(shè)置代理訪問網(wǎng)頁,

  Cookies處理

  cookies是某些網(wǎng)站為了辨別用戶身份、進(jìn)行session跟蹤而儲存在用戶本地終端上的數(shù)據(jù)(通常經(jīng)過加密),python提供了cookielib模塊用于處理cookies,cookielib模塊的主要作用是提供可存儲cookie的對象,以便于與urllib2模塊配合使用來訪問Internet資源.

  偽裝成瀏覽器

  某些網(wǎng)站反感爬蟲的到訪,于是對爬蟲一律拒絕請求。所以用urllib2直接訪問網(wǎng)站經(jīng)常會出現(xiàn)HTTP Error 403: Forbidden的情況對有些 header 要特別留意,Server 端會針對這些 header 做檢查1.User-Agent 有些 Server 或 Proxy 會檢查該值,用來判斷是否是瀏覽器發(fā)起的 Request2.Content-Type 在使用 REST 接口時,Server 會檢查該值,用來確定 HTTP Body 中的內(nèi)容該怎樣解析。

python學(xué)習(xí)課程預(yù)約提醒

  • 地區(qū):
  • 姓名:
  • 手機(jī):

  頁面解析

  對于頁面解析最強(qiáng)大的當(dāng)然是正則表達(dá)式。

  其次就是解析庫了,常用的有兩個lxml和BeautifulSoup,對于這兩個庫,我的評價是,都是HTML/XML的處理庫。

  Beautifulsoup純python實(shí)現(xiàn),效率低,但是功能實(shí)用,比如能用通過結(jié)果搜索獲得某個HTML節(jié)點(diǎn)的源碼;lxmlC語言編碼,高效,支持Xpath

  驗(yàn)證碼的處理

  對于一些簡單的驗(yàn)證碼,可以進(jìn)行簡單的識別。本人也只進(jìn)行過一些簡單的驗(yàn)證碼識別。但是有些反人類的驗(yàn)證碼,比如12306,可以通過打碼平臺進(jìn)行人工打碼,當(dāng)然這是要付費(fèi)的。

  gzip壓縮

  有沒有遇到過某些網(wǎng)頁,不論怎么轉(zhuǎn)碼都是一團(tuán)亂碼。那說明你還不知道許多web服務(wù)具有發(fā)送壓縮數(shù)據(jù)的能力,這可以將網(wǎng)絡(luò)線路上傳輸?shù)拇罅繑?shù)據(jù)消減 60% 以上。這尤其適用于 XML web 服務(wù),因?yàn)?XML 數(shù)據(jù) 的壓縮率可以很高。但是一般服務(wù)器不會為你發(fā)送壓縮數(shù)據(jù),除非你告訴服務(wù)器你可以處理壓縮數(shù)據(jù)。

責(zé)編:hym
  • 會計(jì)考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學(xué)歷考試
万载县| 沈阳市| 奈曼旗| 城固县| 内江市| 郯城县| 调兵山市| 介休市| 定州市| 千阳县| 松江区| 台北县| 施秉县| 湘潭市| 亚东县| 会昌县| 望谟县| 和平区| 杨浦区| 广宁县| 长宁县| 普安县| 陇川县| 德令哈市| 新乐市| 金平| 西充县| 会泽县| 浠水县| 武城县| 石林| 扶沟县| 故城县| 会泽县| 平武县| 方城县| 康乐县| 靖安县| 江永县| 乐昌市| 甘肃省|