华南俳烁实业有限公司

python

當前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

python爬蟲中怎樣編寫pyspider?看完學不會算我輸

來源:中華考試網(wǎng)  [2020年12月1日]  【

  對于初學python的小伙伴們來說還達不到這樣的能力,所以小伙伴們可以先看看小編的代碼,再進行模仿和學習。代碼方面不是很長,但是比較復(fù)雜,接下來我們就一起看看如何編寫pyspider吧。

  代碼:

  from pyspider.libs.base_handler import *class Handler(BaseHandler):

  crawl_config = {

  }

  @every(minutes=24 * 60) def on_start(self):

  self.crawl('__START_URL__', callback=self.index_page)

  @config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items():

  self.crawl(each.attr.href, callback=self.detail_page)

  @config(priority=2) def detail_page(self, response): return { "url": response.url, "title": response.doc('title').text(),

  }

  crawl_config:爬蟲的全局參數(shù)設(shè)置,例如請求頭和cookies可以在這里設(shè)置(傳入關(guān)鍵字及對應(yīng)的參數(shù)即可)

  on_start(self):爬蟲開始爬取的入口

  crawl:和requests有相同的功能 ,可以支持 get(默認) 和 post,常用的參數(shù)有

  data 是想要提交數(shù)據(jù)

  callback 可以在執(zhí)行完 crawl后調(diào)用回調(diào)函數(shù)

  method 是指定 訪問方法

  files 上傳文件,{'key': ('file.name': 'content')}

  headers 請求頭,類型dict

  cookies 請求的 Cookies 類型 dict

  timeout 請求內(nèi)容里最大等待秒數(shù).默認值:120

  connect_timeout : 指定請求時鏈接超時時間,單位秒,默認值:20

  proxy : 可以設(shè)置代理服務(wù)器,暫時只支持http代理

  沒有看懂代碼的小伙伴們也不要氣餒,等過一段時間基礎(chǔ)知識學明白后,相信編寫pyspider就不會有什么問題了。

  如果你現(xiàn)在想學習python,贏取高薪工作機會,非常簡單,填寫下面信息,學好python技術(shù)高薪工作機會唾手可得。

責編:fushihao
  • 會計考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學歷考試
华池县| 资兴市| 凤翔县| 连平县| 抚松县| 安福县| 镶黄旗| 凤阳县| 象州县| 怀集县| 华亭县| 淄博市| 苏州市| 武宁县| 古交市| 报价| 漳平市| 云安县| 铁力市| 讷河市| 邓州市| 玛沁县| 友谊县| 陇川县| 马边| 白水县| 衡东县| 来宾市| 湘阴县| 聊城市| 都匀市| 华坪县| 兰西县| 宁河县| 广河县| 临沂市| 云浮市| 唐河县| 永康市| 夏河县| 彩票|