當前位置：中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

python爬蟲中怎樣編寫pyspider？看完學不會算我輸

來源：中華考試網(wǎng) [2020年12月1日] 【大中小】

　　對于初學python的小伙伴們來說還達不到這樣的能力，所以小伙伴們可以先看看小編的代碼，再進行模仿和學習。代碼方面不是很長，但是比較復(fù)雜，接下來我們就一起看看如何編寫pyspider吧。

　　代碼：

　　from pyspider.libs.base_handler import *class Handler(BaseHandler):

　　crawl_config = {

　　}

　　@every(minutes=24 * 60) def on_start(self):

　　self.crawl('__START_URL__', callback=self.index_page)

　　@config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items():

　　self.crawl(each.attr.href, callback=self.detail_page)

　　@config(priority=2) def detail_page(self, response): return { "url": response.url, "title": response.doc('title').text(),

　　}

　　crawl_config：爬蟲的全局參數(shù)設(shè)置，例如請求頭和cookies可以在這里設(shè)置(傳入關(guān)鍵字及對應(yīng)的參數(shù)即可)

　　on_start(self)：爬蟲開始爬取的入口

　　crawl：和requests有相同的功能，可以支持 get(默認) 和 post，常用的參數(shù)有

　　data 是想要提交數(shù)據(jù)

　　callback 可以在執(zhí)行完 crawl后調(diào)用回調(diào)函數(shù)

　　method 是指定訪問方法

　　files 上傳文件，{'key': ('file.name': 'content')}

　　headers 請求頭，類型dict

　　cookies 請求的 Cookies 類型 dict

　　timeout 請求內(nèi)容里最大等待秒數(shù).默認值：120

　　connect_timeout ：指定請求時鏈接超時時間,單位秒，默認值：20

　　proxy ：可以設(shè)置代理服務(wù)器，暫時只支持http代理

　　沒有看懂代碼的小伙伴們也不要氣餒，等過一段時間基礎(chǔ)知識學明白后，相信編寫pyspider就不會有什么問題了。

　　如果你現(xiàn)在想學習python，贏取高薪工作機會，非常簡單，填寫下面信息，學好python技術(shù)高薪工作機會唾手可得。

責編：fushihao

下一篇： 沒有了

相關(guān)文章

編輯推薦

python問答

python教程