對于初學python的小伙伴們來說還達不到這樣的能力,所以小伙伴們可以先看看小編的代碼,再進行模仿和學習。代碼方面不是很長,但是比較復(fù)雜,接下來我們就一起看看如何編寫pyspider吧。
代碼:
from pyspider.libs.base_handler import *class Handler(BaseHandler):
crawl_config = {
}
@every(minutes=24 * 60) def on_start(self):
self.crawl('__START_URL__', callback=self.index_page)
@config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items():
self.crawl(each.attr.href, callback=self.detail_page)
@config(priority=2) def detail_page(self, response): return { "url": response.url, "title": response.doc('title').text(),
}
crawl_config:爬蟲的全局參數(shù)設(shè)置,例如請求頭和cookies可以在這里設(shè)置(傳入關(guān)鍵字及對應(yīng)的參數(shù)即可)
on_start(self):爬蟲開始爬取的入口
crawl:和requests有相同的功能 ,可以支持 get(默認) 和 post,常用的參數(shù)有
data 是想要提交數(shù)據(jù)
callback 可以在執(zhí)行完 crawl后調(diào)用回調(diào)函數(shù)
method 是指定 訪問方法
files 上傳文件,{'key': ('file.name': 'content')}
headers 請求頭,類型dict
cookies 請求的 Cookies 類型 dict
timeout 請求內(nèi)容里最大等待秒數(shù).默認值:120
connect_timeout : 指定請求時鏈接超時時間,單位秒,默認值:20
proxy : 可以設(shè)置代理服務(wù)器,暫時只支持http代理
沒有看懂代碼的小伙伴們也不要氣餒,等過一段時間基礎(chǔ)知識學明白后,相信編寫pyspider就不會有什么問題了。
如果你現(xiàn)在想學習python,贏取高薪工作機會,非常簡單,填寫下面信息,學好python技術(shù)高薪工作機會唾手可得。
上一篇:Cookie在python爬蟲中的屬性有哪些?怎么用?
下一篇: 沒有了
初級會計職稱中級會計職稱經(jīng)濟師注冊會計師證券從業(yè)銀行從業(yè)會計實操統(tǒng)計師審計師高級會計師基金從業(yè)資格稅務(wù)師資產(chǎn)評估師國際內(nèi)審師ACCA/CAT價格鑒證師統(tǒng)計資格從業(yè)
一級建造師二級建造師消防工程師造價工程師土建職稱房地產(chǎn)經(jīng)紀人公路檢測工程師建筑八大員注冊建筑師二級造價師監(jiān)理工程師咨詢工程師房地產(chǎn)估價師 城鄉(xiāng)規(guī)劃師結(jié)構(gòu)工程師巖土工程師安全工程師設(shè)備監(jiān)理師環(huán)境影響評價土地登記代理公路造價師公路監(jiān)理師化工工程師暖通工程師給排水工程師計量工程師
人力資源考試教師資格考試出版專業(yè)資格健康管理師導(dǎo)游考試社會工作者司法考試職稱計算機營養(yǎng)師心理咨詢師育嬰師事業(yè)單位教師招聘公務(wù)員公選考試招警考試選調(diào)生村官
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級職稱護士資格證初級護師主管護師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實踐技能內(nèi)科主治醫(yī)師外科主治醫(yī)師中醫(yī)內(nèi)科主治兒科主治醫(yī)師婦產(chǎn)科醫(yī)師西藥士/師中藥士/師臨床檢驗技師臨床醫(yī)學理論中醫(yī)理論