當前位置：中華考試網(wǎng) >> python >> python爬蟲 >> 文章內容

scrapy可以獨立在python分布式爬蟲內使用嗎?

來源：中華考試網(wǎng) [2020年11月27日] 【大中小】

　　我們都知道很多軟件里會自帶一些工具，大部分使用起來還是比較順手的，但是總會遇到一些不好用的工具，這時候我們就需要找一些其他的方法替換一下。提到utf-8小伙伴們肯定不陌生，我們在之前的文章中有反復提及。python的字符串默認的的是另一種編碼，很多人還是喜歡用utf-8，所以今天小編教大家改變默認的ascii編碼方法。

　　Python默認字符串采用的是ascii編碼方式，如下所示：

　　python -c "import sys; print sys.getdefaultencoding()"

　　Ascii

　　可以通過#coding:utf-8 指定頁面默認編碼為utf-8(ps:但系統(tǒng)默認還是ascii)

　　字符串的編解碼都是以unicode為中間編碼,無法直接完成轉換,python會自動按其系統(tǒng)默認編碼方式解碼為unicode，再編碼成另一中編碼格式

　　比如:

　　#coding:utf-8

　　s = '中文'

　　print s.decode('gbk')

　　報錯解決：

　　#!/usr/bin/python

python課程免費試聽預約

地區(qū):
- 北京
- 天津
- 上海
- 江蘇
- 浙江
- 山東
- 江西
- 安徽
- 廣東
- 廣西
- 海南
- 遼寧
- 吉林
- 黑龍江
- 內蒙古
- 山西
- 福建
- 河南
- 河北
- 湖南
- 湖北
- 四川
- 重慶
- 云南
- 貴州
- 新疆
- 西藏
- 陜西
- 青海
- 寧夏
- 甘肅
姓名:
手機:

提交

　　# -*- coding: utf-8 -*-

　　import sys

　　# reload(sys)

　　# sys.setdefaultencoding('utf-8')

　　s = '中文'

　　print [s]

　　print s.encode('gbk')

　　此時報錯為UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 猜測雖然指定了當前頁面為utf-8,但因為直接encode()轉換程序會自動先按照系統(tǒng)默認的編碼(此時還是ascii) decode一次成unicode,再從unicode編碼為gbk, 因為s編碼為utf-8,明顯解碼出錯

　　有兩種解決辦法

　　1 手動解碼 print s.decode(‘utf-8’).encode(‘gbk’)

　　2 改變系統(tǒng)默認編碼,即加入這兩句在分布式爬蟲中構建好了scrapy之后，不著急去使用框架進行爬取。我們先來思考一個問題，scrapy是否可以獨立在python分布式爬蟲中使用。雖然知識之間是互通的，但是對使用的條件有所限制。我們在使用之前需要明確scrapy框架的使用范圍，才不能導致最后運行結果時的出錯。下面我們就scrapy在python分布式爬蟲的使用范圍進行討論。

　　1.scrapy框架是否可以自己實現(xiàn)分布式?

　　不可以。原因有二。

　　其一：因為多臺機器上部署的scrapy會各自擁有各自的調度器，這樣就使得多臺機器無法分配start_urls列表中的url。(多臺機器無法共享同一個調度器)

　　其二：多臺機器爬取到的數(shù)據(jù)無法通過同一個管道對數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)持久出存儲。(多臺機器無法共享同一個管道)

　　2.基于scrapy-redis組件的分布式爬蟲

　　scrapy-redis組件中為我們封裝好了可以被多臺機器共享的調度器和管道，我們可以直接使用并實現(xiàn)分布式數(shù)據(jù)爬取。

　　實現(xiàn)方式：

　　基于該組件的RedisSpider類

　　基于該組件的RedisCrawlSpider類

　　3.分布式實現(xiàn)流程：上述兩種不同方式的分布式實現(xiàn)流程是統(tǒng)一的

　　3.1 下載scrapy-redis組件：

　　pip install scrapy-redis

　　3.2 redis配置文件的配置：

　　注釋該行：bind 127.0.0.1，表示可以讓其他ip訪問redis

　　將yes該為no：protected-mode no，表示可以讓其他ip操作redis

　　3.3 修改爬蟲文件中的相關代碼：

　　將爬蟲類的父類修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬蟲文件是基于 Spider的，則應該將父類修改成RedisSpider，如果原始爬蟲文件是基于CrawlSpider的，則應該將其父類修改成RedisCrawlSpider。

　　注釋或者刪除start_urls列表，切加入redis_key屬性，屬性值為scrpy-redis組件中調度器隊列的名稱

　　3.4 在配置文件中進行相關配置，開啟使用scrapy-redis組件中封裝好的管道

　　看完本篇文章我們知道，因為兩點的限制，scrapy框架是不能在python分布式爬蟲獨立運用的，

　　reload(sys)

　　sys.setdefaultencoding('utf-8')

　　相信看完本篇文章后，我們已經學會把默認字符串采用的ascii編碼換成utf-8了，相信后者大家使用起來更為順手。

責編：fushihao

上一篇：python分布式爬蟲中的消息隊列是什么？

下一篇： 沒有了

編輯推薦

python問答

python教程

华南俳烁实业有限公司

python

scrapy可以獨立在python分布式爬蟲內使用嗎?

python課程免費試聽預約

編輯推薦