华南俳烁实业有限公司

python

當前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內容

scrapy可以獨立在python分布式爬蟲內使用嗎?

來源:中華考試網(wǎng)  [2020年11月27日]  【

  我們都知道很多軟件里會自帶一些工具,大部分使用起來還是比較順手的,但是總會遇到一些不好用的工具,這時候我們就需要找一些其他的方法替換一下。提到utf-8小伙伴們肯定不陌生,我們在之前的文章中有反復提及。python的字符串默認的的是另一種編碼,很多人還是喜歡用utf-8,所以今天小編教大家改變默認的ascii編碼方法。

  Python默認字符串采用的是ascii編碼方式,如下所示:

  python -c "import sys; print sys.getdefaultencoding()"

  Ascii

  可以通過#coding:utf-8 指定頁面默認編碼為utf-8(ps:但系統(tǒng)默認還是ascii)

  字符串的編解碼都是以unicode為中間編碼,無法直接完成轉換,python會自動按其系統(tǒng)默認編碼方式解碼為unicode,再編碼成另一中編碼格式

  比如:

  #coding:utf-8

  s = '中文'

  print s.decode('gbk')

  報錯解決:

  #!/usr/bin/python

python課程免費試聽預約

  • 地區(qū):
  • 姓名:
  • 手機:

  # -*- coding: utf-8 -*-

  import sys

  # reload(sys)

  # sys.setdefaultencoding('utf-8')

  s = '中文'

  print [s]

  print s.encode('gbk')

  此時報錯為UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 猜測雖然指定了當前頁面為utf-8,但因為直接encode()轉換程序會自動先按照系統(tǒng)默認的編碼(此時還是ascii) decode一次成unicode,再從unicode編碼為gbk, 因為s編碼為utf-8,明顯解碼出錯

  有兩種解決辦法

  1 手動解碼 print s.decode(‘utf-8’).encode(‘gbk’)

  2 改變系統(tǒng)默認編碼,即加入這兩句在分布式爬蟲中構建好了scrapy之后,不著急去使用框架進行爬取。我們先來思考一個問題,scrapy是否可以獨立在python分布式爬蟲中使用。雖然知識之間是互通的,但是對使用的條件有所限制。我們在使用之前需要明確scrapy框架的使用范圍,才不能導致最后運行結果時的出錯。下面我們就scrapy在python分布式爬蟲的使用范圍進行討論。

  1.scrapy框架是否可以自己實現(xiàn)分布式?

  不可以。原因有二。

  其一:因為多臺機器上部署的scrapy會各自擁有各自的調度器,這樣就使得多臺機器無法分配start_urls列表中的url。(多臺機器無法共享同一個調度器)

  其二:多臺機器爬取到的數(shù)據(jù)無法通過同一個管道對數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)持久出存儲。(多臺機器無法共享同一個管道)

  2.基于scrapy-redis組件的分布式爬蟲

  scrapy-redis組件中為我們封裝好了可以被多臺機器共享的調度器和管道,我們可以直接使用并實現(xiàn)分布式數(shù)據(jù)爬取。

  實現(xiàn)方式:

  基于該組件的RedisSpider類

  基于該組件的RedisCrawlSpider類

  3.分布式實現(xiàn)流程:上述兩種不同方式的分布式實現(xiàn)流程是統(tǒng)一的

  3.1 下載scrapy-redis組件:

  pip install scrapy-redis

  3.2 redis配置文件的配置:

  注釋該行:bind 127.0.0.1,表示可以讓其他ip訪問redis

  將yes該為no:protected-mode no,表示可以讓其他ip操作redis

  3.3 修改爬蟲文件中的相關代碼:

  將爬蟲類的父類修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬蟲文件是基于 Spider的,則應該將父類修改成RedisSpider,如果原始爬蟲文件是基于CrawlSpider的,則應該將其父類修改成RedisCrawlSpider。

  注釋或者刪除start_urls列表,切加入redis_key屬性,屬性值為scrpy-redis組件中調度器隊列的名稱

  3.4 在配置文件中進行相關配置,開啟使用scrapy-redis組件中封裝好的管道

  看完本篇文章我們知道,因為兩點的限制,scrapy框架是不能在python分布式爬蟲獨立運用的,

  reload(sys)

  sys.setdefaultencoding('utf-8')

  相信看完本篇文章后,我們已經學會把默認字符串采用的ascii編碼換成utf-8了,相信后者大家使用起來更為順手。

責編:fushihao

上一篇:python分布式爬蟲中的消息隊列是什么?

下一篇: 沒有了

  • 會計考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學歷考試
蒙自县| 荃湾区| 肇东市| 来宾市| 工布江达县| 海城市| 蓬安县| 深圳市| 赤壁市| 忻州市| 会宁县| 刚察县| 贵南县| 电白县| 青神县| 靖安县| 敦化市| 锦州市| 梁平县| 南昌县| 吴江市| 府谷县| 苏尼特左旗| 雷州市| 抚远县| 林西县| 宣城市| 迭部县| 江津市| 大丰市| 新泰市| 菏泽市| 宜章县| 高清| 土默特右旗| 永福县| 句容市| 珠海市| 开化县| 隆尧县| 子洲县|