我們都知道很多軟件里會自帶一些工具,大部分使用起來還是比較順手的,但是總會遇到一些不好用的工具,這時候我們就需要找一些其他的方法替換一下。提到utf-8小伙伴們肯定不陌生,我們在之前的文章中有反復提及。python的字符串默認的的是另一種編碼,很多人還是喜歡用utf-8,所以今天小編教大家改變默認的ascii編碼方法。
Python默認字符串采用的是ascii編碼方式,如下所示:
python -c "import sys; print sys.getdefaultencoding()"
Ascii
可以通過#coding:utf-8 指定頁面默認編碼為utf-8(ps:但系統(tǒng)默認還是ascii)
字符串的編解碼都是以unicode為中間編碼,無法直接完成轉換,python會自動按其系統(tǒng)默認編碼方式解碼為unicode,再編碼成另一中編碼格式
比如:
#coding:utf-8
s = '中文'
print s.decode('gbk')
報錯解決:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')
s = '中文'
print [s]
print s.encode('gbk')
此時報錯為UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 猜測雖然指定了當前頁面為utf-8,但因為直接encode()轉換程序會自動先按照系統(tǒng)默認的編碼(此時還是ascii) decode一次成unicode,再從unicode編碼為gbk, 因為s編碼為utf-8,明顯解碼出錯
有兩種解決辦法
1 手動解碼 print s.decode(‘utf-8’).encode(‘gbk’)
2 改變系統(tǒng)默認編碼,即加入這兩句在分布式爬蟲中構建好了scrapy之后,不著急去使用框架進行爬取。我們先來思考一個問題,scrapy是否可以獨立在python分布式爬蟲中使用。雖然知識之間是互通的,但是對使用的條件有所限制。我們在使用之前需要明確scrapy框架的使用范圍,才不能導致最后運行結果時的出錯。下面我們就scrapy在python分布式爬蟲的使用范圍進行討論。
1.scrapy框架是否可以自己實現(xiàn)分布式?
不可以。原因有二。
其一:因為多臺機器上部署的scrapy會各自擁有各自的調度器,這樣就使得多臺機器無法分配start_urls列表中的url。(多臺機器無法共享同一個調度器)
其二:多臺機器爬取到的數(shù)據(jù)無法通過同一個管道對數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)持久出存儲。(多臺機器無法共享同一個管道)
2.基于scrapy-redis組件的分布式爬蟲
scrapy-redis組件中為我們封裝好了可以被多臺機器共享的調度器和管道,我們可以直接使用并實現(xiàn)分布式數(shù)據(jù)爬取。
實現(xiàn)方式:
基于該組件的RedisSpider類
基于該組件的RedisCrawlSpider類
3.分布式實現(xiàn)流程:上述兩種不同方式的分布式實現(xiàn)流程是統(tǒng)一的
3.1 下載scrapy-redis組件:
pip install scrapy-redis
3.2 redis配置文件的配置:
注釋該行:bind 127.0.0.1,表示可以讓其他ip訪問redis
將yes該為no:protected-mode no,表示可以讓其他ip操作redis
3.3 修改爬蟲文件中的相關代碼:
將爬蟲類的父類修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬蟲文件是基于 Spider的,則應該將父類修改成RedisSpider,如果原始爬蟲文件是基于CrawlSpider的,則應該將其父類修改成RedisCrawlSpider。
注釋或者刪除start_urls列表,切加入redis_key屬性,屬性值為scrpy-redis組件中調度器隊列的名稱
3.4 在配置文件中進行相關配置,開啟使用scrapy-redis組件中封裝好的管道
看完本篇文章我們知道,因為兩點的限制,scrapy框架是不能在python分布式爬蟲獨立運用的,
reload(sys)
sys.setdefaultencoding('utf-8')
相信看完本篇文章后,我們已經學會把默認字符串采用的ascii編碼換成utf-8了,相信后者大家使用起來更為順手。
下一篇: 沒有了
初級會計職稱中級會計職稱經濟師注冊會計師證券從業(yè)銀行從業(yè)會計實操統(tǒng)計師審計師高級會計師基金從業(yè)資格稅務師資產評估師國際內審師ACCA/CAT價格鑒證師統(tǒng)計資格從業(yè)
一級建造師二級建造師消防工程師造價工程師土建職稱房地產經紀人公路檢測工程師建筑八大員注冊建筑師二級造價師監(jiān)理工程師咨詢工程師房地產估價師 城鄉(xiāng)規(guī)劃師結構工程師巖土工程師安全工程師設備監(jiān)理師環(huán)境影響評價土地登記代理公路造價師公路監(jiān)理師化工工程師暖通工程師給排水工程師計量工程師
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級職稱護士資格證初級護師主管護師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實踐技能內科主治醫(yī)師外科主治醫(yī)師中醫(yī)內科主治兒科主治醫(yī)師婦產科醫(yī)師西藥士/師中藥士/師臨床檢驗技師臨床醫(yī)學理論中醫(yī)理論