华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲(chóng) >> 文章內(nèi)容

python寫(xiě)爬蟲(chóng)出現(xiàn)亂碼怎么回事?

來(lái)源:中華考試網(wǎng)  [2020年12月4日]  【

  關(guān)于爬蟲(chóng)亂碼有很多各式各樣的問(wèn)題,這里不僅是中文亂碼,編碼轉(zhuǎn)換、還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因?yàn)榻鉀Q方式是一致的,故在此統(tǒng)一說(shuō)明。

  網(wǎng)絡(luò)爬蟲(chóng)出現(xiàn)亂碼的原因

  源網(wǎng)頁(yè)編碼和爬取下來(lái)后的編碼格式不一致。

  如源網(wǎng)頁(yè)為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必 然會(huì)引起亂碼 即當(dāng)源網(wǎng)頁(yè)編碼和抓取下來(lái)后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼; 此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。

python課程免費(fèi)試聽(tīng)預(yù)約

  • 地區(qū):
  • 姓名:
  • 手機(jī):

  注意區(qū)分

  源網(wǎng)編碼A、程序直接使用的編碼B、統(tǒng)一轉(zhuǎn)換字符的編碼C。

  亂碼的解決方法

  確定源網(wǎng)頁(yè)的編碼A,編碼A往往在網(wǎng)頁(yè)中的三個(gè)位置

  1.http header的Content-Type

  獲取服務(wù)器 header 的站點(diǎn)可以通過(guò)它來(lái)告知瀏覽器一些頁(yè)面內(nèi)容的相關(guān)信息。 Content-Type 這一條目的寫(xiě)法就是 "text/html; charset=utf-8"。

  2.meta charset

  3.網(wǎng)頁(yè)頭中Document定義

  如今python編程語(yǔ)言市場(chǎng)需求大,薪資待遇上萬(wàn)盡在咫尺!如果你也想學(xué)習(xí)python技術(shù)可以填寫(xiě)下面表單,Python學(xué)習(xí)資料限時(shí)免費(fèi)領(lǐng)。

責(zé)編:fushihao
  • 會(huì)計(jì)考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語(yǔ)考試
  • 學(xué)歷考試
江北区| 保康县| 邵武市| 揭阳市| 观塘区| 闽侯县| 潜山县| 湛江市| 黄梅县| 宁乡县| 长沙县| 凤山县| 江达县| 文山县| 南澳县| 万年县| 宁武县| 抚顺县| 宾川县| 荔浦县| 子长县| 大丰市| 大新县| 台南市| 凭祥市| 红河县| 兴和县| 大丰市| 玉林市| 四川省| 绵竹市| 冷水江市| 正定县| 安溪县| 义乌市| 霍州市| 马龙县| 寻乌县| 华阴市| 泗洪县| 历史|