华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python教程 >> 文章內(nèi)容

python中怎么處理字符編碼問題

來源:中華考試網(wǎng)  [2020年10月4日]  【

  Python中可以使用base64來處理字符編碼問題,Base64是一種用64個字符來表示任意二進(jìn)制數(shù)據(jù)的方法。

  用記事本打開exe、jpg、pdf這些文件時,我們都會看到一大堆亂碼,因為二進(jìn)制文件包含很多無法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進(jìn)制數(shù)據(jù),就需要一個二進(jìn)制到字符串的轉(zhuǎn)換方法。Base64是一種最常見的二進(jìn)制編碼方法。

  Base64的原理很簡單,首先,準(zhǔn)備一個包含64個字符的數(shù)組:

  ['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']

  然后,對二進(jìn)制數(shù)據(jù)進(jìn)行處理,每3個字節(jié)一組,一共是3x8=24bit,劃為4組,每組正好6個bit

  這樣我們得到4個數(shù)字作為索引,然后查表,獲得相應(yīng)的4個字符,就是編碼后的字符串。

python學(xué)習(xí)課程預(yù)約提醒

  • 地區(qū):
  • 姓名:
  • 手機(jī):

  所以,Base64編碼會把3字節(jié)的二進(jìn)制數(shù)據(jù)編碼為4字節(jié)的文本數(shù)據(jù),長度增加33%,好處是編碼后的文本數(shù)據(jù)可以在郵件正文、網(wǎng)頁等直接顯示。

  如果要編碼的二進(jìn)制數(shù)據(jù)不是3的倍數(shù),最后會剩下1個或2個字節(jié)怎么辦?Base64用\x00字節(jié)在末尾補(bǔ)足后,再在編碼的末尾加上1個或2個=號,表示補(bǔ)了多少字節(jié),解碼的時候,會自動去掉。

  Python內(nèi)置的base64可以直接進(jìn)行base64的編解碼:

  >>> import base64

  >>> base64.b64encode('binary\x00string')

  'YmluYXJ5AHN0cmluZw=='

  >>> base64.b64decode('YmluYXJ5AHN0cmluZw==')

  'binary\x00string'

  由于標(biāo)準(zhǔn)的Base64編碼后可能出現(xiàn)字符+和/,在URL中就不能直接作為參數(shù),所以又有一種"url safe"的base64編碼,其實就是把字符+和/分別變成-和_:

  >>> base64.b64encode('i\xb7\x1d\xfb\xef\xff')

  'abcd++//'

  >>> base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff')

  'abcd--__'

  >>> base64.urlsafe_b64decode('abcd--__')

  'i\xb7\x1d\xfb\xef\xff'

  還可以自己定義64個字符的排列順序,這樣就可以自定義Base64編碼,不過,通常情況下完全沒有必要。

  Base64是一種通過查表的編碼方法,不能用于加密,即使使用自定義的編碼表也不行。

  Base64適用于小段內(nèi)容的編碼,比如數(shù)字證書簽名、Cookie的內(nèi)容等。

  由于=字符也可能出現(xiàn)在Base64編碼中,但=用在URL、Cookie里面會造成歧義,所以,很多Base64編碼后會把=去掉:

  # 標(biāo)準(zhǔn)Base64:

  'abcd' -> 'YWJjZA=='

  # 自動去掉=:

  'abcd' -> 'YWJjZA'

  去掉=后怎么解碼呢?因為Base64是把3個字節(jié)變?yōu)?個字節(jié),所以,Base64編碼的長度永遠(yuǎn)是4的倍數(shù),因此,需要加上=把Base64字符串的長度變?yōu)?的倍數(shù),就可以正常解碼了。

  請寫一個能處理去掉=的base64解碼函數(shù):

  >>> base64.b64decode('YWJjZA==')

  'abcd'

  >>> base64.b64decode('YWJjZA')

  Traceback (most recent call last):

  ...

  TypeError: Incorrect padding

  >>> safe_b64decode('YWJjZA')

  'abcd'

責(zé)編:hym
  • 會計考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學(xué)歷考試
富平县| 松原市| 竹北市| 旌德县| 黄浦区| 定陶县| 铜鼓县| 乐亭县| 称多县| 垫江县| 兖州市| 扶余县| 酉阳| 湛江市| 宝清县| 会东县| 平乡县| 临沂市| 乐都县| 平和县| 寿光市| 六枝特区| 同仁县| 二连浩特市| 万宁市| 兴宁市| 巩义市| 新宁县| 平山县| 涞水县| 玛曲县| 庆城县| 灌阳县| 措勤县| 永泰县| 临漳县| 永平县| 昌宁县| 兰州市| 绍兴市| 常德市|