华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

Python3爬蟲里tesserocr該如何去安裝?

來源:中華考試網(wǎng)  [2020年12月4日]  【

  在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數(shù)驗證碼還是圖形驗證碼,這時候我們可以直接用OCR來識別。

  1. OCR

  OCR,即Optical Character Recognition,光學(xué)字符識別,是指通過掃描字符,然后通過其形狀將其翻譯成電子文本的過程。對于圖形驗證碼來說,它們都是一些不規(guī)則的字符,這些字符確實是由字符稍加扭曲變換得到的內(nèi)容。

  例如,對于如圖1-22和圖1-23所示的驗證碼,我們可以使用OCR技術(shù)來將其轉(zhuǎn)化為電子文本,然后爬蟲將識別結(jié)果提交給服務(wù)器,便可以達(dá)到自動識別驗證碼的過程。

7d83a3085839a2fb6e0b74edb733ba9.png

  圖1-22 驗證碼

08666d5681656b088e3f7fdc7e2e92f.png

  圖1-23 驗證碼

  tesserocr是Python的一個OCR識別庫,但其實是對tesseract做的一層Python API封裝,所以它的核 心是tesseract。因此,在安裝tesserocr之前,我們需要先安裝tesseract。

python課程免費(fèi)試聽預(yù)約

  • 地區(qū):
  • 姓名:
  • 手機(jī):

  2. 相關(guān)鏈接

  tesserocr GitHub:https://github.com/sirfz/tesserocr

  tesserocr PyPI:https://pypi.python.org/pypi/tesserocr

  tesseract下載地址:http://digi.bib.uni-mannheim.de/tesseract

  tesseract GitHub:https://github.com/tesseract-ocr/tesseract

  tesseract語言包:https://github.com/tesseract-ocr/tessdata

  tesseract文檔:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

  3. Windows下的安裝

  在Windows下,首先需要下載tesseract,它為tesserocr提供了支持。

  進(jìn)入下載頁面,可以看到有各種.exe文件的下載列表,這里可以選擇下載3.0版本。圖1-24所示為3.05版本。

f8a7beb0e2967e47b27059cd48acf4b.png

  圖1-24 下載頁面

  其中文件名中帶有dev的為開發(fā)版本,不帶dev的為穩(wěn)定版本,可以選擇下載不帶dev的版本,例如可以選擇下載tesseract-ocr-setup-3.05.01.exe。

  下載完成后雙擊,此時會出現(xiàn)如圖1-25所示的頁面。

1729442b89bb666591f98353dfd96ed.png

  圖1-25 安裝頁面

  此時可以勾選Additional language data(download)選項來安裝OCR識別支持的語言包,這樣OCR便可以識別多國語言。然后一路點(diǎn)擊Next按鈕即可。

  如今python編程語言市場需求大,薪資待遇上萬盡在咫尺!如果你也想學(xué)習(xí)python技術(shù)可以填寫下面表單,Python學(xué)習(xí)資料限時免費(fèi)領(lǐng)。

責(zé)編:fushihao

上一篇:python寫爬蟲出現(xiàn)亂碼怎么回事?

下一篇: 沒有了

  • 會計考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學(xué)歷考試
二连浩特市| 百色市| 大田县| 开化县| 克拉玛依市| 湖口县| 木里| 汤原县| 泌阳县| 青神县| 宜川县| 右玉县| 方山县| 高平市| 南通市| 鄂尔多斯市| 家居| 乐清市| 阜宁县| 肃北| 朝阳市| 孟连| 裕民县| 垦利县| 兴化市| 贵德县| 海丰县| 泾川县| 德格县| 乳山市| 屏东县| 德庆县| 西充县| 乐东| 丹东市| 资阳市| 体育| 北京市| 徐闻县| 瓦房店市| 金塔县|