黑马程序员技术交流社区

标题: 【上海校区】光学字符识别引擎 tesseract-ocr 简介 [打印本页]

作者: 不二晨 时间: 2018-9-9 11:07
标题: 【上海校区】光学字符识别引擎 tesseract-ocr 简介
https://blog.csdn.net/testcs_dn/article/details/78697836
Tesseract是一个由HP实验室开发由Google维护的开源的光学字符识别（OCR）引擎，可以在 Apache 2.0 许可下获得。
它可以直接使用，或者（对于程序员）使用 API 从图像中提取输入，包括手写的或打印的文本。

与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；

如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

源码地址为：https://github.com/tesseract-ocr/tesseract；

你可以训练它

大体流程为：安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放入tessdata 中。

具体细节参考：光学字符识别引擎 tesseract-ocr 样体训练

它是跨平台的，支持：
Linux
macOS
Windows

Tesseract-OCR4.0 版本在 Win7 上的安装过程

Tesseract-OCR4.0版本在VS2015上的编译与运行

它支持很多种的语言，包括：

Lang Code

Language

4.0 traineddata

afr

Afrikaans

afr.traineddata

amh

Amharic

amh.traineddata

ara

Arabic

ara.traineddata

asm

Assamese

asm.traineddata

aze

Azerbaijani

aze.traineddata

aze_cyrl

Azerbaijani - Cyrillic

aze_cyrl.traineddata

bel

Belarusian

bel.traineddata

ben

Bengali

ben.traineddata

bod

Tibetan

bod.traineddata

bos

Bosnian

bos.traineddata

bul

Bulgarian

bul.traineddata

cat

Catalan; Valencian

cat.traineddata

ceb

Cebuano

ceb.traineddata

ces

Czech

ces.traineddata

chi_sim

Chinese - Simplified

chi_sim.traineddata

chi_tra

Chinese - Traditional

chi_tra.traineddata

chr

Cherokee

chr.traineddata

cym

Welsh

cym.traineddata

dan

Danish

dan.traineddata

deu

German

deu.traineddata

dzo

Dzongkha

dzo.traineddata

ell

Greek, Modern (1453-)

ell.traineddata

eng

English

eng.traineddata

enm

English, Middle (1100-1500)

enm.traineddata

epo

Esperanto

epo.traineddata

est

Estonian

est.traineddata

eus

Basque

eus.traineddata

fas

Persian

fas.traineddata

fin

Finnish

fin.traineddata

fra

French

fra.traineddata

frk

Frankish

frk.traineddata

frm

French, Middle (ca. 1400-1600)

frm.traineddata

gle

Irish

gle.traineddata

glg

Galician

glg.traineddata

grc

Greek, Ancient (-1453)

grc.traineddata

guj

Gujarati

guj.traineddata

hat

Haitian; Haitian Creole

hat.traineddata

heb

Hebrew

heb.traineddata

hin

Hindi

hin.traineddata

hrv

Croatian

hrv.traineddata

hun

Hungarian

hun.traineddata

iku

Inuktitut

iku.traineddata

ind

Indonesian

ind.traineddata

isl

Icelandic

isl.traineddata

ita

Italian

ita.traineddata

ita_old

Italian - Old

ita_old.traineddata

jav

Javanese

jav.traineddata

jpn

Japanese

jpn.traineddata

kan

Kannada

kan.traineddata

kat

Georgian

kat.traineddata

kat_old

Georgian - Old

kat_old.traineddata

kaz

Kazakh

kaz.traineddata

khm

Central Khmer

khm.traineddata

kir

Kirghiz; Kyrgyz

kir.traineddata

kor

Korean

kor.traineddata

kur

Kurdish

kur.traineddata

lao

Lao

lao.traineddata

lat

Latin

lat.traineddata

lav

Latvian

lav.traineddata

lit

Lithuanian

lit.traineddata

mal

Malayalam

mal.traineddata

mar

Marathi

mar.traineddata

mkd

Macedonian

mkd.traineddata

mlt

Maltese

mlt.traineddata

msa

Malay

msa.traineddata

mya

Burmese

mya.traineddata

nep

Nepali

nep.traineddata

nld

Dutch; Flemish

nld.traineddata

nor

Norwegian

nor.traineddata

ori

Oriya

ori.traineddata

pan

Panjabi; Punjabi

pan.traineddata

pol

Polish

pol.traineddata

por

Portuguese

por.traineddata

pus

Pushto; Pashto

pus.traineddata

ron

Romanian; Moldavian; Moldovan

ron.traineddata

rus

Russian

rus.traineddata

san

Sanskrit

san.traineddata

sin

Sinhala; Sinhalese

sin.traineddata

slk

Slovak

slk.traineddata

slv

Slovenian

slv.traineddata

spa

Spanish; Castilian

spa.traineddata

spa_old

Spanish; Castilian - Old

spa_old.traineddata

sqi

Albanian

sqi.traineddata

srp

Serbian

srp.traineddata

srp_latn

Serbian - Latin

srp_latn.traineddata

swa

Swahili

swa.traineddata

swe

Swedish

swe.traineddata

syr

Syriac

syr.traineddata

tam

Tamil

tam.traineddata

tel

Telugu

tel.traineddata

tgk

Tajik

tgk.traineddata

tgl

Tagalog

tgl.traineddata

tha

Thai

tha.traineddata

tir

Tigrinya

tir.traineddata

tur

Turkish

tur.traineddata

uig

Uighur; Uyghur

uig.traineddata

ukr

Ukrainian

ukr.traineddata

urd

Urdu

urd.traineddata

uzb

Uzbek

uzb.traineddata

uzb_cyrl

Uzbek - Cyrillic

uzb_cyrl.traineddata

vie

Vietnamese

vie.traineddata

yid

Yiddish

yid.traineddata

参考：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

作者: 不二晨 时间: 2018-9-13 16:24

很不错，受教了

作者: 魔都黑马少年梦 时间: 2018-11-1 16:46

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2