Tesseract是一个 由HP实验室开发 由Google维护的 开源的光学字符识别(OCR)引擎,可以在 Apache 2.0 许可下获得。
它可以直接使用,或者(对于程序员)使用 API 从图像中提取输入,包括手写的或打印的文本。
与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;
如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
源码地址为:https://github.com/tesseract-ocr/tesseract;
你可以训练它大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。
具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练
它是跨平台的,支持:
Linux
macOS
WindowsTesseract-OCR4.0 版本在 Win7 上的安装过程
Tesseract-OCR4.0版本在VS2015上的编译与运行
它支持很多种的语言,包括:Lang Code
Language
4.0 traineddata
afr
Afrikaans
amh
Amharic
ara
Arabic
asm
Assamese
aze
Azerbaijani
aze_cyrl
Azerbaijani - Cyrillic
bel
Belarusian
ben
Bengali
bod
Tibetan
bos
Bosnian
bul
Bulgarian
cat
Catalan; Valencian
ceb
Cebuano
ces
Czech
chi_sim
Chinese - Simplified
chi_tra
Chinese - Traditional
chr
Cherokee
cym
Welsh
dan
Danish
deu
German
dzo
Dzongkha
ell
Greek, Modern (1453-)
eng
English
enm
English, Middle (1100-1500)
epo
Esperanto
est
Estonian
eus
Basque
fas
Persian
fin
Finnish
fra
French
frk
Frankish
frm
French, Middle (ca. 1400-1600)
gle
Irish
glg
Galician
grc
Greek, Ancient (-1453)
guj
Gujarati
hat
Haitian; Haitian Creole
heb
Hebrew
hin
Hindi
hrv
Croatian
hun
Hungarian
iku
Inuktitut
ind
Indonesian
isl
Icelandic
ita
Italian
ita_old
Italian - Old
jav
Javanese
jpn
Japanese
kan
Kannada
kat
Georgian
kat_old
Georgian - Old
kaz
Kazakh
khm
Central Khmer
kir
Kirghiz; Kyrgyz
kor
Korean
kur
Kurdish
lao
Lao
lat
Latin
lav
Latvian
lit
Lithuanian
mal
Malayalam
mar
Marathi
mkd
Macedonian
mlt
Maltese
msa
Malay
mya
Burmese
nep
Nepali
nld
Dutch; Flemish
nor
Norwegian
ori
Oriya
pan
Panjabi; Punjabi
pol
Polish
por
Portuguese
pus
Pushto; Pashto
ron
Romanian; Moldavian; Moldovan
rus
Russian
san
Sanskrit
sin
Sinhala; Sinhalese
slk
Slovak
slv
Slovenian
spa
Spanish; Castilian
spa_old
Spanish; Castilian - Old
sqi
Albanian
srp
Serbian
srp_latn
Serbian - Latin
swa
Swahili
swe
Swedish
syr
Syriac
tam
Tamil
tel
Telugu
tgk
Tajik
tgl
Tagalog
tha
Thai
tir
Tigrinya
tur
Turkish
uig
Uighur; Uyghur
ukr
Ukrainian
urd
Urdu
uzb
Uzbek
uzb_cyrl
Uzbek - Cyrillic
vie
Vietnamese
yid
Yiddish
参考:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files