https://blog.csdn.net/testcs_dn/article/details/78697836
Tesseract是一个 由HP实验室开发 由Google维护的 开源的光学字符识别(OCR)引擎,可以在 Apache 2.0 许可下获得。
它可以直接使用,或者(对于程序员)使用 API 从图像中提取输入,包括手写的或打印的文本。
与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强; 如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。 源码地址为:https://github.com/tesseract-ocr/tesseract;
你可以训练它大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。
具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练 它是跨平台的,支持:
Linux
macOS
WindowsTesseract-OCR4.0 版本在 Win7 上的安装过程
Tesseract-OCR4.0版本在VS2015上的编译与运行 它支持很多种的语言,包括:Lang Code Language 4.0 traineddata
afr Afrikaans
amh Amharic
ara Arabic
asm Assamese
aze Azerbaijani
aze_cyrl Azerbaijani - Cyrillic
bel Belarusian
ben Bengali
bod Tibetan
bos Bosnian
bul Bulgarian
cat Catalan; Valencian
ceb Cebuano
ces Czech
chi_sim Chinese - Simplified
chi_tra Chinese - Traditional
chr Cherokee
cym Welsh
dan Danish
deu German
dzo Dzongkha
ell Greek, Modern (1453-)
eng English
enm English, Middle (1100-1500)
epo Esperanto
est Estonian
eus Basque
fas Persian
fin Finnish
fra French
frk Frankish
frm French, Middle (ca. 1400-1600)
gle Irish
glg Galician
grc Greek, Ancient (-1453)
guj Gujarati
hat Haitian; Haitian Creole
heb Hebrew
hin Hindi
hrv Croatian
hun Hungarian
iku Inuktitut
ind Indonesian
isl Icelandic
ita Italian
ita_old Italian - Old
jav Javanese
jpn Japanese
kan Kannada
kat Georgian
kat_old Georgian - Old
kaz Kazakh
khm Central Khmer
kir Kirghiz; Kyrgyz
kor Korean
kur Kurdish
lao Lao
lat Latin
lav Latvian
lit Lithuanian
mal Malayalam
mar Marathi
mkd Macedonian
mlt Maltese
msa Malay
mya Burmese
nep Nepali
nld Dutch; Flemish
nor Norwegian
ori Oriya
pan Panjabi; Punjabi
pol Polish
por Portuguese
pus Pushto; Pashto
ron Romanian; Moldavian; Moldovan
rus Russian
san Sanskrit
sin Sinhala; Sinhalese
slk Slovak
slv Slovenian
spa Spanish; Castilian
spa_old Spanish; Castilian - Old
sqi Albanian
srp Serbian
srp_latn Serbian - Latin
swa Swahili
swe Swedish
syr Syriac
tam Tamil
tel Telugu
tgk Tajik
tgl Tagalog
tha Thai
tir Tigrinya
tur Turkish
uig Uighur; Uyghur
ukr Ukrainian
urd Urdu
uzb Uzbek
uzb_cyrl Uzbek - Cyrillic
vie Vietnamese
yid Yiddish 参考:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
|