A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

https://blog.csdn.net/testcs_dn/article/details/78697836
Tesseract是一个 由HP实验室开发 由Google维护的 开源的光学字符识别(OCR)引擎,可以在 Apache 2.0 许可下获得。
它可以直接使用,或者(对于程序员)使用 API​​ 从图像中提取输入,包括手写的或打印的文本。

与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;

如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

源码地址为:https://github.com/tesseract-ocr/tesseract

你可以训练它

大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。

具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练

它是跨平台的,支持:
Linux
macOS
Windows

Tesseract-OCR4.0 版本在 Win7 上的安装过程

Tesseract-OCR4.0版本在VS2015上的编译与运行

它支持很多种的语言,包括:

Lang Code
Language
4.0 traineddata

afr
Afrikaans

amh
Amharic

ara
Arabic

asm
Assamese

aze
Azerbaijani

aze_cyrl
Azerbaijani - Cyrillic

bel
Belarusian

ben
Bengali

bod
Tibetan

bos
Bosnian

bul
Bulgarian

cat
Catalan; Valencian

ceb
Cebuano

ces
Czech

chi_sim
Chinese - Simplified

chi_tra
Chinese - Traditional

chr
Cherokee

cym
Welsh

dan
Danish

deu
German

dzo
Dzongkha

ell
Greek, Modern (1453-)

eng
English

enm
English, Middle (1100-1500)

epo
Esperanto

est
Estonian

eus
Basque

fas
Persian

fin
Finnish

fra
French

frk
Frankish

frm
French, Middle (ca. 1400-1600)

gle
Irish

glg
Galician

grc
Greek, Ancient (-1453)

guj
Gujarati

hat
Haitian; Haitian Creole

heb
Hebrew

hin
Hindi

hrv
Croatian

hun
Hungarian

iku
Inuktitut

ind
Indonesian

isl
Icelandic

ita
Italian

ita_old
Italian - Old

jav
Javanese

jpn
Japanese

kan
Kannada

kat
Georgian

kat_old
Georgian - Old

kaz
Kazakh

khm
Central Khmer

kir
Kirghiz; Kyrgyz

kor
Korean

kur
Kurdish

lao
Lao

lat
Latin

lav
Latvian

lit
Lithuanian

mal
Malayalam

mar
Marathi

mkd
Macedonian

mlt
Maltese

msa
Malay

mya
Burmese

nep
Nepali

nld
Dutch; Flemish

nor
Norwegian

ori
Oriya

pan
Panjabi; Punjabi

pol
Polish

por
Portuguese

pus
Pushto; Pashto

ron
Romanian; Moldavian; Moldovan

rus
Russian

san
Sanskrit

sin
Sinhala; Sinhalese

slk
Slovak

slv
Slovenian

spa
Spanish; Castilian

spa_old
Spanish; Castilian - Old

sqi
Albanian

srp
Serbian

srp_latn
Serbian - Latin

swa
Swahili

swe
Swedish

syr
Syriac

tam
Tamil

tel
Telugu

tgk
Tajik

tgl
Tagalog

tha
Thai

tir
Tigrinya

tur
Turkish

uig
Uighur; Uyghur

ukr
Ukrainian

urd
Urdu

uzb
Uzbek

uzb_cyrl
Uzbek - Cyrillic

vie
Vietnamese

yid
Yiddish
参考:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files


2 个回复

倒序浏览

很不错,受教了
回复 使用道具 举报
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马