Tesseract-OCR样本训练
个人博客
下载Tesseract
1 | https://github.com/UB-Mannheim/tesseract/wiki |
下载jTessBoxEditor
1 | https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-2.3.1.zip/download |
安装Tesseract
一路Next,在选择组件界面,全选所有组件
安装jTessBoxEditor
解压后,直接运行jTessBoxEditor.jar
制作训练样本
运行jTessBoxEditor工具,点击Tools-Merge TIFF,选择需要合并的tif文件,保存文件名称格式:[lang].[fontname].exp[num],如zh.song.exp0
生成Box文件
进入Tesseract安装目录
1 | tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox |
[lang].[fontname].exp[num].tif 即为上面生成的合并文件
[lang].[fontname].exp[num]为新生成的box文件,文件名为输入文件名称一致
校正box文件
将上面两步生成的.tif和.box文件放在同一目录下,jTessBoxEditor软件中选择Box Editor,open,选择之前的tif文件,打开后可以校正结果后保存。
创建 font_properties 文件
文件内容:
1 | <fontname> <italic> <bold> <fixed> <serif> <fraktur> |
如
1 | song 0 0 0 0 0 |
生成字符特征文件
新建bat文件
1 | rem 产生字符特征文件 |
执行bat文件,即可生成zh.traineddata。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 milovetingting!