建立图像识别模型
(一)将分割好的小方块图片合并成tiff文件
下载jTessBoxEditor,打开jTessBoxEditor.jar,使用tools下的merge tiff工具,将图片合并成tiff文件。
(二)使用已有模型对tiff文件进行初识别
下载并安装tesseract,并配置好环境变量,将Tesseract-OCR和tessdata的路径加入到环境变量下的path下面。Tesseract自带图像识别的模型,例如中文简体汉字识别模型chi_sim.traineddata,英文识别模型eng.traineddata,这些模型可以网上下载,放到tessdata里面即可使用。
然后进入tiff所在文件夹。在命令窗口,输入:tesseract ***.tif *** -l +++ -psm 7 batch.nochop makebox,按回车生成box文件。其中***为tif的文件名,+++为要生成的traindata的文件名。
(三)使用jTessBoxEditor对tiff和box文件进行调整
打开jTessBoxEditor.jar,在box editor中的open按钮,打开要编辑的tif文件。编辑之后保存,生成box文件。保存在同一个文件夹里。
优化图像识别模型
在使用中,如果有错误,可以存下来,加入训练库,优化图像识别模型。在一般是识别错误的图片,积攒一阵子后。累积做成tif文件。注意:同类错误选择几个记号了,训练库尽量小而精。