首页 » 资源分享 » Linux » 正文

Linux下安装tesseract-ocr



1、安装相应lib
# yum install libpng12-dev
# yum install libjpeg62-dev
# yum install libtiff5-dev
# yum install libtool
# yum install gcc
# yum install g++
# yum install automake

2、下载和安装leptonica
# wget http://www.leptonica.org/source/leptonica-1.71.tar.gz
解压
# tar -zxvf leptonica-1.71.tar.gz
解压后进入leptonica-1.71目录
# cd leptonica-1.71
编译安装
# ./configure
# make
# make install
leptonica即安装编译成功。

3、下载和安装tesseract
解压
# tar -zxvf tesseract-3.04.00.tar.gz
进入目录
# cd cd tesseract-3.04.00
编译安装
# ./autogen.sh
# ./configure
# make
# make install
# ldconfig
tesseract即安装编译成功。

4、安装中英文语言包
下载chi_sim.traineddata、eng.traineddata、eng.traineddata.part三个文件,并把它们放到tessdata文件夹中。
# cp chi_sim.traineddata /usr/local/share/tessdata
# cp eng.traineddata /usr/local/share/tessdata
# cp eng.traineddata.part /usr/local/share/tessdata
到现在基本的安装编译工作已经完成。

5、测试
# cd tesseract-3.04.00
# cd testing
发现一个名为phototest.tif的文件,这个文件其实就是一张图片,这个图片中有几句英文语句,我们的测试就是基于这张图片,也就是识别出这张图片中的英文语句。
于是在testing目录下输入下面指令:
# cd testing
# tesseract phototest.tif result -l eng
再查看testing目录下的文件,发现多了一个result.txt,这个result.txt就是我们对刚刚的phototest.tif文件的识别结果,打看查看。

跟刚刚图片中的内容完全一致,可以说识别率是很高的。到此我们的tesseract-ocr技术就已经可以使用了,由于我们导入了中文语言包chi_sim.traineddata,因此它还可以用来提取图片中的汉字,就这么简单就可以使用OCR技术来为你的程序服务了。