CentOS7系统如何从源码编译安装Tesseract3.05并解决依赖？

在CentOS操作系统上部署和配置Tesseract 3.05版本，是一项需要细致操作的任务，尤其当目标环境有特定的兼容性要求时，Tesseract作为由Google维护的开源光学字符识别（OCR）引擎，其3.05版本虽然在功能上不如最新版本丰富，但在许多遗留系统或特定应用场景中仍扮演着重要角色，本文将详细阐述在CentOS环境下，从源代码编译安装Tesseract 3.05的完整流程，包括依赖环境的准备、核心库的编译、环境配置以及最终的验证测试。

准备工作：构建基础环境

在开始编译之前，确保你的CentOS系统已经安装了编译软件所必需的开发工具和库，对于Tesseract 3.05，一个纯净的CentOS 7或CentOS 6系统是较为理想的测试环境，我们需要安装开发工具集，如gcc、make等,以及其他基础依赖库。

打开终端，以root用户或使用sudo权限执行以下命令来安装这些基础组件：

sudo yum groupinstall -y "Development Tools"
sudo yum install -y autoconf automake libtool zlib-devel libpng-devel libjpeg-devel libtiff-devel

这些包为编译过程提供了C/C++编译器、构建自动化工具以及处理各种图像格式（PNG, JPEG, TIFF）所需的库，需要注意的是，zlib是压缩库,对于处理某些格式的图像文件同样至关重要。

核心依赖：Leptonica的安装

Tesseract OCR引擎严重依赖一个名为Leptonica的图像处理库，Leptonica提供了丰富的图像操作功能，是Tesseract进行图像预处理和分析的基础，Tesseract 3.05对Leptonica的版本有特定要求，通常兼容1.71至1.77版本，通过yum直接安装的Leptonica版本可能过新或过旧，导致编译失败，因此推荐从源代码编译一个兼容的版本，例如1.74.4。

下载Leptonica源码：
访问Leptonica的官方发布页面或使用wget命令下载指定版本的源码包。
```
wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
```
解压并编译安装：
依次执行以下命令完成解压、配置、编译和安装。
```
tar -xvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4
./configure
make
sudo make install
```
安装完成后，更新系统的动态链接库缓存,确保系统能够找到新安装的Leptonica库：
```
sudo ldconfig
```

编译安装Tesseract 3.05

在核心依赖Leptonica就绪后，我们便可以开始编译Tesseract 3.05本身，为了避免与系统中可能存在的其他版本（如通过yum安装的旧版本）冲突，最佳实践是将其安装到一个自定义的目录中，例如/usr/local/tesseract-3.05。

获取Tesseract 3.05源码：
从官方的GitHub仓库或归档站点下载3.05.02版本的源代码。
```
wget https://github.com/tesseract-ocr/tesseract/archive/3.05.02.tar.gz
```
解压并编译安装：
解压源码包并进入目录，然后执行autogen.sh脚本来生成configure文件,这是从Git仓库直接获取源码时的标准步骤。
```
tar -xvf 3.05.02.tar.gz
cd tesseract-3.05.02
./autogen.sh
```
执行configure脚本，这里我们使用--prefix参数指定安装路径。
```
./configure --prefix=/usr/local/tesseract-3.05
make
sudo make install
```
同样,安装完成后不要忘记更新动态链接库缓存：
```
sudo ldconfig
```

环境配置与语言包安装

安装过程本身只是将文件放置到指定目录，要使其能够在命令行中方便地使用,还需要进行环境变量的配置。

配置环境变量：
编辑~/.bashrc文件（针对当前用户）或/etc/profile文件（针对所有用户）,添加以下内容：

export TESSERACT_PREFIX=/usr/local/tesseract-3.05
export PATH=$TESSERACT_PREFIX/bin:$PATH
export LD_LIBRARY_PATH=$TESSERACT_PREFIX/lib:$LD_LIBRARY_PATH
export PKG_CONFIG_PATH=$TESSERACT_PREFIX/lib/pkgconfig:$PKG_CONFIG_PATH

保存文件后，执行source ~/.bashrc或source /etc/profile使配置立即生效。

安装语言数据包：
Tesseract的识别能力依赖于.traineddata语言数据文件，默认情况下，它只包含英文基础数据，为了识别其他语言,需要下载对应的数据包。

创建Tesseract的数据目录：
```
sudo mkdir -p /usr/local/tesseract-3.05/share/tessdata
```
从官方的tessdata仓库下载所需的语言包，下载简体中文（chi_sim）和英文（eng）数据包：
```
cd /usr/local/tesseract-3.05/share/tessdata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/chi_sim.traineddata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata
```

验证安装与功能测试

所有配置完成后,可以通过以下命令验证Tesseract是否安装成功并能正常工作。

检查版本：
在终端中输入：
```
tesseract --version
```
如果输出显示tesseract 3.05.02,则表示安装和路径配置均正确。
执行OCR识别：
准备一张包含清晰文字的图片（例如test.png）,然后运行以下命令进行识别：
```
tesseract test.png output -l eng+chi_sim
```
这条命令的含义是：使用tesseract识别test.png图片，将结果输出到名为output.txt的文件中，并指定使用英文（eng）和简体中文（chi_sim）两种语言模型，执行完毕后，查看output.txt,即可看到识别出的文字。

相关问答FAQs

问题1：我运行了 ./configure 脚本，但是系统报告找不到 Leptonica，我明明已经按照步骤安装了，这是为什么？

解答： 这是一个在从源码编译时非常常见的问题，即使你执行了 make install，configure 脚本在寻找依赖库时，可能无法在默认路径下找到 Leptonica 的 pkg-config 文件（.pc 文件），这个文件通常位于 /usr/local/lib/pkgconfig/ 目录下，解决方法是在执行 ./configure 之前，手动设置 PKG_CONFIG_PATH 环境变量，将 Leptonica 的 pkg-config 路径包含进去,你可以这样操作：

export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH
./configure --prefix=/usr/local/tesseract-3.05

通过设置这个变量，configure 脚本就能找到正确的库信息,从而顺利通过检查。

问题2：Tesseract 3.05 安装成功了，但是在识别中文时效果很差，或者直接报错，我应该如何排查？

解答： 这个问题通常由两个原因导致，第一，也是最常见的原因，是缺少或放错了中文语言训练数据文件（chi_sim.traineddata），请确保你已经将此文件下载到了正确的 tessdata 目录，即你通过 --prefix 指定的安装路径下的 share/tessdata 目录（/usr/local/tesseract-3.05/share/tessdata），你可以使用 tesseract --list-langs 命令来列出现有的语言包，检查其中是否包含 chi_sim。

第二，如果语言包正确但识别效果依然不佳，问题可能出在待识别的图片质量上，Tesseract 3.05 对图像质量的要求相对较高，为了获得最佳识别率,请确保输入的图片满足以下条件：

高分辨率：建议DPI在300以上。
清晰度高：文字边缘锐利,无模糊。
对比度强：文字与背景颜色分明,最好是白底黑字。
版面整洁：尽量减少倾斜、阴影和复杂背景的干扰。
如果图片质量较差，建议先使用图像处理软件（如GIMP, ImageMagick）或编程方式进行预处理，如二值化、降噪、倾斜校正等,然后再交给Tesseract进行识别。

CentOS7系统如何从源码编译安装Tesseract3.05并解决依赖？

准备工作：构建基础环境

核心依赖：Leptonica的安装

编译安装Tesseract 3.05

环境配置与语言包安装

验证安装与功能测试

相关问答FAQs

发表回复

广告合作

QQ：14239236

CentOS7系统如何从源码编译安装Tesseract3.05并解决依赖？

准备工作：构建基础环境

核心依赖：Leptonica的安装

编译安装Tesseract 3.05

环境配置与语言包安装

验证安装与功能测试

相关问答FAQs

相关推荐

CentOS系统如何安装安卓字体？解决显示异常问题

CentOS su切换失败怎么办？密码正确却无法切换的原因是什么？

如何有效实施服务器性能监控以确保系统稳定性？

CentOS运行Tomcat后自动退出，如何排查并解决退出问题？

发表回复

广告合作

QQ：14239236