Java使用Tess4J实现图像文字识别(java实现图像识别功能)

createh52个月前 (01-26)技术教程23

OCR技术

OCR(Optical Character Recognition),光学字符识别的意思,也被称作文字识别。简单讲就是对图片文件中的文字进行识别和提取的过程。现实生活中使用的场景也非常多,比如文件扫描、车牌号识别、图片内容识别等。图像识别也是人工智能的一个重要领域。

Tess4J

Tesseract是一个开源的OCR引擎,Tess4J则是对Tesseract OCR API的Java JNA封装,使java能够通过调用Tess4J的API来使用Tesseract OCR。Tesseract OCR是支持Tess4J进文件文字识别的基础,Tess4J支持TIFF、JPEG、GIF、PNG、BMP、PDF等格式。Tess4J可直接使用Maven方式引入。

快速体验

环境信息
操作系统:Ubuntu 18.04.6 LTS
JDK:openjdk version "1.8.0_352"
Maven:Apache Maven 3.6.0

1、安装Tesseract
按照官方文档安装Tesseract,Ubuntu系统可以直接通过apt来安装。

sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

2、新建maven工程,引入tess4j依赖。

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>5.4.0</version>
</dependency>

3、下载tess4j语言库,下载好后将tessdata文件夹拷贝到maven工程项目代码里,与src目录同级。

4、java调用tess4j实现图像识别,代码如下:

package org.cj.tess4j;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;

public class Demo {
    public static void main(String[] args) throws TesseractException {
        ITesseract instance = new Tesseract();
        //指定语言训练模型数据的目录
        instance.setDatapath("tessdata");
        //指定语言种类, 中文是chi_sim
        instance.setLanguage("chi_sim");
        File imageFile = new File("images/tess4j/4ocr-1.png");
        long startTime = System.currentTimeMillis();
        String result = instance.doOCR(imageFile);
        System.out.println("识别结果:\n" + result + "\r\n耗时:\n" + (System.currentTimeMillis() - startTime) + "ms");
    }
}

5、运行预览
图片内容

识别结果

注意问题

1、运行的时候提示Unable to load library 'tesseract'
提示这个是因为没有安装tesseract,ubuntu环境执行sudo apt install tesseract-ocr安装。

2、运行的时候提示read_params_file: parameter not found: enable_new_segsearch
这里下载的训练数据包是有问题的,在这重新下载tessdata训练数据包。

使用总结

1、Tesseract最大优势就是开箱即用,且拥有大量的语言训练数据。
2、识别的速度慢、耗时长。
3、识别的精度不是很高,甚至有时候会很低,此时就需要自己按需去训练数据包了。
4、依赖语言训练包,官方提供了三种训练数据包,分别是tessdata_fast、tessdata_best、tessdata,这三个训练数据包的差异如下,具体可到官网查阅,推荐使用tessdata_best数据包。

相关文章

JAVA快速入门——输入和输出(java输入输出是什么)

输出如果你看过快速入门第一篇,就会注意到下面的代码,向屏幕输出 Hello WorldSystem.out.println("Hello World")println是print line的缩写,输出...

java安全编码指南之:字符串和编码

简介字符串是我们日常编码过程中使用到最多的java类型了。全球各个地区的语言不同,即使使用了Unicode也会因为编码格式的不同采用不同的编码方式,如UTF-8,UTF-16,UTF-32等。我们在使...

Java数据类型中,字符型char变量能存一个中文汉字吗,为什么?

char可以存储一个中文汉字,因为Java中使用的编码是Unicode,一个char类型占2个字节(即16比特),所以放一个中文是没问题的。 Unicode编码意味着字符在JVM内部和外部有不同的表现...

一个字符串中到底能有多少个字符?我竟然算错了

依照Java的文档, Java中的字符内部是以UTF-16编码方式表示的,最小值是 \u0000 (0),最大值是\uffff(65535), 也就是一个字符以2个字节来表示,难道Java最多只能表示...

Java语言常用知识点之字符编码部分

(1)UnicodeUnicode是为整合全世界的所有语言文字而诞生的。任何字符在Unicode中都对应一个值。这个值就可以称为这个字符的Unicode值。(2)UCS-2和UCS-4Unicode是...

java自学笔记 Char单字符类型(java如何定义char字符数组)

Char类型Java中的`char` 类型是一种基本数据类型,用于表示字符。它是一个16位的无符号Unicode字符,其范围是从 `'\u0000'` 到 `'\uffff'`。Unicode是一种国...