OCR概况

分类：人工智能&大数据 2018-12-24 22:45:33 颜色：橙色　默认　　字号：大中小阅读(1327) | 评论(0)

什么是OCR？

OCR英文全称是Optical Character Recognition，中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一，而且这个课题已经是比较成熟了，并且在商业中已经有很多落地项目了。比如汉王OCR，百度OCR，阿里OCR等等，很多企业都有能力都是拿OCR技术开始挣钱了。其实我们自己也能感受到，OCR技术确实也在改变着我们的生活：比如一个手机APP就能帮忙扫描名片、身份证，并识别出里面的信息；汽车进入停车场、收费站都不需要人工登记了，都是用车牌识别技术；我们看书时看到不懂的题，拿个手机一扫，APP就能在网上帮你找到这题的答案。

OCR流程

假如输入系统的图像是一页文本，那么识别时的第一件事情是判断页面上的文本朝向，因为我们得到的这页文档往往都不是很完美的，很可能带有倾斜或者污渍，那么我们要做的第一件事就是进行图像预处理，做角度矫正和去噪。然后我们要对文档版面进行分析，进每一行进行行分割，把每一行的文字切割下来，最后再对每一行文本进行列分割，切割出每个字符，将该字符送入训练好的OCR识别模型进行字符识别，得到结果。但是模型识别结果往往是不太准确的，我们需要对其进行识别结果的矫正和优化，比如我们可以设计一个语法检测器，去检测字符的组合逻辑是否合理。比如，考虑单词Because，我们设计的识别模型把它识别为8ecause，那么我们就可以用语法检测器去纠正这种拼写错误，并用B代替8并完成识别矫正。这样子，整个OCR流程就走完了。从大的模块总结而言，一套OCR流程可以分为：

    版面分析 -> 预处理-> 行列切割 -> 字符识别 -> 后处理识别矫正

从上面的流程图可以看出，要做字符识别并不是单纯一个OCR模块就能实现的（如果单纯的OCR模块，识别率相当低），都要各个模块的组合来保证较高的识别率。上面的流程分的比较粗，每个模块下还是有很多更细节的操作，每个操作都关系着最终识别结果的准确性。做过OCR的童鞋都知道，送入OCR模块的图像越清晰（即预处理做的越好），识别效果往往就越好。那现在对这流程中最为重要的字符识别技术做一个总结。

识别方法

现在我们只想单纯地想对字符进行识别，那方法会有哪些呢？我列了一下可以采取的策略：

使用谷歌开源OCR引擎Tesseract
使用大公司的OCR开放平台（比如百度），使用他们的字符识别API
传统方法做字符的特征提取，输入分类器，得出OCR模型
暴力的字符模板匹配法
大杀器：基于深度学习下的CNN字符识别

上面提到的OCR方法都有其有点和缺点，也正如此，他们也有各自特别适合的应用场景。

这些年深度学习的出现，让OCR技术焕发第二春。现在OCR基本都用卷积神经网络来做了，而且识别率也是惊人的好，人们也不再需要花大量时间去设计字符特征了。在OCR系统中，人工神经网络主要充当特征提取器和分类器的功能，输入是字符图像，输出是识别结果，一气呵成。这里就不再展开说明卷积神经网络了，想用深度学习做OCR并不是在每个方面都很优秀，因为神经网络的训练需要大量的训练数据，那么如果我们没有办法得到大量训练数据时，这种方法很可能就不奏效了。其次，神经网络的训练需要花费大量的时间，并且需要用到的硬件资源一般都比较多，这几个都是需要考虑的问题。

上一篇：使用Python验证码识别　　下一篇：人工智能机器学习深度学习

最新评论查看所有评论>>