光学字符识别(OCR)是指创建计算机可以读取的打印,打印或手写文档的数字版本而无需手动输入或输入文本的软件。

ocr-software.png

OCR通常用于PDF格式的扫描文档,但也可以在图像文件中创建计算机可读的文本版本。

什么是OCR?

OCR,也称为文本识别,是一种软件技术,它将数字,字母和标点符号(也称为字形)等字符从打印或书写文档转换为电子形式,更容易被计算机和其他软件程序识别和读取。一些OCR程序在使用数码相机扫描或拍摄文档时执行此操作,而其他人可以将此过程应用于先前已经扫描过或没有OCR拍摄的文档。 OCR允许用户在PDF文档中搜索,编辑文本和重新格式化文档。

什么是OCR用于?

为了快速,每天扫描需求,OCR可能不是什么大问题。如果您进行大量扫描,能够在PDF中搜索以找到您需要的确切扫描,可以节省相当多的时间,并使扫描仪程序中的OCR功能更加重要。以下是OCR帮助的其他一些事情:

自动数据处理和数据输入(例如:简历的求职者跟踪系统)
使扫描的书籍可搜索
将手写扫描转换为计算机可读文本
使读者程序更有效地使文档更有用,从而帮助视力不佳的用户
保存历史文件和报纸,同时使其可供搜索
数据提取和转移到会计程序(例如:收据和发票)
索引文档以供搜索引擎使用
通过速度摄像头和红灯摄像头软件识别驾驶员牌照
适合不会说话的人的语音合成器 - 理论物理学家斯蒂芬霍金可能是语音合成器程序中最知名的用户

为什么要使用OCR?

为什么不拍照,对吧?因为您无法编辑任何内容或搜索文本,因为它只是一个图像。扫描文档并运行OCR软件可以将该文件转换为可以编辑并能够搜索的文件。

OCR的历史

尽管最早使用文本识别的时间可追溯到1914年,但OCR相关技术的广泛开发和使用始于20世纪50年代,特别是创建了更易于转换为数字可读文本的非常简化的字体。这些简化字体中的第一个是由David Shepard创建的,通常称为OCR-7B。 OCR-7B目前仍在金融行业中用于信用卡和借记卡上使用的标准字体。在20世纪60年代,几个国家的邮政服务开始使用OCR技术大大加快邮件分拣,包括美国,英国,加拿大和德国。 OCR仍然是用于为全球邮政服务分类邮件的核心技术。 2000年,使用OCR技术的限制和能力的关键知识来开发用于阻止机器人和垃圾邮件发送者的CAPTCHA程序。

几十年来,由于人工智能,机器学习和计算机视觉等相关技术领域的进步,OCR已经变得更加准确和复杂。如今,OCR软件使用模式识别,特征检测和文本挖掘来比以往更快,更准确地转换文档。

via:https://cn.go-travels.com/74733-optical-character-recognition-4158322-8335115

👍

本文由 CulmartPlay 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以共同推动STEM公益教育!

楼主残忍的关闭了评论