日常办公学习中,我们经常会有这样的需求,如何快速地把一张打印的文档或图片中的信息作快速提取?比如我有一张打印好的课程表,但是我并没有它的原始电子文档,但是这时候我又想快速拥有这样一个电子文档,怎么办?别急,我们只需要搜索OCR(Optical Character Recognition,光学字符识别,就能很快找到相应的解决办法。OCR是指通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
这个过程听起来好像还挺简单,其实一点也不简单。要知道日常生活中我们经常会接触的很多不同的字符,比如汉字、中文、英文、图标、数学符号、工程标识等等,这还只是这个大集合中很小的一部分,而且很多字符的字形其实是有很大的相似之处的,比如“已、己、2”,还有比如数学公式里的各种上下标、各种积分微分符号等等,看起来差不多,其实大不同,还有就是字体的差异,一个汉字可能有几十种字体,怎么才能准确识别?
近日,阿里知产保护科技大脑中的一项OCR技术刷新世界纪录。OCR是学界业界必争之战,阿里、谷歌、微软、亚马逊等互联网公司也都研究多年,有OCR奥斯卡之称的ICDAR赛事,吸引全球近百国家数千队伍参加,终于在近期,阿里巴巴一举刷新ICDAR-RCTW17文字检测及端到端文字识别两项世界最好成绩,位列世界第一。
阿里OCR技术广泛应用于阿里经济体的技术,也在为解决复杂社会问题持续迭代升级,三年前,阿里OCR识别技术就已经能够每秒能扫描图片文字2000余万个,相当于501本《康熙字典》,识别准确率达97.6%。
“知产保护科技大脑”是一套阿里巴巴20年间积累的海量线上线下假货特征库、打假经验聚合而成的算法技术系统。目前阿里OCR就是这个大脑中的一项技术,这个“大脑”包含上亿个商品特征、百余个算法模型,效率相当于5万人同时工作。应用驱动,创新解决,相信未来阿里还将给我们带来更多这样的科技惊喜,你们觉得呢?