欢迎来到汇川视觉!客服热线:025-8530 2759

搜索
搜索
这是描述信息

小样本字符识别,化苛求为奇迹

  • 分类:公司新闻
  • 作者:
  • 来源:
  • 发布时间:2021-07-16 08:15
  • 访问量:

【概要描述】机器视觉主要应用有识别, 缺陷检测,定位引导和测量。 在机器视觉的四大应用中,在识别中的光学字符识别(以下简称OCR),OCR是目前应用最为广泛且最具有复制性的应用。

小样本字符识别,化苛求为奇迹

【概要描述】机器视觉主要应用有识别, 缺陷检测,定位引导和测量。 在机器视觉的四大应用中,在识别中的光学字符识别(以下简称OCR),OCR是目前应用最为广泛且最具有复制性的应用。

  • 分类:公司新闻
  • 作者:
  • 来源:
  • 发布时间:2021-07-16 08:15
  • 访问量:
详情

作者:秋江帆影

前  言


机器视觉主要应用有识别, 缺陷检测,定位引导和测量。 在机器视觉的四大应用中,在识别中的光学字符识别(以下简称OCR),OCR是目前应用最为广泛且最具有复制性的应用。应用面有:食品医药行业,检测包装上的文字,即保质期和生产批号标识等,各类钢制零部件上的字符,汽车,3C行业中识别产品序列号等字符信息,这些信息对于生产企业产品品质、生产工序间的衔接效率,产品追溯等具有非常重要的作用。


汇川视觉开发了光学字符视觉识别解决方案。该解决方案将深度学习技术集成到传统机器视觉,并对深度学习算法进行改进,使用基于小样本模型的训练和神经网络来定位和识别字符,能快速结合实际场景进行现场训练,更高效的检测识别食药品行业的生产日期批号等信息。与传统机器视觉和通用的深度学习字符检测识别方案相比,该解决方案准确度更高, 不需要大量标注样本,鲁棒性高,可以很好的适用于食药品行业字符识别需求多样化的的特点,有效帮助企业降低成本与残次率,并推动企业对生产流程进行调整,降低缺陷产品流出生产线导致的负面影响。

挑战:如何满足复杂的环境与高识别率的苛刻需求

以食药品生成企业为例,在生产过程中,食药品质量关系到人的生命健康,药瓶包装上的生产日期和有效使用期限是否打印清晰,正确打印对于用户来说很关键。一旦缺陷包装的药品流通到市场后不仅对药厂带来信誉损失,后续的召回程序也会带来巨大的经济损失。同时也会对消费者造成无法弥补的损失,甚至导致医疗事故的发生。因此在生产包装中,对OCR的识别率要求较高,识别率需>99.9%。


但基于传统机器视觉算法的OCR技术的应用场景环境比较单一,字体要求规范,一旦面对背景较复杂或非标准化的字符,业内的综合识别率就仅有90%甚至更低。这样的识别率远远达不到食药品行业实际应用的需求,例如食药品行业的包装包含瓶装、盒装两大类,瓶装表面的字符会产生一定曲面变形,常有弯曲、褶皱、变形的情况出现,传统算法对曲面字体识别能力较差,会出现漏检、错检等问题。


基于深度学习的字符识别(OCR)技术成为食药品企业的热点,相较于传统的OCR技术,该技术可针对文本进行整行识别,实现了复杂场景下的字符识别,识别率最高可达99.95%以上。深度学习在这一颇具挑战的问题上有了突破成果,但想要获得高的准确率,往往依赖于大量的手动标准训练。而这恰恰在实际食药品应用场景中很难推广,食药品包装类别多样,打印字体的各不相同,若要对每一个的案例进行大量数据的获取和标注非常困难,几乎不可实现很难获得大量标注数据。在这种情况如何能更好的发挥深度学习应用的效果呢 ?

 

方案:深度学习小样本

基于在AI机器视觉领域的长期积累,汇川视觉在食药品行业推出了基于深度学习小样本OCR解决方案,解决了深度学习OCR技术实际落地应用中数据标注困难,很难获得大量标注数据的痛点同时保证工业食药品行业大部分场景正确字符识别率在99.9%以上, 该方案能够在中国当前的食药品行业里辅助或者直接代替人工质检,帮助企业节省人工成本。该解决方案硬件构成有训练服务器,工业视觉控制器,工业相机, LED光源和控制器,以及数字IO模块构成,融合最新的深度学习小样本OCR训练和推理算法,不需要采集和标注大量的数据进行深度学习的模型训练,保证OCR识别的高准确率同时能很快的在实际生产场景中实现OCR识别需求的产品兼容。


本方案的系统架构如下图所示,是由服务端和边缘端两部分组成:

 

基于深度学习的字符识别(OCR)技术成为食药品企业的热点,相较于传统的OCR技术,该技术可针对文本进行整行识别,实现了复杂场景下的字符识别,识别率最高可达99.95%以上。深度学习在这一颇具挑战的问题上有了突破成果,但想要获得高的准确率,往往依赖于大量的手动标准训练。而这恰恰在实际食药品应用场景中很难推广,食药品包装类别多样,打印字体的各不相同,若要对每一个的案例进行大量数据的获取和标注非常困难,几乎不可实现很难获得大量标注数据。在这种情况如何能更好的发挥深度学习应用的效果呢 ?

第一部分:服务端

小暑为小热,还不十分热,到了大暑才是一年中最热的时候。小暑时节,江淮流域梅雨即将结束,盛夏开始,气温升高,并进入伏旱期;而华北、东北地区进入多雨季节,热带气旋活动频繁,登陆中国的热带气旋开始增多。

第二部分:边缘端

部署在现场由视觉工控器、相机、光源等硬件和配套软件KINOVISION构成主要负责采集图片和生产日期识别。其AI 视觉控制器搭载了集成英特尔®核芯显卡的英特尔®酷睿处理器,这一系列业内性能领先的处理器不仅具有强大的计算能力,还具有低功耗、性价比高和安全可靠等特点。其集成的英特尔核芯显卡拥有优异的每瓦性能、丰富的图形效果以及 I/O 集成功能,是构建边缘人工智能平台的理想选择。

汇川视觉基于深度学习小样本学习OCR的边缘端的训练的流程如下图所示,产线上操作员对工业相机在拍摄目标图片进行逐个标注,标注完成后将标注完的数据传输到边缘服务器FinoVision系统中,进行深度学习小样本OCR 的训练。模型训练完成后系统会自动从训练服务器下载模型会转换成边缘Kinovision可识别的OpenVINO IR 格式。


Gif2

方案:基于小样本的算法简介


基于少样本的深度学习OCR解决方案最大的特点是在仅有少量字符样本的情况下,通过GAN生成训练集,并通过迁移学习充分利用先验知识,仅使用少量训练数据的情况的深度学习算法就可以快速准确的提取特定字符的特征。方案能在少量标注(一般每类字符注册不超过10个样本)情况下满足应用需求。

GAN原理图


具体到算法本身,通过传统计算机视觉的投影切割法提取整行字符,然后生成图像序列,并使用带有注意力机制的卷积神经网络提取图像特征,最后通过后处理精度优化得到最终识别结果。


原理架构图

 

最后是字符串的转录(transcription),转录过程是将卷积字符模型的每个窗口特征接一个全连接的字符多分类器,得到预测字符序列。在这项工作中,我们假设每个窗口代表一个时间步,然后进行后处理精度优化得到最终的预测过程。

后处理精度优化过程


当前深度学习小样本OCR解决方案和业界普遍使用的基于LSTM序列的深度学习OCR方案的对比如下表


指标对比

 


检测结果

效果:深度学习小样本OCR方案部署难度大幅度降低


目前,基于小样本深度学习方案已使用在医药行业某厂线,进行生产日期识别检测。从具体效果指标来看,我们会发现,基于小样本深度学习方案在产品兼容上具有一定优势,对于差异较大的字符需要重新注册,一般10分钟内实现产品兼容可以检测出来;而深度学习缺陷检测需要加训,并且加训图片张数与训练集差异成正比一般需要100张左右标注,大约2小时左右实现产品兼容。从采集样本数量我们可以发现,少样本的深度学习OCR解决方案每类只需要10个字符,而深度学习解决方案大约需要2000张图片。

展望:深度学习小样本方案未来潜力巨大

 我国在机器视觉起步较晚,但从发展现状来看,无论是技术层面还是市场层面行业都处于上行阶段。 未来,小样本深度学习方案将为字符识别带来新的革新和智能化升级。深度学习的优势将赋予该解决方案快速开发与落地的能力,汇川视觉可根据终端客户对于字符识别一些复杂场景的需求,迅速训练出相应的算法,快速完成整个场景的搭建和软件升级,迅速完成原有系统到新系统的转换和导入。最终在实现帮助企业向自动化、智能化升级的同时,提高自动化程度,提高产品质量并提高品牌知名度,而不必增加资本投入。

扫二维码用手机看

电话

热线:

025-85302759

地址

地址:

江苏省南京市江宁区创研路266号麒麟人工智能产业园 1号楼9F

关于我们

作为深圳市汇川技术股份有限公司(股票代码300124)子公司,南京汇川工业视觉技术开发有限公司研发团队占比达40%,是面向工业视觉,人工智能检测领域的高科技型企业,主要为客户提供自动化产线的视觉解决方案。

汇川视觉

汇川视觉

法律声明    |   版权所有:南京汇川工业视觉技术开发有限公司  网站建设:中企动力 南京  苏ICP备19040886号-1