您当前的位置:首页职业正文

世界热文:“闭卷考试”双指标第一!科大讯飞斩获ECCV OOV-ST挑战赛文字识别赛道冠军

2022-12-19 17:00:02 央广网

(机构供图,央广网发)

在三大计算机视觉顶级会议之一的2022ECCV(欧洲计算机视觉会议)上,科大讯飞斩获2022 OOV-ST挑战赛(The ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding)文字识别赛道冠军,取得了OOV场景和综合场景双指标第一的佳绩。与以往文本识别比赛不同,OOV-ST挑战赛中测试集的词语从未出现在训练集中,参赛的文本识别系统相当于进行了“闭卷考试”,而且考的还是之前没有学过的内容,难度大大升级。此次比赛夺冠展现了讯飞在图文识别领域上的技术实力,这也是科大讯飞连续第五年在图文识别国际比赛上夺冠。

OCRFLY_V2为科大讯飞参赛队(机构供图,央广网发)


(资料图)

OOV-ST挑战赛是由谷歌、亚马逊和巴塞罗那自治大学共同举办的首个针对集外泛化问题的场景文字理解赛事,较全面地定义了面向集外字词的比赛任务,并提出了相应的数据集。这就要求模型具备较高的集外场景泛化性。此次比赛吸引了包括字节跳动、好未来、NAVER/LINE、清华大学、东京大学等国内外知名公司、机构和高校参赛。科大讯飞研究院所参与的文本识别赛道中,OOV-ST挑战赛以鲁棒性和泛化性为考察目标,重点要求参赛者方案具备对训练阶段从未见过的“位置词语词汇”的识别能力,同时要求参赛者所提交的解决方案能够兼顾集内已知词汇的识别效果,这就要求模型具备较高的集外场景泛化性。人类能够通过学习简单样本快速提升知识水平,并具备较好的迁移能力——例如人类通过学习汉字的笔画和偏旁部首知识,就能完成对新汉字的辨认和转写。而这种能力是当前神经网络模型的薄弱项,也是本次比赛的核心考察项。

为此,科大讯飞研究院提出了基于视觉语言自适应权衡的VLADM(Vision-Language Adaptive Mutual Decoder)方案,在复杂场景上取得了集外词59.61%、综合指标70.31%的句正确率效果,最终夺冠。

在现有的Encoder-Decoder技术框架的基础上,科大讯飞研究院图文团队提出了三个有效方案来提升集外词的泛化能力:

VLADM方案技术图解(机构供图,央广网发)

(1)首先,团队设计了基于transformer的半自回归位置查询支路,如上图中Positional Aware Attention部分所示。该模块使用解码的绝对位置作为query,从文本图片中抽取解耦了语言特性的视觉特征,并最终用于解码决策,有效提升对集外词的泛化能力;

(2)其次,团队提出了基于门控机制的动态特征选择模型,如图2中Adaptive Fusion部分所示。该模块综合依据自回归解码历史、递归视觉语言特征以及(1)获得的半自回归视觉特征,以门控机制的方式为每个解码时刻动态权衡视觉与语言的贡献,从而实现了最大限度保证集内效果的同时,拥有较好集外泛化性;

(3)最后,团队还提出了正反向解码互学习的训练机制,不仅使得(1)中位置查询支路的特征提取更加精准,还进一步强化了识别系统整体的视觉语言权衡能力与泛化能力,最终方案提升显著。

此次比赛所涉及的文字识别能力和集外词识别技术,目前已经在讯飞翻译机、讯飞AI学习机等产品中落地应用,为我们的工作、学习和生活提供了更多便利。当使用讯飞翻译机的拍照识别功能时,翻译机可以识别拍摄照片中的不同语种并进行翻译;而人名、地名、专业领域名词这些较为特殊的词语,讯飞翻译机也能进行针对性拍照识别。在教育领域,科大讯飞AI学习机的字词听写和中英文作文识别批改也可见这项技术的身影。机器能够精准识别和判断手写的错字、别字,以及书写错误的单词和语法错误,帮助学生快速筛查自己的弱点难点,提升语文和英语水平。相关技术也已常态化应用到了部分学校的考试中,辅助老师完成中英文作文批改。

科大讯飞AI学习机字词听写和英文作文批改(机构供图,央广网发)

未来,讯飞研究院将在图文识别领域的相关技术上持续发力,并结合实际落地应用探索更多技术赋能场景,让机器拥有更犀利的“眼睛”和智慧的“头脑”。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!

语言

知识