当前位置:首页 >报告 >

金山AI Lab获 2019国际大数据分析竞赛双料冠军

2019-11-01 13:51:00

近日,金山AI Lab获得了计算机视觉界的顶级竞赛之一MS COCO Image Captioning以及IEEE特别发起的国际大数据分析竞赛(IEEE ISI World Cup 2019)双料冠军。

两大顶级赛事竞争激烈

MS COCO(Microsoft Common Objects in Context,常见物体图像识别)是计算机视觉领域最受关注和最权威的比赛之一,是图像(物体)识别方向最重要的标杆,也是目前国际领域唯一能够汇集谷歌、微软、Facebook 三大巨头以及国际顶尖院校共同参与的大赛。目前MS COCO 竞赛,共有物体检测 (Detection)、人体关键点检测 (Keypoints)、图像分割 (Stuff)、全景分割(Panoptic)和图像描述生成 (Captions) 五个类别的比赛任务,其中图像描述生成任务 (Captions)需要同时对图像与文本进行深度的理解与融合,相比其他任务更具有挑战性。包括腾讯、华为、Microsoft、中科院自动化所、北京大学、中国科学技术大学、UC Berkeley、Stanford University等企业、科研机构和高校,迄今共有 200 多支队伍参与了这项比赛。

而由IEEE(IEEE ISI安全信息学领域的旗舰会议),特别发起的国际大数据分析竞赛(IEEE ISI World Cup 2019)同样竞争激烈,有来自中国、美国、巴基斯坦、英国、德国等7个国家的企业、高校共363支队伍,1001名选手参战。

金山AI Lab在图像描述、大数据分析两大领域表现不俗

金山AI Lab在大数据人工智能飞速发展的背景下成立。目前,金山AI Lab以NLP为核心,涵盖图像、文本、语音三大方向,主要研究内容分为知识图谱、机器翻译、内容推荐和智能校对等。研究项目主要分为两类,一类是专注于落地的项目,如机器翻译、智能校对等;另一类是专注于基础服务的项目,例如知识图谱,可以对这些直接落地的项目提供长期的辅助研究。这两项比赛取得的成功很好地证明了金山AI Lab在图像及大数据分析方面的实力。

MS COCO比赛中,金山AI Lab团队参与了挑战性最大的图像描述生成任务 (Captions)项目。图像描述生成(image caption)是使机器理解图像内容,并用人类语言描述其所理解的图像内容。图像描述生成(image caption)技术是一个结合计算机视觉与 NLP技术的多模态交叉研究领域,这个任务不仅仅需要理解图像,更需要理解自然语言,是深度学习处理多模态数据的一个重要任务。

金山AI Lab团队使用目前流行的Transformer模型,并针对图像信息利用不充分的问题提出了结合图像关键信息的keywords Transformer、利用动态卷积结构改进Transformer的解码端、提出了有效的多特征融合机制和多模型系统融合等技术,使生成的图像描述更准确、相关性更高、句子更流畅。结合WPS在办公场景下的优势,前述技术可以在公式识别、图像描述、图像检索等场景大显身手。

总体流程

#FormatImgID_3#

keywords transformer模型

Keywords_MIA Transformer模型

在ISI World Cup竞赛中,金山AI Lab派出两支团队分别参加两个任务,一支队伍在M2中以44分夺得冠军,分数比其他队伍高了接近一倍,达到了参赛队伍中的领先水平,可以在生产环境中直接应用,解决企业痛点。在M2上面,金山AI Lab使用了递进优化的策略,对数据进行多层次的分类,避免了数据分布因极度不均衡而带来的训练失效问题。另一支队伍在M1中取得第五名。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐阅读