让计算机看懂世界靠谱吗？智能识别技术大行其道_业界_科技快报

让计算机看懂世界靠谱吗？智能识别技术大行其道业界

/ 科技日报 / 2017-10-09 16:36

互联网发展之初受到网络带宽、数据存储等相关技术的限制，信息的传播以单模态形式为主，如文字报道、图像相册等。进入大数据时代，信息的传播变得丰富多彩，人们从互联网中...

智能识别技术让计算机看懂世界

互联网发展之初受到网络带宽、数据存储等相关技术的限制，信息的传播以单模态形式为主，如文字报道、图像相册等。进入大数据时代，信息的传播变得丰富多彩，人们从互联网中同时接受图像、视频、文本等不同模态的信息。例如，当我们在互联网上浏览一篇精彩的新闻报道时，不仅可以看到详细的文字描述，还能看到记者在现场拍摄的照片，甚至还有相关的视频报道。这体现了互联网数据从单模态到多模态的转变。

随着互联网多模态数据的大量出现和传播，“管不住”和“用不好”两大问题也日益突出。“管不住”是指多模态大数据中隐藏着大量涉恐、涉暴等有害信息，极大地危害着国家安全和社会稳定，目前还缺乏自动的分析与识别技术。“用不好”是指现有技术一般是单模态分析与识别，仅针对信息有限的单模态数据，难以对多模态数据进行有效利用。如何让计算机看懂世界，实现对互联网多模态大数据的有效监管与利用，是目前急需解决的重大问题。

针对上述问题，北京大学彭宇新教授团队在国家自然科学基金、国家863计划、国家科技支撑计划等支持下，历经10余年技术攻关，在图像视频概念检测、视觉目标检测、多模态数据分析与识别、互联网舆情监测四个方面取得了多项重大技术突破和发明创新。在2016年北京市科学技术奖评选中，“互联网多模态内容分析与识别关键技术及应用”项目荣获一等奖。

突破单模态分析与识别技术

单模态分析与识别是突破互联网多模态内容识别的基础和关键技术。图像、视频和文本是单模态信息的重要形式，如何使计算机能够自动分析与识别图像、视频和文本的内容便成为了研究与应用的难点问题。

图像、视频中一般包含某种语义概念，如篮球比赛、奥运会等；同时也包含视觉目标，如行人、、旗帜等。

“虽然人类能够很容易地识别与理解这些概念与目标，但在计算机看来，数字图像就是由一个个像素点构成，这样人类的语义概念及视觉目标与计算机看到的二进制数值之间就存在难以逾越的‘语义鸿沟’。”北京大学彭宇新说。

由于图像、视频的语义概念比较抽象、视觉目标复杂多变，如“奥运会”这一概念很难从视觉上准确定义，而“旗帜”等目标不具有固定的形态，导致计算机自动分析与识别的难度很大。

彭宇新团队针对图像视频概念检测难题，发明了基于注意力模型和增量学习的分类方法，一方面注意力模型能够定位图像的显著性区域以提高检测精度；另一方面增量学习在新概念增加过程中，能够利用已经学习到的知识加速新知识学习，同时通过动态扩容以支持新概念的检测。该方法使得特定概念的检测精度突破90%。针对复杂场景下视觉目标检测问题，发明了级联分类器与极角拓扑约束相结合的判别方法，一方面通过级联分类器从海量数据中快速筛选出可能包含特定目标的候选区域，加快检测速度；另一方面通过极角拓扑约束对候选区域进行二次判别，提高检测精度。该方法提高了低分辨率、形变、仿射变换等复杂情况下的检测效果，使得特定视觉目标检测精度突破90%。基于上述研究成果，彭宇新教授团队参加了国际权威评测TRECVID的视频高层概念检测比赛，获得第一名，参赛队伍包括卡内基梅隆大学、牛津大学、IBM Watson研究中心等国际著名大学和研究机构。

在文本内容分析上，热点话题检测与敏感信息发现是互联网舆情监测的两个主要应用需求。热点话题与敏感信息通常包含特定的人名、地名、机构名等实体信息，有效地识别实体信息是文本内容分析的关键。针对上述问题，项目团队发明了基于知识元的多模态语义分析方法和基于情感观点的话题追踪方法，有效解决了互联网内容的语言规范性差、噪音大、时效性高导致实体难以识别和利用的问题。在国际权威评测TREC 2014年和2015年的微博信息检索比赛中获得第一名。

多模态内容的语义协同

“与互联网数据的发展趋势一样，我们的研究思路也是从‘单’到‘多’，以单模态内容的分析与识别技术为基础，重点研究多模态内容的分析与识别技术。”彭宇新说到。

多模态数据在语义表达上具有“共通性”，在内容上也是互相关联的。据此，项目团队提出了基于多模态分解与融合的语义协同方法，综合分析图像、视频、文本等多模态内容以获得更加全面准确的识别结果，并通过跨模态语义互补性实现多模态数据的综合分析与有效利用。

项目团队首先提出了多模态分解方法，能够对包含一种或多种模态的输入数据，按照模态的不同自动分发到对应的分析与识别模块。例如，对于视频，首先进行镜头分割和关键帧提取，然后分发到镜头检索、片断检索、概念检测、视觉目标检测、人脸识别和视频字幕识别等模块。基于多模态信息的分发结果，对各模态内容分别进行分析与识别，提取文本、图像、视频镜头、视频片断、视觉对象(如视觉目标、人脸)等语义描述信息。进一步对多模态数据进行关联分析，构建多模态关联图来融合不同模态的分析结果，从跨模态关联层面纠正单模态语义描述中的错误结果，以实现多模态信息的语义协同优化。

基于上述成果，项目团队于2009年—2016年多次参加国际权威评测TRECVID的视频语义搜索比赛，均获得第一名。

管住与用好互联网大数据

“除了‘科技顶天’，在关键核心技术上取得突破，我们也追求‘市场立地’，将我们的技术实现产业化，服务于社会。这也是我们北大计算机研究所的创立者王选院士对我们的要求。”彭宇新说道。

瞄准互联网大数据 “管不住”和“用不好”这两大难题，项目团队以上述技术为核心，形成了互联网多模态内容分析与识别系统、方正智思互联网舆情监测分析系统、方正智思智能分析系统等系列产品，实现了对互联网文本、图像、视频等多模态内容的全面监测与数据利用。

项目团队的系统和产品已成功应用于国家相关部门等上百家重要单位，涵盖多个行业领域，在维护我国互联网内容安全、促进网络文化健康发展等方面发挥了巨大作用。

来源：科技日报

互联网

1. 遵循行业规范，任何转载的稿件都会明确标注作者和来源；2. 的原创文章，请转载时务必注明文章作者和"来源： "，不尊重原创的行为或将追究责任；3.作者投稿可能会经编辑修改或补充。

阅读延展

热门话题

热文榜单