评估人的体质好坏有BMI,衡量国家经济发展水平有GDP,如何判断人工智能进展?今天,由来自哈佛、MIT、斯坦福、OpenAI以及AI产业联盟等专家学者组成的AI Index小组撰写的《AI指数2018年度报告》(AI Index 2018 Annul Report)发布。
AI Index报告的目标是利用硬核数据,衡量AI领域的取得的进步,并尝试理解这些进步,因为这些成果涉及工作自动化等棘手问题的解决方案,以及对通用人工智能(AGI)的总体追求,或者涉及实现让机器执行任何人类操作的AI类型。
2018 AI Index 报告发现:
AI顶会继续火爆:NeurIPS 2018年参会人数是2012年的4.8倍,ICML则是2012年的6.8倍,ICLR 2018的参会人数是2012年的20倍
从全球来看,欧洲学者发表的AI论文的数量最多,占去年世界AI论文总数的28%。中国以25%紧随其后,北美则占17%。但是,美国AI研究论文被引用数量最多,中国AI论文的引用数量也比2006年提升了44%
就业市场上,ML是最大的技能要求,但 学习岗位的增长速度最快——从2015年到2017年,需要DL技能的职位空缺增加了35倍
论文发表,机器学习和“概率推理”这些与认知相关的论文数量最多,神经网络第二,第三是计算机视觉,再次是搜索和语音,自然语言处理排在第五
各国对AI的侧重也有所不同,中国更注重农业科学、工程和技术,而欧洲和北美更注重人文科学、医疗健康科学。总体看,欧洲的研究类型分布一般更为全面。
中国有76%的学者流动性低。调查发现,流动性高的学者发表的AI论文具有更高的引用率和影响力,也更倾向于更频繁地发布论文。
高校课程设置上,清华2017年AI和ML课程注册人数是2010年的16倍,清华也是非美国高校中AI课程学生增长率最高的,是第二名多伦多大学的2倍左右。
从2017年6月到2018年11月,ImageNet训练时间变快了16倍
AI在很大程度上仍是由VC在驱动
AI Index 的缘起要从2014年说起,当时斯坦福大学决定启动一个叫做“AI100”的项目,持续跟踪调查并总结人工智能未来100年在学术研究、经济、道德伦理、法律等方面的进展。2016年9月,“AI100”小组发布了第一份《斯坦福AI百年报告》,第二份报告预计5年后发布。
然而,人工智能发展迅速,为了更好更及时地跟踪AI进展,斯坦福百年报告项目发起人Yoav Shoham又组建了一个新的小组,并开发了一个旨在及时跟踪并反映人工智能发展现状的指标体系——AI Index。AI Index研究组每年都会发布一份报告,也即《AI指数报告》。
去年12月发布的第一份AI指数报告较为偏向北美。今年,报告增强了全球视野,发现AI的商业化、研究活动、资金流动呈现全球化增长,欧洲和亚洲尤为明显,而且呈高度集中的态势:中日韩在AI研究论文发表、大学招生和专利申请方面领先其他东方国家。
报告还设立了一个“超越人类水平的重大突破”部分,记录了2018年AI在游戏和医疗诊断等领域取得的重大突破性进展,包括微软的机器翻译、谷歌 学习检测前列腺癌,DeepMind在传统FPS游戏《雷神之锤》取得的进步,以及OpenAI在Dota 2中面对业余玩家和前职业玩家时令人惊艳的出色表现。
下面,就来详细看看2018年,人工智能在学术研究、产业发展和政策设定方面的进步吧。
对了,吴恩达看完这份报告总结了两点:
AI在产学研领域继续快速发展,我们还需要增加多样性并且变得更加包容。
学术研究:积极在Arxiv贴论文凸显领域竞争激烈
1996-2017年发表论文总量猛增
上图是相较于1996年,学术论文的年度出版率增长情况,该图比较了计算机科学(CS)领域和AI领域的论文发表率增长情况。从1996年到2017年,AI领域的论文增加了7倍(8x),CS领域的论文增加了5倍(6x)。
各地区发表论文情况
欧洲是AI论文出产大户,2017年Scopus上的AI论文有28%来自欧洲,25%来自中国,17%来自美国。2007年至2017年在中国发表的论文数量增加了150%,尽管2008年中国的论文数量出现过骤跌现象。
细分领域论文发表情况
2017年,56%的论文属于机器学习和概率推理领域,而2010年这一数字为28%。
对于大多数细分领域,在2014-2017年期间论文的发表速度要快于2010年-2014年。例如,神经网络领域(上图红线)论文的2010-2014年复合年增长率(CAGR)仅为3%,而该领域2014-2017年的复合年增长率为37%。
ArXiv上的AI论文
自2010年开始,arXiv上的AI论文迅猛增长,从2010年的1073篇,到2017年发布的13325篇。其中计算机视觉领域(CV) 是自2014年起增长最快的一个领域 (上图蓝线) 。
这一趋势表明AI研究者倾向于传播他们的研究,无论是经过同行的认可亦或经过了顶会的检验,这也说明该领域竞争激烈。
中国AI研究主要由政府主导,美国则是企业主导
领域侧重(RAI)
上图显示了美国、欧洲和中国的AI领域相对活动指数(RAI)。 RAI可以看出一个区域的专业倾向,通过将其与AI全球研究活动进行比较。RAI值为1时,表明这个国家在AI中的研究活动与全球一致;高于1时,意味着该国更强调重视这个领域;低于1时,意味着更少关注。
从图中可以看出,中国的AI论文更侧重于工程技术和农业科学,而美国和欧洲的AI论文则倾向于关注人文科学和医学与健康科学。
政府、企业和医学界主导研究情况对比
在政府主导的AI论文中,从2007年到2017年,中国增长了400%;而企业论文在这期间增长了73%。在美国,相对较大比例的AI论文来源于企业,美国企业的AI论文比例要远高于中国和欧洲。
各地区的论文引用影响力
FWCI是领域权重引用影响系数,可以用来衡量论文的影响力。尽管欧洲每年发布的AI论文数量最多,但引用影响力处于世界平均水平。相比之下,2016年中国AI论文的被引用率比2000年高出了44%。美国在这方面表现突出,美国作者AI论文的引用率要比世界平均水平高83%。
AI研究者流动率:中国学者“久坐不动”
根据调查,流动性高的学者发表的AI论文具有更高的引用率和影响力,也更倾向于更频繁地发布论文。
在美国、中国和欧洲这三个国家和地区中,中国低流动性(“久坐不动”)的AI作者比例最大(76%),其次是欧洲(52%),最后是美国(37%)。
各国在AAAI上论文发表情况
在2018-AAAI顶会上提交的论文中约有70%来自美国或中国。 中国提交的论文数量最多,但美国和中国被接受的论文数量基本相同,分别为268和265。
美国机构提交的论文获得了29%的录取率,中国为21%。 德语和意大利语的论文获得最高录取率(41%),但提交的人数较少。
各大高校AI课程注册情况
AI和ML课程近年来逐渐进军高校。从AI课程注册率来看,2017年注册AI课程的人数是2012年的3.4倍,入门ML课程的人数是2012年的5倍。
加州大学伯克利分校在这方面增长最迅速,2017年入门ML课程的学生人数是2012年的6.8倍。
报告还统计了非美国地区得高校AI和ML课程注册人数的变化。其中,清华是非美国高校中增长率最高的,是第二名多伦多大学的2倍左右。
而从清华自身来看,该校2017年AI和ML课程注册人数是2010年的16倍。
高校AI教授以男性为主
在收集相关数据的过程中,改善师资多样性的一个重大障碍是无法获得有关多样性的数据,我们鼓励机构将多样性统计数据透明化。
在所研究的学校中,我们发现平均80%的AI教授都是男性,在世界各地、各大高校都是如此。
AI学术会议热度提升
来看下大型AI顶会的热度。首先是三大顶会:NeurIPS (曾用名NIPS) 、CVPR和ICML,这三大会议参与人数众多。自2012年以来,它们的参会人数增长率也远高于其他会议。
其中,NeurIPS 2018年参会人数是2012年的4.8倍,ICML则是2012年的6.8倍。
不仅是大型顶会的参会人数增长,小型会议的热度也在不断上升,其中最为突出的是ICLR,ICLR 2018的参会人数是2012年的20倍。
AI研讨会多样性情况
上图显示了两个研讨会的年度注册数量:其中一个是由女性参与的机器学习(WiML)主办,该组织致力于支持女性参与机器学习,以及AI4All的校友人数,后者旨在增加人工智能的多样性和包容性的教育计划。 相比于2014年,WiML研讨会2015年的参与者增加了600%,AI4ALL的校友人数增加了900%。
机器人安装情况
下图所示为随着时间的推移从ROS.org下载的机器人操作系统(ROS)二进制包的数量。 ROS是一种广泛使用的机器人开源软件栈,为许多制造商和学术研究人员广泛使用。 左轴为平均每月下载量,而右轴为仅来自独立IP地址的平均月下载量。 自2014年以来,总下载量和单IP下载量分别增长了352%和567%。
下图显示了自2012年以来全球访问ROS.org最多的五大地区。美国和欧洲的访问次数位居前两位,中国的增长速度位居第一,目前访问次数距离前两名已经不远。2017年,来自中国的访问次数已经相当于2012年的18倍。ROS.org表示,来自中国的访问量增长是结构性的,而不是在中国增加市场营销和资源投入的结果。
AI技术发展:没有惊天突破,但在稳步提升
物体识别精度
ImageNet竞赛在2017年完结,因此AI Index报告组根据已发表的论文,继续跟踪当前物体识别的水平(ImageNet 2012 验证集)发展。报告组指出,如果某个AI子领域的发展是以某项竞赛为基础来衡量的,那么这项竞赛的完结会导致该领域技术真实发展水平难以衡量。好在数据集是开源的,因此在一定程度上还是能保证评估的连续性。
下图即为物体识别精度情况,蓝线为历年ImageNet竞赛冠军结果,黄线为相关算法在ImageNet验证集上得到的结果。可以看出,2018年,在没有为了比拼物体识别精度的情况下,物体识别算法的表现整体也有提升。
ImageNet训练时间
ImageNet训练时间是指网络以高精度分类ImageNet图像数据集所需的时间。这一指标代表了大型网络完成AI任务的时间。由于图像分类是一种相对通用的监督学习任务,因此ImageNet训练时间这一指标,也可以从某种程度上反映其他AI应用程序的训练时间。在一年半的时间里,训练ImageNet的时间从大约一小时减少到大约4分钟。
ImageNet训练时间这一指标也反映了AI研究的产业化情况。ImageNet训练时间减低的因素包括:算法创新和基础设施建设。
从2017年6月到2018年11月,ImageNet训练时间变快了16倍。
实例分割
下图显示了MS COCO竞赛实例分割结果。ImageNet竞赛完结后,计算机视觉界开始转向更为复杂的推理任务,例如以像素级精度定位物体(也即实例分割)和像素级精度划分场景(语义分割)。
自2015年以来,COCO竞赛中算法的平均精度最高增加了0.2个点,或相对提高了72%。
语义分析
下图显示了AI系统在确定句子句法结构任务上的表现。语义分析(Parsing)是问答等特定自然语言理解任务中的第一步,如今已经几乎全部由 学习完成。自2003年以来,句子成分语义分析水平、F1得分提高了9个百分点,或相对提高了10%。
机器翻译
下图显示了AI在新闻英德互译中的表现。从2008年到2018年十年间,英译德机器翻译BLEU得分提高了3.5倍,德译英机翻水平则提高了2.5倍。需要指出,由于每年使用的测试集不同,得分并不是完全可比的。但整体看BLEU得分有一定参考意义。
机器问答ARC
下图显示了历年AI2推理竞赛(AI2 Reasoning Challenge,ARC)的结果。ARC数据集包含7787个真实的纯文字科学多项选择题(美国3到9年级水平,英语,通常有4个答案选项),分为高难度(Challenge Set,2590个问题)和低难度(Easy Set,5197个问题)两个数据集。
ARC基准测试于2018年4月发布,到11月,机器在Easy Set上的表现从63%上升到69%,在Challenge Set上则从27%上升到42%。
机器问答GLUE
下图显示了GLUE基准测试排行榜的结果。通用语言理解评估(GLUE)是一个新的基准,旨在测试自然语言理解(NLU)系统完成一系列任务的水平,并且鼓励研究人员开发较为通用的系统。GLUE由九个子任务组成:两个单句测试(衡量语法和情感),三个关于相似度(similarity)和复述(paraphrase),四个关于自然语言推理,包括Winograd Schema Challenge。语料库大小从小于1000到超过40万不等。衡量指标包括准确度/ F1和马修斯相关系数。
虽然该基准测试在2018年5月才发布,但目前机器水平相比第一次测试结果已有大幅提高,距离非专业人员(大约90%)已经不远。
AI初创企业
下图显示了风险投资支持的美国私营创业公司在特定年份的活跃数量。蓝色的线(左轴)只显示AI创业公司,而灰色的线(右轴)显示所有风险投资支持的创业公司,包括AI创业公司。这张图表描绘了每年1月份初创公司的总数。图表显示,初创公司的数量是逐年累积的。
从2015年1月到2018年1月,活跃的AI创业公司增长了2.1倍,而所有活跃的创业公司增长了1.3倍。在很大程度上,创业公司整体的增长保持相对稳定,而AI创业公司的数量呈指数级增长。
从2015年到2018年,美国活跃的AI创业公司数量增长了2.1倍,而所有创业公司整体增长了1.3倍。
VC投资
下图显示了风险投资公司(VC)在所有融资阶段向活跃的美国初创公司提供的年度资金数额。蓝色的线(左轴)只显示对AI创业公司的资助,而灰色的线(右轴)显示所有VC支持的创业公司的融资额,包括AI创业公司。这些是年度数据,非逐年累积。
从2013年到2017年,AI风投资金增长4.5倍,而所有风投资金增长2.08倍。1997 - 2000年风险投资的繁荣可以用互联网泡沫来解释。2014年和2015年较小规模的繁荣反映了这段时期经济增长较快。
从2013年到2017年,美国AI创业公司的风险投资增加了4.5倍,而所有活跃创业公司的风险投资增加了2.08倍
就业市场:向AI技能开放
下面的图表显示了有AI技能要求的每年职位空缺数量,以及该空缺数量的相对增长。这里的AI技能不相互排斥。
虽然ML是最大的技能要求,但 学习(DL)的增长速度最快——从2015年到2017年,需要DL技能的职位空缺增加了35倍。
就业性别差异:AI目前还是男人的游戏
下图显示了2017年AI职位空缺的男性和女性申请者。这些数据是根据所需要的技能统计,不相互排斥。申请人的数量并不意味着雇用或在整个行业的代表。
在美国,平均而言,男性求职者占AI求职者总数的71%,因为机器学习要求的求职者数量最多,平均而言,这主要是由机器学习求职者推动的。除了机器学习, 学习和机器人技术相对于其他类别而言,性别差异更大。
在美国,男性求职者平均占AI求职者总数的71%
专利
下图显示了AI专利的数量和增长情况。AI专利一般使用IPC代码,属于认知和意义理解以及人机界面技术领域。
2014年,约30%的AI专利来自美国。其次是韩国和日本,这两个国家各自拥有16%的AI专利。就发明人地区来说,韩国和中国台湾增长最快,2014年AI专利数量是2004年的近5倍。
AI采用:按地区分析
下面的图表显示了麦肯锡公司对2135名受访者的调查结果,每个人都代表他们的组织进行了回答。图表描绘了组织在至少一个功能或业务单元中采用AI能力的受访者百分比。受访者可以选择多种AI能力。
图表显示,虽然一些地区比其他地区更倾向于采用某些能力,但是AI能力在不同地区之间的采用程度是相对平等的。我们期待AI采用随时间的变化。
AI采用:按行业分析
同样是麦肯锡公司对2135名受访者的调查结果。下面的图表描述了组织在特定业务功能中试验或采用AI能力的受访者的百分比。
组织倾向于将AI能力纳入其行业内最有价值的功能中。例如,金融服务在很大程度上将AI与风险结合在一起,而 行业则将AI采用到制造中,零售业则在营销/销售方面采用AI。
下面的图表显示了AI和机器学习(ML)在企业财报电话会议中被提及的情况。这项分析只统计了在纽约证券交易所上市的公司。
AI和ML在IT行业的财报提及在2015年就有所增加。对于大多数其他行业来说,这一增长始于2016年。IT、非必需消费品、金融和医疗保健行业在财报电话会议上提到AI最多。
机器人安装情况
下图按地区显示了工业机器人的年度安装情况。第一个图显示了机器人安装量最大的五个地区,第二个图显示了其他地区。
自2012年以来,中国每年的机器人安装量增长了500%,而韩国和欧洲分别增长了105%和122%。
TensorFlow和AutoML定义开源软件格局
Github上获得的星数
下图是Github上出现的各类AI和机器学习软件包的次数。从图中可以大致看出各类AI编程框架的受欢迎程度。最近呈现的两大趋势是,由大公司支持的框架越来越受欢迎,如谷歌的TensorFlow、Facebook的Pytorch,亚马逊的mxnet等,以及TensorFlow在受欢迎程度上相对其他语言表现出越来越明显的优势。
Github上累计获得的星数(未包括Tensorflow)
英美加政府对AI和机器学习关注有不同程度提升
媒体对AI的关注
下图所示为在大众媒体的文章中包含“人工智能”一词的文章比例,这些文章被分为正面、负面或中立文章。从2016年初开始,关于人工智能的文章变得更加“正面”,其比例从2016年1月的12%上升到2016年7月的30%。从那时起,“正面”文章的比例一直在30%左右。
政府部门对AI的关注
下图显示了美国、英国和加拿大的议会记录中提及“人工智能”和“机器学习”的情况。在这三个国家的议会中,对这两个词语的提及频率自2016年以来快速上升。而且,“机器学习”在2016年之前很少被提及,而且相对于“人工智能”而言,被提及的次数仍然很少。
注意,由于比较方法不同,本图表不适合于跨国比较。我们建议只比较一个国家内的一段时间内的趋势,而不是进行国与国之间的比较。下图由上至下依次为美国、英国、加拿大的情况。
AI整体活力:很大程度上仍由VC驱动
Academia-Industry 动态
为了探究学术界和工业界AI相关的活动之间的关系,我们首先从前几节中选取了一些具有代表性的测量方法。具体来说,我们主要关注Scopus的AI论文发表数量、几所美国大学AI和ML入门课程的学生数量,以及AI相关初创公司的风险投资。
这些指标表示无法直接比较。为了分析趋势之间的关系,我们从2010年开始对每一项指标进行标准化,并显示增长,而不是绝对数字。
Academia-Industry dynamics
AI活力指数
AI活力指数(AI Vibrancy Index)将三个Academia-Industry 指标(出版、课程注册人数和风险投资)汇总成一个衡量标准,量化AI作为一个领域的活力。与Academia-Industry 动态一样,AI活力指数始于2010年。
AI活力指数很大程度上受VC投资的推动,相对于其他两个指标,VC投资增长最快。这三个指标的权重相等。
AI Vibrancy Index
AI政策制定与技术和产品研发同样重要
AI Index 所有这些硬数据,对于理解AI领域目前所处的阶段,过去几年来AI如何进展,以及未来它将如何发展,都非常有帮助。
但是,当涉及到自动化以及AI在刑事司法、边境巡逻检查、战争等更棘手的领域时,我们还没有找到出路。在这些领域,性能的重要性比不上政府政策的重要性。人工智能无疑会继续变得更加复杂,但在医院、教育系统、机场和警察部门能够可靠地使用这类软件之前,还存在许多障碍,既有技术上的障碍,也有偏见和安全方面的障碍。
但AI仍然得到越来越多的应用。今年,亚马逊在向执法部门出售其面部识别软件,而谷歌在被发现向美国国防部一个名为Maven的无人机项目提供计算机视觉技术后,陷入了巨大的争议。
谷歌表示一旦合同到期,它将退出Maven项目。谷歌也发表了一系列AI伦理原则,包括承诺永远不会开发AI武器监测系统,或为任何违反了“广泛接受的国际法和人权原则”的项目提供帮助。但很明显,硅谷的领导者将AI视为一个绝佳的商业机会,而这类项目和合同则是参与AI研究军备竞赛的经济回报。
伴随着自动化的普及,大规模失业虽然不会很快到来,但作为一个社会,我们需要准备好迎接工作性质的转变,转向更不稳定、薪酬更低、缺乏医疗保险等安全保障的工作。
不是每个人都会马上失业。相反,随着时间的推移,某些工作岗位将被淘汰,而另一些工作岗位将变成半自动化的。有些工作永远需要有人的角色。工人的命运将取决于特定的雇主限制,劳动法律法规,以及是否有足够好的制度来确保人们转移到新的角色或行业。
例如,麦肯锡全球研究所去年11月的一份报告发现,到2030年,全球自动化可能会导致8亿人失业,但只有大约6%的工作面临完全自动化的风险。
美国智库全球发展中心今年7月发表的一份报告,集中讨论了AI和机器人自动化对全球劳动力市场的潜在影响。研究人员发现,目前几乎没有足够的工作在为全面自动化带来的影响做准备,而多数讨论集中在特定市场中实现完全自动化的一般伦理和可行性。报告总结说:“在决定哪些工作实现自动化方面,盈利能力、劳动法规、工会化和企业社会期望等问题至少与技术限制问题同等重要。”
现在来说,可靠地测量AI对社会的影响也许为时过早——这个行业才刚刚起步,但我们要为这一切做好准备,了解这意味着什么,以及AI将如何影响日常生活、工作以及医疗保健、教育和执法等公共机构,这与AI研究和产品开发同等重要。只有同时投资于两者,我们才能让世界变得更好。
【来源:传送门】