人工智能：这么近，那么远_观点

人工智能：这么近，那么远观点

/ IDG资本 / 2016-04-01 09:29

狗是怎么认出对面是一条“狗”的？

QQ截图20160401092845

今天要还原的现场是刚刚在杭州举办的 “2016「IDG VIEW」大会”。人工智能、消费升级、泛娱乐是 IDG 资本今年看好的 TMT 行业三大方向。以下内容来自大会人工智能圆桌讨论——人工智能，这么近，那么远。本文首发于 IDG 资本微信号（idg_capital），更多「IDG VIEW」内容请关注此号。

圆桌主持：IDG 资本合伙人李骁军

圆桌嘉宾：Rokid CEO Dan；SenseTime 联合创始人徐冰；浙江大学 CAD 实验室教授张宏鑫

Part 1 圆桌热身

李骁军：

►各位先介绍一下自己和公司吧？

徐冰：

我是 SenseTime 的徐冰，我们专注于学习，是一家非常严肃的技术型驱动企业，团队里 50 多位同事都是有博士学历的，因此很多人说我们像一个大型的研究院。

学习是驱动人工智能产业里现象级产品爆发的核心引擎，包括 AlphaGo 打败围棋世界冠军，还有比较火的人脸识别、图像分类、语音识别，机器能力超过人类，本质和的驱动引擎都是学习。这项技术需要大量的博士投入研发，以保持在中国市场与世界同量级团队的技术领先性。所以我们是聚集了华人当中最优秀的一批研究学习的科学家，一起实现技术上的突破。

这项技术如何落地呢？一是跟各个大型行业的领军企业合作，以 B2B2C 的模式升级他们的产品；二是通过资本运作，通过投资并购，技术入股一些企业，或是收购初创型公司，与各个行业巨头成立合资公司。

张宏鑫：

大家好，我来自浙江大学 CAD 实验室，主要注重于图形学和计算机视觉、人工智能领域的交叉。我所在的组主要研究的重点在于如何把大规模城市里的各种数据进行宏微观的可视化分析。

Dan：

我是 Rokid 的 CEO Dan，刚刚各位看到的开场主持人就是我们的产品，是一个全新定义的家庭机器人。用户可以很简单地进行控制，不仅是设备本身，比如灯光效果、音乐效果，让家里有一个舒服的氛围；而且，它是联网的智能产品，你有什么问题可以直接问它，不需要打开手机。另外还有很多内容方面的服务，比如附近有什么餐馆，比如学习英文等。

机器人这个领域发展了很多年，但很长时间里，机器人和人工智能并没有进入到家庭场景。有很多工业化机器人做得相当好，我们用到的很多产品其实就是机器人做出来的。但当我们把人工智能带进人们家中，这就是一个全新的探索。

为什么这么说？因为这不是纯技术问题，当然需要的技术是很深的，包括语音识别、图像识别等。更关键的是，当你把产品放在家里，对它要求会很高。家里有爱人、小孩，你会特别在意产品放在家里给你带来的体验。它不纯粹是只有功能的设备，一定要有温度、有个性。

为此，我们用大量时间在很多细节上花了心思，尤其是在非技术层面，产品的设计完全没有直线，我们希望它更有生命感，更有温度。从材质到质感，各个方面将是整个产品的融合体验。所以我们是非常专注在用户体验的一家公司。

李骁军：

►我好奇的是，Rokid 机器人有性别吗？还是根据每个人的需求可以变成男的或是女的？

Dan：

若琪（Rokid）现在是一个女孩子，以后可以根据你的要求、喜好，包括家庭环境去自己定义。比如声音或者是个性，都有拓展的空间。我们内部讨论很多的一个问题是，到底是什么产品？我们一直认为Rokid 不是一个机器人，而是适合家庭的一个人工智能全新品类。

Part 2 人工智能的多年以后

李骁军：

►人工智能、学习的热度已经很高，有哪些是今天的技术可以做到的，哪些是未来 5-10年可以做到的，或者是根本不可能做到的？

徐冰：

学习这个方向有了极大的发展。所以 2014年、2015年出现了几个现象级产品。学习实际上是在模仿人的大脑，用数学模拟人脑结构。人脑有接近 3000 亿量级的神经元，没有任何的计算机设备存储和数据处理能力可以到达这样的量级，现在可以落地的技术以及 10年内可以落地的技术，主要局限是在硬件层面和计算机的计算速度，数据正在多个维度不断往上走。

哪些是真正看到已经落地的呢？我们拿机器、算法去模拟人脑的时候，并不需要模拟整个大脑出来，往往是去逼近某一项的特有功能，比如说人脸识别、语音识别、图像分类和理解等。比如下围棋这种单项任务，通过机器分析大量围棋棋谱以后，在围棋这类非常复杂，需要战略思维，甚至需要有人的直觉的高智商游戏上，机器都能够击败人。所以当前，在单项应用上，技术可以做到非常好，并且有超过人的能力。

在中国，如何去落地这个东西呢？中国劳动力丰盛，因此虽然学习很强，机器学习算法好，但是只要一个技术没有超过人，很多行业还是倾向于利用中国的人口红利。拿文字识别来说，现在快递单、银行单据基本是人手输入到计算机，为什么不是计算机自己认识文字进行结构化管理？还是机器识别的准确率不如人眼，但是一旦到了这样一个临界点，就是技术落地的关口。这个时候很多技术超过人，取代人口红利，进行劳动力解放的事情就变成现实了。目前随着人口红利不断下降，国内老龄化问题出现的时候，在成熟的单项技术上的需求会越来越多。

张宏鑫：

人工智能、学习目前达到的状态，我们称之为 “感知”。我们看到一个图像，听到一段声音，机器能告诉你这是什么；但是人在做什么样的行为，讲的这句话到底是什么意思，这是 “认知” 层面的。实际情况更为复杂，比如说视觉，在正常情况下，光照充足的时候识别率特别高，但是阴暗角落有很多就失效了。所以在提高可用性方面还可以做很多事。

还有一个问题很有意思，以前研究都是各归各的，视觉做视觉的，听觉做听觉的。但是人在和世界进行交流的时候，其实是五种感知在一起。所以如果把各种因素叠加融合来做识别，可能出现新东西，新产品。

我刚刚提到了 “认知” 层面，斯坦福大学的李菲菲教授，最近他们在搜集更大的数据库，里面有将近 10 万图像。但除了 10 万张图像以外。他们做了大量的语义标注，想知道图像和语义之间的关联是什么。可以想象，一旦把这个事情推动起来，在工业界也会看到类似的应用。这是从简单的感知 “是什么”，到认知背后语义的事情。这个在 5-10年以后会有突破。

再想远一点，人工智能现在大多应用还是在生活当中，以后人工智能可以和人一起合作太空探索。这些探索任务人是不可及的，可能有危险性、可能时间很长，这个部分很适合机器去做，甚至机器和人协同来完成，这是远期可以干的事情。

做了很多研究以后，我经常和心理学老师聊天。有一次老师问了一个问题，把我问住了。他说你研究这么多，知道什么是意识吗？一台机器有没有意识？一辆车有没有意识？我说这个我回答不了。“意识” 到底是什么，这个不好研究。即使过 20年、30年，当中还是有很多需要探索的。

Dan：

一谈到人工智能或者机器人的想象空间，梦想是极大的。很多人认为以后的机器人、人工智能应该能够自由交谈，甚至让人察觉不出。很多人希望人工智能能够懂我，感知我的情绪。很多大学、公司在做这方面的尝试，但是难度很高。其实你想，这即使对于人来说也很难。有的时候我也看不懂人家的情绪，我常常被我爱人抱怨说，我生气你都看不出来。所以像这些事情，我觉得还是蛮远的。

Part 3 人工智能可怕吗？

李骁军：

►我们刚才都是从技术、产品、科学这些角度去看，有没有思考过人文和社会方面？比如人工智能可能存在的风险？发展到一定程度上，人类没有事情干了，接下去干嘛？如果人跟机器发生纠纷，是不是要上法庭？长远来看，人工智能对人类社会产生的影响或者风险在哪里？

徐冰：

这是一个非常有挑战性的问题。但这件事情也是显而易见的，当人工智能发展到远期的时候，我们必然面对这样的问题。

确实当前的人工智能和前几年有极大的不同。之前人工智能基本是我们设定一个程序，让它按照程序重复性地做，一定程度上取代人。但是在 2012年，谷歌做了一个著名的 “认猫脸” 实验：拿着他们一套超级计算机处理大量的视频图片，然后机器聪明地 “领悟” 了什么是 “猫”。相当于人类并没有给机器指定目标，但是通过大量的数据训练，机器自动得出了这个结论，并且在其他没有看过的视频里能够找到 “猫” 在哪里。因此，当机器可以自适应地进行学习、迭代，并且开始处理一些复杂问题的时候，就会引发人类的恐慌。

张宏鑫：

最近看到报道，已经有方法可以把人的部分记忆给录下来了，以后是不是可以把 “你” 直接弄到一个设备上去？既然可以录下来，能不能传输给别人？是不是可以转移到别的容器？也许是机器人，也许是人。这里存在极大的伦理问题。万一以后机器整天和人在一起，时间长了后产生感情，如何进行管理？这个算是公司的资产，还是个人的隐私信息？

另一方面是安全性的威胁。现在越来越多东西会通过物联网、通过传感器连成一体。最近我们调研发现，那些安全性极差，经常采用一些私有协议的，黑客的攻击性极强，稍微一下就攻破了。智能设备本身能力很强，但安全方面要立法，现在包括政府已经在想把监控连在一起，它的背后是一个大的云处理平台，再往下走，可能变成城市级别的 “大脑”。如果不经过监控、管理，很可能变成一个系统，对人的自由就构成了威胁。我看到一些公司缺少对这样的数据、技术的敬畏，没有顾虑太多就直接做这个事情。

Dan：

我常常发现谈人工智能，慢慢就变成了哲学性的讨论。当然这个也对，到了哲学问题后，整个高度就不一样了。我相信人工智能一定会到我们身边，当发生的时候，对于方方面面都会有很大的改变。同时，我也相信人类社会要跟得上，比如新的法律、道德问题，新的对与错，但这是必经之路。

Part 4 中国跟 AlphaGo 差多远？

李骁军：

►刚才张教授提到 “意识”，我之前看过一篇文章，说到狗怎么认出来对面是一条狗。还有人说，美国年轻人都在研究怎么把人送到火星上，或者怎么改变人类，但我们都在讨论外卖，怎么补贴用户。那么在人工智能上，我们和国外有什么差距？

徐冰：

这也是我们在考虑的问题。谷歌有机器人，有无人驾驶，还去收购人工智能团队、训练 AlphaGo 下围棋等，对比国内巨头来看，我们讨论的都是外卖，这就是意识观的差距。

技术角度来看，中国的企业里很少有颠覆性的技术出来，但是其实在全世界范围，做到技术突破的团队里基本都有中国人的身影，说明智商层面，中国人是不落后于世界的，甚至很多时候是领先于世界平均水平的。所以更多是我们如何把国内，把非本土做技术突破的中国人聚集起来，把这些技术上的突破尽快地落地到中国。

其实中国相比于国外有两个明显优势：

第一，中国人口非常多，这使我们在国内拥有的数据量非常庞大。比如我们做人脸识别单项技术训练的时候，用的是 7000 万人的照片。我们有这么大的照片数量，用一个领先的引擎，设计一个领先的脑子，再加上大数据、加上超算能力，到最后在技术上甚至是领先国外的。事实上，包括苹果、三星这类公司，都在向我们采购相关技术。

第二，中国有非常强的意识。在制度、政府层面做一些改变，想在智能时代弯道超车，驱动行业使用新技术的意向非常强。一个例子是互联网金融，这也是中国比较独特的现象。上千家的互联网金融公司出现，普惠金融，大家在手机端、在网上可以享受金融服务，这样的现象在国外看到并不那么明显。比如在日本等发达国家，并没有非常强的推动互联网金融往前走的意识，因为基础设施方面，人们去银行办业务已经非常方便了。所以这反而也是改造的优势。

以上两个优势结合，再加上技术上的不落后性，至少能够和国外顶尖团队打成平手。我们实际上有非常大的机会在这个时代做一些改变。

张宏鑫：

我是比较悲观的，我觉得国内的技术和国外技术、特别是和谷歌比，在整体实力对比上至少有 5-10年的差距。有两个方面：

第一，国内研究者我接触很多，他们在一个点上做的非常好，但是缺乏长期目标或者说哲学上的思考。哲学层面的思考少了以后，东西就在眼前，没有后劲。

第二，因为人工智能是理论方面的研究，背后需要大量的工程力量支持，在这个方面我们落后的更加多。比如说大规模计算的底层技术，云计算方面我们和国外差距仍然很大。硬件的芯片技术，包括硬件的系统设计、操作系统等，没有完全掌握核心。当这些技术没有达到优化的时候，做上层应用就会很吃亏。

以上两点是悲观的。乐观的是，我们看到很多华裔都出现在那些优秀产品的背后，包括最近的 AlphaGo 也是，三个主创中有一个就是华裔。所以这方面是很好的消息，我们也有机会超到前面去。

Dan：

我比张教授乐观，说两点：

第一，全球最出名的人工智能大会，我有一个朋友去了，他说里边一半人是华裔，而且大多数都是中国人。所以我们在各个领域里的经验是有的，把这些领域串起来会有新的突破；第二，针对语音识别领域，我们知道数据越多、越精，效果越好。这个技术是针对个人的，当你和机器人聊天，他会记得你以前讲的什么，进而可以预判。所以交流很顺畅，但是这会产生隐私方面的疑虑。很多美国公司没有做，反而在国内可以做。比如说微软，他们的这项技术就是在中国做的，所以在国内有有一些领域有机会取得领先。

原创文章，作者：IDG资本，如若转载，请注明出处

1. 遵循行业规范，任何转载的稿件都会明确标注作者和来源；2. 的原创文章，请转载时务必注明文章作者和"来源： "，不尊重原创的行为或将追究责任；3.作者投稿可能会经编辑修改或补充。

阅读延展