王小川再谈AlphaGo：如果机器的目的是存活下去，就是在创造生命了_观点

王小川再谈AlphaGo：如果机器的目的是存活下去，就是在创造生命了观点

虎嗅 / 王小川 / 2016-03-26 09:53

当AlphaGo赢了李世石，在围棋界和科技界引起巨大轰动效应，而在这场棋局开始之前，搜狗CEO王小川就在知乎上预测AlphaGo将完胜李世石，在比赛的过程中他也担当嘉宾现场解说...

王小川再谈AlphaGo：如果机器的目的是存活下去，就是在创造生命了

注：当AlphaGo赢了李世石，在围棋界和科技界引起巨大轰动效应，而在这场棋局开始之前，搜狗CEO王小川就在知乎上预测AlphaGo将完胜李世石，在比赛的过程中他也担当嘉宾现场解说棋局，甚至任性地宣布，只要AlphaGo赢了，就放假一天，甚至将那天定为搜狗的“狗胜节”，这样一个对人工智能和技术狂热的CEO在3月24日博鳌论坛《人工智能——探索生命疆界》圆桌上跟我们进一步复盘了这场围棋比赛，通俗易懂地揭示了AlphaGo的工作原理，并引申到大生命和哲学的高度……

“（没能在学习上做起来）这是我觉得最近几年最懊悔的一次”

梁冬（正安中医创始人）：前段时间有个很热门的话题就是 AlphaGo 和李世石的对抗，很多人认为这是一场关乎机器和人类的对决。我们应该怎么看待这件事情？小川兄应该是中国最有资格对这件事情进行解读和评价的人，我听说前段时间小川兄在更早之前，其实就想在搜狗内部启动一个类似于 AlphaGo 的一个研发，去做跟围棋的博弈和对抗，当时怎么样？

王小川：去年初，我们已经开始意识到了学习这样一个技术有机会应用于下围棋，所以我就希望在内部、外部找到适合的人一块做这个事，但是很可惜，限于资源、精力没有凑起来。但是我对围棋非常感兴趣，所以今年一月底谷歌的论文一登出来，我立刻说谷歌会完胜李世石，原因是看了论文之后，我发现里面的内容跟我们之前对于人工智能，对于学习理解的模式是非常一致的，所以一方面是自己本身有这样一个信仰，然后一看谷歌已经走在前面了，我也相信它的技术实力，也就是 80% 是对技术的理解，20% 是对谷歌和人工智能情怀的认同，所以我们认为它们有能力做好这个事情。

梁冬：你发现另外一个高手做出来了，而且做得还很好，你不觉得这是一件人生的遗憾吗？

王小川：这是我觉得最近几年最懊悔的一次，所以再后来我做了很多弥补工作，所以在后期我参与进了这件事，包括对技术的解读、参加现场直播等等，可能弥补了 10%，但还是有很大的遗憾。

梁冬：这几年在全球中学习最新的方式是什么，为什么学习这几年会突飞猛进，它和以前深蓝战胜国际象棋冠军的那一种学习有什么不一样，这种学习的模式是不是可以自生长，长到有一天完全失控？

王小川：这是一个挺技术化的问题。深蓝是 IBM 当年推出的 RS6000 型号的像超级计算机一样的机器，1997 年，在第二场比赛中把卡斯帕罗夫打败了。但是深蓝与今天谷歌的 AlphaGo 的计算力还差了三万倍，时代变化，接近 20 年的时间里，计算力是突飞猛进的变化。但事实上，AlphaGo 并不简单的只是赢在计算力的提升，否则就不会有围棋选手一边倒的认为人类一定能赢，即便是科技圈的人，对于学习有理解的人，大多数的评价也都认为机器以后会赢，但这次赢不了，所以在这里面到底发生了什么样的事情呢？

自深蓝之后，技术有了三次跨越，深蓝的技术其实就是靠人写的一些规则来指导机器做搜索，你下一步棋，我下一步棋，然后下了十几二十步之后，它开始判定棋局上谁占优。机器搜索的方法其实是依靠人在里面做的很多的设定，“每一步该怎么走”这样输入到机器里面去，所以其实除了开局有棋局以外，大体上是暴力的搜索。我算过一次，大概搜索十三到十四层，每次展开三到四个页为节点。

今天我们用一个台式机，甚至一个笔记本就已经可以赢顶尖的国际象棋选手，计算力的提升已经使得象棋问题彻底被解决了，甚至能够让顶尖的国际选手一个兵，甚至两个兵，然后再做开局也能赢。人类在国际象棋里面已经被碾压了，只剩下一个底线——围棋。围棋没法突破，因为国际象棋和围棋在搜索空间的大小上有巨大的差距。国际象棋搜索空间其实不够大，现在的笔记本就够用了，而围棋的变化数比宇宙间的原子总数还要多，所以如果只是用穷举这种暴力方法是不可能的，用原来的搜索方法就不行了。

我们往下就开始向人去学习，把人的思考方法交给计算机，进行了三步变化，第一件事情就是我们把人已经懂得的规则交给机器，这是原来的方法。所以以前的工程师不管是做下棋还是做医疗的，或者写电饭锅控制程序的，都是把我们懂得的规则写成一个代码交给机器，或者把数据给它，然后人在里面做指引“什么数据要怎么处理”，来教会计算机对当前的真实物体建模型，把它变成一种特征，然后在里面去做一些分类算法之类的工作。人需要像教小孩一样，把数据的特征描述出来，告诉机器求解的方法，这是传统的机器学习教会机器的第一件事。

但很多时候，我们自己都不知道方法是什么。比如我们说梁冬，你看见他的时候知道他是梁冬，但是你要如何告诉别人你是怎么知道他就是梁冬的？这就难了，是眉毛粗还是脸方？所有的描述其实不支持通过建立模型把他识别出来，所以在有些问题里面发现我们人已经很难把方法告诉机器，甚至自己都没有一个方法的理解。这件事困惑了我们非常久，即便到 2006 年之前，我们都很难应对这种说不清道不明的事，怎么办呢？

2006 年出现了一篇论文：《学习》，它提倡使我们的计算机去仿照人的大脑皮层的工作——当人的视觉看到一个图像之后，在大脑皮层从第一层里面变成刺激你的神经元，然后神经元把这个信号传给下一层，然后它就很广泛的连接。下一层如果一部分被点亮了它就往下传递，传递几层之后就能做这样的识别。神经元是有参数的，什么样的刺激你有什么样的反应，这是人识别的基本工作的原理。机器开始仿照人之后，我不用告诉机器这个方法，我的神经元模型里面只输入梁冬的头像，告诉他这个头像叫梁冬，就有答案了。

在这之后，学习变成了一个方法，是不告诉机器方法，只告诉机器输入条件和答案是什么，让机器进行学习。代价是需要更多的数据，结果是人变得更加轻松了。我们的工程师对于医疗、对一些图像、语音，原来这些领域里面没有足够多 knowhow 的地方，现在我们都敢于进去，只要告诉机器答案是什么，机器就可以自己去思考怎样求解。

“谷歌把 KGS 的服务器上人类棋手六段以上对弈的 30 万盘棋放在机器面前，就让它去学习”

梁冬：我前几天碰到过一个老和尚，我说什么叫“我执”？他说我执就是“坚定手段、变换目标”的人；“坚定”就是“坚定目标，变换手段”的人。所以我们要做的事情就是一个坚定的人，而不是一个“我执”的人。手段其实是基于道的，就是像水一样，哪里有空间哪里流，总之我流到哪里都是可以的。

王小川：谷歌就是我不告诉你这个方法了，我也不知道方法是什么，像人下围棋也是棋感，跟人脸识别一样的。所以谷歌就把 KGS 的服务器上人类棋手六段以上对弈的 30 万盘棋放在机器面前。在什么局势下，人是怎么落子的，30 万盘棋大概有接近三千万棋局和答案，就让它去学习，学习之后机器不仅把这 30 万盘棋学会了，它自己这个过程里面会产生对类似问题的分析能力。所以棋局变了之后，它也能够根据以前的经验，它能够去做判断。不是记住这 30 万盘棋，而是 30 万盘棋有个泛化能力，一下子就变成了人下棋的方法。数据表明，给它一个棋局，它往下怎么走子的仿人能力达到了 57%，就是每一百个子下下去，其中 57 个子跟人的直觉的下法是一样的，这件事情已经有巨大的突破了。这件事情做完之后，剩下 43% 跟人不一样的，不代表它不好，所以它具备了很高的棋力。

根据评判，AlphaGo 已经达到了五六段的水平，学习了棋感的过程，以前教它靠搜索或者规则开始建立棋感。但这并不是谷歌能力能赢人的地方，毕竟 30 万棋下去只是六段，它跟人的思考能力还是有距离。

然后谷歌觉得还不够，就进入了第三个阶段。谷歌就把 AlphaGo 变成了神经分裂的两台机器，按照刚才人下棋的方法，它自己可以做少量随机的变换去下，就像金庸小说里的老顽童“左右互博”，有可能这局赢了，那局输了，就是自己跟自己打，然后让机器倒着去推，这步棋怎么没走好？

这个阶段的做法，不是给答案，也不是给方法，只是在最终告诉它在目标上是更接近还是更远了。赢了，让它倒着推，输了，自己回去算怎么输掉的。

这也像是我们跟人互相之间的学习，比如小孩子被烫了，不是我告诉他不要碰，而是他自己感到痛苦，知道以后不能碰——这种学习我们叫做巩固学习或者增强学习，既不给方法也不给你答案，而是只是让机器自己找到答案之后，我去评价你这个答案是让你更好了还是更差了。这个时候机器就追逐赢的目标，而不是追求每一步棋怎么走。我认为这是跟人学习一样的，给你方法、给你答案，还是最终只是评价你。

但我们觉得机器在赢棋这件事情上，AlphaGo 是非常局限的，它的胜利有两个条件:第一个，只是下棋赢，赢棋是唯一的目标；第二个，它只能在 19×19 的棋盘上，我们如果把棋盘从 19×19 变成 20×20，机器就傻了，因为它的环境发生变化，如果是人下棋，变换棋盘其实对水平影响不大。

另外，人还有种能力，能够把学到的经验转移到其他事情上去。我们知道围棋选手思维会很缜密，下棋会教会他做一种利益交换，下棋不是光把别人打掉，他是在想到底走先手还是走后手，局势里面互相之间能够得到一种平衡。人的思考会把一个经验转移到其他领域里面去，他有这样的变化，而今天的机器还远不到，所以你叫它有意识有智能，它只是在一个局限的环境里下棋的一个机器。

“如果机器的目的不是赢棋或者输棋，而是能够存活下去，我觉得它们就在创造生命了”

梁冬：现在很多人都在讨论 AlphaGo 会下棋之后，它会不会去学习别的东西，因为会下棋只是乐趣，但如果它学习的能力到另外的领域，比如说医疗、律师，会不会影响我们？这些学习的方法一旦被打开，会不会像潘多拉的盒子？

王小川：你刚刚题目叫转移学习，就是把一个领域学习的知识运用到其他领域去，这是 DeepMind 在做的一件事情。这个团队是英国的，谷歌大概花了 4 亿英镑全资做的收购，当时 20 人，现在 200 多人了。我们刚刚看到这个机器通过用监督学习，把人类历史的 30 万盘棋先学会了，然后再自己跟自己下去超越人，通过这样一个路径，把人类四千年来的经验提升，然后再去超越、进化。

这个时候，谷歌还干了另外一件事情，它想——我如果不要去学习人之前下棋的方法，或者下棋的答案，我就让这个机器自己跟自己下，一开始可能很傻，这两个机器随机落子，但是最后也能有输赢，让它从一个白痴去进化，是否它最后也能变成一个下棋的高手？现在已经在做这件事情了。这时候这样的一台机器，以下棋为目标的时候，它已经脱离了人之前的经验，有可能会进化出来一台跟人走棋风格完全不同的机器。

如果未来谷歌能够把这个计划做成，宣布跟柯洁再打一仗，那人类压力就更大了，他面对的不是有人类经验的棋手，而是完全进化出来的一个棋手，它的目的不只是赢棋了，而是好奇当智慧和经验从零开始进化的时候，是否只有人类这一条道路。

从这个延伸下去我们再想另外一个问题，如果机器的目的不是赢棋或者输棋，它的目的是这个机器能够存活下去，甚至能够产生自己的繁衍，把这个当成目标，不只停留在 19×19 的棋盘上，而是变成你要生存的地球，或者一个实验室里面，我觉得它们就在创造生命了。生命的本质无外乎在这几千万年里面自己存在下去，所以人开始进化，发展出两条腿两条手，发展出眼睛鼻子，开始有智力，甚至有了情感，有了社会的道德。

梁冬：你刚才带出了很有趣的观点，你认为广义上的机器会衍生出自己的情绪、意志，甚至好恶？

王小川：有可能，现在国外科学家在做这样的试验，所以从 AlphaGo 里面，我们看到的不只是一个会下棋的机器，不只是看到一个智能这个词，而是看到怎样推动一种进化，而这种进化有目标。我一旦设立了目标、设立了环境，如果我有合适的算法，我最后在这个环境或者目标下，就能培养出来一种能生存的能力。AlphaGo 是赢棋的能力。但如果它是生存的能力，它就变成一种我们认为生命，生命其实就是生存和繁衍，所以在 AlphaGo 的道路上，我们在国内只关心机器打败人，但是确实在技术里面它们做得更远。

“我在《复杂性》这本书里面找到了到迄今为止对生命解释最好的定义”

梁冬：你刚才提到“生命”，一直以来人类有一种骄傲，认为我们始终是一个独特的 something，我们是有生命的，它们是没有生命的。站在你的角度来看，什么是生命？人工智能是否会演化出它自己的生命？

王小川：这是很大的问题，我已经想了十五六年了，然后也有自己的一些答案。我先讲一个我读研究生时候的事，我当时的工作是搞计算机和生物信息，就搞基因的，所以我的毕业论文做的是基因测序。那会儿我就开始理解到，发现基因的一个变化，从 DNA 变成人的过程，是一个机器复杂的过程。我们说苹果落地是特别简单的一件事情，或者说公司倒闭，所有的现象里都能预测它的未来怎么变。但是基因核心是能够把自己变成一个蛋白质，DNA 上有很多基因，变成蛋白质，蛋白质后面就变成你身体的一个组成部分，或者是一种催化剂，称为有机催化，它比无机催化速度会快一万倍，大家还记得吗？这是中学里讲的知识。

我们知道，人的身体处在无时不刻的变化之中，这种变化我们是否通过计算得出结果：给你一个 DNA，然后计算这个 DNA 最后长成什么样的生命？我就好奇这个问题，无论以我十几年前的技术，或者今天的技术，一样是不可解的，甚至 AlphaGo 的能力也做不到。我们其实给了你 DNA 之后，很难去预测它未来长成什么的样子。我们听过蝴蝶效应，蝴蝶效应就是指在一个混沌的复杂的系统里面，一点微弱的变化，误差就开始产生积累，最后就完全不一样了，就是这种情况。

但是这种情况下，我认为在基因里面也应该有蝴蝶效应，原始点出现变化，最后结果就会不一样。每天上亿次的变化，我觉得不可思议的是，我们今天觉得特别自然一件事情，但是我们用计算机的变化去模拟的时候，计算力是完全无法支撑的。我们通常认为只要一点变化，人最后就长“没”了。就好像做“天气预报”，我们今天能预测大概两天，还比较准，预测七天就很难了，预测十天基本不可能。

这种情况下我们要用多少数据？第一个，我们要把整个地球的数据都采集到。第二个，计算力极大，我们要把空间分成小格子，每个小格子里有温度、湿度、气压，用微分方程做迭代，预测后续的变化，即便这种计算下，我们也只能计算几天后的情况，不会太久的，但是你要知道，人类体内的基因变化或者带来人体的化学反应，可能比地球的大气还要复杂，而且这种基因驱动我们不止七天后的稳定性，它甚至注定你六十年后你会长成什么样子。所以这样一种力量让我产生了想去理解这种现象和变化的想法。生命其实蛮奇迹的，它能够绕过世间很多的不确定性，所以我开始相信宇宙里有很多事物，是能够去对抗环境的变化的。

你看到 DNA 的时候，不用管周围环境、家庭、国家，就能明确知道能长成什么样的结果，一个局部的因在很长的时间里面带来一个确定性的结果，这是我当时对生命特别好奇的地方。科学是什么？它有个定义——是我们用来解释过去或者我们用来预测未来。

在我们人类所谓的智慧里面，核心的一个工作就是能了解过去的原因，对未来能产生预见。以蝴蝶效应看，我们其实很悲观，我们世间万物有太多的不确定性，但是以生命的视角看，很多事情冥冥之中就会走到那个结果里去。未来如果它变成一个能确定事情的时候，我才有研究的基础，所以我就开始在想，宇宙中间到底什么事情时候是能够被确定的？

先回到这个问题，最先变成一种不是偶然现象，变成一种必然，甚至越来越确定，确定的概率变高。“确定”如果换成专业词的话就叫“有序”，有序是跟混乱和无序相是对应的。有序和无序，物理学里叫熵。定义熵之后，我们有一个很悲观的想法，叫热力学第二定律，讲到封闭系统，熵值是单增的，也就是说一个封闭系统一定会走向无序的。但是事实上我们今天看到的还好，我们这个系统是开放的，它是不断有能量的注入，甚至有物质的交换，不是一个封闭系统，就能开始产生有序，而且有些有序的系统或者子系统，它还能影响周边，让自己的有序变得更多，这种现象我们怎么定义？

后来我看一本叫做《复杂性》的书，这本书是诺贝尔物理学家、生物学家、经济学家一起写的。我在这里面我找到了到迄今为止对生命解释最好的定义，用了两句话——第一句话是叫做“性状相对稳定”，它是四条腿不会突然变成六条腿，如果我砍了你一下，你可能流了血，但是你会开始愈合，就是你要在环境面前让自己回到原来的状态里，回到原来有序的确定性里面；第二句话叫做“能够自我复制”，就是能把自己的这种状态，这样一种确定性变得更多——满足这两条叫做生命，到目前为止，我认为这样定义是不错的。

梁冬：这是个蛮烧脑的话题，这么说，一个组织是有生命的，因为我们会发现很多公司有自我排异性，不适应这个组织文化的人就会离开，当这个公司出现问题出现危机的时候，这个公司有一种冥冥的力量，能把这些人团结起来让公司继续发展。当我们用有序性这个逻辑来重新衡量对生命看法的时候，我们发现生命不仅仅是在动物或植物身上，而是扩展到更宽泛的地方，如果这样的话，就会得出一个特别有趣的结论——当人工智能开始意识到他需要自己建模，自己有序化所有行为的时候，它就开始演化出它的生命力了。

王小川：如果一个机器能够让自己存在，而且让自己产生复制，那就开始进入到生命的领地了。生命的本质我们看上去是奇迹，但是在宇宙里面是很广泛的，在地球上任何角落都有生物，即使在特别寒冷的地方也能够繁衍。

生命怎么产生的？有一个诺贝尔化学奖的人，他提出了好善结构理论，核心讲的就是在无序中间怎么能够产生有序，他甚至用数学方程式去证明这件事情。他认为满足三个条件：

这是个开放系统，它需要跟外界做物质和能量的交换；

这个系统本身里面的反应是非线性的，它的变化是能被放大和积累的；

这个系统当前是不平衡的。

只要满足这三条，在无序当中就能够产生有序，这个事情成为二十世纪最后一个重大的一个哲学思想，无序和有序其实代表了无机和有机两个世界，以前我们认为无机跟有机世界是隔离开来的，但是他在理论上证明了在无序的世界里面是能够变得有序的。

梁冬：无机物可以变成有机物？

王小川：可以做这种转换的，这就打破了我们很多固有的思想。在数学层面，在科学层面，它已经有一些对应的解答，从无到有的过程是自然的一个过程。

梁冬：《裸猿》是 1960 年代特别有意思的一本书，这个作者说，如果你真正的研究了人类这种灵长类动物变化的过程的话，你就会不得不承认，它只不过是众多动物当中的一个，没有你想想的那么了不起。在你的视角里面，你也认为人类似乎没有我们想象的那么与众不同。

王小川：没错，这件事情是我在研究生时期的一个重大的思想转变。生命是能够性状相对稳定，就是有序，还能自我复制，那么你体内的细胞是什么？体内每个细胞也是相对稳定性状的，它有细胞膜，有线粒体，有细胞核，细胞进行分裂，我们身体的 DNA 是什么，双螺旋结构，这个双螺旋结构有非常清晰的有序性和性状稳定，然后在适当的酶的刺激下会产生 PCR 的过程，会变成两条 DNA，然后把其他的核糖核酸放上去产生复制。这太可怕了，我体内的细胞或者我的 DNA 也是一种生命！要去接受这样一个现实，那么就改定义，定义改来改去改不出来一个恰当的描述。

往上走，一个公司其实有它自己稳定的性状，而且很多公司也很相象，公司也要维持自己的稳定，如果这个市场发现收入减少了，那这公司就一定会说我去另外开拓一个市场活下去，就像人，今天没有面包那就吃馒头。在这种情况下，我就更没有让自己特别自大的理由，不断想，我就是在大环境中的一部分。

所以在这样一种思想里面，我们会打破很多的执念。我们其实很痛苦的，像早年间我们开始有了哥白尼，他发现了地球不是宇宙中心，已经引起了一次恐慌，大家知道我们人的存在意义变小了，但大航海时代到来了。这次 AlphaGo 里面，我发现最受打击的一个群体是围棋专业选手，我第一场比赛的时候是跟余斌总教练在一块，最后他整个人处于一种精神恍惚的状态，他作为棋手自己的尊严和自己的一种使命感，这种恐慌对于我们每个人可能都会有一些。

“边界越大，你输出的解答越开放，没有固定的答案，那会更难被取代”

梁冬：这个话题最后要讨论的一个问题，再过五年十年，以你的预测，你认为什么样的人是有价值？如果你有一个孩子，应该如何培养，让他在十五年以后还有价值？

王小川：这个时候我们就回到机器学习的本质，虽然它很多事情做不到，比如语言机器没有掌握，在有限时间里机器做翻译是蛮困难的，因为它没有概念没有推理，但是拉回来我们怎么来思考这个问题，机器能干什么？

以现在的方式，机器是有两个限制条件的，第一个限制条件是它的工作环境是相对封闭的，只是在棋盘上或者它输入的信息是有限制的，所以如果我们干的活，我们处的环境让我们做决策做解答的时候，我们输入信息是一些固定限制的信息，比如做审计师，如果你看的都是财务报表，你输入的数据都是在一个封闭的环境里面的数据，然后你的答案都是标准化有解答的，这种岗位就最有可能被机器取代，答案越标准，而你所要应对的问题越是这种单一，越集中在一个有限的数据驱动你做事情，这种岗位就更有可能被机器干掉，一旦机器干的话就比人干得好。比如司机，司机其实面对的环境数据是有限的，无外乎你就看看窗户外面的数据，你的最终目的就是别撞了，把车开到目的地。环境越简单，你最后的动作越标准，这样的工作岗位最容易被取代。

你可能要了解整个世界，整个人文，了解所有发生过的事，探索更大边界，不仅你们村的事，美国的事情中国的事情你都知道，边界越大，你输出的解答越开放，没有固定的答案，那会更难被取代。

1. 遵循行业规范，任何转载的稿件都会明确标注作者和来源；2. 的原创文章，请转载时务必注明文章作者和"来源： "，不尊重原创的行为或将追究责任；3.作者投稿可能会经编辑修改或补充。

阅读延展