硬创先锋俞志晨:图灵如何比Siri更懂中文?专栏

/ 国仁 / 2015-06-03 23:10
人类从来没有停止过对智能机器的追逐,各种识别模式和算法就在这种追求中诞生了。站在无数科学家肩膀上的图灵机器人就是其中之一。

智东西 (公众号:zhidxcom)

文 | 晓生

人类从来没有停止过对智能机器的追逐,各种识别模式和算法就在这种追求中诞生了。站在无数科学家肩膀上,研究了17年的Siri是其中之一,“图灵机器人”也是其中之一。需要指出的是,“图灵机器人”并非机器人,而是加载在机器人身上的类似于Siri的一整套语音语义系统。你可以把它理解为一个“大脑”。

前一阵,智东西与光年无限的CEO俞志晨聊起了他的“图灵机器人”。在他那里,我们与他详细探讨了号称目前已经达到了7~8岁小孩理解力的人工智能机器人。“图灵机器人”就是俞志晨和他的光年无限团队在语义识别领域创作的“小孩”之一——能对用户的任何提问给出合理答案的“大脑”。

可以想象,如果你告诉一个机器“我需要一辆车5分钟后去公司”“我心情不好”,它能回答你“好的,已经叫了车,3分钟后到楼下”“怎么不好?说来让我高兴高兴”——你会觉得这是一个很棒的机器吧?

图灵机器人:源起中文语义识别

在很多展会上我们都能看到“图灵机器人”。这些机器人和演示者交流,并按照演示者的指令扭动舞蹈。

事实上,这些机器人并非图灵机器人本身,它们的“大脑”才是。而这些“大脑”如何听懂演示者的语言并和演示者交互的呢?图灵机器人会把声音转换为文字,再把文字识别成有用信息。之后,图灵机器人会在整个大脑甚至整个互联网寻找合适的答案反馈到实体机器人的喇叭播放出来。

这一个流程下来,包括语音识别,语义识别,云端匹配合理回复,反馈匹配的回复。这之中的一个较为困难的环节是把文字识别成有用信息的语义识别(需要解释的是这里指出的语义识别特指自然语言的语义识别,以下同)。这也正是俞志晨的主攻方向。

说起语义研究,要追溯到俞志晨的大学时代。俞志晨和郭家是大学好友。大学期间两人一同学习了AI(人工智能)课程。从北京交通大学毕业后,两人又一同在AI领域干了10年。之后,俞志晨和郭家一商量,叫上了几个好友,一起创办了北京光年无限科技有限公司。2010年,俞志晨开始研发了人工智能机器人引擎,他给这个智能机器人平台取名图灵机器人。

中文语义识别困局和挑战

“图灵机器人”逻辑中有中文语义识别这一环节。但中文语义难理解是世界公认的。仅仅说说语境这一方面,与英文的“以词为最小单位,以空格区分”的语言结构不一样,中文不分割的特点使得中文的语境更复杂。举个例子,“乒乓球拍卖完了”。在没有上下文的情况下,人也会识别为:“乒乓球-拍卖完了”和“乒乓球拍-卖完了”两种情况,更何况智能设备。

所以中文语义识别研究这种吃力不讨好的事情一直少有公司涉足。只有中国高校、中科院、少数商业企业在做这些事。这也导致中国的中文语义识别代表着世界的领先技术(这并非理所当然)。

俞志晨的AI研究以及图灵机器人正是在这种背景下出现的。一个小插曲是,在光年无限公司的发展史上,出现过一个众所周知的事物:在实验室里呆了17年的Siri。它的最早版本并不支持中文。

中文语义研究很难。但困难的归困难,研究的归研究。AI在实验室摸爬滚打好多年,在这个年代,语义识别作为一种人机交互基础有了很大的商用价值。

需要解释的是,在AI 的模式识别中有图像识别、语音语义识别、手势识别、气味识别等。其中语音语义识别以及手势识别作为一种交互识别模式,可以让智能设备把人的行为变换为有信息的指令从而让人更好的控制设备。

图灵机器人如何实现语义识别?

语义识别是图灵机器人的重要环节,但如何完成语义识别,并给出回复需要一个庞大的系统的支撑。图灵的这个系统是很多台服务器和运行在服务器上面的程序。这些程序以模拟人脑的“ 神经网络算法”为基础。

目前,神经网络算法是模拟人脑处理的一种较好方式。按照需求不同,在神经网络算法又有了层次之说。层次越深,对信息的理解程度越高,占用的服务器资源也越多。这种算法最特殊的地方在于:能够通过用户的语义教育不断学习,变得越来越聪明。

那这种“ 神经网络算法”算法到底是怎么实现的?俞志晨告诉智东西,光年无限公司每台服务器的每个CPU核心能够模拟人脑1~2万个6~7层 的神经网络节点。也就是说图灵机器人可以模拟人脑千万级的神经网络节点。

那人脑是个什么情况?“万亿级别”,俞志晨告诉智东西,“但是我们常用的神经网络节点是1~2%”。俞志晨补充道,图灵机器人的理解能力相当于一个7~8岁小孩的。

事实上,国外的公司也在做类似的事情,比如前一阵子火热的会做菜谱的沃森机器人:IBM打造。像IBM这个级别的公司在做着上亿级的神经网络,另外他们还在研究生物芯片——可以更好地模拟人脑的运行。

图灵机器人的应用场景

图灵机器人的应用场景非常多,应用形式也非常多,比如知识库、智能生活服务、各种模式识别。俞志晨对智东西说,不管是什么、怎么用,图灵机器人的功能都是在这两点之上实现的:开放性人机对话和明确意图的人机对话。开放性人机对话有着“问题没有特别指向性,回答域广”的特点,比如“你好吗?”“我不高兴,怎么办?”明确意图的人机对话有着“问题指向性强,对回答有限制”的特点,比如“今天北京天气状况”“给我打开空调”。

图灵机器人的商业前景 

目前,图灵机器人的商业化使用已经一年多,和几十家大小企业有合作。俞志晨举了一些例子,其中比较有名的几个应用是小hi语音助手,海尔智能家居,北京电信微信客服等应用。这些应用都要借用图灵机器人的程序或者直接连接到“图灵机器人”获取反馈。

现在,俞志晨和他的图灵机器人团队除了对图灵机器人做升级优化,还在尝试获得更多的社会关注。很明显的一点是:很少接受采访的俞志晨接受了智东西的拜访(公众号:zhidxcom)。

正是因为语义识别的复杂性,使得相关公司并不多。俞志晨和光年无限在这种背景下并未有太多行业压力存在,更多是如果扩大自己的规模。

总结 

撇开图灵机器人本身,人类一直没停止对AI的关注——或者渴望或者拒绝。智东西的希望是:现在AI发展像三十多年前个人计算机的发展,在未来,每个人都能拥有自己的个性化机器人。

zhidxcom



1. 遵循行业规范,任何转载的稿件都会明确标注作者和来源;2. 的原创文章,请转载时务必注明文章作者和"来源: ",不尊重原创的行为 或将追究责任;3.作者投稿可能会经 编辑修改或补充。


阅读延展

1
3
Baidu
map