从“知音”看搜狗人工智能之道:深耕智能语音交互专栏

/ 杰夫 / 2016-10-17 15:39
人工智能如何从理想照进现实?
 

在日新月异的移动互联网,AI、AR/VR、机器人、无人驾驶等高大上的“黑科技”层出不穷,其中AI(人工智能)被誉为“皇冠上的宝石”,也是全球顶级科技公司和科学家们孜孜以求共同探索的“神秘之境”。


人工智能是对人的意识、思维的信息过程的模拟,来赋予计算机系统或者机器像人类一般思考的能力,甚至可能在某些方面超越人类。正因为人工智能的巨大潜力和实用价值,近年来,谷歌、微软、Facebook 、IBM、BAT、搜狗等国内外科技公司不约而同斥巨资加码人工智能产业,希望为未来提早布局。


人工智能不应沉溺在技术的美感里


不过,尽管风头正劲的人工智能吸引着大量资本和资源的流入,产业上游的公司也不断描绘出各种充满想象力的技术构想、产业愿景,但实际创造的应用和服务却与理想存在着巨大的鸿沟。


比如, 学习作为人工智能的重要分支,更多的存在于科学家、工程师们的实验室,普通人对此几乎一无所知,也难以知晓其在日常生活的具体应用;而诸如无人驾驶、无人机等被热炒的人工智能概念,国内一些公司喊出“五年内要让无人 开上路”、“改变交通和出行”的豪言壮语,却有意无意的忽略了在实际交通出行场景的诸多难点。


在我看来,一些产业公司的自嗨是为了更好的吸引资本,用户却更期待人工智能可以不止于技术噱头,能带来真正接地气、改变生活的服务。


“不要沉溺在技术的美感里。”作为人工智能领域的一名探索者,搜狗CEO王小川的话揭示了当前人工智能产业现状背后的主因。他认为,很多人工智能公司秀出的产品好像很聪明了,但演示和实战起来还是很大的区别,因此要给过热的人工智能产业去掉一些光环,而要思考它的技术和市场瓶颈在哪里。


“现在的趋势是,越是专业化的东西,机器就越有取代人类的趋势,反而是那些看似稀松平常的东西,像日常的服务、对话,机器就搞不定。”人工智能的发展规律也的确如此。


 



今年3月,谷歌AlphaGo在与世界围棋高手李世石的“人机大战”中,出人意料以4:1的悬殊比分取胜,令人人咋舌,还有人将此解读为“机器人将超越人类的开端”。但事实上,在“人机大战”开始前,搜狗CEO王小川曾预测:不仅仅是围棋,人工智能在其他博弈类的封闭游戏里,也会横扫一切,完胜人类。这是因为AlphaGo可以通过不断的 学习和进化,无时无刻的进行自升级,最后经过几十万次的训练后在下棋时几乎不会出错;而人是情感动物,有心理波动,有状态好坏,因此总会露出破绽。


李世石这样评价AlphaGo和人工智能——首先对手不是人类。新鲜的感觉有很多,我要去适应他,首先就是心理方面,非常的专注。我继续和他下不一定能赢,因为无法比他更专注,这些方面是赢不了他的。”


不过,AlphaGo给中国带来的震撼毕竟是巨大的,它给人们进行了一次人工智能的启蒙运动。谷歌执行董事长施密特这样评价人机大战——“无论最终结果是什么,赢家都是人类。”


搜狗知音突破智能语音交互“关口”


在我看来,人工智能在国内的发展,首先要思考清楚“应用场景”的问题。比如对于交通出行,现有的人工智能对于叫车服务中的大数据分析以及运力调配有明显的提升作用,但应用于无人驾驶,不仅现有技术不够成熟,国内的交通体系、配套设施都难以支持。


搜狗作为国内科技公司中“技术派”代表,此前也一直在人工智能领域低调深耕,其重点突破的就是在用户场景和技术创新两者之间找到最佳平衡点。王小川自己给搜狗人工智能的定下一个未来目标——要让技术使得生活变得更加自然。


“说了那么多人脸识别、语音识别、人机交互,但你换位从用户角度想,用户能够得到什么?他会怎么理解这些看似高大上的东西呢?这个技术能否带给他们幸福感?这才是从技术跨越到产品的关键。”


随着移动互联网的深入应用和AI概念兴起,智能语音日益成为移动互联网用户的痛点,厂商们纷纷将各自的语音交互技术应用于各大智能终端——语音输入、语音拨号、语音导航、语音拍照……不过,尽管智能语音应用方兴未艾,但并没有哪儿家科技公司推出最成熟的、一站式解决方案,用户体验语音交互服务的体验并不理想。


搜狗多年来深耕的恰恰是智能语音交互这一重要的人工智能应用场景,其领先的语音交互技术在搜狗输入法、地图导航等移动产品上得到成熟的应用。为了帮助用户摆脱传统语音交互过于机械的操作方式、过高的出错率和和低效的服务体验,今年8月,搜狗推出全新语音交互引擎“知音”。


据介绍,知音引擎的语音识别使用了目前业界最先进的“端到端”模型,技术上更好地解决了用户在说话快过程中的吞音问题,同时在训练方法上使用了一种“主动学习”方法。通过“端到端”模型以及硬件加速,搜狗语音的识别速度提升了3倍,识别错误率降低30%,大大降低了由于口音以及嘈杂环境带来的错误率。作为搜狗在自然交互方面的重要成果,知音能够提供人机交互的完整解决方案,目前已经具备了从听(语音识别)到理解思考(语义理解)再到说(语音合成)的完整闭环能力。


据搜狗CTO杨洪涛介绍,搜狗从12年开始研发智能语音技术,并在13年开始进行 学习,目前搜狗输入法语音识别准确率已超过97%,输入频次达到每天1.4亿次,较去年同期增长了55%。除了在搜索和输入法方面的应用,搜狗未来还将把智能语音交互应用到物联网、车联网和人工智能等各个方面,并尝试接入更多的终端。


可以说在人工智能时代,智能语音交互不仅愈发成为连接用户与服务的重要“媒介”,也逐渐成为厂商们掘金AI产业的好生意。打铁还需自身硬,随着搜狗知音、搜狗输入法等语音产品开花结果,搜狗也在探寻人工智能的道路上底气变的更足、步子也迈的更大。今年4月,搜狗宣布捐赠清华大学1.8亿元人民币,共同成立“天工智能计算研究院”,重点开展人工智能领域的前沿技术研发,研发成果将应用于搜狗下一代产品中。


业内人士认为,目前科技公司探索人工智能存在一个盲点——总是在找“风口”而不是“关口”,风口往往聚集了大批的竞争者,容易出现泡沫;而关口才是解决当前人工智能发展瓶颈之所在,突破那个瓶颈,就可能开创一个新天地。


以搜狗“知音”为例,其从语音交互产品的体验瓶颈出发,发挥互联网最大输入法的语音数据优势,把数据和用户优势资源转化为人工智能技术优势,最后深化人工智能技术推广应用,做大做强整个语音交互的相关智能产业。在我看来,这才是完成了人工智能的一个正循环。


展望


正如搜狗CEO王小川所言:“搜狗目前已在语音识别领域取得了重大突破,未来一方面将通过与清华合作进行人工智能领域前沿技术研发,另一方面也将在自然交互与知识计算上不断完善自身产品与服务,成为后搜索时代行业的引领者。”


从联姻清华加码产业研发投入,再到相继诞生明医搜索、知音引擎等应用服务,搜狗人工智能之道也更加清晰——从技术美感向真实服务进阶,回归“技术让生活变得更加自然”的初心。而放眼整个移动互联网,人工智能在电商、社交、出行、医疗、教育等领域的应用价值也日益凸显,幸运的是各个领域的巨头也都没有固步自封,纷纷以拥抱姿态加入布局人工智能的产业浪潮。或许在未来我们可以说,智能手机开启了移动互联网的第一个10年,而人工智能则主导了移动互联网的第二个10年。



1. 遵循行业规范,任何转载的稿件都会明确标注作者和来源;2. 的原创文章,请转载时务必注明文章作者和"来源: ",不尊重原创的行为 或将追究责任;3.作者投稿可能会经 编辑修改或补充。


阅读延展



最新快报

1
3
Baidu
map