云知声+斐讯：智能音箱产品开发“十步法”_互联网_科技快报

云知声+斐讯：智能音箱产品开发“十步法”互联网

/ / 2018-03-12 12:38

正当AWE在上海如火如荼的时候，远在澳门传来了一个非常吸引眼球的新消息，斐讯首款人工智能音箱R1正式亮相。在笔者去年写《10步，智能音箱从入门到放弃》时，其实笔者所在的云知声公司正在与斐讯、哈曼共同打造R1，当时这篇文章也算是针对市场形形色色的音箱有感而发。目前R1已经正式发布，正好可以做个回顾，看看R1走了这十步后，到底是从入门到放弃了，还是到精通了。

1.市场定位

斐讯采用RK 3229，Android平台，RMB2499的定价，在发布时间远远落后于国内一些巨头的产品情况下，可以说这个对于自身的定位非常大胆了，笔者分析，其至少有2个底气：

首先，此次发布会有多个产品同时发布，说明斐讯对于这款音箱定位是AI智能中控，这也符合云知声对于智能设备发展的一贯观点，大家都从单品智能，到中控智能，最后发展为主动智能，而且演示过程中对于各个设备的控制，也印证了这一点。

其次，斐讯的0元购形式非常有吸引力，在互联网流量红利接近尾声的情况下，斐讯通过高品质的产品质量结合0元购模式，确实是探索在IoT时代如何快速获取用户的一个有益尝试。

当然，最终用户是否买单，还是要看真正的产品设计和功能，这一块我们按照剩下9步，一个个看过来。

2. 外观设计

音箱外观是第一眼印象，在这一点上，斐讯R1从配色，到手感，到光线，可以说是非常用心的。这一点通过现场图片让大家感受一下。个人还是比较喜欢这个蓝色光环的。

3. 声学结构

斐讯发布会上宣布与哈曼签署战略合作，这说明斐讯确实抓到了AI音箱这个产品的核心。无论有多么智能，当用户懒散地躺在沙发上，希望静静地听歌的时候，音质永远是第一位的。

正如之前文章所说，声学结构需要同时考虑音质效果和语音唤醒之间的双重要求，可以说当前这个声学结构是斐讯、哈曼、云知声三个团队不断讨论，论证，实验的结果，很多要求都互相影响甚至互相矛盾，比如为了环绕重低音立体声效果，必然要进行音频的相应处理，相对于普通音质一般的音箱而言，在这个要求下依然满足极高的唤醒率，需要做更多的调优工作。

同时笔者亲测的效果，R1的高音分贝极高，如何确保依然可以有效唤醒，如何确保不显得笨重情况下确保高音下的机械结构稳定，都需要在结构上做更多的工作。可以说这个声学结构是三方团队共同打怪通关的结晶啦。

4. 内容整合

这一块R1非常有信心地打出了国内最全地音乐源的招牌，云知声可以负责任地说，同意！因为我们训练过的音乐名文本已经超过国内POI的总数了。其实最初云知声与斐讯沟通合作的过程中，双方就一致认识到，如果无法解决音乐源，这个项目就不可能成功，双方甚至不用开始。正是在这个认知地驱动下，才有了当前的结果。顺便说一下，云知声拒掉了无数寻求音箱合作的客户，音乐源一直是最直接原因。

同时，AI音箱目前内容方便也在不断扩展，除了音乐，更多的内容都接了进来，而且云知声为斐讯提供的AI云平台，也可以非常方便地整合更多的第三方内容，这将推进R1的不断演进。

5. 系统优化

说起系统调优，其实主要集中在两个方面，首先当然是系统启动时间，这一个是用户感受最明显的一块。作为一款Android平台的AI音箱，R1在这一点可以说做得相当不错。毕竟Android平台无法与Linux和RTOS进行启动时间的直接对比，但是R1通过系统裁剪和反复迭代，已经在当前RK3229硬件平台上，做到了接近极致体验了。

其次是联网方式，这一块对于很多AI音箱其实是一个极度影响客户体验的关键点，在这一块，R1考虑非常全面，正如下图所示，它一共提供了三种联网方式，在用户倾向性方面尽量做到全面照顾了。

6. 远场Mic阵列

让我们来重新复习一下支撑整个智能音箱的AI系统，涉及到感知技术，认知技术以及交互技术。下图给大家一个整体印象。

这一步R1可以说是多快好省的典范，相对目前业界部分AI音箱采用的6+1Mic，斐讯和云知声配合，在4Mic上做到了相同，甚至更好的远讲拾音效果，而且声学结构设计更为简单，产生Mic差异性概率更低，数目更少的Mic，其后期维护难度也随之降低。可以说，这完全是以实际量产为目标的接地气设计。

7. 离线唤醒

作为一家非常低调的AI企业，我们云知声小伙伴一致认为发布会上斐讯这张图比较高调。不过我们依然认为离线唤醒作为云知声在家居行业的看门功夫之一，确实做到了以下三点：

快——反应速度快，R1就像是个随叫随到的助手，很有feel。

准——目前体验测试和benchmark测试，均有翔实数据支持。尤其是音乐播放下的打断和周边噪声环境下的唤醒，可以说我们还是比较满意的。

稳——误唤醒这块更是把家电行业的严格标准直接用过作为测试指标了。

8. 语用计算

云知声所提的语用计算（Context-aware NLU），就是基于场景化感知的自然语言理解(NLU)。通过5W&1H(Who，When，Where，Which，What&How)原则理解是什么人在什么时候，什么地方对着什么设备说了什么话，然后由语用决定如何回应。

R1作为一个能实现中控智能的AI音箱，在对接不同的设备时候，通过拓扑设计，将家庭环境下不同设备都做了相应的标识，以确保用户的命令能被精准识别，或者准确反馈从而实现进一步的确认。“您是要打开卧室的灯，还是客厅的灯？”将是R1可能会和用户确认的一件事了。

9. 流式交互

R1的交互还没有实现完全的流式交互，但是在AI音箱界也是一股清流了。比如在播放音乐过程中进行快捷地切换，用户无需再次唤醒，这一块也是建立在坚实地唤醒/误唤醒技术指标之上地交互设计了。

与此同时，上下文的理解，针对音乐场景的针对性理解，这些细节都在R1上有相应体现，这一块还是请各位小伙伴亲自体验吧。

10. 开放平台

开放平台这事，作为斐讯地合作方之一，我们非常佩服斐讯的规划和想象，可以说，直接把当下最热的区块链和AI最困难的数据问题，一揽子解决了。通过区块链方式，让R1用户更地参与到R1整体AI智能体系建设中，加速了R1的自我演进。

这一块我们好好学习！

结束语：作为斐讯合作方，云知声非常有幸能参与到R1中并为此做出自己的贡献，分析了这么多，最后还是呐喊一句，祝R1大卖！

1. 遵循行业规范，任何转载的稿件都会明确标注作者和来源；2. 的原创文章，请转载时务必注明文章作者和"来源： "，不尊重原创的行为或将追究责任；3.作者投稿可能会经编辑修改或补充。

阅读延展

热门话题

热文榜单