6月9日,是科大讯飞成立的25周年。在司庆活动上,董事长刘庆峰在内部讲话中深入分析了如何看待语音和大模型的战略机遇、如何看待科大讯飞当前竞争态势、如何打赢大模型之战这三大问题,并坦言科大讯飞正经历创业以来最充满挑战、最扣人心弦、最激动人心的历史时刻。
刘庆峰从大模型底座能力、承担国家战略任务、行业龙头客户招标选择三个关键维度,概括了讯飞星火为何能成为多领域头部企业的首选。站在语音和大模型全新的战略机遇交汇处,他强调了从技术中来到产品中去的产品导向,通过五大核心战略来打赢大模型之战。
坚守十年,迎来语音和大模型的全新战略机遇
1999年,科大讯飞创始团队定下公司使命“让机器能听会说,实现人类和人机信息沟通无障碍”。2014年,科大讯飞做出战略判断,提出下一个发展阶段从“智能语音”到“认知智能”,“让机器能听会说,能理解会思考”。坚守十年之后,科大讯飞在2024年迎来了前所未有的全新战略机遇。
如何看待语音产业和大模型的全新战略机遇?
刘庆峰以一直引领行业热潮的OpenAI为例,从通用底座的GPT-4,到有视觉功能的GPT-4V,到语音大模型Whisper、文生视频大模型Sora,再到今年5月份发布的语音和音视频能力都有所提升的GPT-4o,每一次更新都离不开底座大模型的智慧升级。同时,OpenAI把工程化也做得更加透彻,包括超拟人、全双工对话、端到端的极致体验速度,展示了人机交互能达到更好的水平,对整个语音市场都是一个非常大的推动。
刘庆峰表示,原来的语音合成、语音识别、机器翻译等单点技术,通过大模型的理解能力、文本生成能力在后台加持提升,实现了语义理解、指令跟随、多轮对话、情绪感知、超拟人合成,真正使得语音交互得到提升。
“在这个背景下,语音领域的几乎所有应用都值得用新方式重构一遍,这就是现如今语音产业的全新战略机遇。”刘庆峰说,医疗导诊机器人、酒店服务机器人、所有企业的客服机器人等都可以重新做一遍;7×24小时营业场所的部分岗位、企业中的服务类岗位等都可以用数字员工; 、手机、家庭助手等终端的智能语音服务也能得到很大提升。类似的应用领域非常多,产业空间巨大。
他分析,GPT-4o对万物互联时代语音浪潮的推动,类似于当年Siri对语音应用的推动。它备受关注的原因有几个点:超拟人合成,使得说话不再是朗读腔调,而是真的像人一样自由对话;全双工交互,可以同时(瞬时)进行信号的双向传输,人机对话可以随时打断和继续;通过语音到语音的端到端建模实现快速反应的极致交互体验。
目前科大讯飞在超拟人合成技术方面,中英文、多语种都做到了国际领先。全双工技术方面,科大讯飞早在2016年就定义了万物互联时代的人机交互标准,包括远场、多人、全双工这些特性,2020年1月,在韩国釜山举行的ISO/IEC JTC 1/SC 35全会上,科大讯飞主导提出了全双工语音交互国际标准,2023年5月正式颁发。端到端的语音技术,背后有语音识别、文本生成、语音合成的过程,今年6月27日,讯飞星火V4.0发布也将给大家展示最新的端到端落地成果;端到端的语音技术建模,科大讯飞有全栈技术方案,也排在计划中,需要算力和时间去实施,预计三季度推向市场。除此之外,科大讯飞还可提供GPT-4o没有的一句话复刻、高噪音场景语音识别、多方言多语种免切换功能。
“大模型时代的语音技术本质上是一次推动万物互联和原有人机交互场景重构的巨大产业机会,科大讯飞一定能够抓住最好的核心技术和应用的红利。”
刘庆峰透露,下一步,科大讯飞将发力远场高噪音多人说话场景、高表现力个性化场景、云边端一体化、软硬件一体化,从技术优势、市场先机、落地成效构建全方位持续领先优势。
大模型日益展现出的巨大潜力,让行业赛道内玩家云集,各种技术评测榜单层出不穷。刘庆峰一方面拿事实说话:讯飞星火在过程中不断迭代,5月底上线的讯飞星火V3.5 Max版本已在文本生成、知识问答、逻辑推理、数学能力上超越GPT-4 Turbo 0429的最新版本;一方面也冷静分析:大模型的能力可达程度也是分台阶的,“就算是榜单第一,就算是超过了GPT-4 Turbo当前水平,面对今天的产业战略机会,还要看大模型在哪些领域能真正实用。”
刘庆峰认为,大模型能力可达的程度是分台阶的,可以分三个层次:第一,一般难度任务,比如文本摘要、文本生成、要素抽取、基本意图的识别等,使用通用基座模型或数千量级的SFT(一周左右就能做完),能达到比较好的程度;第二,中等难度任务,比如检索类知识问答,需要有一个结合检索和 分析的场景,再如单场景的专用智能体,这就需要10万级别的SFT并做比较深的优化才能有性能的显著提升;第三,高难度任务,如高难度数学推理、长链条知识推理问答、开放领域的通用智能体等,短期内难以达到好用水平,需要更大规模参数的大模型并配合专用领域的算法模型才有可能完成,目前还在探索阶段。
举个例子,保险的知识问答是人机对话的典型应用领域。2023年11月,中国人民保险集团联合认知智能全国重点实验室和科大讯飞,研发了人保首个百亿级参数的专属问答领域大模型——“数智灵犀一人保大模型”。今年以来,通过数万量级的SFT微调并采用全新技术方案,实现长文本能力的大幅提升,使得规模文档的问答效果相对提升了70%以上。
在全新的战略机遇面前,刘庆峰亦坦言:今天大模型拼的不仅仅是底座能力,还必须围绕刚需的使用场景构建真正的核心优势。
三个关键维度看讯飞星火的领先地位
刘庆峰从大模型底座能力、承担国家战略任务、行业龙头客户招标选择三个方面给员工阐释了讯飞星火的领先地位。
大模型底座的技术实力上,从认知智能全国重点实验室牵头、中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同参与设计的通用认知大模型评测体系看,今年5月底升级的讯飞星火V3.5 Max,已在多个能力上超过GPT-4 Turbo 0429的最新版本,在国内可测的大模型中处于领先地位,尤其是在文本生成(特别是英文)、逻辑推理、数学和代码能力上领先优势显著。“当我们在通用能力上紧跟国际最先进水平以后,我们在教育、 、医疗等专用领域就可以实现超越。”(注:2024年高考期间,多家媒体和专业人士用高考中英文作文题和数学题对大模型能力进行测评,讯飞星火不仅占据榜首,并超过GPT-4o。)刘庆峰预告,6月27日讯飞星火V4.0发布,将会进一步强化国内的领先地位。
从使命站位看,作为国内第一个基于全国产算力平台训练的大模型,完全自主可控的讯飞星火也承担了国家发改委、工信部、科技部和中科院的多项国家战略任务,不断夯实“国家队”地位。“从长期来看,国家选大模型国家队是综合国力的较量,决定了国家的科研范式、产业形态和竞争格局。”
第三方的客户选择是大模型竞争力的重要体现之一,讯飞星火也成为多领域头部企业的首选。
在央国企市场,讯飞星火已成为国家能源集团、中国石油、中国移动等行业龙头客户的选择。其中国家能源集团的能源大模型招标后选择科大讯飞;与中国移动联合打造的5G AI商务速记和全新移动APP,在5月23日第七届数字中国建设峰会上正式发布;中国石油也选择了和科大讯飞共同建设“昆仑大模型”。
经过客户的层层比选,讯飞星火已经成为 、家电和机器人领域大模型应用的首选品牌。
在 领域,奇瑞、蔚来、广汽、一汽等国产品牌都在和讯飞合作,国际 品牌大众在评估后也迅速落地应用,于3月13日发布首款搭载星火大模型的车型“ID.UNYX” 。
在家电领域,海尔的家电大模型招标后选择了科大讯飞。公司还在和美的集团、海信集团、TCL集团等家电企业开展全方面合作。
科大讯飞与优必选、傅利叶智能、宇树科技、朴津智能等品牌开展合作,赋能近400家机器人企业。
刘庆峰说:“这些都是客户慎重选择、各家PK的结果,代表着讯飞星火真正的硬实力。”
讯飞星火的C端用户粘性也越来越强,涌现出很多热门助手。后台数据显示:绘画大师使用次数1674万;写作助手使用次数596万;文案助手使用次数400万……
今年5月初教育部公布了首批18个“人工智能+高等教育”典型应用场景案例。其中,北京邮电大学的“‘码上’——大模型赋能的智能教学应用平台”、国家开放大学的“基于AI技术的大模型个性化英语教学创新实践”,都是由讯飞星火大模型提供的技术,刘庆峰认为:“除了大家都喜欢用的口语学习工具‘星火语伴’外,基于代码能力延伸出个人助手和学习工具,也将一定会成为每个人非常重要的助手。”
从技术中来到产品中去 打赢大模型之战的5大核心战略
站在语音和大模型全新的战略机遇交汇处,拥有领先的身位,科大讯飞究竟要如何打赢这场大模型之战?
刘庆峰分析,大模型时代科大讯飞核心战略组成包括:第一,赋能现有的软硬件和行业产品,形成基本盘。背靠科大讯飞的根据地业务,深入教育、医疗、工业、 、家电等行业赛道,同时打造基于大模型的翻译机、学习机等王牌硬件产品。第二,开拓以央国企为代表的重点行业客户市场。按照大模型能力可达程度的三个台阶,提供真正解决行业和企业刚需的方案。第三,开辟新兴赛道的软硬件一体化授权和新硬件机遇。比如机器人硬件、医疗硬件等。第四,在万物互联时代,AI助手的入口级战略机遇。以“能听会说”为前端,以“能理解会思考”为后端,将极大推动万物互联时代进程。第五,推进“讯飞超脑2030”计划,迈向家庭陪伴机器人的万亿市场。
他也透露部分“大模型成绩单”,其中大模型赋能的智能软硬件产品成为业绩增长的关键来源:今年618实现“开门红”,C端智能硬件的销售额实现了同比82%的增长;今年1-5月份科大讯飞AI学习机销量增长153%,用户净推荐值持续行业第一;星火大模型赋能的智慧黑板,已形成代差级领先;中国 出口的多语种技术几乎全部由科大讯飞提供;以智医助理的能力延伸出来的家庭医生随访和慢病管理已经覆盖了中国1.3亿的居民;健康终端方面,讯飞助听器的销售额翻番增长,2023年在京东天猫618&双十一获行业第一。
讯飞的人工智能产业生态也在蓬勃发展,去年5月以来,讯飞开放平台的开发者团队增加了200万以上、总数增长了66%,大模型相关注册开发者团队51万,其中企业开发者32万、个人开发者19万。其中不仅仅提供软件,更有软硬件一体化解决方案。
刘庆峰表示,大模型应用落地的一个关键是云边端一体化和软硬件一体化,在底座能力和垂直方向上要做透还要做好,用更小的算力做出相对更优效果。“在云侧,我们有很好的大参数的通用模型(各种不同尺寸都有),也有星火一体机、‘飞星一号’算力平台等完全自主可控的硬件支撑;在边、端侧,科大讯飞有在 等行业落地的中等参数模型和软硬件一体化方案,也有完全能够在手机等智能终端上安装和使用的‘小’模型和方案。从而形成了云边端一体化和软硬件一体化的综合落地优势。”
船到中流浪更急,刘庆峰说,抓住大模型红利的关键,最重要的还是“顶天立地”:核心技术保持业界领先,大模型底座做到领先,云边端软硬一体化做到领先。“从技术中来,到产品中去,才能真正改变世界。”聚焦市场导向,做出典型领域的刚需产品,“把大模型赋能做到实处,把市场空间真正激发,这是我们要做的事。”
会上,刘庆峰也明确,科大讯飞价值观的第一个就是一切为客户创造价值,公司下一步也将通过一系列机制推动面向战略市场领域的产品聚焦,让产品最终能真正给客户创造刚性的价值,可衡量、可评价。
“本轮的通用人工智能,从国内外的发展看都是‘大平台加英雄主义’,没有通用大模型的底座能力,没有算法、数据等各方面的积累,就没有办法做出改变世界的大模型应用和产品。所以必须站在大平台之上。”刘庆峰说,从底座能力和承担的国家战略任务看,讯飞星火就是这个大平台,再往后大平台属性还会进一步增强;除此之外,还要有英雄主义,让每个人的创造力真正被激发出来,成为充满想象力、充满战斗力、充满开拓精神的英雄。
*文中数据来源于实际应用和外部榜单