" 未来 智能化的竞争,本质上是通用人工智能技术融合应用的比拼。" 在北京车展上,商汤科技联合创始人、首席科学家、绝影智能 事业群总裁王晓刚判断说。
与传统燃油车强调引擎动力、操控性能不同,新能源车市场有两大普适性的核心卖点,一个是智能驾驶,另一个则是智能座舱。随着大模型的出现和普及,智能驾驶也好,智能座舱也好,都受到了极大的改变和冲击。
那么,在生成式人工智能爆火一年后,大模型究竟该用什么样的方式上车?
从 2024 年的北京车展上,可以明显看到车企们纷纷大张旗鼓地拥抱大模型,不仅仅是在技术层面深入布局,而且还在通过智能座舱、智能驾驶等多种用户场景出发来探索大模型的落地机会。
王晓刚在沟通中也强调说,今年商汤绝影主要就两件事,第一个是端到端的自动驾驶要落地,第二个是多模态的大模型,包括驾驶跟座舱结合也要实现落地的突破。
智能座舱不是机械搬运手机端 APP
作为驾驶员及乘客最容易感知的智能化体验,智能座舱的交互设计也同样是消费者购车与否的重要理由。当前主流车企均在智能座舱上发力,实际上智能座舱也已经成为电动车市场的 " 兵家必争之地 "。
王晓刚表示, 是一个落地大模型非常好的场景,甚至比手机还要好,特别是对于多模态的大模型。
但是智能座舱也存在诸多待解决的问题。一方面,传统的智能座舱设计往往以单点功能为主,不同功能之间相互独立,用户体验不够流畅,孤立、离散的功能组合称不上是真正的智能座舱。
另一方面, 当前很多座舱大模型仅仅是将 PC 端或手机端的大模型 APP 简单地搬运到车内,而非针对座舱场景专项定制。由于手机和座舱在交互逻辑、显示方式等都存在显著差异,这样的机械式搬运难以提供良好的人机交互体验。
对此,王晓刚介绍说,商汤绝影基于多模态大模型、语言大模型、文生图大模型、" 大医 " 大模型等能力组合,商汤绝影以多模态场景大脑为核心,推出了 AI 大模型座舱产品矩阵。
多模态场景大脑可以让智能 全景感知和 理解用户需求和周围环境,并以场景大脑为核心打通不同应用,可以全局调用车上开放的软硬件服务,将离散的单点功能聚合在一起,从而为用户提供更多 个性化的主动关怀和服务。
除了基于地理位置推荐符合用户喜好的餐厅、介绍用户感兴趣的外部自然景物,并进行优质景点推荐这样的基础功能。还可以感知车外信息,包括周围车辆的车型、标志性建筑物等,以语音、图片或视频等方式为舱内人员提供更为准确和全面的内容,帮助用户了解和掌握外部环境信息。
大模型上车的能力不止于此。王晓刚指出,根据对于用户行程安排和实时交通数据的精准分析,结合用户的表情和语气,商汤绝影 " 场景大脑 " 能够及时发现驾驶员可能面临的迟到风险,并提供两条可选路线与预计抵达时间,用户可通过手势或语音命令进行确认。同时,在得到确认后,系统还可以根据用户的表达习惯向相关会议参与者发送通知,告知相关情况。
对于落地的进展,据王晓刚介绍说,目前广汽、蔚来、长安、奇瑞都是座舱重要的客户," 还有一些量产项目现在正在谈,到明年就可以有落地的。"
"两段式 " 端到端,难以解决智驾性能瓶颈
2024 年智能驾驶最重要的技术趋势,非端到端自动驾驶莫属。
有别于传统的智驾算法,端到端自动驾驶方案是指以最终的驾驶性能为目标,通过一种集成化的方式处理自动驾驶任务,从感知到决策再到控制的整个流程都依靠 Transformer 神经网络模型完成。
去年 12 月底,理想 AD MAX3.0 系统在端到端架构下,整合了 BEV 模型、MPC 模型预测控制以及时空联合规划等能力;蔚来将在今年上半年上线 " 基于端到端 " 的主动安全功能;小鹏的下一步也是实现端到端模型全面上车。
目前,市面上不少端到端方案是在感知和决策两个模块分别搭建一个大模型框架,更容易实现落地,但 " ‘两段式’端到端方案的感知和决策两个模型之间传输的信息是人为定义的显性信息,数据传递仍然会有过滤和丢失。" 王晓刚解释说。
2022 年底商汤绝影提出了感知决策一体化方案,并在次年获得了 CVPR 的最佳论文。商汤绝影 UniAD 方案则是将感知、决策、规划等模块都整合到一个全栈 Transformer 端到端模型,实现感知决策一体化,不需要对感知数据进行抽象和逐级传递," 所见即所得 ",将原始信息直接输入到端到端模型中,然后以自车轨迹规划为准进行指令输出。
在北京车展上,商汤绝影发布了下一代自动驾驶技术—— DriveAGI 的前瞻预览,它是基于多模态大模型对端到端智驾方案进行改进和升级。
王晓刚表示, 技术还在快速的发展,不是到了已经停滞的状态,如果停滞那想得更多是降本增效,怎么去减少研发的投入,提高性价比。但今天各种新的技术层出不穷,各种软硬件的架构不断更新迭代,所以还是需要去加大投入的过程。
竞争不是光有技术路线就行
虽然自 2016 年,商汤就开始进行智能驾驶方面的研究,2017 年与本田建立了长期战略合作,但动静并不算大。一直以来,商汤给外界的认知仍然主要是 AI 公司。
王晓刚也坦言, 是一个比较长期的行业,商汤自身是一个 AI 的公司,在 行业的时间还不长。不过,他也表示," 在过去几年商汤有一些比较关键的项目交付,在这过程中,克服了很多困难并完成交付,大家的信任度会加深。另外我们也引进了一批 行业方面的专业人才,从产品设计、商业模式、工程落地等各个方面能提升自身能力。"
2021 年商汤科技推出 "SenseAuto 绝影 " 智能 平台,并于后续成立了绝影智能 事业群,进一步明确了智能座舱、智能驾驶、车路协同三大业务板块的全栈体系。
据钛媒体 App 了解,截至 2023 年 12 月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、哪吒、奇瑞、蔚来等超过 30 家国内外车企合作,覆盖超 90 款车型,累计交付 195 万辆智能 。
除了在 行业的积累之外,王晓刚也提到了另一个挑战,就是技术的发展比较快,比如大模型以及相应的落地,这些都需要一个行业认知的过程。
为了让行业有更快的认知,商汤选择有代表性的客户进行合作。比如,前不久上市的小米 SU7 将 AI 大模型带进座舱,而商汤 " 日日新 " 大模型也全面助力小爱同学车载语音场景应用。
王刚透露,近期大火的小米 SU7 也由小爱同学为车主提供智能交互体验," 不同于生成图文,车上大模型是完全不一样的设计体验,在这方面我们与商汤一起做车上大模型的适配 "。
不过, 场景与手机场景虽有通用之处,但彼此之间也会存在不少差异。
比如,因为车舱、车外本身有摄像头,所以用户可以直接针对摄像头问各种问题,甚至用户不问 也可以根据用户的状态会主动的发问。但这就需要涉及到隐私的保护、延迟等问题。
对此,商汤会更多地把一些从云端调用的大模型部署到终端。" 我们 1.8B 的小模型就可以部署到终端,大大提升体验。" 王晓刚说到。
现在,智能化已经成为了 行业的兵家必争之地,车企、智驾技术公司、互联网大厂、AI 公司纷纷涉足其中。
王晓刚在谈到竞争时也表示,竞争是一个综合因素,不是光有技术路线就可以了。首先技术方向的选择是很重要的,如果选错了技术方向,很多的资源、时间都错过了。另外除了技术方向,还要有比较好的产品设计。" 有了好的技术不一定能有好的产品。有了好的产品也不一定有好的商业模式能赚到钱。在这过程中还有交付落地、工程质量、跟车企的合作模式都是比较重要的。"
从 8 年前布局 产业开始,商汤科技已经拿到了一些车型的订单与落地项目。看起来,商汤绝影已经将智能化的入场券握在了手里,但是能否脱颖而出,还需要更多的量产项目来证明。
来源:钛媒体