大模型领域前一阵有个刷屏新闻,现代知名音乐制作人Rick Rubin和Anthropic合作,对《道德经》做了个二创,通过改编老子的原文,写了部《编码之道》(The Way of Code),对AI编码这种新开发方式做了一次哲学诠释,受到社区的热烈追捧。
其实技术的发展往往是这样,技术自身固然重要,但其背后的理念可能更重要,因为它才能决定技术发展究竟要向何处去。
不久前,我拜访了位于深圳的卓驭科技,一家“又新又旧”的公司(稍后会解释),并和卓驭科技CEO沈劭劼,阿里云智能集团公共云事业部副总裁、AI 行业总经理李强一起做了一场 的播客访谈。
在剪辑回放这期播客视频时,当我看到沈劭劼解释“为什么把智驾系统,从原来百万代码的规则逻辑,改成端到端逻辑”时,我脑海里突然冒出老子的一句话:为学日益,为道日损。
老子原本表达的意思是:当我们刚开始学习某个领域时,总是先去掌握更多的知识、技巧和规则,就像往背包里不断装东西,这就是“为学日益”;但当我们真正精通这个领域时,我们开始明白什么是本质的、什么是多余的,开始学会舍弃和简化,最终抓住事物的核心规律,这是“为道日损”。
至于为什么我会联想到这句话?我们就得要理解卓驭这次技术路线转换蕴藏的 哲学,从卓驭科技的发展原点说起了。接下来,我们要讲的是一个基因传承和创新的企业故事。
另一种L4:天空到地面的技术传承
我们刚才讲卓驭科技又新又旧。卓驭之新,在于它在法律意义上是一个很年轻的公司,2023年才成立;卓驭之旧,是说它的技术、业务本身并不年轻,极有沉淀。从无人机产品出发,到投身智能驾驶技术,卓驭的相关工作早在2016年开始了。
无人机与 智驾,虽然一个在天上,一个在地上,但有天然的技术关联,它们都可以用L1到L4这样的指标体系,描述智能驾驶的程度。而用沈劭劼的话说,无人机其实早就已经到了L4了,原因很简单,“因为天上没有人来人往”。
所以在2016年,沈劭劼决定和团队一起挑战“机器人学的皇冠”——智能驾驶。然而独立运作的第一步,卓驭先思考的还不仅是技术问题,而是商业模式问题。
沈劭劼说,最开始其实花了很长时间去想到底怎么样才是一个可行的商业模式,能让业务活下去,并发展壮大。他回忆道,团队想过的商业模式包括Robotaxi、低速物流车、干线物流等等,方方面面都有。虽然模式想过很多,但 “造车”这个选项很早就排除掉了,“想了半天就没想到怎么能把车造好”。
不过,不造车只是不造整车硬件,不代表不做智驾系统的硬件。由于团队天然具备硬件基因,所以沈劭劼说:“软件算法之外,我们做硬件包括传感器,特别是对于软硬一体化技术栈的协同优化,有天然优势”。这种技术底蕴最终决定了卓驭的市场定位:做Tier 1(一级供应商)。“一级供应商的核心能力不是某一个,真正重要的是兜底的能力,也就是提供'交钥匙'方案的能力。”
可是,他随后也花了个很长的篇幅解释,能“交钥匙”兜底,只代表能力出众,却不代表卓驭只提供这一种交付方式,“不然太霸道了,会失去很多合作机会”。
实际上,卓驭和主机厂的合作交付可谓多种多样,除了交钥匙,还有:硬件+软件集成、软硬件产品供应、纯软件方案,甚至是IP授权和主机厂自研赋能。沈劭劼认为,如何交付其实不重要,最重要的是大家的利益共同点一致:把车卖好。数字见证了卓驭技术沉淀和业务逻辑的成功:目前卓驭已经建立合作的客户有9家,合作的 品牌16个。
对于这些成就,在访谈中,李强也给出了阿里云的视角:在数字化、智能化的时代,一家企业的发展,一定会反映在算力消耗上。算力消耗是企业发展的晴雨表,“在卓驭的这张晴雨表上,我们很明显能够看到卓驭的业务进步”。
一次“戛然而止”,一种“范式跃迁”
我们先来讨论一下卓驭科技的技术变革。我认为非常值得单拿一个章节详解。因为从中大家可以体会到,我为什么会在卓驭科技的技术哲学上感受到老子的“为学日益”、“为道日损”。
技术变革往往遵循托马斯·库恩提出的“科学革命”理论:在常规科学阶段,技术按既定轨道渐进式发展;当累积的问题达到临界点时,就会发生“范式革命”,整个技术体系被重新定义。
如果能在不同技术范式取得成功,就是我们经常听到的字眼“穿越周期”。这两年,卓驭就穿越了一次:从代码规则切换到了模型驱动的端到端。可以说,从2016年到2023年的七年,卓驭的智驾技术走过了基于规则技术路线的完整周期。
最开始的规则路线,是一个典型的复杂化过程。当时工程师们相信,通过不断添加规则,就能覆盖现实世界的所有可能性,实现 的智能驾驶。当然,这也不仅是卓驭一个团队秉承的技术范式,而是业界一度的普遍选择。
“从16年底一直到23年,很明显规则是越写越多的,特别是到后面开始做基于规则的无图城市领航的时候,那时候基本上卓驭的规则代码就是登峰造极的境界了”, 沈劭劼谈到这的时候,李强马上问代码规模有多大?答案是:百万行级别,但还只是决策规划不包括感知。
然而,现实给出了代码量不一致的反馈:城市里面的接管率怎么都降不下来了。
与此同时,团队内部一直在并行探索端到端技术。而当两条技术路线的性能对比出炉时,结果是震撼性的:七年积累的百万行规则代码,在性能上却被一个初期阶段的端到端系统数量级超越。
面对这种巨大差距,沈劭劼做了一个果断的决定:“用简单回答的话去总结就是直接放弃了”,抛弃百万行规则代码,全面转向端到端。数据不会骗人,“城区复杂场景的接管率直接降了10倍”。但数据背后,还有更深层的认知变化。
沈劭劼回忆道,最开始大家对于模型驱动还是有很多疑问的,能达到什么安全性能力也有不确定性。但后来,随着语言大模型表现出来的智能涌现,让团队确信,模型本身可能比人工编写的规则更接近智慧的本质。
当然,切换技术体系,不代表工程师的工作不重要了,只是技术逻辑发生了根本性的转换:过去是“say yes”——告诉机器应该怎么做,什么是对的;现在变成了“say no”——让机器自己判断,工程师只需要告诉它什么是不该做的。
沈劭劼解释:“从数学的角度上来说,如果是say yes,它本质上来说是一个正向的去解非常复杂的非线性优化问题,要找到一个解是很难的。say no就简单多了,只要在空间里面验证一下就好了。”
端到端:拟人化智能的突破
除了接管率的间接数字表现,这种技术切换给驾乘体验带来的直观效果也立竿见影。沈劭劼描述了一个生动的场景:假设车辆进入一个住宅区,但路边停了很多车,开车往里走,往往就会出现“鬼探头”(即一个人突然从路边车辆遮挡的盲区突然冲出来)的情况。
如果用写规则应对这种情况,就需要不断优化车辆对突发状况的响应速度,这在数学上容易计算但实现起来很难,“会很容易达到物理极限”。
但用了端到端方法之后,车辆系统的突发响应速度并没有加快,但你会发现,一旦进了这些场景,车就不肯加速了。因为此时,车辆表现出了近似人类的预判能力:不肯加速,就代表智驾系统懂得了这个场景是有危险的,需要刹车慢给“油”。
更有趣的是AEB(自动紧急制动)测试的变化:“切换到端到端之后,我们很难测AEB,因为车会绕开障碍物,而不是事到临头刹车。相比起来,人类司机开车反而还比较容易测AEB。”
这种变化的本质,是因为机器学会了人类司机的直觉,让驾驶变得拟人。沈劭劼注意到,很多时候所谓的危险接管,并非出现在绝对意义上的刹车不及,而是没有和其他交通参与者、交通状况形成一个默契。
没有这个直觉,从人类司机看来,驾驶系统就还是个机器,而不是“老司机”。而我的“为学日益”到“为道日损”的感受,也就是从这些话语中感悟而来了。
一开始,工程师们勤奋地添加规则代码,试图用百万行程序来描述 在复杂世界中应该如何行驶。但当端到端技术出现时,他们发现真正的突破是减法:让机器自己学会判断,而不是被无数规则束缚。
模型有模型的问题
不过,硬币总有两面。技术路线的转换,有惊艳的效果,也有心惊的问题,最重要的就是数据处理。
这并不意外,在算力算法数据的AI三要素,“数据墙”的制约,是人们说得最多的话题。不过,从外界来看,数据问题往往会被归结为规模问题,也就是数据量够不够大的问题。
但从卓驭看来,并非如此。
沈劭劼解释,如果有几十万辆车在路上跑,每天的数据规模,光是存储和传输的费用,都会很高。更何况,绝大多数日常行驶数据所描述的状况,其实都已经被抽象、纳入模型的参数中,额外收集再多同类并没有用。
这就可以归纳出数据时代的一个重要认知:数据的价值在于数量但也在于质量。所以,我们如何能把更有价值的数据给挖掘出来?
最开始的做法是人工标注:就是所谓的有多少人工,就有多少智能。但随着数据量增长,卓驭开始构建更智能的数据处理系统:利用车辆本身的行为特征作为捕捉更有价值数据的信号,因为驾驶员的驾驶行为、接管行为,都可以作为启动数据传输或者启动关键场景的信号。换句话说,只有某些“有价值的数据”行为出现了,系统才去记录数据。他们甚至在车上部署了专门的数据挖掘模型。一个比较小的VLM(视觉语言模型),它不负责驾驶,但专门负责去发掘什么样的数据是更有意义的。
算力晴雨表:见证技术范式的跃迁
能从另一个角度观察这场技术范式变革,和卓驭科技算力变迁的,就是阿里云团队了。
作为先进的AI基础设施供应商,阿里云从卓驭的AI基础设施消耗中看到了清晰的 产业的智能脉络。我们可以将其称之为“算力晴雨表”。
卓驭和阿里云的合作,始于2022年;具体落地场景可分为智驾模型产品和公司业务系统两个层面。
在智驾模型产品方案层面,卓驭是基于阿里云智算服务 PAI-灵骏训练“分段式的小模型”起步的。
2023年,独立运营后的卓驭,自然会对公司业务系统提出新要求。此时,公司做出了一个关键决策:将内部业务系统“应上尽上”,全部迁移到云端,团队则选择专注核心能力,将其他都交给专业的服务商,决策的成果不负期待。
通过阿里云的数据湖仓平台StarRocks,卓驭实现了对千亿级视频每一帧的存储标注计算;MEMS、MOM、Lims等工厂智造、供应链等核心系统也都相继迁移上云,节约了大量研发和运维的基础人力投入。这时在阿里云的“晴雨表”上,卓驭的通用计算消耗还是大于智能算力消耗的。
随着卓驭从规则走向端到端,虽然接管率在下降,代码量在下降,但当驾驶的决策由模型得出,对基础设施的要求反而提高了。两个字:一个“量”,一个“质”。谈“量”,是智能算力的需求,很快超过了通用计算消耗。说“质”,则体现在端到端模式对基础设施提出的全新要求。如果我们把过去的规则驱动描述为“单线程”工作,那么端到端训练就像是“多线程并发”。而成千上万的GPU同时协作时,任何一个节点出问题,整个训练就可能前功尽弃。
显然,训练中断是工程师们最头疼的问题之一,它意味着多日的计算量付诸东流。智算服务PAI-灵骏针对这些挑战做了系统性优化。举个例子:如果某个训练节点出现故障,首先系统能自动隔离问题节点并快速恢复训练;其次,3.2Tbps的RDMA网络带宽则让海量的模型参数能够在节点间快速流转;最后,智能调度系统则像一个精明的“资源管家”,确保每一份算力都用在刀刃上。
在推理端,情况同样复杂。车载芯片的算力限制要求在保证精度的前提下让模型跑得更快、更省资源。为此,阿里云人工智能平台PAI提供的量化工具链能够在尽可能少损失精度的情况下,大幅提升模型的推理效率,这就直接带动了车辆的响应速度和能耗表现。
虽然AI算力需求在增加,但是和算力优化一点不矛盾,反而相辅相成。我最近和阿里云不同团队交流时,确实体会到了阿里云的一种算力价值观:一方面阿里云关注客户算力需求增长;但另外一方面,他们实际上更在意客户算力的用法。
如果某个客户能把算力用得很极致,把每一分算力都用在刀刃上,反而会让阿里云多关注,去推动让这种极致走得更远。卓驭就属于这种情况。我理解这个价值的逻辑是,能把技术用漂亮,业务也会做漂亮。能把先进技术用到极致,同样业务也会做得很成功。
说到价值观,我也问卓驭科技和阿里云双方,为何能够一拍即合紧密配合,沈劭劼和李强的回答是一致的:商务上秉持简单高效的工作理念,沟通透明;技术上坚持长期主义,追求底层逻辑。
因为回顾过往,阿里云是最早深耕智驾领域客户的云服务商,在不断的业务迭代过程中,阿里云从产品能力、框架优化能力、算子库等多技术板块针对智驾场景做了非常多的优化落地。而正是这样的高效开发效率,促成了双方的相互成就。同时,卓驭在业务高速发展过程中也带动了阿里云产品和技术的持续领先,这是真正意义上的携手共进,这就是三观一致、互相成就。
有意思的是,卓驭这个先行者的AI算力晴雨表,也是整个中国 产业智能化晴雨表的缩影。李强提供的一组数字佐证了这一点。在他所服务的阿里云AI 行业线,在今年3月份的某一天,AI算力的收入已经超过了CPU通用算力。到5月底AI算力占比已经接近56%。
软硬一体化,舱驾一体化,背后是一种技术美学
在卓驭的官方资料中,软硬“一体化”是经常出现的高频词。我自然也在对话中,希望对此作一番探究。
沈劭劼告诉我,这背后体现的理念是局部优化和系统优化的区别。他用一个“双目摄像头”的例子做了具体阐述。
卓驭现在所有的智能辅助驾驶方案都是用双目的,沈劭劼解释:这个选择看似简单,但其实有深层的系统性考量。双目有立体视觉,和人眼类似,这就让它天然具备物理特性,更擅长识别和躲避路面的障碍物。
更重要的是,这种选择的价值不仅在技术层面,更体现在成本控制的系统优化层面。这可能有点反直觉,怎么增加了“一目”,反而成本更可控。道理在于功能互换。
智能驾驶系统有要解决“传感”、“算力”、“数据”、“算法”四座大山的说法。它们遵循木桶理论,每一个都不能有明显的短板,但它又是一个奇怪的木桶。一块木板更长,就能够让另一块木板无需太长。也就是说,因为用双目硬件能实现的性能,如果改换用算力实现,成本会非常高。
换言之,有了双目摄像头,模型的参数规模就可以缩小,成本就可以大幅度降低。显然,这里对应的,不仅是卓驭的交付成本,更是主机厂客户的车辆成本。
因此,沈劭劼算了一笔账:双目不只是装在车上的硬件的钱,它是整个体系运作起来的成本。甚至事关到底一年需要用5个亿来做模型训练,还是需要用50个亿来做模型训练。
这也体现了卓驭对"软硬一体"的深层理解:前后端的东西是会互相影响的,它们是需要一起权衡、一起优化的东西,也就是“一体化”。而这种技术理念,也体现在智能舱驾方案中。卓驭原来只做驾驶系统,但现在也将座舱系统纳入业务范围,玩法是“驾舱一体化”。项目正在有序进行中,预估10月份就会量产。
所谓舱驾一体,顾名思义,就是将座舱和智驾功能集成在一个平台上。我自然要问沈劭劼,卓驭为什么这么在意“一体化”设计?
他给了我一个“意料之外、情理之中”的答案:“某种程度上这是一种技术美学”, “所有漂亮的工程方案,它的软件硬件算力各种资源,摆放分布,应该让人看到就觉得是刚刚好的,不多也不少。而要做到这种刚刚好,只有靠一体化设计才能做到(听到这句话的时候,我突然想到了乔布斯时期的苹果)。
这种技术美学,自然也能产生经济效益。沈劭劼说,“我们的座舱里会跑VLM模型做场景识别”,但如果舱驾分离,就需要在两个位置部署类似功能,消耗1.7倍的算力,如果合起来设计,就会“不多也不少”、“算力刚刚好”。就VLM本身的能力,目前阿里通义系列大模型坚定开源路线,持续为各行业客户提供开源VL大模型的能力,Qwen VL系列和全模态大模型目前也是各个车企和座舱方案供应商的首要选择。
更直观的体现是360全景功能的实现。在传统架构中,环视相机接到驾驶控制器,处理完成后再通过车载以太网传输到座舱显示,这种设计既消耗算力,又影响体验——如果驾驶控制器没启动完,用户就会看到黑屏。
但用一体化设计就简单了。“共享内存而已,谁想用谁用”。这种“刚刚好”的一体化技术理念,其实也是一种“为道日损”的工程哲学——不是功能的简单堆叠做加法,而是资源的优雅整合做减法。
端到端、VLA、世界模型
在我和李强、沈劭劼的播客访谈中,我也没放过机会,和他们谈到了很多未来性议题。
端到端技术显然并非是智驾的终局,新的范式还在不断涌现,比如:VLA、(生成式)世界模型等等,只有端到端,智驾系统对复杂的场景的理解能力会不足,沈劭劼告诉我他的思考,例如车辆左转之后,到底进主路还是辅路?路口有好多个车道,有三条车道,到底挑哪条?这些决策很明显不是用“小脑系统”能解决的,都需要用“大脑系统”介入。
因为端到端更像是人类的小脑反应,而复杂的路线选择需要大脑思考。这种认知推动着技术向更高层次进化,也促使卓驭深挖VLA(Vision-Language-Action)。这里我们稍微解释一下VLA。VLA模型是基础模型的一种,它允许机器通过整合视觉环境信息和语言指令来执行复杂任务并生成相应行动。这些模型致力于在单一计算框架内统一感知、自然语言理解和具身行动能力。
具体而言,VLA 智能系统能够协同处理视觉输入,理解自然语言指令,并在动态环境中生成可执行的动作。这标志着一个重要的转变——从过去将视觉、语言和行动视为分离的领域,到如今将它们整合为一个有机的整体。
有了VLA建立语义级别的场景理解能力,就能比较轻松解决主辅路选道的策略问题了。对VLA技术的落地时间,沈劭劼比较乐观:如果比较快的话,应该今年下半年就会出来。而更大的想象空间则在于世界模型。
所谓世界模型,是指机器能够根据给定世界的当前状态和一个动作,预测世界在下一个时刻的状态。换句话说,它让AI智能体能够在采取实际行动之前,在自己的“脑海”中进行“想象”和“推演”,预见不同行为可能带来的后果。
沈劭劼用一个例子来说明世界模型的能力:假如前面的车掉了个钢卷,而车辆的模型训练数据里面没见过这东西,显然就很危险。但有了世界模型,系统就可以基于物理运动做分析,知道这东西绝对不能碰。
这就是世界模型与当前技术的本质区别:不是基于既有数据的模仿学习,而是基于对物理世界的理推演决。但对这个未来路线,沈劭劼也很坦诚:“实话实说,怎么真正做出来,我们现在还不清楚。目前,这是一个许愿”。
从端到端,到VLA,再到世界模型,这个技术演进轨迹很清楚,就是返璞归真。所以,我想其实也恰如老子的哲思:每一次架构变化,都是“为道日损”的简化,都为下一轮探索奠定了基础。
不过,虽然世界模型还是许愿阶段,L3级别的智能驾驶并不是。
对于L3的时间表,沈劭劼表示“ L3的最终落地会是一个后验的事情。与其一开始就追求完美的L3系统,不如先让L2++系统在实际道路上积累足够的安全数据。比如:什么时候车辆在1万个小时的智驾运行中,事故不大于一次的时候,就可以自然而然地被认定为是L3标准的系统。”
在绝大多数时间,我和两位专家谈的是技术,但到后来,话题自然而然地转移到企业使命上。
卓驭的公司愿景是“为所有人提供安全轻松的出行体验”,听起来很朴实,但沈劭劼解释:“这其实是一个科技平权的宣誓,‘安全’这个准绳时时刻刻提醒我们做的是一个跟人命相关的东西,不能开玩笑。而‘轻松’,则是我们所追求的产品体验。”
每次遇到创业者,我都问时间分配的问题,沈劭劼用了一个通信术语描述自己:我现在是TDMA系统(TDMA是一个通信领域的技术名词,中文叫时分多址,可以实现在同一信道上使用不同的时间段,允许多个用户进行通信。沈老师的“TDMA”比喻自然意味着他要利用所有的时间间隙,应对来自四面八方的任务)。首先,他要确保企业产品技术路线上不走歪,技术修养肯定不能“丢”,其次,“要保证团队在客户交付上有高配合度”。
总之,不在技术和管理之间非此即彼的选择,而是通过时间分配实现整体优化,似乎这也是一种“一体化”哲学啊!
最后收尾时,我问沈劭劼,作为AI从业者,你选什么车?他说自从进了智能驾驶这个行业之后,开车就变成了一种工作。第一:车一定是用了自己方案的车,每天开的车都不一样;第二:一边开一边给工程师提Bug。正可谓上车即上班。
李强也讲,“我选车,一是要主流的、智能化的产品;二是如果实力允许,每家客户的车都应该来一台”。
老子《道德经》第一章还有一句很出名的话,“道可道,非常道”,如果道是可以言说的,那么它就不是永恒不变的道。这句话也适合讲智能驾驶,如果驾驶规则是可以一条条讲出来的规则,那就不是智能驾驶的真谛。
沈劭劼说世界模型还在许愿,但是我感觉这是一种谦虚。因为,他们可不是只在许愿等待,而是亲自上手实干。不过,就让我们用这个词表达一下期许吧,期待“世界模型”许愿成功的那一天。(来源:至顶科技)