3月15日,由百度智能云联合vLLM社区、红帽共同主办的“vLLM-Kunlun:大模型推理工程化实践分享”Meetup 在百度科技园楼圆满落幕。本次活动汇聚了来自百度智能云、vLLM 社区等 9 位技术专家,围绕国产芯片与vLLM框架的适配,从架构设计、性能优化、生态落地三大维度展开 分享,全面展现了百度智能云在国产大模型推理领域的技术积累与生态布局。
百度百舸拥抱开源生态,打造“高性能、易开发、全生态兼容”的国产芯推理方案
会上,百度智能云主任架构师黎世勇在开场演讲中指出,国产芯片成功的关键在于拥抱开源生态,而非再造生态。基于这一理念,百度智能云 参与vLLM社区建设,借助vLLM的 Device Plugin机制Python EntryPoint,将昆仑芯的适配工作收敛到底层算子层,大幅降低开发门槛。目前vLLM-Kunlun已完成对Qwen、DeepSeek、GLM、MiMo等 50 余款主流大模型的推理适配,为开发者提供了“高性能、易开发、全生态兼容”的国产芯片推理方案。
百度智能云高级工程师董新宇以“像用GPU一样用昆仑芯”为主题,展示了vLLM-Kunlun的 CUDA-like开发体验。通过对齐PyTorch CUDA接口和算子注册机制,开发者在昆仑芯上的开发流程与GPU环境基本一致。他以MiMO-Flash-V2和Qwen3.5的适配为例,演示了从模型注册、算子支持到精度校准、性能优化的全流程实操。
全栈性能攻坚,充分释放昆仑芯硬件潜能
在性能优化专场,多位技术专家从编译、算子、框架、量化等维度,系统展示了百度智能云在释放昆仑芯硬件性能上的全栈攻坚成果。
vLLM核心维护者、红帽高级AI工程师Luka Govedič介绍了vLLM-compile的编译优化机制。通过Torch.compile,vLLM能够跨硬件平台自动生成高效内核。他同时透露,vLLM 社区正在推进vLLM IR项目,将算子语义与实现分离,以提升跨平台可扩展性。
华南农业大学副教授邱少健从异构计算视角,分享了在昆仑芯上RMS Norm算子及Qwen3 模型的优化实践。团队通过SIMD向量化、缓存结构优化等技术手段,在特定场景下实现最高60倍的性能提升,为产学研协同创新提供了范例。
百度智能云高级工程师包乾系统介绍了框架层的极致优化。针对Kernel Launch开销大、框架层效率低等痛点,团队基于vLLM-Kunlun Plugin,对FFN、MOE、Attention等核心模块进行定制化算子适配。以split_norm_rope_neox 融合算子为例,将Kernel Launch 次数从 4 次缩减为1次,Prefill吞吐提升8%,充分释放了昆仑芯P800的硬件潜力。
百度智能云高级工程师李卫则系统梳理了昆仑芯的端到端量化体系。从自研量化工具链到 vLLM-Kunlun 框架侧的INT8/INT4推理支持,再到硬件层量化算子的定制开发,百度智能云构建了覆盖“模型 - 框架 - 硬件”的全栈量化能力。在Qwen 3-235B-A22B模型上,INT8 量化带来约1.5倍的吞吐提升;针对昆仑芯的量化存储格式优化,将模型启动时间降低30% 以上。
生态与落地:打通技术到业务的“最后一公里”
在生态与落地专场,多位嘉宾分享了vLLM-Kunlun 在开源社区和行业场景中的实战经验。
vLLM社区开发者、红帽高级解决方案架构师 Michael Yang 带来了个人开源项目vLLM-Playground的实战演示。该项目旨在降低vLLM 的使用门槛,目前已原生支持昆仑芯,用户可通过 Web UI 一键完成模型配置与推理,让初学者也能轻松上手。
百度智能云高级工程师王浩聚焦大模型推理的冷启动瓶颈。通过自适应权重传输、编译缓存复用、分阶段CUDA Graph捕获等优化手段,将Qwen3-235B-A22B 模型的启动时间从521 秒压缩至4.91 秒(守护实例模式),优化率达99%以上,满足流量潮汐场景下的弹性扩缩容需求。
KnowV/SpaderAI星以舟算力研发负责人赖正一分享了基于昆仑芯P800的智能体平台落地实践。他强调,从“跑通模型”到“跑通业务”还需后训练、知识融合与结构化输出的闭环。经过后训练的Qwen3-8B模型,在昆仑芯上实现了更稳定的指令遵循和JSON输出能力,验证了国产芯片在真实业务场景中的可用性。
本次活动汇聚产学研核心力量,全面展现了国产大模型推理从架构设计、性能优化到生态落地的全链条突破。百度百舸未来将持续深耕国产芯片推理生态,推动国产芯片大模型推理从“可用”走向“好用”,让Token成本持续下降,加速AI普惠化进程。
