DeepSeek开源第四弹“教”优化,梁文锋参与研发

业界
2025
02/27
15:24
第一财经资讯
分享
评论

2月27日,DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek在X上宣布这次开源的是三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术,通过这些阐述可以清晰了解团队是如何精细地优化计算和通信,最大限度利用GPU能力的。

这三项优化并行策略其中包括DualPipe,这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,这种算法能够完全重叠前向和后向计算通信阶段,与传统方法相比减少了“流水线气泡”(设备在某些时刻的空闲等待)。 在DualPipe的开发团队署名中,包括创始人梁文锋。

优化并行策略第二项是EPLB(Expert Parallelism Load Balancer,专家并行负载均衡器),它针对V3/R1模型,解决MoE(混合专家)模型在分布式训练和推理中的负载不平衡问题。

当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化,因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到,团队采用冗余专家策略来重复重载专家,他们创新地将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。

在第三部分, DeepSeek直接分享了来自训练和推理框架的性能分析数据,以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的,下载后可以直接在 Chrome或 Edge 浏览器中打开,进行可视化分析,DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。

DeepSeek这四天的发布都与Infra层的算法有关,分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示,“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果,对应有一些算法和相应的框架,而这些“脚手架”的开源有利于之后的生态搭建。

陈冉判断,DeepSeek的代码开源或许会影响一批做AI Infra层的从业者,“AI Infra层的人要找新的方向。”但他同时表示,这种开源是一把双刃剑,如果能将DeepSeek开源的内容用好可能也会得利,“用不好就被冲击”。

此前三日,DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA,用于MoE模型训练和推理的DeepEP通信库,以及可支持MoE的FP8 GEMM代码库DeepGEMM。

从GitHub上获得的星标来看,这些项目颇受欢迎,截至发稿,FlashMLA已在GitHub获得超过1万星标,DeepEP的星标已有6000,DeepGEMM目前超过3700,最新发布的DualPipe星标超过700。

就在昨日,DeepSeek还在海内外同时宣布了API 错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间空闲时段,API 调用价格大幅下调:DeepSeek-V3 降至原价的 50%,DeepSeek-R1 更低至 25%。DeepSeek鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。

另外,也有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。

此前DeepSeek在R1论文中提到,R1 的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。

业界认为,DeepSeek-R2的发布可能是AI行业的一个关键节点。

【来源:第一财经资讯】

THE END
广告、内容合作请点击这里 寻求合作
DeepSeek
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

北京时间2月27日,人工智能芯片巨头英伟达今天发布了2025财年第四财季及全年财报。随后,英伟达CEO黄仁勋(Jensen Huang)、CFO克莱特·克罗斯(Colette Kress)出席电话会议,回答分析师的提问。
业界
2 月 26 日消息,酷派今日宣布已完成与「DeepSeek 满血版本」的 融合,全新搭载 DeepSeek 满血版本的原生智能系统「COOL OS」即将通过 OTA 陆续推送升级。
业界
2 月 26 日消息,据“晚点 LatePost”昨日报道,继飞书之后,字节跳动 AI 视频生成产品“即梦”正在考虑使用 DeepSeek。
业界
2月25日消息,英伟达投资者的DeepSeek恐惧症,这下彻底治好了。
业界
当地时间2月24日,波士顿动力(Boston Dynamics)创始人Marc Raibert在美国休斯顿参加达索系统3DEXPERIENCE World峰会期间接受第一财经记者采访时称,他的智能机器人研究所AI Institute已经购买了中国机器...
业界

相关推荐

1
3
Baidu
map