AMD 发布 CDNA 4 架构：HBM3E 加持，聚焦提升 AI 负载能力

业界

2025

06/19

11:04

IT之家

6 月 19 日消息，科技媒体 chipsandcheese 昨日（6 月 18 日）发布博文，报道称 AMD 正式发布 CDNA 4 架构，在保持在通用向量运算领域的优势外，主要聚焦提升低精度数据类型的矩阵乘法性能，以强化人工智能（AI）工作负载处理能力。

CDNA 4 延续了 CDNA 3 的模块化设计，采用类似 CPU 的芯粒（chiplet）布局。每个计算芯片单元（XCD）搭载 CDNA 计算单元（CU），通过四块基底芯片整合八块 XCD，形成包含 256MB 内存侧缓存的完整 GPU 架构。

与 CDNA 3 的 MI300X 相比，CDNA 4 的 MI355X 通过减少单 XCD 的 CU 数量并关闭部分单元以提升良率，但凭借更高时钟频率缩小了性能差距。

在低精度矩阵运算这个 AI 关键指标中，CDNA 4 的每 CU 矩阵吞吐量翻倍，其 FP6 精度性能与英伟达 B200 的流式多处理器（SM）持平。

但在 8 位与 16 位数据类型中，英伟达仍保持单周期吞吐量优势。然而，AMD 凭借更高的 CU 数量与频率，维持了通用向量运算（如 FP32）的绝对领先，单 CU 仍提供 128 条 FP32 运算管线，整体性能远超英伟达 Blackwell 架构。

CDNA 4 的核心改进之一是提升本地数据共享（LDS）的容量与带宽。LDS 容量从 64KB 增至 160KB，读取带宽翻倍至每周期 256 字节，并新增“转置读取”指令，优化矩阵乘法的内存访问效率。

尽管英伟达的共享内存（Shared Memory）在单核容量与缓存灵活性上更优（最高 228KB 可分配为共享内存或 L1 缓存），但 AMD 通过 40MB 全 GPU LDS 容量（B200 仅约 33MB）弥补了核心级存储的不足。

显存方面，MI355X 升级至 HBM3E 技术，总带宽达 8TB/s，容量 288GB，显著超越英伟达 B200 的 7.7TB/s 与 180GB。这一优势在大数据量运算中尤为重要，尤其当 AI 模型超出显存容量时，AMD 的架构可减少数据交换延迟。

该媒体认为 AMD 的 CDNA 4 延续了 CDNA 3 的“保守进化”路线，类似 Zen 3 到 Zen 4 的迭代逻辑，通过优化而非颠覆性创新巩固优势。其策略聚焦于扩大计算规模与显存带宽，同时针对性补足 AI 短板。

该媒体认为在提升性能方面，AMD和英伟达的路径差异显著：AMD 依赖“大芯片 + 大缓存”模式，而英伟达更注重显存带宽与单核效率。

【来源：IT之家】

THE END

广告、内容合作请点击这里寻求合作

AMD

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表的观点和立场。

6月18日消息，硬件监测工具AIDA64 Extreme在其最新版本中添加了对AMD RX 7400显卡的支持，进一步证实了这款入门级RDNA 3显卡的存在。

业界

6 月 13 日消息，在今日凌晨的 AMD Advancing AI 2025 活动中，AMD 正式推出其下一代开源软件栈技术 ROCm 7，进一步加速 AI 与开发者生产力。

业界

6 月 13 日消息，在今日凌晨的 AMD Advancing AI 2025 活动尾声，OpenAI 首席执行官萨姆・奥尔特曼（Sam Altman）惊喜登台。

业界

6 月 13 日消息，AMD 在北京时间今日凌晨 00:30 举办了其年度人工智能直播活动 Advancing AI 2025，AMD 董事长兼首席执行官苏姿丰同其它高管以及 AI 生态系统合作伙伴、客户、开发人员一起，共同讨论了 AM...

业界

6月12日消息，据报道，AMD在服务器CPU市场的崛起势头迅猛，其市场份额已经接近40%。

业界