美团发布开源原生多模态大模型 LongCat-Next

业界
2026
03/27
15:28
IT之家
分享
评论

3 月 27 日消息,美团今日发布原生多模态大模型 LongCat-Next,将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个 Token 预测(Next Token Prediction, NTP)范式,以一种统一的方式建模各种物理信号。

图片

美团还宣布把研究思路的核心 —— LongCat-Next 模型和它的离散分词器全部开源,希望更多开发者能基于它,构建真正能感知、理解并作用于真实世界的 AI。

美团构建了 DiNA(Discrete Native Autoregressive)离散原生自回归架构。其核心就是将所有模态统一为离散 Token,并用同一个自回归模型进行建模。DiNA 打破了模态间的隔阂。它通过极简的下一 Token 预测(NTP)范式,将图像、声音和文字统一转化为同源的离散 Token。

简单而言,美团把文字、图像、语音都变成同一种东西 —— 离散 Token。无论读文字、看图片还是听声音,对 AI 来说都是同一件事:预测下一个 Token 是什么。

这种统一设计,让模型在训练时更稳定,部署时更轻量。美团用 LongCat-Flash-Lite MoE(68.5B 总参数,3B 激活参数)作为基座,在这个框架基础上训练了 LongCat-Next。

实验表明,DiNA 的 MoE 路由在训练中逐渐出现模态专精化,激活专家数量相比纯语言设置有所增加,模型正在用更大容量支撑能力扩展。

LongCat-Next 架构概览,该架构基于 DiNA 范式设计

▲ LongCat-Next 架构概览,该架构基于 DiNA 范式设计

根据美团官方测试,LongCat-Next 在视觉理解、图像生成、音频、智能体等多个维度上,以一套离散原生框架展现出与多模专用模型相当甚至领先的性能。

图片

LongCat-Next 在 OmniDocBench(学术论文、财报、行政表格)上的表现(0.152 / 0.226)不仅超越 Qwen3-Omni,还超过了专用视觉模型 Qwen3-VL。

消融实验对比中,LongCat-Next 统一模型的理解损失仅比纯理解模型高 0.006,而生成损失比纯生成模型低 0.02。在图像生成上,LongCat-Next 在 LongText-Bench(英文 93.15);在图像理解上,MathVista(83.1)达到领先水平。

在纯文本任务上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)表现领先,证明原生多模态训练未削弱语言核心能力。在工具调用上,τ²-Bench 零售场景(73.68)大幅领先 Qwen3-Next-80B-A3B-Instruct(57.3);在代码能力上,SWE-Bench(43.0)超越同类模型。

在音频领域,TTS 任务上,SeedTTS 的中文和英文 WER 分别低至 1.90 和 1.89;音频理解上,MMAU(76.40)、TUT2017(43.09)均达到先进水平。更重要的是,模型支持低延迟的并行文本语音生成与可定制的语音克隆,让语音交互更自然、更个性化。

【来源:IT之家

THE END
广告、内容合作请点击这里 寻求合作
美团
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

3 月 18 日消息,据IT之家小伙伴今日反馈,美团共享单车投放了新车型,主要增加了前减震、手机支架等。
业界
1月27日消息,1月26日,腾讯公司董事会主席兼首席执行官马化腾在腾讯2025年度员工大会上提到了2025年的外卖和社区团购大战。
业界
1月12日,美团官方发文称,美团近日在大连警方指导下启动开锁行业专项服务治理试点,通过提升商户合作门槛、上线“公安备案”专属标识、推动服务流程线上化等措施,强化消费透明与安全保障。
业界
12 月 28 日消息,仓颉编程语言昨日宣布,美团履约核心应用 —— 美团众包与美团骑手,近日在华为鸿蒙应用市场正式发布。
业界
12月8日,美团LongCat团队今日正式发布并开源其图像生成与编辑模型LongCat-Image。
业界

相关推荐

1
3
Baidu
map