阿里开源模型万相2.1引爆视频赛道！谷歌/微美全息加入全模态AI开源新时代!

互联网

2025

03/04

13:53

据报道，阿里生成基座模型万相2.1（Wan）宣布开源，在评测集中，超越 Sora、Luma等模型，位列榜首。

开源最强视频大模型亮相

获悉，万相2.1共有两个参数规模，140亿参数模型适用于对生成效果要求更高的专业人士，13亿参数模型生成速度较快且能兼容所有消费级GPU，两个模型的全部推理代码和权重已全部开源。

在视频生成方面，万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力，支持无限长1080P视频的高效编解码，首次实现了中文文字视频生成功能，同时支持文生视频、图生视频、视频编辑、文生图和视频生音频等多项任务。

据此前介绍，万相2.1支持中英文视频，可以一键生成艺术字，还提供多种视频特效选项，以增强视觉表现力，例如过渡、粒子效果、模拟等。

分析人士称，随着万相2.1模型开源，标志着阿里云实现了全模态、全尺寸的开源。这意味着更多的开发者，将能够低成本获取并使用该模型底层代码，进而用以开展与自身业务相关的各类视频生成应用。

开启全模态开源新时代

自2025年以来，开源趋势逐渐成为全球大模型领域的标配。国内方面，进入2月，多家企业纷纷推出了各自的开源模型，包括字节跳动的豆包以及百度的文心一言等，共同掀起了新一轮的开源热潮。

国际方面，随着万相2.1完全开源，OpenAI、谷歌等竞品也将直面商业化的挑战：更好的模型已经开源了，AI生成视频的定价也将面临挑战。谷歌Veo 2模型近期披露定价，每生成1秒视频需要付费0.5美元，相当于生成一个小时的视频需要花费1800美元。

微美全息开源多模态应用场景拓展

公开资料显示，微美全息在AI视频生成领域有显著布局，涵盖大语言、多模态等领域，面对开源视频生成大模型赛道，从大语言模型到视觉生成模型，从基础模型到多样化的衍生模型，实现了全模态、全尺寸的开源，微美全息AI开源生态的发展正不断被注入强大的动力。

事实上，近些年来，微美全息专注于多模态AIGC（生成式AI）研发，技术核心在于结合大规模预训练与多模态算法优化，提升生成内容的连贯性和物理合理性。同时在行业生态上，微美全息已逐步实现文本生成视频、图像生成视频等能力，支持剧情创作、短视频生成等场景，未来可能通过API或行业解决方案，加速AI快速生成视频能力技术迭代。

结语

未来，AI模型将进入一个分水岭，机构普遍认为，阿里此举将加速AI视频技术商业化落地，并推动算力、云计算、内容创作等全产业链升级。所以说，AI下半场，不是简单的技术竞赛，而是一场关于资源、效率和成本的综合博弈，这一新的革命正在加速中。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表的观点和立场。

阿里开源模型万相2.1引爆视频赛道！谷歌/微美全息加入全模态AI开源新时代!

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 电池

关注我们