比较贴切的表述是,豆包的视频模型这次的升级,已然将国内AI视频的美学境界拔高了一个档次,让AI视频也开始变得更加实用了。
作者|斗斗
出品|产业家
国内的文生视频领域,也是吃上“细糠”了。
最近,火山引擎宣布豆包大模型正式发布视频生成模型。至此,两大短视频平台在文生视频领域的较量正式开启。
产业家也是在第一时间提前感受了一把。先来几个demo,给你们一个小小的震撼。
很明显,这生成效果并不亚于Sora。
要知道,Sora在初期的宣传和报道中被赋予了很高的期望。然而,至今为止,Sora尚未真正面向普通人群应用,可以说是实实在在的期货。
为了更加客观的展示豆包文生视频模型的真实能力,产业家申请到即梦AI内测版的豆包视频生成-Seaweed模型测试机会,将其与国内几家主流文生视频模型,进行了同一提示词下的生成效果对比,意外看到了豆包文生视频模型的一些新亮点。
一、复杂指令下,足够听话
众所周知,拍摄电影时,导演会指导演员进行多个镜头的拍摄,然后剪辑成连贯的故事。如果一场戏的角色比较多,导演则需要统筹演员的站位、进场时间以及他们之间的对话、动作等。
只有这样,拍摄出来的画面,才会更加流畅。然而,对于当下的文生视频模型而言,大部分只能完成简单指令单一动作。比如只能生成单一的镜头,无法切换,人物动作也较为单一。
这样生成出来的效果,其实和照片差不多。但是在豆包视频生成模型的平台上,有了新的突破。
提示词:一群朋友在餐厅里聚餐,然后其中一人突然提出一个惊喜的计划。
豆包-Seaweed生成的视频中,涉及诸多人物的动作处理。可以发现每个人物的动作表达、面部表情都较为和谐,虽然一些细节有待优化,但整体上已经十分优异。可以实现多主体多动作的画面生成。
海螺AI在整体画面构图、和光的运用方面一如既往的出色。不过画面中的人物几乎都出现了或多或少的畸变。
可灵AI生成视频,总体来看人的动作较为简单,画面也缺乏一些真实性。
能看到,通义万相人物动作较为简单,真实性、自然流畅性相对较弱。
总体来看,豆包视频生成模型还是十分“听话”的,可以遵从复杂的复杂prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,打开想象力的大门。
二、推拉摇移跟
画面依旧稳定、一致
豆包文生视频模型,还有一个比较特殊的点,即它生成的视频画面整体的故事性很强。
提示词:男子从明亮的室外走进昏暗的室内,镜头切换要自然,光线变化要平滑。
可以发现,在提示词描述的文本之外,其对于周围环境以及画面的细节衔接和过渡很自然。这本身对应的是模型强力的泛化能力。
例如从下面这组提示词生成的画面来看,豆包生成的视频相对更有画面感、更连贯。
提示词:一名女子奔跑在阴暗潮湿的街道上
画面中地面的石板路,路边的房屋,以及奔跑的女人,在运动逻辑、灯光、流畅度上,都表现的十分优异。
可灵生成画面中的女子的肢体发生了不规则的扭曲。
通义万相生成的视频,整体很不错,但在像地面这种细节的效果处理上,还需要进一步强化。
海螺AI有着通义万相一样的问题,仔细发现人物在奔跑时,路面的生成效果并不稳定,且人物和画面之间的衔接度并不自然。
从几组生成的视频不难看出,豆包文生视频模型,在运用镜头语言时,画面较为稳定,可以保证人物、氛围、环境的一致性,以及镜头的自然切换和运镜的自然。
比如基于豆包-Seaweed,我们可以身临其境的感受肌肉男选美现场。
还可以穿越森林,看到远处壮观的雪山。
可以发现,无论镜头怎么推进和切换,视频中的画面风格、人物、灯光、服饰等都依旧有着一致性。
另外一个更加炸裂的点,在于豆包视频生成模型还能实现主体动作和镜头的切换。这么说可能有点难懂,简而言之就是当画面中的人物在运动过程中,可以实现镜头自然切换。
正如下方豆包文生视频模型生成的视频,先是出现一个跟镜头,继而切换到以人为画面主体的跟镜头。
提示词:生成一段视频,要求镜头跟随主角在森林中探险,包括跳跃过溪流和攀爬岩石。
具体来看,生成的视频中,一个空境交代背景环境,切换到另一个以人物为画面主体的推镜头。这种镜头切换手法,也叫“镜头匹配剪辑”。利用了两个镜头中相似的动作或运动方向来平滑地过渡,从而减少视觉上的跳跃感。
这种技巧需要精心的拍摄和编辑,以确保动作的匹配和视觉的连贯性。
但是豆包的视频生成模型,做到了。
对比可灵AI的生成结果来看,画面中并未出现运镜和镜头切换的痕迹。
海螺AI基于这个提示词的生成效果其实各方面效果着实不错,但是在场景切换时,可以发现,其第一个镜头切换的同时,画面左方出现了一个分身,走出了画面,可见场景切换上还需要优化。
通义万相生成的效果,其实较为充分展现了其在语意理解上的优势,尤其是“跳跃过溪流和攀爬岩石”实现了语义一致性,但未实现多个场景、镜头上的切换,且人物流畅度和自然度也有可以优化的空间。
不得不承认的是,豆包视频生成模型确实是有两把刷子。
据官方介绍,这是因为豆包视频生成模型基于 DiT 架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。其全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。
这是豆包视频生成模型独树一帜的技术创新。
三、大场景描绘
光影、镜头、构图美学拉满
在文生视频领域,大场景的生成,由于涉及的元素过度,往往是最容易出现问题的。而经过我们测试,豆包的文生视频模型,也非常不错。
从下面豆包、可灵AI、通义万相以及海螺AI(MiniMax文生视频平台)生成效果对比来看。豆包生成的视频,不仅画面构图、色调十分优异,甚至把清晨湖面的雾气也刻画了出来。
不知道的,还以为是在看《动物世界》。
提示词:清晨,第一缕阳光穿透薄雾,照亮了宁静的森林。一只小鹿在溪边饮水,水波荡漾,反射出金色的光辉。
可灵AI在色调和构图上也可圈可点,但细看鹿的动作连贯性和真实性,就显得有些不足。
通义万相整体观感也不错,语义理解能力较强,例如“反射出金色的光辉”这细节,通义万相刻画的最好,但有点缺乏真实性,更像是动画。
海螺AI的画面,在写实能力上较强。但由于角度和构图的问题,整体来看,主体的灵活性较差,对文本的理解力不足,此外也缺乏一些美感。
其实,豆包视频生成模型,经过剪映、即梦AI等业务场景打磨和持续迭代,在专业级光影布局和色彩调和积累了大量的数据和技术经验,画面视觉呈现上面,可谓是实现了延续,使得豆包处理这种大场景时,既能刻画细节,又极具美感和真实感。
图示:各家视频生成效果表现汇总
四、各种风格、尺寸,都Hold的住
根据介绍能看到,豆包视频生成模型采用的是Transformer 学习模型的架构,并且进行了优化。这种架构,可以使模型更加强大,泛化能力也会更强。从风格来看,其可以生成3D动画、2D动画、国画、黑白、厚涂等多种不同的艺术风格的视频。
此外,生成的视频可以适应不同设备的屏幕尺寸,包含1:1,3:4,4:3,16:9,9:16,21:9五个比例。无论是电影大屏幕、电视、电脑还是手机,都能观看。
这些视频目前可以被用于电商营销(如产品展示视频)、动画教育(如教学动画)、城市文旅(如旅游宣传视频)、微剧本(如短视频故事)等多种商业用途。
除了商业用途,豆包还能帮助专业的视频创作者和艺术家们在创作过程中节省时间,提供灵感,或者完成一些复杂的视频制作任务。
写在最后
最后对豆包的文生视频进行一个总结。
首先它是一个语义大师。它不仅听得懂你的指令,还能理解背后的深层含义,让视频里的每个动作都恰到好处。
还是一个镜头切换高手。在切换镜头时,它能保证故事的流畅和一致性,就像一个无缝连接的叙事大师。
更是一个动态捕捉专家。无论是快速的动作还是炫酷的镜头移动,它都能捕捉得生动活泼,让你仿佛置身于真实世界。
也可以是一个视觉艺术家:它创造的视频不仅清晰逼真,还具有专业的色彩和光影,支持多种风格和尺寸,让你的视觉体验丰富多彩。
比较贴切的表述是,豆包的视频模型这次的升级,已然将国内AI视频的美学境界拔高了一个档次,让AI视频也开始变得更加实用了。
在文章的最后,想要强调的一点是,文中所提到的生成的视频都是基于豆包视频生成模型S 2.0的非会员版本。目前,具备更强多主体互动、多镜头切换一致性能力的豆包视频生成模型-PixelDance,正在紧锣密鼓的内测上线中,或许能给大家带来更多惊喜。
豆包,多少是有点不露锋芒,闷声干大事了。