生成式 AI 在过去 2 年吸引了全球目光,ChatGPT 用破纪录的 5 天时间达到百万用户,2 个月破亿,Sora 可生成最长 1 分钟的模拟真实世界的视频,Suno 创作出让用户惊艳的音乐作品,我们看到 AI 在文本、图像、视频、音频生成等领域取得了重大突破,OpenAI 和 Anthropic 为代表的公司完成了数十亿到百亿美金的融资。大家在经历 AI 技术日新月异的突破的同时,也关注生成式 AI 如何应用落地,如何产生商业价值。
CMC 资本投资了快手(1024.HK)、B 站 ( NASDAQ: BILI、9626.HK ) 、快看漫画、网易云音乐(9899.HK)、爱奇艺(NASDAQ:IQ)等互联网平台,兄弟企业 " 华人文化集团公司 " 控股电视广播有限公司(00511.HK,香港 TVB)、正午阳光、紫龙游戏、华人影业、东方梦工厂、日月星光等具有领先优势的内容集群和综合协同生态,以上都是生成式 AI 的天然应用和落地场景,因此在 覆盖技术供给端的科技公司进展的同时,也关注到产业端有强烈的 AI 需求,互联网平台公司在积极尝试 AI,用 AI 制作了不错的作品,但还在寻找好的商业模式。在产业端大规模的有效商业落地更是处于早期阶段,也存在着各种挑战。
本文由 CMC 资本管理合伙人陈弦指导,投资副总裁王鹤宇执笔,将带着产业视角,谈一谈 CMC 对生成式 AI 在 B 端产业落地的思考。
1. AI2.0 时代和新型生产关系
AI1.0时代
大家过往接触的 AI,即所谓 AI1.0,是判别式 AI,机器可以在计算机视觉、自然语言理解等领域超越人类,常见的智能内容推荐、智慧安防摄像头、货架识别等都是 AI1.0 时代的应用,诞生了商汤为代表的 "AI 四小龙 " 和字节这样的超级独角兽。
模型架构上,AI1.0 时代主要基于 RNN 等网络,RNN 的数据处理使用的是串行,导致处理长序列数据能力有限;训练方法上,主要使用有监督学习,需要大量的标注数据和专业的编程人员,以上都导致其 Scalability 有限,往往一个模型对应单一的任务,其自身的泛化能力也有限。模型的参数通常在百万 - 千万级别,因此在算力上,部分模型使用消费级显卡即可。
AI2.0时代
模型架构上,2017 年谷歌提出了 Transformer 架构,引入自注意力机制,如在自然语言处理时,它能让模型评估句子中各个词的重要性,从而根据上下文锁定关键信息,提高下一阶段的文本预测与建模能力。Diffusion 模型,模仿物质在气体或液体中扩散的过程(如墨水在水中的扩散过程),通过前向扩散(加噪)和反向扩散(去噪)不断修正训练自己,在图像、视频、音频领域展现了良好的生成能力,超越了 GAN 的地位,模型本身的 Scalability 较 AI1.0 时代取得重大进步。
训练方法上,Transformer 主要使用自监督学习,无需人工标注数据和专业编程人员,可以自动适配和执行各种任务,大幅提高了模型的 Scalability。
近些年 GPU 计算能力的进步,使得早在 2017 年就提出的 Transformer 架构成为可能,Transformer 为代表的大模型的参数量在百亿以上,在当时的 GPU 能力下无法进行有效训练。但英伟达代表的 GPU 不断进步,其制程从 28 纳米进步到 5 纳米,NVLink 技术增加了 GPU 间通信的效率,GPU 的调度能力也获得提升,千卡 GPU 集群并行计算成为可能,促进了算力能力大幅度综合提高,为大模型的训练提供了基础。
以上的模型架构的突破、训练方法的优化、GPU 能力的提升,共同驱动了生成式 AI 开启 AI2.0 时代。基于超级海量数据训练的大模型,可以生成文本、图像、视频、音频和 3D 等各类媒介的内容,具有更强的理解、推理和创造能力,也解锁了 AI1.0 时代(安防和智能推荐为主)以外更丰富的场景和更大的市场空间。预训练的模型,本质集成压缩了丰富的世界知识,在泛化性上有极大的提升,如果将 AI1.0 的模型能力类比于只能完成特定任务的学前班学生,大模型是高中生,具备可以完成多个任务的能力。
如前所述,生成式 AI 在模型架构、训练方法上具备良好的 Scalability,展现出了 Scaling Law,即越多的训练数据,越多的模型参数,就会获得越强的 AI 模型能力。目前 Scaling Law 还在发挥作用,因此也有部分业界把生成式 AI 当作未来有可能实现 AGI(通用人工智能)的方法之一。
新型生产关系
我们看好生成式 AI 的新范式,不仅是其远大于 AI1.0 的市场空间,更是看好其所代表的新型生产关系。过去的生产过程中,工厂消耗能源和基础材料,制造出实体的产品。未来的核心生产关系将围绕着电力、AI 模型和 token(数据)展开。数据中心作为 AI 工厂,在电力供能下,结合 AI 模型,通过 token 不断生产信息化的内容(语言、图形、视频、音乐等),也即是新的成产出来的产品,围绕 token 的新型生产关系正在形成,构筑新一轮的信息工业革命。当然以上是我们认为的远期状态,当前也仅仅是生成式 AI 取得大的影响力突破的第二年,该新型生产关系还在构建和发展中。
2. 生成式 AI 并非完美,也给应用落地带来了挑战
在语言、视觉和音频领域,我们看到了过去一段时间生成式 AI 日新月异的发展,这离不开 Transformer 和 Diffusion 模型的突破。但与此同时,我们也看到了大语言模型存在幻觉的问题,AI 生成的视频和图像也并不稳定,我们在看到巨大潜力的同时,也不能忽视其不完美的现状。
B 端对内容的精准、可控、一致性、可靠性、稳定性有着极高的要求,C 端虽然相对要求更包容,但也存在着来自合规性的监管,这些要求给尚不满完美的生成式 AI 如何落地带来了挑战。
Transformer 模型,1)缺乏可解释性,神经网络本质上是黑箱模型,输入和输出之间的关系是通过训练数据和复杂的计算学习到的,而非通过明确的规则编码,在金融、医疗等复杂、专业或者高度监管的行业中,模型的决策过程需要符合特定的法规和标准,不可解释性可能导致合规性问题;2)会出现幻觉,产生逻辑谬误、捏造事实以及数据驱动的偏见,也就是通俗说的大模型 " 一本正经的胡说八道 ",客户可能对模型的输出结果持怀疑态度,难以建立信任,如用 AI 检索的结果,为了保证真实,需要复查,特别是在安全性和严肃性要求较高的场合此问题更加突出;3)除此之外,计算和内存消耗大,特别是在处理大规模数据集时,需要大规模并行计算能力;4)优化难度大,模型的复杂性和参数量大增加了优化难度。
Diffusion 模型,1)扩散模型可以生成图像和文本,但它们还难以同时理解和生成涉及多种类型数据的复杂多模态内容。比如目前用扩散模型生成一张 " 红色衣服 " 的图片较为简单,但让其生成一张胸前印着 " 明天总是美好的 " 红色衣服图像,生成的衣服上的文字往往出错;2)扩散模型仍是随机采样,导致其生成内容的精准、可控、一致性等方面仍然不足,比如同样的 prompt 下,AI 生成的 2 个漫画男孩不是同一人,这就导致了应用前后不对应的问题,使得商业落地困难。虽然业界在积极探索,ControlNet,LoRA,Dreambooth 等技术的出现对局部内容实现了控制,如人脸、画风、动作等,但仍有较大的进步空间;3)其基于高斯求和的方式会带来求解难度的提高,尤其随着维度的上升会带来显存占用的几何级别的增长。这种架构下,显卡的显存大小限制了视频的时长,目前最长的 AI 生成的视频时长在 1 分钟左右,仍无法在长视频应用场景呈现。
虽然目前的模型能力还有不足,但我们也注意到模型架构也在迭代。工程上,如融合了 Transformer 和 Diffusion 的 DiT,使用 Transformer 替换 U-Net 主干,并在潜在空间训练,展现出了比单纯 Diffusion 更好的训练效率和生成效果。再如 Mamba 架构,可进行 " 线性时间序列 " 建模,随序列长度增长其计算保持线性增长,而非 Transformer 的指数级膨胀,同时改善了注意力机制,减少了处理序列数据所需的计算量,加快了数据处理速度。同时学术界也在对模型底层的数学、人脑科学做更深层次的研究,希望能找到更多样化的实现 AGI 的通路。
3. 落地思路:"End to End" vs "Step by Step"
目前生成式 AI 的产业落地,大致分为 2 种思路,即 "End to End/ 端到端 " 和 "Step by Step/ 按步骤拆解 ",相应特点也有不同。
End to End
方法:跳过现有专业制作流程,直接一步生成最终的内容
代表产品:ChatGPT, Midjourney, Suno
落地场景:主要在 C 端大众用户,用于泛娱乐的场景,或者非严肃场景,如编程,信息检索等
特点:1)简单直接,通常输入文字 prompt 描述,直接产出最终的内容;2)" 黑盒 " 状态,过程不透明,生成的结果具备随机性;3)生成的内容往往不精准和不可控;4)基本上通过多次生成,选择最满意的方式进行生产
以漫画创作为例,漫画工具 "AI Comic Factory",提供了简单易用的用户界面和使用步骤
以上可见,目前端到端的产品易于上手,但同时因为无法对过程进行控制,且目前 AI 技术又不能一步到位生成高质量的内容,所以局限了出品的作品品质,更多的还是在用在 for fun 或者专业制作 workflow 中各步骤的第一步创意环节,如动画美工 / 画师或影视剧导演,在创作过程中将脑中的想法迅速通过 AI 画图展现出来,高效呈现预览效果,方便团队内部沟通及灵感碰撞。
Step by Step
方法:尽量沿用现有的工作流,不追求一步到位,AI 专注于每一步工作的提效
代表产品:Adobe Firefly,ComicsMaker.AI
落地场景:主要用于 B 端的专业工作者,用在高质量工业级的生产制作流中
特点:1)对每个环节的生成内容相对更精准、更可控,2)往往和现有工作流和制作工具融合,更易于流程管理
以专业的动画创作为例,以下是国内某 2B 定制化 AI 内容创作公司的案例,专业的动画制作环节包括 " 人设图 - 分镜 - 排版 - 草稿 - 线稿 - 上色 - 动画 ",其创作工具依照现有专业 workflow 设计,目标在创作过程中降本增效,目前在一些案例中可以得到 40% 的人力成本节省。虽然 AI 的能力看似无所不能,多方面都可以覆盖,但实操上每个环节涉及到众多的细节,如何反哺 AI 的产品能力,甚至进阶的精简 / 重塑专业的工作流,这都需要和产业方共建。
我们认为,虽然生成式 AI 在过去 2 年取得了快速发展,但今天行业仍在早期,长期我们确信 AI 会颠覆现有的工作流,甚至企业的管理学,但从务实的角度,B 端的 AI 落地,会经历 1)短期先 Step by Step 在可能的环节部分落地,降本增效;2)行业公司效仿,渗透率提升;3)技术进步,更多环节可以被 AI 赋能,渗透率再次提升;4)技术迭代,workflow 开始合并缩短,甚至出现全新的成产方式;5)理论上最终极的方式可能是一步端到端。
4. 行业 know-how 和专有数据对 B 端落地不可或缺
根据上文,按照步骤拆解的思路在 B 端产业落地,需要更多的行业 know-how 和专有数据。如上文的动画制作案例,第一步就是拆解工作流,如 " 人设图 - 分镜 - 排版 - 草稿 - 线稿 - 上色 - 动画 ",本身就是 know-how。然后每个环节如何和 AI 结合,如何高质量打标签,如何实现美学对齐(比如创作端什么内容才是 " 美 ",什么才是 " 好 " 等),哪些功能和模块更符合使用需求,也是需要与行业 know-how 结合打磨,也是 PMF 的过程。
专业制作内容,有大量的数据 1)本身很难或者无法进行数字化沉淀,如电影 / 漫画的分镜设计,其构思往往在导演 / 创作者脑中,无法有效沉淀;2)在制作方手中,特别是制作环节过程中产生的高质量结构化数据,对模型训练有巨大帮助,但往往这些数据并不是公开的。相关数据的缺乏导致了 AI 模型本身无法有效获得训练而不具备对应能力,这也是上文案例动画制作环节中,分镜设计的 AI 渗透率极低,但上色环节(公开数据较多)有较好效果和渗透率的原因。
预训练模型的本质是历史数据和知识的压缩,数据的质和量极大程度决定了 AI 能力。专有数据对于提升模型能力,满足企业的特定需求(调性风格、品牌特点、行业知识等)至关重要。
因此我们也期待产业方更开放同科技公司合作,目前虽然中国底层大模型的发展和学术研究暂时还处于追赶国外的状态,但中国的产业更丰富,我们对应用的落地有着更强的人才和资源投入,我们在 AI2.0 的商业化应用上有机会复现中国在 AI1.0 时代的引领地位。
5. B 端需要的并非单一的AI产品和工具
对企业客户来说,经过我们的调研,相比于底层技术和实现方式,其往往更关注交付的效果,所以生成式 AI 的落地,除了行业 know-how 和专有数据以外,我们认为需要满足以下几点:
首先,是多个模态的组合
生成式 AI 的落地在众多的行业和场景,但从介质的角度来看,主要是文本 / 图像 / 视频 /3D/ 音频。真的在产业落地,单一的模态往往是不充分的。其中,文本往往被广泛用作跨模态(和图像 / 视频 /3D/ 音频)交互的自然语言,连接着多模态的组合。如 AI 制作 3D 游戏,就涉及到文本、图像和 3D 等模态,文本可用于编程和对话,以及其他模态的交互,图像用于人物设计的美术环节,3D 用于建模环节。
其次,还会是多个模型构建的系统
大模型和小模型的组合:大模型泛化和通用性强,但对于很多 AI1.0 时代已经解决的标准化的场景,用小模型更具备经济性(算力消耗少),因此可以组合大模型和小模型搭配,分别完成复杂和标准场景。
通用和垂直模型组合:通用模型覆盖大部分业务,但对特定的垂直领域,调用对应的垂直模型,如法律翻译和文学翻译,AI 翻译系统可以是不垂直模型的组合。
除此之外,为了实现特定的目标,还会包含众多的嵌入的模块来扩展模型能力的边界,从而构成一个系统。比如会在 Stable Diffusion 模型中加入 Control Net 的神经网络架构,通过选择不同的输入条件,生成满足特定需求的图像来实现内容控制。或者在模型中加入文本特征抽取模块,多层映射网络实现关键词解耦,从而提升理解能力等,使得 AI 能真正落地使用。
最后,还会是 AI 能力 + 现有业务系统和管理流程的结合
很多 AI 公司都可以做到前述 2 点,但最终在企业的落地效果不佳,究其原因还是在于 1)要么没有和现有的业务系统结合,导致虽然局部环节提效,但和现有业务系统的融合中额外增加成本,总效率更低,或者 2)目前大模型无法嵌入企业的工作体系里,也无法解决企业的管理逻辑,所以往往都是设计师 / 员工自行使用,AI 和管理体系需要协同和融合。
我们观察到国内某新型主流全媒体集团旗下的 " 生成式人工智能媒体融合创新工作室 " 取得了不错的落地,内部结合自身的工作管理和业务流程,叠加 AI 能力,开发了一套全栈的 AI+ 业务 + 管理系统。其 1)在 AI 制作上,涵盖了多个功能,涉及文本、图像、视频、音频等多个模态;2)现有的媒体集团的业务和管理,涉及 " 媒资库入检索 - 内容制作 - 内容审核 - 内容分发 - 媒资入库 " 等环节和系统。所开发的 AI 系统和公司媒资管理系统、专属(新闻采编等)业务系统有连接,同时也是与安全播出的多重审核机制管理权限藕合。不仅仅是单纯的内容制作工具,其也集成 AI 媒资管理、安全审核结合等业务和监管环节,形成一套综合的系统。3)同时制作全流程不需要切换系统,方便管理和流程转移。这是我们看到的目前较好的 B 端的综合 AI 落地,结合了多个模态,多个模型,同时和企业的业务和管理流程系统融合,具备较高的使用率,也表现出较好的提效结果。
6. AI 2B 发展路径:Native生成式 AI 公司vs Non-native生成式 AI 公司
我们观察到在 AI 2B 赛道有 2 类公司。一类是 Native 生成式 AI 公司,从 0-1 利用 AI 的模型能力为企业客户提供服务。另一类是 Non-native 生成式 AI 服务公司,比如数字化时代的企业服务公司,他们通常已在一些 2B 场景里取得了不错的结果,如今把生成式 AI 能力融合到现有场景中,谋求更好的实现效果。
第一类路径
比如在视频制作领域有众多的 Native 生成式 AI 创业公司,他们致力于通过 AI 模型,输入文字或者图像直接产出视频。随着 Sora 的推出,我们观察到众多相关创业公司当前的努力重点还是提升模型能力,尽快复刻 Sora 展现出来的效果。我们认为如果想要将其做成一个企业级的应用产品,合理的路径除了进一步提高模型本身之外,还需要 1)产品的功能设计和工作流相结合,如增加分镜的顺序组合搭配工具,使得生成的视频具备故事性;2)增加编辑和控制工具,如局部内容的特定颜色,特效的编辑功能,或者关键帧的控制工具等。通过和产业需求和 know-how 结合,才能将模型能力变成产品,且其符合使用习惯从而取得很好的落地效果。
第二类路径
智能化的基础是数字化,很多场景已经在 AI1.0 时代被企业服务公司覆盖,如智能客服、AI 营销、翻译等。在已经被数字化改造的行业的提供企业服务公司,其有沉淀的场景数据,有业务的落地,有现成的客户 access,如果叠加生成式 AI 的能力,如把大模型应用到客服系统和营销对话场景,对话效果比 AI1.0 的模型更加自然,从而获得更高的用户满意度和付费转化率。再如大模型对商业运营表现和市场商机进行分析,进一步完善 BI(商业智能)的功能,这些都可以加深对客户的服务 和拓宽服务边界,增加企业客户对产品的价值感。我们观察到在 AI 电商营销领域,随着生成式 AI 技术的普及,原本处于不同环节分工的企业,都在拓宽服务边界,彼此渗透,例如提供 AI 客服的公司,使用大模型能力,不仅提升了客户对话能力,也拓展到 AI 蓄客、营销文案制作、数字人、智能营销切片等。因此我们认为以上也是一个生成式 AI 2B 有机会的发展路径。
7. 结语
生成式 AI 技术解锁了巨大的市场空间和可能性,但当前技术并不完美,特别在对精准性、可控性、一致性要求较高的 B 端产业落地面临较多挑战。End to End 思路更直接,但想要取得更好的结果更依赖底层技术的突破,Step by Step 思路在当前的技术栈下短期更加务实,追求降本增效。但无论哪种思路,行业的 know-how,专有数据,AI 与业务和管理系统的耦合,都在产业端落地中都至关重要。
此外,生成式 AI 也是设计和生产范式的变化,年轻的创作者对新技术的拥抱度更高,AI 科技公司可以参与培育新一批的 AI Native 的创作者,在大学共创课程体系,随着相关学生毕业进入产业界,将促成新的创作范式的行业落地,同时也形成了产品的隐性的护城河。
来源:钛媒体