当生成式 AI 风头正劲,越来越多的企业开始积极在自身行业布局相关的 AI 应用。但在风头之下,从准备工作到业务价值落地之间环环相扣,从数据准备到筛选场景,再到落地应用,每一个环节都会成为企业级 AI 应用的卡点。
第一步:数据 " 就绪 "
" 从现阶段应用来看,具备企业级 AI 应用落地的企业并不多,"IBM 大中华区董事长、总经理陈旭东告诉钛媒体 APP," 若想有更多成熟的生成式 AI 应用场景落地,企业首先需要大量多维度的高质量数据。"
" 数据是 AI 时代的石油。" 领悦数字信息技术有限公司南京分公司总经理戚海飞对钛媒体 APP 表示。确实,无论是对于政府,还是企业,数据已经成为互联网时代、AI 时代的 " 石油 "。
2020 年 4 月,国务院发布文件《关于构建更加完善的要素市场化配置体制机制的意见》此次意见首次把数据和土地、劳动力、资本、技术四大传统要素并列,成为第五个生产要素。目前行业公认的以次为 " 起点 ",数据成为越来越重要的存在。2023 年 10 月,国家数据局的正式成立,将数据的重要性推到了最高峰。
2022 年底,ChatGPT 横空出世以后,新一轮 AI 的浪潮席卷各行各业,企业对于数据的重视程度越来越高。中国信息通讯研究院云计算大于数据研究所所长何宝宏表示,伴随着大数据产业的发展,数据质量越来越高的前提下,人工智能已经逐渐从以代码为中心,转向以数据为中心的人工智能," 当下企业需要通过加强数据治理和增强数据质量,来解决模型输出效果。"
何宝宏还曾指出,据作为第五大生产要素,正在从数据资源演变为数据资产,其经济属性日益凸显,数字经济迈向以数据可信流通为核心的数据技术 3.0 时代,大模型的出现加快了各行各业的数字化和智能化升级进程,正在推动智能技术产生深刻变革。
固然,对于企业而言,想要落地大模型的第一步就是要具备足够的高质量数据。对此,图灵新智算董事长兼 CEO 刘淼告诉钛媒体 APP,企业应用 AI 大模型就像是 " 中央厨房 " 一样,而数据就是原材料,企业如果连高质量的数据集都不具备的话,就形成了 " 巧妇难为无米之炊 " 的窘境。
而好的企业显然已经在数据方面做好了 " 就绪 "。戚海飞告诉钛媒体 APP,宝马从 2018 年就开始数据资产化进程,建立数据和 AI 的团队," 特别是最近几年,我们把所有的数据落湖,进行资产化。"
数据资产化之后,对于大型企业来说,实现了跨地域、跨业务部门之间异构数据的互通互享," 打通了数据的通路,才能激发更多的数据价值。" 戚海飞如是说。
宝马也正是在打通了数据之后,才在此基础上进行应用开发," 数据准备好后,无论是做用户高级分析,还是 AI 模型的训练,就显得’得心应手‘了," 戚海飞告诉钛媒体 APP," 而这也是宝马提出的 Data AI,Data 在前,AI 在后的原因。"
而伴随着生成式 AI 的火爆,合成数据也成为了大模型时代企业训练大模型的 " 必备品 ",Gartner 数据显示,预计 2024 年,60% 用于 AI 开发和分析的数据将会是合成数据;2026 年,GPT 等大型语言模型就将耗尽互联网上可用的文本数据;2030 年,合成数据将彻底取代真实数据。
尽管合成数据发展的速度超乎想象,不过目前业内对合成数据的看法并不一致。
一种观点认为,合成数据无异于 " 近亲繁殖 ",会造成模型崩溃的情况,这种观点主要的核心理论是:如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷——原始内容分布的尾部(低概率事件)会消失。其主要观点来自于牛津、剑桥等机构在 Nature 封面发布的一篇论文。
另一种观点认为,当现实中高质量数据不足的时候,合成数据能够精准的提供高质量的数据。根据 IBM 的观点,合成数据是现在比较有效的方法,特别是训练一些大模型的时候,主要原因是因为合成数据的质量比较高,覆盖性比较好,可以满足利用一些比较精简的数据集训练出好用的模型产品。
数据的重要性在当下已经不言而喻,而数据就绪也成为了企业在利用大模型产品赋能业务发展的过程中的第一步,既是基础,也是前提。
第二步:选准应用场景
拥有了足够量的高质量数据,企业才具备大模型的 " 入场券 ",而进场之后,如何才能让大模型产品帮助到自身业务发展?找准场景就成为企业第二步要做的事。
目前企业场景中,比较容易率先应用大模型的场景是:对一些原有的类似智能客服的产品的迭代。一方面,这些简单的大语言模型的应用目前已经可以做到无需 GPU 卡就能实现,从部署成本上,给企业降低了部署的成本,当然也降低了试错的成本;另一方面,原先的知识问答类的产品,相较于人工智能,更像是 " 人工智障 ",并不能很好地理解人们的诉求,但当植入了大语言模型的能力之后,能让智能问答类的产品有质的飞跃。
对于智能问答类的产品的延伸——知识图谱,也是企业现阶段可以率先应用大模型赋能的一环。
除此之外,在陈旭东看来,从应用的 上看,企业的 IT 运维管理方面,也是企业率先应用大模型时好的选择。" 大模型的能力对复杂的 IT 运维环境提供了更好的监控,优化资源配备的能力,可以监控到指令级的问题,并对问题进行自动化的干预。" 陈旭东指出。
除了知识类和 IT 运维类的应用以外,立足各行业中,企业也在积极的探索大模型的应用。从目前的应用场景上看,医疗、金融这两部分是比较常见的,也是落地比较快的两个场景。
金融行业方面,现阶段,大模型在金融行业的应用主要还是集中在风险评估和管理,以及知识图谱平台搭建方面。在风险评估方面,大模型可以通过分析大量的历史数据和实时信息,预测市场风险、评估信用风险等,为金融机构提供更加准确和及时的风险管理决策支持。
另一方面,就如同陈旭东所言,金融机构还在尝试将大模型与知识图谱平台结合,用大模型代替 NLP 技术,在进一步提升效率的同时,提升风控水平。
医疗行业方面的应用目前主要集中在识别和同样是类似问答的分诊领域。一方面,通过行业大模型对大量医疗数据的学习和分析,可以自动识别病变特征,辅助医生进行疾病诊断,提高诊断准确率与诊断效率;另一方面,通过类似 "AI 助手 " 的模式,利用大模型为患者提供分诊助手也是在医疗侧目前布局厂商较多的一类产品。
第三步:规模化应用
除了金融和医疗领域,其实还有很多领域涌现了不少大模型可以应用的场景,虽然这些场景有一些不错的落地效果,但企业也不应该对大模型 " 趋之若鹜 "。对此,IBM 咨询大中华区总裁陈科典对钛媒体 APP 表示,如果一个企业级 AI 应用没法形成规模化应用的话,那么这个应用,这个场景对于企业而言意义不大," 无论是传统 AI,还是生成式 AI 技术,如果好几月才能做一个场景,且无法规模化应用的话,那就不能说是企业级 AI。" 陈科典强调。
无独有偶,戚海飞也有着与陈科典相似的看法,他指出,当宝马具备了数据 " 就绪 " 的能力后,开始尝试在各个场景中应用," 后来发现,一些个别的小的场景没有太大价值," 戚海飞表示,"AI 的应用还是需要从方方面面出发,具备规模化的能力。"
而据戚海飞介绍,宝马用了 2 年时间,落地了 100 多个 AI 应用的场景," 之所以能形成这么大规模的应用与复制的能力,数据是一方面,更重要的是平台化的能力。" 戚海飞强调," 平台化是 AI 规模化应用的一个重要前提。"
如果能将 AI 的能力通过平台化进行复制,重复使用 AI 的能力,对于企业而言,使用 AI 的成本与技术门槛将会下降很多。
陈旭东也曾对钛媒体 APP 表示,IBM 认为平台化是企业级 AI 落地过程中重要的方式,IBM 相信,云计算将会是未来很长一段时间内企业数字化的主要手段,而 AI 发展的趋势也是不可逆的,"AI 已经成为企业核心竞争力,所以企业需要打造自己的企业级 AI 平台。" 陈旭东如是说," 虽然这种方式短期上来,企业的投入相较于其他两种更大,但长期来看,企业投入的回报率非常可观。"
而在戚海飞看来,平台化仅是企业级 AI 规模化应用的开始和前提,在实现了平台化的能力后,通过公司内部的系统对 AI 应用集成决定了企业级 AI 规模化的好坏,在他看来," 以我们所处的 行业为例,很多内部的应用系统都是有关联性的,通过这些系统,将 AI 的能力进行集成后,就能产生联动效应,才能实现真正的规模化应用。"
来源:钛媒体