大型公司也开始利用蒸馏技术
北京时间3月3日,当DeepSeek在今年初凭借低成本模型一鸣惊人时,OpenAI曾在没有证据的情况下指控DeepSeek违规“蒸馏”。据《金融时报》报道,包括OpenAI、微软和Meta在内的领先AI公司正转用“蒸馏”技术,以便在全球竞争中开发出更便宜、便于消费者和企业采用的AI模型。
通过蒸馏技术,企业使用一个被称为“教师”模型的大语言模型生成数据,然后用这些数据训练一个较小的“学生”模型,从而快速将大模型的知识和预测能力转移到较小的模型上。
虽然蒸馏技术已被广泛应用多年,但是近期的进展使得业内专家相信,对于寻求以经济高效的方法来开发大模型应用的创业公司来说,这项技术将逐渐成为他们的福音。
“蒸馏技术相当神奇,”OpenAI平台产品负责人奥利维尔·戈德门特(Olivier Godement)表示,“其本质上是利用一个非常庞大且智能的前沿模型来训练一个较小的模型……使其在特定任务上具备极强的能力,同时成本极低,执行速度极快。”
OpenAI的GPT-4,谷歌Gemini和Meta的Llama等大语言模型需要海量数据和算力来开发和维护。虽然这些公司尚未披露训练大模型的具体成本,但很可能高达数亿美元。借助蒸馏技术,开发者和企业可以以极低的成本获取这些模型的能力,使应用开发者能够在笔记本电脑和智能手机等设备上快速运行AI模型。
【来源:凤凰网科技】