OpenAI活动第二弹：“强化微调”打造领域专家AI模型，阿尔特曼称其为今年最大惊喜

2024

12/07

16:28

IT之家

12 月 7 日消息，OpenAI 启动了为期 12 天的“shipmas”新品发布周期，将推出一系列新功能、新产品以及相关演示。本次活动第二日，OpenAI 推出了强化微调（Reinforcement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。

该项目通过全新的模型定制技术，让开发者可以使用高质量任务集对模型进行微调，并利用参考答案评估模型的响应，从而提升模型在特定领域任务中的推理能力和准确性。

强化微调简介

IT之家附上官方介绍：开发人员能够使用数十到数千个高质量任务，定制 OpenAI 的模型，并使用提供的参考答案对模型的响应进行评分。官方表示这项技术强化了模型推理类似问题的方式，并提高了其在该领域特定任务上的准确性。

与标准微调不同，RFT 利用强化学习算法，可以将模型性能从高中水平提升到专家博士水平。

RFT 与监督式微调不同，它不是让模型模仿输入，而是教模型以全新的方式进行推理，通过对模型答案进行评分并强化正确的推理路线，RFT 只需少量示例即可显著提高模型性能。

RFT 支持用户利用自己的黄金数据集创建独特的模型，并将其应用于法律、金融、工程、保险等需要专业知识的领域。

强化微调面向群体

OpenAI 励研究机构、高校和企业申请，特别是那些目前由专家领导执行一系列狭窄复杂任务，并且将受益于人工智能协助的机构。

OpenAI 表示强化微调在结果具有客观“正确”答案，且大多数专家会同意的任务中表现出色，因此认为在法律、保险、医疗、金融、工程等领域会有更好的表现。

参与者可提前访问 Alpha 版强化微调 API，并在特定领域任务中进行测试，此外 OpenAI 鼓励参与者分享数据集，共同改进 OpenAI 模型。

OpenAI 预计 2025 年初公开发布强化微调功能。

OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）表示：“强化微调，效果出奇地好；它是我 2024 年最大的惊喜之一。”

【来源：IT之家】

THE END

广告、内容合作请点击这里寻求合作

OpenAI

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表的观点和立场。

相关热点

OpenAI 在瑞士设新办公室，招募谷歌工程师推进研发

12 月 6 日消息，OpenAI 于 12 月 3 日发布公告，将在苏黎世（Zurich）建设新的办公室，这也是该公司首次在瑞士设立据点，目标是进一步拓展欧洲市场。

业界

最智能语言模型！OpenAI年末惊喜：正式版o1上线，还

当地时间12月5日，OpenAI正式开始了自己的连续12个工作日直播计划，在第一天的直播中发布了新的OpenAI o1模型，并推出了每月订阅费用高达200美元的ChatGPT Pro计划。

业界

OpenAI CEO奥特曼回应马斯克政治影响力：他不会借此

北京时间12月5日，OpenAI CEO萨姆·奥特曼(Sam Altman)周三淡化了外界对于埃隆·马斯克(Elon Musk)政治影响力的担忧。

业界

OpenAI宣布未来3周举行12场新品发布会，包含一款新

12月5日，OpenAI宣布从当地时间周四开始将进入一个持续发布新功能的阶段。OpenAI表示：“12天、12场直播，一堆大大小小的新东西，OpenAI的12天活动期从明天开始。”

业界

OpenAI从谷歌DeepMind挖角三名高级工程师，专注于多

12 月 4 日消息，据 Wired 报道，OpenAI 今日宣布，已从竞争对手谷歌 DeepMind 聘请三位高级计算机视觉与机器学习工程师：Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai。

业界

OpenAI活动第二弹：“强化微调”打造领域专家AI模型，阿尔特曼称其为今年最大惊喜

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 电池

关注我们