苹果介绍Ferret-UI多模态大语言模型：更充分理解手机屏幕内容

业界

2024

04/10

11:01

IT之家

4 月 10 日消息，苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以理解应用程序屏幕上的内容。

以 ChatGPT 为代表的 AI 大语言模型（LLMs），其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容，多模态大语言模型（MLLMs）因此孕育而生。

只是现阶段 MLLMs 还无法有效理解移动应用程序，这主要有以下几个原因：

1. 手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比不同。

2. MLLMs 需要识别出图标和按钮，但它们相对来说都比较小。

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题：

与自然图像相比，用户界面屏幕的长宽比通常更长，包含的关注对象（如图标、文本）也更小，因此我们在 Ferret 的基础上加入了 "任意分辨率"，以放大细节并利用增强的视觉功能。

我们精心收集了大量初级用户界面任务的训练样本，如图标识别、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的，以便于精确引用和接地。

为了增强模型的推理能力，我们进一步编制了高级任务数据集，包括详细描述、感知 / 交互对话和功能推理。

苹果在论文中表示相比较现有的 GPT-4V，以及其它 MLLMs 模型，Ferret-UI AI 模型更为优秀。

【来源：IT之家】

THE END

广告、内容合作请点击这里寻求合作

苹果公司

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表的观点和立场。

4 月 9 日消息，苹果公司日前响应欧盟的整改要求，修改了 App Store 的相关条款，支持 Spotify 等音乐流媒体服务在其应用中内嵌引流支付外链。

业界

随着苹果公司在投资者心目中的形象一落千丈，这个曾经的市场宠儿如今也正黯然失色。

业界

4 月 2 日消息，苹果公司现任首席执行官蒂姆・库克（Tim Cook）今天发布推文，庆祝苹果公司成立 45 周年，在推文中再次提及公司联合创始人史蒂夫・乔布斯。

业界

3月29日消息，市场研究机构Counterpoint Research发布的报告显示，预计今年高端手机（600-799美元）出货量将同比增长17%，而这主要是靠苹果和华为的拉动。

业界

近日，CNMO注意到，全球科技巨头苹果公司再度陷入反垄断风波。继美国司法部对其发起大规模反垄断诉讼后，苹果又因涉嫌垄断智能手机市场，遭到来自消费者方面的集体诉讼。

业界