苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

日期:04-10
苹果手机屏幕AI

IT之家4月10日消息,苹果公司近日发布研究论文,展示了Ferret-UIAI系统,可以理解应用程序屏幕上的内容。

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

以ChatGPT为代表的AI大语言模型(LLMs),其训练材料通常是文本内容。为了能够让AI模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。

只是现阶段MLLMs还无法有效理解移动应用程序,这主要有以下几个原因:

1.手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。

2.MLLMs需要识别出图标和按钮,但它们相对来说都比较小。

因此苹果构想了名为Ferret-UI的MLLM系统解决了这些问题:

与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小,因此我们在Ferret的基础上加入了"任意分辨率",以放大细节并利用增强的视觉功能。

我们精心收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。

为了增强模型的推理能力,我们进一步编制了高级任务数据集,包括详细描述、感知/交互对话和功能推理。

苹果在论文中表示相比较现有的GPT-4V,以及其它MLLMs模型,Ferret-UIAI模型更为优秀。

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

IT之家附上参考地址

调查:美国青少年 VR 设备使用率增长,近 1/3 拥有 VR 设备 提出“上帝粒子”理论的著名物理学家彼得・希格斯逝世,享年 94 岁
相关阅读: