苹果多模态Ferret 让大模型理解手机屏幕

机器之心报道

编辑:陈萍

移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。

为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。

这样一个系统不仅要能完全理解屏幕内容,还要能关注屏幕内的特定 UI 元素。以视觉理解为基础,它应当有能力进一步将自然语言指令映射到给定 UI 内对应的动作、执行高级推理并提供其交互的屏幕的详细信息。

为了满足这些要求,必须开发出能在 UI 屏幕中确定相关元素位置并加以引述的视觉 - 语言模型。其中,确定相关元素位置这一任务通常被称为 grounding,这里我们将其译为「定基」,取确定参考基准之意;而引述(referring)是指有能力利用屏幕中特定区域的图像信息。

多模态大型语言模型(MLLM)为这一方向的发展带来了新的可能性。近日,苹果公司一个团队提出了 Ferret-UI。

这应当是首个专门针对 UI 屏幕设计的用于精确引述和定基任务的 MLLM,并且该模型能解读开放式的语言指令并据此采取行动。他们的这项工作聚焦于三个方面:改进模型架构、整编数据集、建立评估基准。

实验表明,他们的这种方法效果还挺不错,如图 1 所示:Ferret-UI 能够很好地处理从基础到高级的 11 种任务,从简单的寻找按钮到复杂的描述具体功能。

下面来看具体方法。

方法概览

Ferret-UI 基于 Ferret,而 Ferret 是一个擅长处理自然图像的引述和定基任务的 MLLM,并且其支持多种形状和细节层级。

Ferret 包含一个预训练的视觉编码器(如 CLIP-ViT-L/14)和一个仅解码器语言模型(如 Vicuna)。

此外,Ferret 还采用了一种独特的混合表征技术,可将指定区域转换为适合 LLM 处理的格式。其核心是一个可感知空间的视觉采样器,能够以不同稀疏层级管理区域形状的连续特征。

为了将 UI 专家知识集成到 Ferret 中,苹果团队做了两方面工作:(1)定义和构建 UI 引述和定基任务;(2)调整模型架构以更好地应对屏幕数据。

具体来说,为了训练模型,Ferret-UI 包含多个 UI 引述任务(比如 OCR、图标识别、小部件分类)和定基任务(比如寻找文本 / 图标 / 小组件、小组件列表);这些任务可帮助模型很好地理解手机 UI 并与之交互。之前的 MLLM 需要外部检测模块或屏幕视图文件,而 Ferret-UI 不一样,它自己就能搞定,可以直接输入原始屏幕像素。这种方法不仅有助于高级的单屏幕交互,而且还可支持新应用,比如提升支持残障人士的辅助功能。

研究 UI 数据集还为该团队带来了另外两个有关建模的见解:(1)手机屏幕的纵横比(见表 1a)与自然图像的不一样,通常更长一些。(2)UI 相关任务涉及很多对象(即图标和文本等 UI 组件),并且这些组件通常比自然图像中的对象小得多。

举个例子,很多问题涉及的图标的面积只占整个屏幕的 0.1%。因此,如果只使用单张重新调整了大小的低分辨率全局图像,可能会丢失很多重要的视觉细节。

为了解决这个问题,该团队引入了 any resolution(任意分辨率 /anyres)这一思想。

具体来说,基于手机的原始纵横比,他们选择了两种网格配置:1x2 和 2x1。给定一张屏幕图像,选取最接近其原始纵横比的网格配置。之后,调整屏幕图像大小,使其匹配所选的网格配置,然后再将其切分为子图像(sub-image)。很明显,纵向屏幕会被水平切分,而横向屏幕会被垂直切分。然后,使用同一个图像编码器分开编码所有子图像。接下来 LLM 就可以使用各种粒度的所有视觉特征了 —— 不管是完整图像还是经过增强的细节特征。

图 2 给出了 Ferret-UI 的整体架构,包括任意分辨率调整部分。

数据集和任务构建

苹果团队构建了一个数据集来训练和评估模型。

收集 UI 数据

UI 屏幕。该团队不仅收集了 iPhone 屏幕,也收集了安卓设备的屏幕。

其中安卓屏幕数据来自 RICO 数据集的一个子集,并根据该团队的分割方案进行了处理。总共有 26,527 张训练图像和 3080 张测试图像。

iPhone 屏幕则来自 AMP 数据集,有不同大小,共 84,685 张训练图像和 9,410 张测试图像。

UI 屏幕元素标注。他们使用一个预训练的基于像素的 UI 检测模型对收集到的屏幕数据进行了细粒度的元素标注。

任务构建

下面将简单描述该团队是如何将 UI 屏幕和相应标注转换成可用于训练 MLLM 的格式。这有三种方法。

方法一:调整 Spotlight 的格式 。基于论文《Spotlight: Mobile ui understanding using vision-language models with a focus》,他们取用了 Spotlight 中的三个任务:screen2words、widgetcaptions 和 taperception,并将它们的格式调整为了对话式的一对对问答。具体来说,为了创建 prompt,他们使用了 GPT-3.5 Turbo 来处理他们编写的基础 prompt:

每个训练示例都采样了相应任务的 prompt,并搭配了原始原图像和基本真值答案。

方法二:基础任务 。除了 Spotlight 任务,该团队还创建了 7 个新的 UI 任务:用于引述的 OCR、图标识别和小部件分类;用于定基的小部件列表、查找文本、查找图标、查找小部件。他们将引述(referring)任务定义为输入中有边界框的任务,而将定基(grounding)任务定义为输出中有边界框的任务。

他们还使用 GPT-3.5 Turbo 扩展了每个任务的基础 prompt,以引入任务问题的变体版本。图 3 给出了数据生成的详情。每个任务的训练样本数量见表 1b。

方法三:高级任务 。为了让新模型具备推理能力,他们跟随 LLaVA 的做法并使用 GPT-4 额外收集了四种其它格式的数据。图 4 展示了高级任务的训练数据生成过程。

这四个任务是: 详细描述、对话感知、对话交互和功能推断

实验结果

该团队进行了实验研究和消融研究,并对结果进行了详细分析。

设置:Ferret-UI-anyres 是指集成了任意分辨率的版本,Ferret-UI-base 是指直接采用 Ferret 架构的版本,Ferret-UI 是指这两种配置。训练使用了 8 台 A100 GPU,Ferret-UI-base 耗时 1 天,Ferret-UI-anyres 耗时约 3 天。

结果

实验比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有任务上的表现;另外在高级任务上参与比较的模型还有 Fuyu 和 CogAgent。

表 2 总结了实验结果,其中的数据是模型在每个类别中的平均表现。

图 5 和表 3 给出了在具体的基础和高级任务上的表现详情。

从这些图表可以看到,Ferret-UI 的表现颇具竞争力。尤其是任意分辨率(anyres)的加入能让 Ferret-UI-base 的表现更上一层楼。

消融研究

表 4 给出了消融研究的详情。

从表 4a 可以看到,基础任务能够帮助提升模型解决高级任务的能力。

而表 4b 则表明,加入基础任务数据并不会明显改变模型在三个 Spotlight 任务上的性能。其原因可能是基础任务的响应中使用了简短且高度专业化的 UI 相关术语,这与 Spotlight 任务要求的响应风格不一致。而如果进一步整合高级任务,便能够在 Spotlight 任务上得到最佳结果,即便这些高级任务数据完全来自 iPhone 屏幕。

该团队最后对 Ferret-UI 的结果进行了详细的分析,进一步验证了其在引述和定基任务上的出色表现,详情参阅原论文。


智能座舱2024流行什么?大模型,多模态交互,舱驾合一

撰文 / 周 洲编辑 / 孟 为设计 / 琚 佳

今年的智能座舱流行什么?

根据第十一届轩辕奖智能座舱测评总结的趋势,测评团队预判,大模型在汽车领域的运用会成为2024年的一个新趋势。

此外,类手机交互的趋势值得探讨。“它到底是不是车内的最优交互方式?车内有很多的传感器,多模态的座舱自然交互是不是可以成为超越手机交互的一个更好的交互方式?”轩辕奖测试代表、博泰产品总监杜芳说。

基于传感器的一些识别算法可以触发更多的自动智能场景,智能汽车其实不仅仅是座舱或者智驾,它是座舱和智驾以及整车能力的一个深度融合。这种域融合对各个车型来说也是非常大的挑战。轩辕奖测评团队希望在今年参加测评的车型上能够看到上述这几个趋势的一些发展方向。

轩辕奖于2013年由汽车商业评论和奥地利EFS联合发起,秉持独立于商业、独立于权力、独立于关系的“三独”评奖准则,找寻中国汽车产业贡献样本,推动新汽车向前进。

2023年12月16日,2024第十一届中国汽车产业年度贡献奖——轩辕奖颁奖典礼在武汉经济技术开发区的中国车谷国际体育文化交流中心举行。

在颁奖典礼中,杜芳分享了2024轩辕奖智能座舱测试报告,总结本届轩辕奖入围车型的座舱亮点与整体行业趋势,并预判未来座舱趋势。

杜芳称,2023年智能座舱领域整体趋势偏向于更硬核、更细腻、更互联的一些场景体验、场景能力增强,以及有更多的科技和智能加持。

这主要体现在以下五方面。

首先在 HMI (人机界面)方面,在视觉层面,可视化、立体化和氛围感是一个新的视觉呈现方式,而交互层面体现在类手机交互、多模/空间交互上;在场景层面,有更多细腻的场景闭环体验、更多的自动场景以及场景的自定义和分享;在生态的补充方面,除了原先传统的应用商店之外,很多车企在深度手机生态融合方面进行发力;另外在整车智能、设备互联以及更多的人文关怀层面,以及新能源、车的能源管理和补能体验方面,车企也有了令人惊喜的进步。

HMI:视觉与交互趋势

在视觉层面上,2023年有越来越多的车辆通过图片、动效、视频和音效协同的方式,让一些专业和复杂的功能变得更加简单易懂,然后通过3D-HMI(立体化)呈现。不仅仅是原先看到的3D形态,2023年的3D渲染更加细腻,对于3D环境的实时渲染也更加真实。

在氛围感上,车企在2023年做了很多情景模式,比如小憩、露营等模式。车企在这种情景模式里用屏幕视觉去叠加座椅、空调、氛围灯等环境的氛围渲染,让用户在整个座舱空间里面有一种沉浸式的感官体验。

类手机交互是把用户在手机等电子设备里面非常熟悉的交互习惯延续到车里,让用户在座舱里降低学习的门槛;而多模和空间交互是利用手势、语音以及视觉的识别能力,让整个座舱的交互变得更加直观、更加准确,给用户带来很多惊喜。空间交互其实是随着用户在车内的位置转移,其交互焦点也会转移到不同的空间,让用户实现车内的跨空间交互流转。

最后,在车企特别熟悉的语音交互层面上,杜芳称2023年看到OCR技术以及视觉能力的加持,让“可见即可说”变得更加精准。

细致周全的语音交互里面包含OCR可见即可说、全时可见即可说,全时免唤醒;另外语音还覆盖了更多的控制范围,包含整个座舱的设置、整车所有可控的控制能力以及泊车和智驾的控制,比以前有了更多的控制范围。

场景:闭环体验与场景智能

场景层面的趋势是:利用了语音多轮交互以及一些传统的应用,比如说导航、音乐、电话等传统应用的一些关联能力,去体现整个场景的产品设计能力。这种高频场景的连续体验,让用户不需要在各个应用之间跳转,可以自动进行应用的流转。

另外自动场景方面通过了一些传感器的数据分析,让机器去自动感知场景、自动执行场景,让用户不需要进行任何操作,就可以在车内享受到场景带来的一些便捷。

2023年,很多车企把整车和座舱的能力拆解成各种原子化能力,让用户可以像智能家居一样定制自己喜欢的场景,甚至可以把这些场景分享给其他用户,这也增进了车主的社交。

生态:深度手机生态融合

在生态方面,原先很多车企的做法就像多品牌手机互联,大家用 Carplay(苹果手机)、Hicar(华为)以及ICCOACarLink(Oppo、Vivo、小米手机等)等互联方案去覆盖更多的手机用户。

轩辕奖测评团队发现2023年的一个生态趋势,像领克、蔚来、问界有一个优势,就是拥有自有品牌的手机,它们在手机上做了一些深度定制化,实现跟座舱更加无缝无感的互联场景体验。

另外,像手机视频以及switch游戏等,可以直接通过投屏的方式投射到车机屏幕上,这种交互方式其实也是延续了用户在家用手机视频去投电视机这种非常方便的交互习惯,甚至导航、音乐和视频通话这种单应用也可以通过用户上下车的场景切换,自动在手机和座舱双端进行流转,延续了接续使用的体验。

整车:整车智能&设备互联

整车方面,轩辕奖测评团队今年比较惊喜地看到HUD和头枕音响成为了逐渐普及的标配,特别是大尺寸的AR-HUD。

电子后视镜方面,由于阿维塔没有参加,所以轩辕奖测试团队只评测了大通MIFA7一款车。2023年,关于电子后视镜的法规才刚刚通过,相信2024年应该会看到更多的电子后视镜上车。

投影大灯和车外交互也是一个场景体现。

杜芳称:“试想一下,如果你有一辆在车外会说话、会给你眨眼睛、有表情动作的车,它是不是更像一个智能的生命体?”

投影大灯让车可以进行自我表达和沟通,可以让车主突破车辆交互的界限,把交互的场景从车内延续到车外,是一个很有意思的探索。

另外在车内,设备互联体现在扩展坞层面,像问界M7和高合HiPhiY 在车内都做了一个扩展坞的设备,让用户可以去自由连接一些像iPad和 Go Pro这些智能设备,让用户打造一个DIY的车内空间。

同时,这种方式也是一个积木式的接插即用配件生态的雏形,也许到2024年会有更多的这种方式让用户去实现更多自定义车辆的能力。

其他:人文关怀,能源管理&补能体验

从人文关怀方面来看,很多车企在婴幼儿以及在对女性和家庭的关怀甚至于在对新手的引导和帮助层面做了大量的工作,让这些家庭成员在车内有一个非常舒适的空间,让家长可以更加关注到儿童的情绪安全状态。同时再通过车内的空间分区,比如说声音分区、语音交互分区以及空调的分区,让每一个座位的人都可以有一个独立的私享空间。

杜芳分享道,2023年大家对隐私和权限都非常重视,所以很多车都有隐私协议,然后增加了应用权限申请和集中管理的地方,让用户可以清晰地了解限制和管理权利和隐私的数据。

在新能源车的能量管理方面,轩辕奖测评团队也看到预约充电和对外放电为新能源车主创造了更多的生活场景;在能源保障的路径规划和充电站动态信息方面,也呈现了一些非常丰富的内容和服务,比如预计到达电量、途径充电站,快慢充数量等。

10个特色案例

总结了比较抽象的五大趋势之后,根据轩辕奖的测评,杜芳分享了本年度智能座舱的10个特色案例。

极越01:丝般顺滑的无界3D HMI。

这是第十一届轩辕奖3D HMI效果最好的车型。极越01的车模渲染细腻丝滑,交互方式非常快速,3D空间从整个屏幕延展过去叠加2D卡片,拥有很多界面一镜到底的转场动效。

魏牌高山/蓝山:数羊羊羊助眠的小憩模式

每一家参评的车企都做了小憩模式,但魏牌高山/蓝山在所有的屏幕上都用了小羊跳绳的动画,然后屏幕画面显示一只羊、两只羊、三只羊,是大家小时候都知道的睡不着觉就数羊,这个场景叫“数羊羊羊”。该场景一方面为用户营造了车内小憩的氛围,另一方面也从众多的小憩模式中脱颖而出,新颖有趣,年轻人很喜欢。

极越01:车外对话执行泊车/车控任务

轩辕奖测评团队觉得极越01车外对话最有用的两个功能,第一个就是可以在车旁边跟车辆说“打开窗或者打开后备箱”,它就可以分别进行车辆控制;另外它可以在狭窄车位泊车的时候,让车辆自己泊入泊出,这样人就不用在车上去体验狭窄、没有办法开门的场景。

长安启源A07:车外发声喊话的跨空间交互

长安启源A07在车外发声喊话的跨空间交互上,在中控屏幕上提供了非常丰富的自定义能力,比如用户可以输入文字转化成语音,也可以通过U盘上传一些音频,还可以按住一些按键录入自己的声音,然后通过声音外放实现喊话的功能,这也是一个有意思的探索。

蔚来ES6:超安心的能源保障路径规划

苹果手机屏幕突然变大了怎么办?

还原的方法如下:首先打开手机,在屏幕上用三个手指双击屏幕,然后可以在通用的辅助功能里把“缩放”关闭。 即可变回原来的手机界面。

苹果手机屏幕上两个大框怎么设置?

手机:iPhone13系统:10S15.2.1苹果手机屏幕上两个大框设置的方法如下:1、首先先打开iPhone的主界面,在界面中找到设置并点击。 进入设置界面以后,向下翻,找到专属通用并点击。 2、进入通用界面,向下翻以后,找到辅助功能并点击打开。 3、进入辅助功能界面以后,找到辅助触控并点击。 4、然后将辅助触控按钮打开即可,打开以后在屏幕页面即可使用。 手机的分类:手机分为智能手机(Smartphone)和非智能手机(Featurephone),一般智能手机的性能比非智能手机要好,但是非智能手机比智能手机性能稳定,大多数非智能手机和智能手机使用英国ARM公司架构的CPU。 智能手机的主频较高,运行速度快,处理程序任务更快速,日常更加的方便(例如:诺基亚n81主频有369兆赫兹);而非智能手机的主频则比较低,运行速度也比较慢(例如:诺基亚5000主频就是50兆赫兹)。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/keji312/8407.html
性能炸裂 布加迪全新超跑仪表盘谍照曝光
上架Steam 这个男人有点帅 女性向恋爱影游 嘶哈