您的位置首页 >知识百科 >

苹果的新人工智能模型可以学习理解你的应用程序和屏幕它能释放Siri的全部潜力吗

导读 人工智能正迅速成为我们移动体验的一部分,谷歌和三星引领潮流。然而,苹果在其生态系统内的人工智能方面也取得了重大进展。最近,这家库比...

人工智能正迅速成为我们移动体验的一部分,谷歌和三星引领潮流。然而,苹果在其生态系统内的人工智能方面也取得了重大进展。最近,这家库比蒂诺科技巨头推出了一个名为MM1的项目,这是一种能够处理文本和图像的多模态大语言模型(MLLM)。现在,一项新的研究已经发布,揭示了一种新颖的MLLM,旨在掌握移动显示界面的细微差别。

这篇由康奈尔大学发表、AppleInsider重点关注的论文介绍了“Ferret-UI:基于多模态法学硕士的移动UI理解”。

Ferret-UI是一种新的MLLM,专为增强对移动UI屏幕的理解而定制,配备了引用、接地和推理功能。

从字里行间看出,Ferret-UI可以让Siri更好地理解应用程序的外观和功能以及iOS界面本身。

该研究强调,尽管MLLM取得了进展,但许多模型在理解移动用户界面(UI)和与移动用户界面(UI)交互方面遇到了困难。移动屏幕通常以纵向模式使用,其密集的图标和文本排列带来了独特的挑战,使得人工智能难以解读。

为了解决这个问题,Ferret-UI引入了放大功能,通过将图像放大到任何所需的分辨率来增强屏幕元素的可读性。此功能改变了人工智能与移动界面交互的游戏规则。

根据该论文,Ferret-UI在识别和分类移动屏幕上的小部件、图标和文本方面表现出色。它支持各种输入方法,如指向、拳击或涂鸦。通过执行这些任务,模型可以很好地掌握视觉和空间数据,这有助于它精确地区分不同的UI元素。

Ferret-UI的与众不同之处在于它能够直接处理原始屏幕像素数据,无需外部检测工具或屏幕视图文件。这种方法显着增强了单屏交互,并为新应用程序开辟了可能性,例如提高设备的可访问性。

该研究论文赞扬了Ferret-UI在执行识别、定位和推理相关任务方面的熟练程度。这一突破表明,像Ferret-UI这样的先进人工智能模型可以彻底改变UI交互,提供更直观、更高效的用户体验。

如果Ferret-UI集成到Siri中会怎样?

虽然尚未确认Ferret-UI是否会集成到Siri或其他Apple服务中,但潜在的好处很有趣。Ferret-UI通过多模式方法增强对移动UI的理解,可以在多个方面显着改进Siri等语音助手。

这可能意味着Siri可以更好地理解用户想要在应用程序中做什么,甚至可以处理更复杂的任务。此外,它还可以通过考虑屏幕上的内容来帮助Siri更好地掌握查询的上下文。最终,这可以使Siri的使用体验更加流畅,让它处理诸如浏览应用程序或了解视觉上正在发生的事情等操作。

版权声明:本文由用户上传,如有侵权请联系删除!