苹果的新人工智能模型可以学习理解你的应用程序和屏幕它能释放Siri的全部潜力吗

发布时间：2024-04-15 11:41:32来源：

人工智能正迅速成为我们移动体验的一部分，谷歌和三星引领潮流。然而，苹果在其生态系统内的人工智能方面也取得了重大进展。最近，这家库比蒂诺科技巨头推出了一个名为MM1的项目，这是一种能够处理文本和图像的多模态大语言模型(MLLM)。现在，一项新的研究已经发布，揭示了一种新颖的MLLM，旨在掌握移动显示界面的细微差别。

这篇由康奈尔大学发表、AppleInsider重点关注的论文介绍了“Ferret-UI：基于多模态法学硕士的移动UI理解”。

Ferret-UI是一种新的MLLM，专为增强对移动UI屏幕的理解而定制，配备了引用、接地和推理功能。

从字里行间看出，Ferret-UI可以让Siri更好地理解应用程序的外观和功能以及iOS界面本身。

该研究强调，尽管MLLM取得了进展，但许多模型在理解移动用户界面(UI)和与移动用户界面(UI)交互方面遇到了困难。移动屏幕通常以纵向模式使用，其密集的图标和文本排列带来了独特的挑战，使得人工智能难以解读。

为了解决这个问题，Ferret-UI引入了放大功能，通过将图像放大到任何所需的分辨率来增强屏幕元素的可读性。此功能改变了人工智能与移动界面交互的游戏规则。

根据该论文，Ferret-UI在识别和分类移动屏幕上的小部件、图标和文本方面表现出色。它支持各种输入方法，如指向、拳击或涂鸦。通过执行这些任务，模型可以很好地掌握视觉和空间数据，这有助于它精确地区分不同的UI元素。

Ferret-UI的与众不同之处在于它能够直接处理原始屏幕像素数据，无需外部检测工具或屏幕视图文件。这种方法显着增强了单屏交互，并为新应用程序开辟了可能性，例如提高设备的可访问性。

该研究论文赞扬了Ferret-UI在执行识别、定位和推理相关任务方面的熟练程度。这一突破表明，像Ferret-UI这样的先进人工智能模型可以彻底改变UI交互，提供更直观、更高效的用户体验。

如果Ferret-UI集成到Siri中会怎样?

虽然尚未确认Ferret-UI是否会集成到Siri或其他Apple服务中，但潜在的好处很有趣。Ferret-UI通过多模式方法增强对移动UI的理解，可以在多个方面显着改进Siri等语音助手。

这可能意味着Siri可以更好地理解用户想要在应用程序中做什么，甚至可以处理更复杂的任务。此外，它还可以通过考虑屏幕上的内容来帮助Siri更好地掌握查询的上下文。最终，这可以使Siri的使用体验更加流畅，让它处理诸如浏览应用程序或了解视觉上正在发生的事情等操作。

标签：苹果的新人工智能模型可以学习理解你的应用程序和屏幕它能释放Siri的全部潜力吗

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

苹果的新人工智能模型可以学习理解你的应用程序和屏幕它能释放Siri的全部潜力吗

相关阅读

猜你喜欢

生活经验

生活百科

生活常识

精选知识

最新滚动