苹果的新人工智能模型可以学习理解你的应用程序和屏幕它能释放Siri的全部潜力吗
人工智能正迅速成为我们移动体验的一部分,谷歌和三星引领潮流。然而,苹果在其生态系统内的人工智能方面也取得了重大进展。最近,这家库比蒂诺科技巨头推出了一个名为MM1的项目,这是一种能够处理文本和图像的多模态大语言模型(MLLM)。现在,一项新的研究已经发布,揭示了一种新颖的MLLM,旨在掌握移动显示界面的细微差别。
这篇由康奈尔大学发表、AppleInsider重点关注的论文介绍了“Ferret-UI:基于多模态法学硕士的移动UI理解”。
Ferret-UI是一种新的MLLM,专为增强对移动UI屏幕的理解而定制,配备了引用、接地和推理功能。
从字里行间看出,Ferret-UI可以让Siri更好地理解应用程序的外观和功能以及iOS界面本身。
该研究强调,尽管MLLM取得了进展,但许多模型在理解移动用户界面(UI)和与移动用户界面(UI)交互方面遇到了困难。移动屏幕通常以纵向模式使用,其密集的图标和文本排列带来了独特的挑战,使得人工智能难以解读。
为了解决这个问题,Ferret-UI引入了放大功能,通过将图像放大到任何所需的分辨率来增强屏幕元素的可读性。此功能改变了人工智能与移动界面交互的游戏规则。
根据该论文,Ferret-UI在识别和分类移动屏幕上的小部件、图标和文本方面表现出色。它支持各种输入方法,如指向、拳击或涂鸦。通过执行这些任务,模型可以很好地掌握视觉和空间数据,这有助于它精确地区分不同的UI元素。
Ferret-UI的与众不同之处在于它能够直接处理原始屏幕像素数据,无需外部检测工具或屏幕视图文件。这种方法显着增强了单屏交互,并为新应用程序开辟了可能性,例如提高设备的可访问性。
该研究论文赞扬了Ferret-UI在执行识别、定位和推理相关任务方面的熟练程度。这一突破表明,像Ferret-UI这样的先进人工智能模型可以彻底改变UI交互,提供更直观、更高效的用户体验。
如果Ferret-UI集成到Siri中会怎样?
虽然尚未确认Ferret-UI是否会集成到Siri或其他Apple服务中,但潜在的好处很有趣。Ferret-UI通过多模式方法增强对移动UI的理解,可以在多个方面显着改进Siri等语音助手。
这可能意味着Siri可以更好地理解用户想要在应用程序中做什么,甚至可以处理更复杂的任务。此外,它还可以通过考虑屏幕上的内容来帮助Siri更好地掌握查询的上下文。最终,这可以使Siri的使用体验更加流畅,让它处理诸如浏览应用程序或了解视觉上正在发生的事情等操作。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。