研究人员成功教会GPT-4V使用iPhone进行购物

在当今智能手机技术不断发展的时代，能够导航和与移动应用程序复杂界面进行交互的人工智能需求不断增长。MM-Navigator通过使用GPT-4V代理满足了这一需求，该代理结合了图像处理和文本推理，使其能够在iPhone上执行购物任务。本文将详细介绍MM-Navigator的技术能力，特别是其对GPT-4V的应用。我们将探讨它如何解释屏幕、决定动作，并与移动应用程序进行准确的交互。同时，我们将关注GPT-4V的关键特性、屏幕理解和动作决策的创新方法，以及实现准确、上下文敏感的应用程序交互的策略。通过这些分析，我们将突显MM-Navigator如何显著缩小了人工智能潜力与智能手机应用功能复杂性之间的差距。

多年来，科学家们一直追求能够像人类一样与计算设备交互并遵循自然语言指令的AI助手目标。随着智能手机的广泛采用，虚拟助手如Apple的Siri变得更加普遍，但它们的能力仍然有限。实现能够执行复杂多步骤任务的智能助手需要在AI模型理解和操作复杂应用程序界面方面取得重大进展。

近年来，AI领域的进展主要是由类似GPT-4的大型语言模型（LLMs）推动的。然而，要控制像智能手机这样的真实设备，AI系统需要超越仅仅处理文本的范畴。它还必须能够解释屏幕上显示的复杂视觉界面，然后执行精确的物理操作，如点击特定按钮或滚动菜单。早期尝试将智能手机截图转换为文本描述，然后将该文本馈入语言模型。然而，这种方法丧失了很多重要的布局和视觉关系信息，这对于识别与之交互的正确界面元素至关重要。

但现在，GPT-4V应运而生！它能够摄取并理解图像和文本的结合。这一发展使得AI系统能够直接处理真实的智能手机界面截图，理解各个组件，并确定智能的操作，而无需将输入简化为仅文本。然而，在将大型多模型模型（LMMs，与LLMs不同）应用于设备控制任务方面仍然存在重大挑战。模型需要能够智能生成一系列的动作，以视觉屏幕输入和提供的文本指令为条件。然后，它必须能够通过点击或点击屏幕上特定区域来精确执行每个动作，这些区域对应于按钮或菜单。这个对于推理复杂界面并产生精确的本地化动作的复杂性使得这成为一个极其困难的问题。MM-Navigator正试图解决这个问题。

MM-Navigator系统由GPT-4V模型和新颖的提示技术组成，以实现对屏幕位置的精确定位。在高层次上，GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入。然后，它产生描述下一步动作的文本输出。为了允许点击屏幕的精确区域，研究人员首先在屏幕图像中的每个交互元素（如按钮和图标）上添加编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签，索引特定的屏幕位置。

由于提供所有过去图像和动作的完整历史会带来计算上的问题，所以在每个步骤中，提示提供了关键过去事件和上下文的自然语言总结。这种自我总结提供了对交互历史的有效近似。GPT-4V的输出文本包含动作的高级自然语言描述，例如“点击发送按钮”，以及像“[Action: Tap， Location: （12）]”这样的数字标签。这种双重输出允许既有人类可读的描述，又有在实际智能手机界面上执行点击或滚动动作的精确坐标。

为了评估MM-Navigator系统，研究人员对两个数据集进行了测试：一个包含他们自己收集的iOS屏幕和指令的数据集，以及一个包含Android设备屏幕和动作的公开数据集。在包含单一动作指令的iOS屏幕上，人类评估发现预期动作的自然语言描述在91%的情况下是合理的。由数字标签选择的实际屏幕位置在75%的情况下是正确的，表明具有良好但不完美的视觉基础能力。

MM-Navigator在处理多步骤场景方面的熟练表现在于其在协助购物等任务中的能力。在论文中，一个例子吸引了我，他们让代理在Amazon上购买了一台奶泡机！该系统成功地在各种应用程序和界面中导航，甚至保持在50-100美元的预算范围内。这张图片摘自论文，详细展示了它的工作原理。在这种情况下，MM-Navigator解释了用户的文本指令和智能手机屏幕上的视觉元素。然后，它确定完成购买所需的动作序列。这可能涉及在购物应用程序中搜索产品，根据价格和产品规格应用过滤器，选择适当的项目，并引导用户完成结账过程。

这展示了MM-Navigator处理复杂、序列任务的能力，这些任务需要理解和与多个界面交互。它不仅展示了该系统在执行单个、孤立动作方面的潜力，还展示了其在管理一系列互相关联步骤方面的潜力，这与人类使用智能手机应用程序完成实际任务的方式相似。