Mobile-Agent-v2: 多智能体协作让手机操作更智能

近日, 人工智能手机操作助手 Mobile-Agent 迎来了重大升级。其团队发布了全新的 Mobile-Agent-v2, 通过引入多智能体协作架构, 大幅提升了手机操作的智能化水平。本文将为您详细解读 Mobile-Agent-v2 的创新之处及其强大功能。

Mobile-Agent 的发展历程

Mobile-Agent 于今年年初首次亮相, 凭借出色的自动化手机操作能力, 迅速引起业界广泛关注。短短 5 个月时间, 其 GitHub 仓库就收获了 2000 多个 Star 。

Mobile-Agent 采用纯视觉方案, 通过视觉感知和操作工具实现智能体在手机上的自主操作, 无需依赖系统级 UI 文件。借助强大的中枢模型,Mobile-Agent 可以即插即用, 无需额外训练。

Mobile-Agent-v2 的重大升级

最新发布的 Mobile-Agent-v2 在原有基础上实现了几项关键突破:

  1. 保留纯视觉方案
  2. 引入多智能体协作架构
  3. 增强任务拆解、跨应用操作和多语言能力

目前,Mobile-Agent-v2 的论文和代码均已开源发布。

多智能体协作架构

Mobile-Agent-v2 最大的创新在于引入了多智能体协作架构, 包括三个关键角色:

  1. 规划智能体 (Planning Agent): 生成任务进度, 使操作历史导航更高效。
  2. 决策智能体 (Decision Agent): 执行具体操作, 并更新记忆单元中的关键信息。
  3. 反思智能体 (Reflection Agent): 观察每次操作的结果, 处理可能出现的错误。

这一架构有效解决了单智能体方案面临的两大挑战:

  1. 任务进度导航: 随着操作次数增加, 操作历史序列变得冗长, 给智能体追踪进度带来困难。
  2. 焦点内容导航: 纯文本的任务进度会导致屏幕信息丢失, 智能体无法获取关键信息。

为应对这些挑战,Mobile-Agent-v2 做出了如下设计:

  • 规划智能体将冗长的操作历史转化为简洁的纯文本任务进度。
  • 引入记忆单元, 由决策智能体负责更新其中的任务关键信息。
  • 反思智能体负责监测操作前后的屏幕状态变化, 判断操作正确性。

强大的跨应用操作能力

从团队公布的演示视频可以看出,Mobile-Agent-v2 展现了出色的跨应用操作能力。

例如, 在一个跨应用任务中, 用户要求 Mobile-Agent-v2 查看聊天软件中的未读消息, 然后按照消息要求完成任务。 Mobile-Agent-v2 成功打开 WhatsApp 查看了指定联系人的消息, 随后按要求打开 TikTok 搜索宠物视频并分享。整个过程涉及多个应用切换,Mobile-Agent-v2 都能准确完成。

另一个例子展示了 Mobile-Agent-v2 在社交媒体平台 X(原 Twitter) 上的操作能力。它能够精准地搜索指定用户、关注并评论, 即使遇到推荐用户弹窗等干扰也能灵活应对。

此外,Mobile-Agent-v2 还展示了在 YouTube 、小红书、微信等复杂应用中的操作能力, 包括搜索视频、发表评论、回复消息等。这些操作都需要理解复杂的 UI 布局和上下文信息,Mobile-Agent-v2 都能出色完成。

性能评估

论文中采用了动态评估方法, 选择 10 个应用 (5 个系统应用和 5 个第三方应用) 进行测试, 涵盖英文和非英文场景。每个应用设计了 2 条基础指令和 2 条进阶指令, 另外还设计了 4 条跨应用操作指令。

评估结果显示,Mobile-Agent-v2 在各项指标上都实现了全面提升:

  1. 在英文应用中, 基础指令完成率从 73.7% 提升至 84.2%, 进阶指令从 57.9% 提升至 68.4% 。
  2. 在非英文应用中, 基础指令完成率从 63.2% 提升至 78.9%, 进阶指令从 47.4% 提升至 63.2% 。
  3. 跨应用操作的完成率从 50.0% 大幅提升至 75.0% 。

通过引入额外的操作知识,Mobile-Agent-v2 的性能还能进一步提升。

技术创新的价值

Mobile-Agent-v2 的多智能体协作架构为解决长序列操作中的挑战提供了新思路。分析失败案例发现,Mobile-Agent 的失败操作大多集中在任务后期, 而 Mobile-Agent-v2 的失败则分布更均匀, 说明新架构有效缓解了长序列操作的困难。

这一技术突破使得 Mobile-Agent-v2 能够更好地应对复杂的跨应用场景, 为老年人和视障群体提供便利。例如, 通过简单的语音指令就能帮助用户完成复杂的打车任务。

未来展望

Mobile-Agent-v2 的出色表现为智能手机操作助手的发展开辟了新天地。未来, 我们可以期待看到更多基于此技术的创新应用, 例如:

  1. 针对特定人群的定制化智能助手
  2. 更复杂的跨设备、跨平台操作能力
  3. 与其他 AI 技术的深度融合, 如语音交互、 AR 等

总之,Mobile-Agent-v2 展现了 AI 在智能手机操作领域的巨大潜力, 相信随着技术的不断进步, 未来会有更多令人惊叹的应用场景被开发出来。

参考文献

  1. Wang, J. , Xu, H., Jia, H., Zhang, X., Yan, M., Shen, W., … & Sang, J. (2024). Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration. arXiv preprint arXiv:2406.01014.
  2. X-PLUG. (2024). MobileAgent: The Powerful Mobile Device Operation Assistant Family. GitHub repository. https://github.com/X-PLUG/MobileAgent
  3. ModelScope. (2024). ModelScope-Agent: An agent framework connecting models in ModelScope with the world. GitHub repository. https://github.com/modelscope/modelscope-agent

发表评论