PhoneBuddy – 腾讯混元开源的手机操作专用AI Agent模型

PhoneBuddy是腾讯混元团队开源的4B参数轻量级手机操作专用AI Agent模型,通过创新的Real+Mock混合训练环境策略,在真实手机操作任务中实现高效执行能力,多项评测中超越GPT-5.4等大型闭源模型。解决从实验室评测到真实手机场景落地的关键技术断层,使轻量模型也能完成复杂、多步骤的手机端操作任务。

PhoneBuddy - 腾讯混元开源的手机操作专用AI Agent模型

PhoneBuddy核心定义

  1. 专用场景聚焦
    PhoneBuddy是首个针对真实手机操作场景优化的开源Agent模型,专攻GUI(图形用户界面)交互任务,而非通用对话能力。其设计目标是让AI能像人类一样操作手机App,处理账号状态、权限弹窗、网络波动等真实环境干扰。
  2. 轻量化部署
    采用4B参数规模,专为端侧设备(如手机、平板)优化,无需云端依赖即可本地运行,兼顾响应速度与隐私安全。

PhoneBuddy主要特点

  1. 真实场景适配性
    • 能处理真实App中的动态副作用(如发送消息、创建文件),而非仅模拟界面操作。
    • 支持模糊指令理解(如”找成龙经典动作片”),可自主拆解任务步骤并确定执行标准。
  2. 性能优势
    • 在Single-App、微信小程序、AndroidWorld等评测中,平均任务成功率(54.8%)超过GPT-5.4(48.2%)
    • 轻量模型实现高性价比:4B参数模型在部分任务上表现优于参数更大的闭源模型(如GPT-5.4)。
  3. 端到端可靠性
    • 任务完成判定基于真实结果验证,而非仅界面点击成功。
    • 内置边界安全机制,避免高风险操作未经用户确认。

PhoneBuddy技术原理

1. Real+Mock混合训练框架

  • Real-App环境训练
    真实手机设备上直接交互,确保模型适应账号状态、权限弹窗、网络波动等现实问题,但面临重置困难、验证成本高的挑战。
  • Mock-App环境(PhoneWorld)训练
    通过模拟App环境提供可重置、可验证的训练信号,覆盖页面结构、业务逻辑等关键流程,解决真实环境训练效率低的问题。
  • 协同优化
    两种环境数据联合训练,Real环境对齐真实执行,Mock环境提供规模化反馈,显著提升模型在未见场景(OOD)的泛化能力。

2. 任务执行可靠性保障

  • 状态验证机制
    任务完成后通过数据库查询或规则检查确认结果(如订单是否写入),而非仅依赖界面反馈。
  • 动态风险控制
    对敏感操作(如支付)触发用户二次确认,避免自动化执行导致的安全隐患。

PhoneBuddy核心功能

  1. 复杂任务执行
    • 可完成跨品类、多规格商品采购(如同时购买指定重量的水果、零食等),精准识别商品参数并执行重复性操作。
    • 支持模糊需求转化(如”周末带孩子玩的地方”),自主搜索、筛选并提炼关键信息(如地点亮点)。
  2. 多模态界面理解
    • 精准定位界面元素:结合视觉与文本信息识别按钮、输入框等控件,适应不同品牌手机的界面差异。
    • 处理动态交互:应对弹窗、跳转、加载状态等实时变化,维持任务连贯性。
  3. 跨App协作能力
    • 在微信、外卖、地图等主流App间无缝切换,完成需多应用联动的任务(如通过地图规划路线后跳转打车软件)。

PhoneBuddy适用人群

  1. 开发者与企业
    • 自动化测试:快速验证App功能流程,降低人工测试成本。
    • 智能客服升级:替代传统按键导航,直接操作App解决用户问题(如查询订单、修改设置)。
  2. 普通用户
    • 个人效率助手:自动完成重复性操作(如每日签到、批量消息回复)。
    • 无障碍支持:为视障或操作不便用户提供语音控制手机的能力。
  3. 垂直行业场景
    • 金融/政务:在合规前提下执行低风险操作(如查询余额、填写表单)。
    • 电商/本地生活:辅助用户比价、下单,或为商家提供自动化运营工具。

PhoneBuddy项目地址

项目官网:https://phonebuddyai.github.io/

GitHub仓库:https://github.com/PhoneBuddyAI/phonebuddy

HuggingFace模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

技术论文:https://phonebuddyai.github.io/assets/paper.pdf


PhoneBuddy的核心突破在于将实验室评测能力转化为真实手机场景的可靠执行,通过轻量化设计与混合训练策略,使4B参数模型在实用性上达到甚至超越部分大型闭源模型。其开源降低了手机Agent技术的使用门槛,为开发者提供可快速集成的端侧解决方案,尤其适合需兼顾效率、隐私与成本的场景。

© 版权声明
为这篇文章评分
10.0/ 10
1 人评价
点击⭐️进行评分

相关文章

暂无评论

none
暂无评论...