PhoneBuddy – 腾讯混元开源的手机操作专用AI Agent模型

AI最新项目8小时前发布文明旁观者

PhoneBuddy是腾讯混元团队开源的4B参数轻量级手机操作专用AI Agent模型，通过创新的Real+Mock混合训练环境策略，在真实手机操作任务中实现高效执行能力，多项评测中超越GPT-5.4等大型闭源模型。解决从实验室评测到真实手机场景落地的关键技术断层，使轻量模型也能完成复杂、多步骤的手机端操作任务。

PhoneBuddy - 腾讯混元开源的手机操作专用AI Agent模型

PhoneBuddy核心定义

专用场景聚焦：
PhoneBuddy是首个针对真实手机操作场景优化的开源Agent模型，专攻GUI（图形用户界面）交互任务，而非通用对话能力。其设计目标是让AI能像人类一样操作手机App，处理账号状态、权限弹窗、网络波动等真实环境干扰。
轻量化部署：
采用4B参数规模，专为端侧设备（如手机、平板）优化，无需云端依赖即可本地运行，兼顾响应速度与隐私安全。

PhoneBuddy主要特点

真实场景适配性：
- 能处理真实App中的动态副作用（如发送消息、创建文件），而非仅模拟界面操作。
- 支持模糊指令理解（如”找成龙经典动作片”），可自主拆解任务步骤并确定执行标准。
性能优势：
- 在Single-App、微信小程序、AndroidWorld等评测中，平均任务成功率（54.8%）超过GPT-5.4（48.2%）。
- 轻量模型实现高性价比：4B参数模型在部分任务上表现优于参数更大的闭源模型（如GPT-5.4）。
端到端可靠性：
- 任务完成判定基于真实结果验证，而非仅界面点击成功。
- 内置边界安全机制，避免高风险操作未经用户确认。

PhoneBuddy技术原理

1. Real+Mock混合训练框架

Real-App环境训练：
在真实手机设备上直接交互，确保模型适应账号状态、权限弹窗、网络波动等现实问题，但面临重置困难、验证成本高的挑战。
Mock-App环境（PhoneWorld）训练：
通过模拟App环境提供可重置、可验证的训练信号，覆盖页面结构、业务逻辑等关键流程，解决真实环境训练效率低的问题。
协同优化：
两种环境数据联合训练，Real环境对齐真实执行，Mock环境提供规模化反馈，显著提升模型在未见场景（OOD）的泛化能力。

2. 任务执行可靠性保障

状态验证机制：
任务完成后通过数据库查询或规则检查确认结果（如订单是否写入），而非仅依赖界面反馈。
动态风险控制：
对敏感操作（如支付）触发用户二次确认，避免自动化执行导致的安全隐患。

PhoneBuddy核心功能

复杂任务执行：
- 可完成跨品类、多规格商品采购（如同时购买指定重量的水果、零食等），精准识别商品参数并执行重复性操作。
- 支持模糊需求转化（如”周末带孩子玩的地方”），自主搜索、筛选并提炼关键信息（如地点亮点）。
多模态界面理解：
- 精准定位界面元素：结合视觉与文本信息识别按钮、输入框等控件，适应不同品牌手机的界面差异。
- 处理动态交互：应对弹窗、跳转、加载状态等实时变化，维持任务连贯性。
跨App协作能力：
- 在微信、外卖、地图等主流App间无缝切换，完成需多应用联动的任务（如通过地图规划路线后跳转打车软件）。

PhoneBuddy适用人群

开发者与企业：
- 自动化测试：快速验证App功能流程，降低人工测试成本。
- 智能客服升级：替代传统按键导航，直接操作App解决用户问题（如查询订单、修改设置）。
普通用户：
- 个人效率助手：自动完成重复性操作（如每日签到、批量消息回复）。
- 无障碍支持：为视障或操作不便用户提供语音控制手机的能力。
垂直行业场景：
- 金融/政务：在合规前提下执行低风险操作（如查询余额、填写表单）。
- 电商/本地生活：辅助用户比价、下单，或为商家提供自动化运营工具。

PhoneBuddy项目地址

项目官网：https://phonebuddyai.github.io/

GitHub仓库：https://github.com/PhoneBuddyAI/phonebuddy

HuggingFace模型库：https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

技术论文：https://phonebuddyai.github.io/assets/paper.pdf

PhoneBuddy的核心突破在于将实验室评测能力转化为真实手机场景的可靠执行，通过轻量化设计与混合训练策略，使4B参数模型在实用性上达到甚至超越部分大型闭源模型。其开源降低了手机Agent技术的使用门槛，为开发者提供可快速集成的端侧解决方案，尤其适合需兼顾效率、隐私与成本的场景。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

10.0/ 10

1 人评价

点击⭐️进行评分

相关文章

AI版支付宝 – 用户通过文字或语音指令，即可一句话直达上万种服务

AI版支付宝 – 用户通过文字或语音指令，即可一句话直达上万种服务

1周前

0330

Guizang Social Card Skill – 归藏开源的AI图文排版工具

Guizang Social Card Skill – 归藏开源的AI图文排版工具

4周前

0720

Kairos-HomeWorld – 大晓机器人发布的全屋三维可交互世界模型

Kairos-HomeWorld – 大晓机器人发布的全屋三维可交互世界模型

3周前

0420

Claude Opus 4.8 – Anthropic发布旗舰大语言模型小版本迭代

Claude Opus 4.8 – Anthropic发布旗舰大语言模型小版本迭代

4周前

0490

暂无评论

none

暂无评论...