Qwen3.7-Plus是阿里巴巴于2026年6月2日正式发布的多模态智能体模型,定位为视觉与语言统一的智能体基座。它在Qwen3.7文本能力基础上深度融合视觉理解与行动能力,不仅能看懂图像/视频,还能自主生成代码、调用工具、执行测试并迭代优化,实现从“感知界面”到“交付结果”的端到端任务闭环。
该模型在权威评测Vision Arena中位列全球前五、中国第一,标志着国产大模型从“对话能力”向“自主执行任务”的关键跃迁。

Qwen3.7-Plus核心特点
1. 多模态智能体工作流整合
- “看、想、写、做、验”闭环能力:可同时处理图像、视频、屏幕、网页和文本输入,在GUI(图形界面)、CLI(命令行)环境中自主完成任务规划到结果验证的全流程。
- 跨模态任务处理:支持从视觉输入直接生成可执行代码,并自动调用API获取实时数据。

2. 视觉能力系统性突破
- 视觉推理性能跃升:在纯视觉推理评测BabyVision中得分达64.7分,较前代模型(37.4分)提升73%,超过Google Gemini 3.1-Pro。
- 真实场景理解强化:在ScreenSpot Pro(GUI操作)、AndroidWorld(移动端任务)等评测中表现突出,能精准解析复杂界面布局与功能逻辑。
3. 长程任务执行稳定性
- 超长时间自主运行:实测中基于该模型的Hybrid-Agent系统连续稳定工作11小时以上,完成英语单词学习APP的完整开发闭环。
- 高复杂度任务覆盖:累计生成超10000行代码,触发超1000次工具调用,涵盖需求文档、编码、部署、测试及迭代全流程。
Qwen3.7-Plus核心优势
1. 任务闭环能力领先
- 从“理解”到“执行”的质变:传统多模态模型仅能识别图像内容,而Qwen3.7-Plus可直接操作软件界面、生成可运行代码并自我验证,例如完整复刻macOS Stocks应用的暗色主题、分栏布局与实时行情交互。
- 全流程自动化:在浏览器Agent场景中,能自主完成ECS云服务器采购、配置与运维链路闭环,无需人工干预。
2. 文本与视觉能力均衡
- 纯文本能力接近旗舰模型:在编程、数学推理、指令遵循等任务中,性能接近Qwen3.7-Max水平。
- 多模态任务专项优化:在搜索增强视觉问答、视觉驱动的网页设计等场景中,性能较前代提升最高达2倍。
3. 企业级实用性保障
- 低成本推理架构:基于万亿参数稀疏混合专家(MoE)架构,通过“稀疏激活”机制控制推理成本,输入价格参考同系列模型约2元/百万词元。
- 上下文缓存优化:阿里云百炼平台的缓存技术可使高频调用成本降至普通输入的1/10,适合长程任务场景。
Qwen3.7-Plus技术原理
1. 多模态智能体底座设计
- 统一感知-行动框架:将视觉理解模块与代码生成、工具调用系统深度耦合,避免传统方案中多模型切换导致的逻辑断层。
- 动态任务规划引擎:通过强化学习优化长程任务分解策略,自主判断何时调用搜索工具、何时生成代码,确保任务连贯性。
2. 万亿参数MoE架构
- 稀疏激活机制:总参数量超1万亿,但单次推理仅激活部分专家模块,在保证性能的同时降低算力消耗。
- 36万亿tokens预训练:覆盖海量图文对、界面交互日志等数据,强化对GUI元素与操作逻辑的建模能力。
3. 智能体专属优化技术
- 上下文缓存系统:消除多轮对话中的重复计算开销,显著降低长任务链路的推理成本。
- 安全沙箱机制:通过权限约束确保Agent在预设边界内自主运行,避免越权操作风险。
Qwen3.7-Plus应用场景
1. 软件开发自动化
- GUI复刻与代码生成:输入任意应用界面截图,自动生成可编译的前端代码,并接入真实数据API。
- 全流程APP开发:从需求文档到测试部署,11小时内独立完成英语学习类APP,覆盖需求分析、编码、测试用例创建等环节。
2. 办公与运维提效
- 自动化测试:自主执行GUI功能验证,识别界面元素并模拟用户操作。
- 云资源管理:在浏览器中自动完成ECS服务器采购、配置与监控,实现运维任务端到端闭环。
3. 创意与生产力工具
- 视觉驱动编程:将地铁线路图等复杂图像转为可交互的SVG矢量代码,或根据草图生成网页原型。
- 多模态问答增强:结合搜索工具解析模糊机械图纸,精准输出设备参数与功能说明,解决开放性问题。
Qwen3.7-Plus项目地址
项目官网:https://qwen.ai/blog?id=qwen3.7-plus
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



