Qwen-AgentWorld – 阿里通义千问团队发布原生语言世界模型

Qwen-AgentWorld是阿里巴巴通义千问团队于2026年6月24日发布的全球首个原生语言世界模型（Language World Model, LWM），从训练源头实现环境建模，而非依赖事后插件适配。该模型单一架构同时覆盖文本类与GUI类共七大数字环境，通过环境知识内化于模型基因的方式，解决了传统智能体在跨环境迁移时的适配效率问题。

Qwen-AgentWorld核心特点

1. 原生世界建模架构

训练源头集成环境理解：
环境建模从继续预训练（CPT）阶段即作为核心目标，贯穿CPT→SFT→RL全流程，使模型天生具备对数字环境的“先验认知”，而非通过后期插件“补课”。
与传统方案的本质差异：
区别于OpenAI GPTs等“通用大模型+插件”模式，Qwen-AgentWorld对环境状态的感知是主动且直接的，无需依赖工具调用返回的结构化数据间接理解。

2. 七大领域统一建模

跨模态环境全覆盖：
单一模型同时支持文本类环境（MCP多智能体协作协议、Search搜索、Terminal终端操作、SWE软件工程）与GUI类环境（Web网页交互、OS桌面系统、Android移动系统）。
跨领域知识迁移能力：
在命令行、网页表单、桌面应用等差异巨大的交互场景中共享底层逻辑，例如终端操作经验可迁移至网页表单填写。

3. 真实环境驱动的评测体系

AgentWorldBench基准：
全球首个基于真实环境执行数据构建的评测标准，每条测试样本均含真实交互轨迹与观测结果，避免模拟数据导致的“实验室效应”。
七维能力验证：
从格式、事实性、一致性、真实性、质量等维度评估模型对环境动态的预测能力，更贴近实际落地场景。

Qwen-AgentWorld技术原理

1. 三阶段训练范式

CPT（继续预训练）注入环境知识：
通过超1000万条真实交互轨迹学习环境基础规则，采用轮次级信息论损失掩码技术，精准筛选承载环境信息的对话轮次进行训练。
SFT（监督微调）激活状态预测：
引入思维链推理模式，将“下一状态预测”转化为显式推理过程，通过拒绝采样筛选高质量轨迹强化逻辑链。
RL（强化学习）打磨模拟真实性：
以混合奖励信号（基于评分准则的LLM评判器+规则验证器）优化输出，使模拟结果符合真实环境物理规律。

2. 环境建模实现机制

非像素级视觉理解：
对GUI环境（Web/OS/Android）采用可渲染代码表示（无障碍树XML、HTML、UI层级标记），无需图像输入即可完成文本化环境建模。
动态状态推演能力：
模型能根据当前状态与动作，预测环境下一步响应，形成闭环的世界动态推演。

3. 与传统智能体的技术分野

原生理解 vs 事后适配：
传统方案需为每个环境单独开发插件，而Qwen-AgentWorld的环境认知刻在模型参数中，跨环境迁移无需额外适配开发。
统一基础模型价值：
作为智能体训练的“预热底座”，其预训练权重可直接迁移至多轮任务，减少70%以上智能体微调成本。