Mellum2 – JetBrains推出的开源混合专家(MoE)模型

Mellum2是JetBrains推出的120亿参数开源混合专家(MoE)模型，专为软件工程场景设计，核心目标是通过超低延迟推理与私有化部署能力，解决企业级AI工作流中的实时性与成本瓶颈。

Mellum2并非追求参数规模的前沿大模型，而是聚焦代码生成、工具调用与智能体工作流的高效执行组件，在保持高性能的同时将推理成本降低50%以上，尤其适合需本地化部署的开发环境。

1. 高效参数设计

总参数120亿，但每Token仅激活25亿参数：采用稀疏混合专家（MoE）架构，通过动态路由机制选择最相关的专家子网络，显著减少单次推理的计算量。
128K超长上下文窗口：上下文长度从初代Mellum的8K提升至131,072 tokens，可完整处理大型代码库、技术文档及跨文件上下文。

2. 功能定位升级

从代码补全到完整智能编码助手：不再局限于单行补全，支持生成/编辑代码、调用外部工具（如API查询）、执行多步骤任务规划，并具备显式推理能力（如分步调试逻辑）。
双模式运行机制：
- 非思考模式（Non-thinking）：快速响应简单补全请求。
- 思考模式（Thinking）：针对复杂任务启动多步骤推理链，输出更精准结果。

1. 性能与成本优化

2. 企业级部署友好性

3. 垂直领域精准适配

1. 稀疏混合专家（MoE）架构

2. 训练策略创新

三阶段渐进式课程学习：
1. 基础语义阶段：使用多样化网络文本建立通用语言理解。
2. 代码强化阶段：逐步增加代码与数学数据比重，提升逻辑推理能力。
3. 工程专项阶段：聚焦软件工程场景，优化API调用、调试等任务表现。
长上下文优化：采用YaRN技术扩展上下文窗口，避免传统位置编码在长序列中的性能衰减。

3. 智能体工作流支持

1. 开发效率增强

2. 企业级AI系统构建

3. 数据敏感场景落地

Mellum2同类竞品对比

对比维度	Mellum2	Qwen3.5-9B	SeedCoder-8B
模型架构	12B MoE（64 专家，8 激活，2.5B 活跃参数）	9B 密集模型（Dense）	8B 密集模型（Dense）
开源协议	Apache 2.0（完全可商用）	开源（可商用）	未明确/部分受限
模态支持	仅文本 + 代码（垂直专精）	文本、代码、图像、视频（多模态通用）	仅代码（单领域）
每 Token 计算量	≈2.5B 参数（极低）	9B 参数（全量激活）	8B 参数（全量激活）
LiveCodeBench v6	69.9（Thinking）	68.3（Thinking）	28.1（Non-thinking）
BFCL V4 工具调用	45.6（Thinking）	42.7（Thinking）	N/A（不支持）
AIME 数学推理	58.4（Thinking）	73.4（Thinking）	0（不支持）
上下文长度	128K（YaRN 扩展）	128K+	通常 4K-8K
推理模式	双模式：Thinking + Non-thinking	双模式：Thinking + Non-thinking	仅 Non-thinking