LongCat-2.0 – 美团发布的万亿参数级基础大模型

LongCat-2.0是美团发布的万亿参数级基础大模型,作为业界首个全程依托国产算力完成训练与推理的万亿参数模型,其总参数规模达1.6万亿(1.6T),采用混合专家(MoE)架构每个Token仅激活约480亿参数,原生支持100万(1M)超长上下文。该模型在代码能力、Agent任务执行等垂直领域表现突出,在OpenRouter全球大模型调用量中位列前三,且在Hermes、Claude Code等Agent场景的月调用量分列全球第一、第二位,性能接近Claude Opus 4.6,成为国产大模型中首个实现国产算力全流程闭环的标杆产品。

LongCat-2.0

LongCat-2.0核心特点

1. 国产算力全流程闭环

  • 全程国产化训练与推理:在超过5万张国产算力卡上完成从预训练到推理的全流程,是迄今国产算力支撑的最大规模模型训练任务。
  • 算力成本优势:通过架构优化与国产算力适配,训练与推理成本显著低于同级别国际模型,验证了国产芯片支撑前沿AI研发的可行性。
  • 稳定性突破:通过HCCL异常处理、弹性扩缩容和自动故障恢复,将月均日故障率降低70%以上,实现稳态日吞吐超1T tokens/day。

2. 垂直场景深度优化

  • Agent原生设计:专为智能体(Agent)任务开发,工具调用、多步推理与复杂指令执行能力突出,在真实终端操作中表现稳定。
  • 代码能力领先:在考察深层工程能力的SWE-bench Pro评测中得分59.5,超越Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)及Claude Opus 4.6(57.3)
  • 超长上下文原生支持:可一次性处理百万字级输入,无需分段截断或信息压缩,适用于长文档分析与复杂任务规划。

LongCat-2.0技术原理

1. 创新架构设计

  • ScMoE跨层快捷连接:通过跨层专家网络连接机制,减少信息传递延迟,提升多步推理的连贯性。
  • 零计算专家机制:实现Token级动态计算预算分配,简单Token(如标点)不消耗算力,复杂Token(如递归算法)自动激活更多专家资源,该机制为业界首创。
  • MOPD多专家融合架构:将能力分为三组专家:
    • Agent Experts:专攻工具调用与自主纠错;
    • Reasoning Experts:深耕数学与STEM推理;
    • Interaction Experts:优化指令遵循与交互体验;
    • 推理时由门控网络动态调度最匹配任务类型的专家,而非简单合并参数。

2. 长上下文与推理优化

  • LongCat Sparse Attention(LSA):将超长上下文的计算复杂度从平方级降至线性级,避免1M上下文下的性能断崖
  • 推理链路协同优化
    • 通过专家并行聚合访存带宽,降低万亿参数模型的解码延迟;
    • 将零计算专家机制融入通信流程,避免无效传输与计算
    • 核心算子调度优化配合权重预取,减少推理等待开销

LongCat-2.0核心功能

1. 智能体(Agent)专项能力

  • 工具调用稳定性:在真实终端指令交互评测Terminal-Bench 2.1中得分70.8,体现复杂运维任务中的纠错能力
  • 多步任务规划:支持400轮以上长程交互,可拆解极端复杂需求(如“春节跨省自驾路线规划”)。
  • 深度适配开发环境:与Claude Code、Hermes、OpenClaw等主流Agent框架高效协同,无缝接入开发者工作流

2. 长文本与多语言处理

  • 百万字级输入处理:原生支持1M上下文,适用于法律合同、学术论文等长文档分析。
  • 多语言代码理解:在SWE-bench Multilingual中得分77.3,与Claude Opus 4.6(77.8)基本持平,覆盖中英文及多语言代码场景。
  • 上下文管理能力:在BrowseComp评测中得分73.1,接近顶级闭源模型水平,保障长对话逻辑一致性。

LongCat-2.0项目地址

项目官网:https://longcat.chat/blog/longcat-2.0/

GitHub仓库:https://github.com/meituan-longcat/LongCat-2.0

HuggingFace模型库:https://huggingface.co/meituan-longcat/LongCat-2.0


LongCat-2.0典型应用场景

1. 开发者与编程领域

  • 自动化代码生成:在真实工程场景中完成代码编写、调试与优化,降低开发者重复劳动
  • 终端任务执行:直接操作开发环境(如命令行、IDE),实现“写代码-运行-修复”闭环
  • 多语言项目协作:适配国际化团队的代码规范与协作流程。

2. 本地生活服务智能化

  • 商家经营优化:为百万线下商家提供智能排班、采购规划、客流预测等工具,已落地美团“智能掌柜”等产品。
  • C端决策辅助:通过“深度研究”智能体生成个性化出行攻略、餐厅推荐,在本地生活场景的“可用率”达61.1%,显著高于ChatGPT的42.8%
  • 动态实时交互:结合美团实时数据(如POI信息、票务状态),生成基于当前环境的精准建议

3. 企业级Agent落地

  • 搜索智能体:在RWSearch评测中得分78.8,高效处理复杂信息检索需求
  • 生产力工具:在FORTE评测中得分73.2,支持自动生成市场分析、开题报告等专业文档
  • 长程任务执行:通过Search-Report-Render三层架构,实现从信息获取到可视化交付的全流程自动化

LongCat-2.0将大模型能力从“通用能力竞赛”转向“产业场景深度适配”,其关键突破点在于:
  • 国产算力全流程验证,为自主可控的AI基础设施提供实践范本;
  • Agent与代码能力的垂直领先,解决开发者与企业的真实痛点;
  • 本地生活场景的闭环验证,依托美团百万商家数据实现“技术-业务”双向驱动。

需注意,该模型更侧重产业落地而非通用能力排名,在MMLU等通识评测中未公开详细数据,但其在真实任务中的调用量与用户反馈已证明其工程价值。对于追求极致代码效率或本地化服务智能化的场景,LongCat-2.0提供了目前国产模型中最成熟的端到端解决方案

© 版权声明
为这篇文章评分
0.0/ 10
0 人评价
点击⭐️进行评分

相关文章

暂无评论

none
暂无评论...