Step 3.7 Flash – 阶跃星辰开源的多模态推理模型

Step 3.7 Flash是阶跃星辰发布并开源的面向生产级Agent场景优化的多模态推理模型。其核心定位是在速度、成本、任务可靠性与复杂能力之间实现平衡,而非单纯追求参数规模或峰值智能。

该模型采用稀疏MoE架构,总参数 196B+1.8B(ViT 视觉编码器),但实际推理时仅激活 11B 参数,最高生成速度达 400 Tokens/s,显著提升高频、多轮 Agent 任务的执行效率。

Step 3.7 Flash - 阶跃星辰开源的多模态推理模型

Step 3.7 Flash技术原理

1. 核心架构

  • 稀疏 MoE(Mixture of Experts)架构:通过动态路由机制仅激活部分专家网络(11B 参数),在保持高性能的同时大幅降低计算成本
  • 原生多模态集成:语言模型(196B 参数)与视觉编码器(1.8B ViT)深度耦合,无需额外视觉模型即可直接处理图像/视频输入,避免传统多模态模型的级联推理延迟
  • 256K tokens 上下文窗口:支持超长文本与多模态内容的联合处理,适用于复杂任务规划

2. 推理优化机制

  • 三档动态推理强度:开发者可通过 reasoning_effort 参数按需调整计算资源分配。例如:
    • low:简单问答、摘要提取;
    • medium:默认推荐,适合多步骤任务;
    • high:复杂推理、代码生成与规划
  • 缓存计费优化:输入缓存命中时单价低至 0.27元/百万 tokens,显著降低高频调用成本

Step 3.7 Flash核心特点与优势

1. 原生多模态理解与执行

  • 直接解析 UI 界面、图表、文档、图片,将视觉信息转化为结构化数据或可执行代码(如截图生成操作步骤)
  • 支持 自主裁剪/放大图像 并主动发起搜索验证信息,避免因视觉模糊导致的误判。

2. 高可靠工具调用与长程任务稳定性

  • 多轮Agent 工作流中稳定调用API、浏览器、终端及Office工具,任务执行失败率显著低于同类模型
  • 通过 任务轨迹一致性控制,减少长流程中的“跑偏”问题

3. 生产级效率与成本平衡

  • 最高 400 Tokens/s 生成速度,适合实时交互场景
  • 激活参数仅 11B,在保持复杂任务能力的同时,推理成本比全参数模型低 5-10 倍

4. 生态兼容性优化

  • 深度适配主流 Agent 框架(如Claude Code、Hermes Agent、OpenClaw)及工具调用协议(MCP/Skills),降低接入成本

Step 3.7 Flash应用场景

1. 企业级 Agent 工作流

  • 白板转计划:将手绘流程图自动转化为结构化项目计划;
  • 票据转表格:从发票/合同图片中提取关键字段并生成结构化数据;
  • 截图生成代码:根据 UI 截图直接输出可执行的前端代码片段

2. 开发与运维提效

  • 代码生成与调试:在 SWE-Bench Pro 评测中得分 56.3,支持复杂编码任务的端到端执行;
  • 终端操作自动化:通过录屏诊断问题并生成修复命令(Terminal-Bench 2.1 得分 59.5

3. 搜索增强型任务

  • 跨模态证据验证:结合文本与图像搜索,在 DeepSearchQA 等任务中实现高精度信息交叉比对;
  • 动态视觉搜索:对不确定内容主动发起图像检索(如 SimpleVQA with Tool 得分 79.2

4. 高风险场景辅助

  • 财务/医疗数据初筛:快速提取文档关键信息,但需人工复核最终结果

Step 3.7 Flash注意事项

  • 适用边界:模型输出结果需结合原始数据源验证,财务、医疗等高风险领域不可直接依赖模型结论
  • 部署灵活性:支持通过 API(OpenAI/Anthropic 协议兼容)、本地部署(vLLM/SGLang 等框架)及开放平台(StepFun Studio)接入
  • 开源生态:已在GitHub、Hugging Face等平台开源,采用 Apache 2.0 许可证,允许商用与二次开发

Step 3.7 Flash的项目地址

项目官网:https://static.stepfun.com/blog/step-3.7-flash/

GitHub仓库:https://github.com/stepfun-ai/Step-3.7-Flash

HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.7-Flash

© 版权声明

相关文章

暂无评论

none
暂无评论...