Step 3.7 Flash是阶跃星辰发布并开源的面向生产级Agent场景优化的多模态推理模型。其核心定位是在速度、成本、任务可靠性与复杂能力之间实现平衡,而非单纯追求参数规模或峰值智能。
该模型采用稀疏MoE架构,总参数 196B+1.8B(ViT 视觉编码器),但实际推理时仅激活 11B 参数,最高生成速度达 400 Tokens/s,显著提升高频、多轮 Agent 任务的执行效率。

Step 3.7 Flash技术原理
1. 核心架构
- 稀疏 MoE(Mixture of Experts)架构:通过动态路由机制仅激活部分专家网络(11B 参数),在保持高性能的同时大幅降低计算成本。
- 原生多模态集成:语言模型(196B 参数)与视觉编码器(1.8B ViT)深度耦合,无需额外视觉模型即可直接处理图像/视频输入,避免传统多模态模型的级联推理延迟。
- 256K tokens 上下文窗口:支持超长文本与多模态内容的联合处理,适用于复杂任务规划。
2. 推理优化机制
- 三档动态推理强度:开发者可通过
reasoning_effort参数按需调整计算资源分配。例如:- low:简单问答、摘要提取;
- medium:默认推荐,适合多步骤任务;
- high:复杂推理、代码生成与规划。
- 缓存计费优化:输入缓存命中时单价低至 0.27元/百万 tokens,显著降低高频调用成本。
Step 3.7 Flash核心特点与优势
1. 原生多模态理解与执行
- 直接解析 UI 界面、图表、文档、图片,将视觉信息转化为结构化数据或可执行代码(如截图生成操作步骤)。
- 支持 自主裁剪/放大图像 并主动发起搜索验证信息,避免因视觉模糊导致的误判。
2. 高可靠工具调用与长程任务稳定性
- 在多轮Agent 工作流中稳定调用API、浏览器、终端及Office工具,任务执行失败率显著低于同类模型。
- 通过 任务轨迹一致性控制,减少长流程中的“跑偏”问题。
3. 生产级效率与成本平衡
- 最高 400 Tokens/s 生成速度,适合实时交互场景。
- 激活参数仅 11B,在保持复杂任务能力的同时,推理成本比全参数模型低 5-10 倍。
4. 生态兼容性优化
- 深度适配主流 Agent 框架(如Claude Code、Hermes Agent、OpenClaw)及工具调用协议(MCP/Skills),降低接入成本。
Step 3.7 Flash应用场景
1. 企业级 Agent 工作流
- 白板转计划:将手绘流程图自动转化为结构化项目计划;
- 票据转表格:从发票/合同图片中提取关键字段并生成结构化数据;
- 截图生成代码:根据 UI 截图直接输出可执行的前端代码片段。
2. 开发与运维提效
- 代码生成与调试:在 SWE-Bench Pro 评测中得分 56.3,支持复杂编码任务的端到端执行;
- 终端操作自动化:通过录屏诊断问题并生成修复命令(Terminal-Bench 2.1 得分 59.5)。
3. 搜索增强型任务
- 跨模态证据验证:结合文本与图像搜索,在 DeepSearchQA 等任务中实现高精度信息交叉比对;
- 动态视觉搜索:对不确定内容主动发起图像检索(如 SimpleVQA with Tool 得分 79.2)。
4. 高风险场景辅助
- 财务/医疗数据初筛:快速提取文档关键信息,但需人工复核最终结果。
Step 3.7 Flash注意事项
- 适用边界:模型输出结果需结合原始数据源验证,财务、医疗等高风险领域不可直接依赖模型结论。
- 部署灵活性:支持通过 API(OpenAI/Anthropic 协议兼容)、本地部署(vLLM/SGLang 等框架)及开放平台(StepFun Studio)接入。
- 开源生态:已在GitHub、Hugging Face等平台开源,采用 Apache 2.0 许可证,允许商用与二次开发。
Step 3.7 Flash的项目地址
项目官网:https://static.stepfun.com/blog/step-3.7-flash/
GitHub仓库:https://github.com/stepfun-ai/Step-3.7-Flash
HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.7-Flash
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


