Step 3.7 Flash – 阶跃星辰开源的多模态推理模型

AI最新项目2个月前发布文明旁观者

112 00

Step 3.7 Flash是阶跃星辰发布并开源的面向生产级Agent场景优化的多模态推理模型。其核心定位是在速度、成本、任务可靠性与复杂能力之间实现平衡，而非单纯追求参数规模或峰值智能。

该模型采用稀疏MoE架构，总参数 196B+1.8B(ViT 视觉编码器)，但实际推理时仅激活 11B 参数，最高生成速度达 400 Tokens/s，显著提升高频、多轮 Agent 任务的执行效率。

Step 3.7 Flash - 阶跃星辰开源的多模态推理模型

Step 3.7 Flash技术原理

1. 核心架构

稀疏 MoE（Mixture of Experts）架构：通过动态路由机制仅激活部分专家网络（11B 参数），在保持高性能的同时大幅降低计算成本。
原生多模态集成：语言模型（196B 参数）与视觉编码器（1.8B ViT）深度耦合，无需额外视觉模型即可直接处理图像/视频输入，避免传统多模态模型的级联推理延迟。
256K tokens 上下文窗口：支持超长文本与多模态内容的联合处理，适用于复杂任务规划。

2. 推理优化机制

三档动态推理强度：开发者可通过 reasoning_effort 参数按需调整计算资源分配。例如：
- low：简单问答、摘要提取；
- medium：默认推荐，适合多步骤任务；
- high：复杂推理、代码生成与规划。
缓存计费优化：输入缓存命中时单价低至 0.27元/百万 tokens，显著降低高频调用成本。

Step 3.7 Flash核心特点与优势

1. 原生多模态理解与执行

直接解析 UI 界面、图表、文档、图片，将视觉信息转化为结构化数据或可执行代码（如截图生成操作步骤）。
支持 自主裁剪/放大图像 并主动发起搜索验证信息，避免因视觉模糊导致的误判。

2. 高可靠工具调用与长程任务稳定性

在多轮Agent 工作流中稳定调用API、浏览器、终端及Office工具，任务执行失败率显著低于同类模型。
通过 任务轨迹一致性控制，减少长流程中的“跑偏”问题。

3. 生产级效率与成本平衡

最高 400 Tokens/s 生成速度，适合实时交互场景。
激活参数仅 11B，在保持复杂任务能力的同时，推理成本比全参数模型低 5-10 倍。

4. 生态兼容性优化

深度适配主流 Agent 框架（如Claude Code、Hermes Agent、OpenClaw）及工具调用协议（MCP/Skills），降低接入成本。

Step 3.7 Flash应用场景

1. 企业级 Agent 工作流

白板转计划：将手绘流程图自动转化为结构化项目计划；
票据转表格：从发票/合同图片中提取关键字段并生成结构化数据；
截图生成代码：根据 UI 截图直接输出可执行的前端代码片段。

2. 开发与运维提效

代码生成与调试：在 SWE-Bench Pro 评测中得分 56.3，支持复杂编码任务的端到端执行；
终端操作自动化：通过录屏诊断问题并生成修复命令（Terminal-Bench 2.1 得分 59.5）。

3. 搜索增强型任务

跨模态证据验证：结合文本与图像搜索，在 DeepSearchQA 等任务中实现高精度信息交叉比对；
动态视觉搜索：对不确定内容主动发起图像检索（如 SimpleVQA with Tool 得分 79.2）。

4. 高风险场景辅助

财务/医疗数据初筛：快速提取文档关键信息，但需人工复核最终结果。

Step 3.7 Flash注意事项

适用边界：模型输出结果需结合原始数据源验证，财务、医疗等高风险领域不可直接依赖模型结论。
部署灵活性：支持通过 API（OpenAI/Anthropic 协议兼容）、本地部署（vLLM/SGLang 等框架）及开放平台（StepFun Studio）接入。
开源生态：已在GitHub、Hugging Face等平台开源，采用 Apache 2.0 许可证，允许商用与二次开发。

Step 3.7 Flash的项目地址

项目官网：https://static.stepfun.com/blog/step-3.7-flash/

GitHub仓库：https://github.com/stepfun-ai/Step-3.7-Flash

HuggingFace模型库：https://huggingface.co/stepfun-ai/Step-3.7-Flash

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

0.0/ 10

0 人评价

点击⭐️进行评分

相关文章

ChatGPT Work – OpenAI发布的AI智能体产品

新ChatGPT Work – OpenAI发布的AI智能体产品

4天前

0240

StepAudio 2.5 ASR – 阶跃星辰发布的新一代自动语音识别模型

StepAudio 2.5 ASR – 阶跃星辰发布的新一代自动语音识别模型

3个月前

01290

Qwen3.5-Omni – 千问发布的端到端原生全模态大模型

Qwen3.5-Omni – 千问发布的端到端原生全模态大模型

3个月前

01110

LongCat-2.0 – 美团发布的万亿参数级基础大模型

LongCat-2.0 – 美团发布的万亿参数级基础大模型

AI最新项目 # 大模型最新

18小时前

0460

暂无评论

none

暂无评论...