StepAudio 2.5 Realtime – 阶跃星辰推出的新一代实时语音大模型

StepAudio 2.5 Realtime是阶跃星辰推出的新一代实时语音大模型。StepAudio 2.5 Realtime的核心定位是打造极具“活人感”的实时语音交互。该模型不仅具备行业顶级的“副语言感知”能力，能听懂你的情绪，还支持全维度的角色人设自定义，真正实现了从“机械问答”到“情感共情”的跨越。

StepAudio 2.5 Realtime核心突破

StepAudio 2.5 Realtime最大的亮点在于它突破了传统语音模型“只认文字”的局限，将语音交互的拟真度提升到了全新高度：

顶级的副语言感知（听懂言外之意）：
模型能够精准捕捉语调、语速、停顿，甚至是一声叹息或轻笑等非文字信息（副语言）。例如，它能从你低沉的声线中察觉疲惫，或从急促的语气里识别出烦躁，并据此动态调整回应的语气与策略，提供充满“人情味”的反馈。
全维度人设自定义（拒绝千篇一律）：
开发者或用户可以通过 API 对 AI 角色进行精细化捏脸，涵盖性格特质、背景经历、个人好恶、语言习惯等。模型基于超 10,000 个高质量原生人设和百万级特征矩阵训练，并通过 RLHF（人类反馈强化学习）优化，确保在深度角色扮演中绝不“人设崩塌”。
智商与情商双重进阶：
不仅能提供极高的情绪价值（如陪聊、接梗），还能灵活调用多领域知识，胜任模拟专业HR面试、金融顾问等严肃场景的深度对话。

StepAudio 2.5 Realtime性能实测：超越 GPT-Realtime-1.5

根据官方 2026年4月发布的评测数据，StepAudio 2.5 Realtime在多个维度表现优异，核心指标甚至超越了行业标杆：

表格

评测维度	StepAudio 2.5 Realtime	GPT-Realtime-1.5
主观评测 (手机App真人对话打分)	80.41 分	68.01 分
语音问答基准	79.80 分	约 53.2 分（StepAudio 约为其 1.5 倍）

StepAudio 2.5 Realtime关键能力与特色功能

表格

核心能力	详细描述
神级表现力	继承了 StepAudio 2.5 TTS 的强大能力，发声时能自然融入轻笑、叹息等真实细节，实现“全局场景定调”与“句内细节雕琢”。
音色复刻	支持上传参考音频获取自定义 voiceid，精准复刻特定人物的音色。
全场景适配	支持跨平台实时部署，已在智能终端、车载系统（毫秒级延迟）、服务机器人等场景完成测试。
预设人设体验	内置了“小跃”（热情鲜活）、“田菲菲”（甜美软糯）、“萧砚”（低沉克制）等 5 个预设人设供用户直接体验。