StepAudio 2.5 Realtime – 阶跃星辰推出的新一代实时语音大模型

StepAudio 2.5 Realtime是阶跃星辰推出的新一代实时语音大模型。StepAudio 2.5 Realtime的核心定位是打造极具“活人感”的实时语音交互。该模型不仅具备行业顶级的“副语言感知”能力,能听懂你的情绪,还支持全维度的角色人设自定义,真正实现了从“机械问答”到“情感共情”的跨越。

StepAudio 2.5 Realtime - 阶跃星辰推出的新一代实时语音大模型

StepAudio 2.5 Realtime核心突破

StepAudio 2.5 Realtime最大的亮点在于它突破了传统语音模型“只认文字”的局限,将语音交互的拟真度提升到了全新高度:
  • 顶级的副语言感知(听懂言外之意)
    模型能够精准捕捉语调、语速、停顿,甚至是一声叹息或轻笑等非文字信息(副语言)。例如,它能从你低沉的声线中察觉疲惫,或从急促的语气里识别出烦躁,并据此动态调整回应的语气与策略,提供充满“人情味”的反馈
  • 全维度人设自定义(拒绝千篇一律)
    开发者或用户可以通过 API 对 AI 角色进行精细化捏脸,涵盖性格特质、背景经历、个人好恶、语言习惯等。模型基于超 10,000 个高质量原生人设和百万级特征矩阵训练,并通过 RLHF(人类反馈强化学习)优化,确保在深度角色扮演中绝不“人设崩塌”
  • 智商与情商双重进阶
    不仅能提供极高的情绪价值(如陪聊、接梗),还能灵活调用多领域知识,胜任模拟专业HR面试、金融顾问等严肃场景的深度对话
StepAudio 2.5 Realtime - 阶跃星辰推出的新一代实时语音大模型

StepAudio 2.5 Realtime性能实测:超越 GPT-Realtime-1.5

根据官方 2026年4月发布的评测数据,StepAudio 2.5 Realtime在多个维度表现优异,核心指标甚至超越了行业标杆:

表格

评测维度StepAudio 2.5 RealtimeGPT-Realtime-1.5
主观评测 (手机App真人对话打分)80.41 分68.01 分
语音问答基准79.80 分约 53.2 分(StepAudio 约为其 1.5 倍)

StepAudio 2.5 Realtime关键能力与特色功能

表格

核心能力详细描述
神级表现力继承了 StepAudio 2.5 TTS 的强大能力,发声时能自然融入轻笑、叹息等真实细节,实现“全局场景定调”与“句内细节雕琢”
音色复刻支持上传参考音频获取自定义 voiceid,精准复刻特定人物的音色
全场景适配支持跨平台实时部署,已在智能终端、车载系统(毫秒级延迟)、服务机器人等场景完成测试
预设人设体验内置了“小跃”(热情鲜活)、“田菲菲”(甜美软糯)、“萧砚”(低沉克制)等 5 个预设人设供用户直接体验

价格与使用方式

StepAudio 2.5 Realtime目前已全量上线,开发者可通过阶跃星辰开放平台接入
  • 接入方式:通过WebSocket协议连接 API 端点,支持双向实时语音流传输
  • 计费标准(按 Token 消耗计费):

表格

计费项单价(每百万 Token)
输入(缓存未命中)10 元
输入(缓存命中)2 元
输出70 元

StepAudio 2.5 Realtime的项目地址

  • 项目官网:https://stepaudiollm.github.io/step-audio-2.5-realtime/
  • 在线体验:https://www.stepfun.com/studio/audio?tab=voice-chat
© 版权声明

相关文章

暂无评论

none
暂无评论...