Covo‑Audio是腾讯AILab于2026年2月推出的7B参数端到端大型音频语言模型(LALM),核心是用统一架构直接处理连续音频输入、生成自然语音输出,实现“听-说-思”一体化,无需ASR/TTS/LLM模块拼接。

Covo‑Audio核心定位与突破
定位:端到端音频语言模型,打通语音理解、语义推理、语音生成全链路,解决传统语音交互“模块割裂、信息损耗、交互生硬”问题。
核心突破:
统一架构:单一模型完成音频输入→理解→推理→语音输出,无中间文本转换,减少信息丢失。
全双工交互:支持边听边想、自然插话、共情回应,接近人类对话节奏。
强语义+高音质:兼顾复杂语义理解与自然语音生成,支持音色定制。
Covo‑Audio核心技术架构
Covo‑Audio基于Qwen2.5-7B-Base改造,由四大模块组成:
音频编码器:采用Whisper-Large-V3.50Hz帧率,鲁棒提取音频特征,适配噪声、口音场景。
音频适配器:3层下采样模块(线性+卷积),将50Hz降至6.25Hz,匹配LLM处理效率。
LLM骨干:扩展Qwen2.5-7B词表,加入离散音频令牌,原生处理文本+音频序列。
语音令牌器+解码器:基于WavLM-Large+VQ层,将音频压缩为25Hz离散令牌(码本16384),解码生成自然语音。
Covo‑Audio训练与能力
训练:两阶段大规模预训练,处理约2T令牌,实现文本-音频跨模态对齐。
核心能力:
语音理解:语音转文本、意图识别、情感分析、多轮对话理解。
语义推理:复杂指令理解、逻辑推理、上下文关联、共情回应。
语音生成:自然流畅语音、多音色定制、低延迟输出。
全双工交互:实时听辨、边听边生成、自然打断/插话。
多任务覆盖:语音对话、音频理解、语音翻译、语音摘要等。
Covo‑Audio模型版本
Covo‑Audio(基础版):通用端到端音频大模型,强语音-文本理解与推理,基准测试优于同规模开源模型。
Covo‑Audio-Chat(对话版):面向对话场景,强口语交互、指令跟随、共情回应,适配智能助手。
Covo‑Audio-Chat-FD(全双工版):进化版,全双工交互性能大幅提升,更贴近真实对话robustness。
Covo‑Audio性能与优势
性能:在URO-Bench、VCB-Bench等权威基准上,同规模模型中达SOTA或领先水平。
优势:
端到端高效:无模块拼接,延迟更低、信息更完整。
交互自然:全双工+共情,告别机械问答。
音色灵活:低成本定制音色,适配个性化场景。
场景广泛:覆盖智能助手、车载语音、智能家居、语音客服等。
Covo‑Audio应用场景
智能语音助手:更自然的多轮对话、情感交互、复杂指令执行。
车载交互:全双工语音控制,驾驶更安全便捷。
智能家居:全屋语音控制,自然对话式交互。
语音客服:共情式服务、复杂问题理解、实时响应。
内容创作:语音转写、语音摘要、多音色有声内容生成。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



