Hojo-ASR-V1是初创团队Hojo开源的语音识别(ASR)模型,采用Whisper特征提取器+Conformer适配层+Qwen3-4B语言模型的混合架构,在LibriSpeech Clean等英文数据集上实现1.74%的词错误率(WER),将大语言模型(LLM)直接作为解码器,通过统一声学-语言联合建模显著提升复杂场景的识别鲁棒性,同时以Apache-2.0许可证开源,支持私有化部署。

Hojo-ASR-V1核心特点
1. 混合架构设计
- 三阶段级联结构:音频先经Whisper的特征提取器转为声学特征,再通过Conformer结构进行时序压缩与上下文适配,最终由Qwen3-4B语言模型直接生成文本,避免传统ASR中声学模型与语言模型的分离优化问题。
- LLM解码器替代传统解码策略:利用Qwen3-4B的强语言理解能力处理同音词歧义、长距离依赖等难题,无需额外集成语言模型。
2. 多语言与方言适配能力
- 中文方言支持广泛:针对粤语、四川话等主流方言优化,中文方言场景的字符错误率(CER)比标准Whisper低12%以上。
- 跨语言迁移学习:基于Qwen3-4B的多语言能力,无需额外训练即可处理中英文混合语音,语种切换错误率低于5%。
3. 开源与轻量化部署
- Apache-2.0宽松许可:允许商用、修改及二次分发,无隐性使用限制。
- 端侧优化版本:提供量化至INT8的轻量版,手机端推理延迟<400ms,适配边缘设备。
Hojo-ASR-V1技术原理
1. 声学-语言联合建模
- 特征空间对齐:Conformer适配层将Whisper提取的声学特征映射至Qwen3-4B的输入空间,使LLM能直接理解语音特征,消除传统两阶段模型的特征分布偏移问题。
- 上下文感知解码:Qwen3-4B基于完整声学上下文动态调整解码路径,对背景噪声、口音等干扰的容忍度显著高于束搜索(Beam Search)。
2. LLM解码器的关键改进
- 语音专用位置编码:在Qwen3-4B的输入层注入时序位置信息,确保模型明确区分语音片段的时间顺序。
- 动态注意力掩码:限制LLM仅关注已接收的音频片段,避免未来信息泄露,保障流式识别的实时性。
3. 训练策略优化
- 多任务预训练:联合优化语音识别、语音翻译任务,提升模型对语义结构的泛化能力。
- 噪声鲁棒性增强:通过模拟真实场景的背景噪声、语速变化等数据增强,使模型在嘈杂环境中的WER仅上升2.3%(对比标准模型上升6.8%)。
Hojo-ASR-V1关键优势
1. 复杂场景识别稳定性
- 专业术语准确率高:在医疗、金融等垂直领域,专业词汇识别错误率比Whisper低18%,因Qwen3-4B已内化相关领域知识。
- 抗干扰能力强:对背景音乐、多人交叠语音等场景,WER波动幅度比传统模型小40%以上。
2. 端到端效率提升
- 简化流水线:省去传统ASR中的语言模型适配环节,部署复杂度降低50%,推理速度提升22%。
- 流式低延迟支持:首字输出延迟(TTFT)低至280ms,适合实时字幕、语音助手等场景。
3. 生态兼容性
- 无缝对接Qwen生态:可直接调用Qwen3系列的插件工具链,扩展下游任务能力。
- 跨平台部署:支持PyTorch、ONNX及Core ML格式,适配iOS、Android及Web端。
Hojo-ASR-V1应用场景
1. 实时交互系统
- 会议转录与字幕生成:在多人讨论、专业术语密集的场景中,自动区分说话人并修正专业词汇,错误率低于5%。
- 语音助手增强:为智能家居、车载系统提供抗噪语音指令识别,方言支持覆盖中国主要方言区。
2. 内容生产工具
- 多语种视频字幕制作:一键生成中英文字幕,自动对齐时间轴并优化断句,减少人工校对时间70%。
- 播客/访谈内容结构化:识别关键段落并自动生成摘要与标签,提升内容检索效率。
3. 垂直领域定制化
- 医疗语音电子病历:准确转录医生口述的诊断结论,支持医学术语标准化映射。
- 金融客服质检:实时分析通话录音,自动标记合规风险点(如未提示风险、误导性陈述)。
Hojo-ASR-V1项目地址
GitHub仓库:https://github.com/HojoAI/Hojo-ASR
HuggingFace模型库:https://huggingface.co/HojoAI/Hojo-ASR-V1
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



