MAI-Transcribe-1是微软最新推出的一款语音转文字模型。它是微软为了减少对外部供应商(如OpenAI)的依赖,由内部团队自主研发的三款基础AI模型之一。
这款模型主打“全球最高精度”和“高性价比”,旨在为企业级用户提供强大的语音处理能力。

核心亮点:精准、快速、便宜
MAI-Transcribe-1在性能指标上非常有竞争力,微软宣称其在多项测试中击败了OpenAI和Google的同类产品。
表格
| 维度 | 表现详情 | 对比优势 |
|---|---|---|
| 精准度 | 在 FLEURS 基准测试(涵盖25种语言)中,平均字错误率(WER)仅为 3.9%。 | 低于OpenAI的 Whisper-large-v3 (7.6%) 和 Google 的 Gemini 3.1 Flash (4.9%)。 |
| 速度 | 批量转录速度是现有 Azure Fast 服务的 2.5倍。 | 处理大规模音频文件效率更高。 |
| 成本 | 定价为 $0.36 / 音频小时。 | 微软称其在大型云厂商中性价比最优。 |
功能特性与技术细节
- 多语言支持:支持全球使用最广泛的25种主流语言,包括中文、英文、法语等,并在11种核心语言上精度排名第一。
- 抗噪能力:具备强大的环境适应能力,能够有效处理背景噪音、低质量音频以及重叠语音等复杂录音条件。
- 文件格式:支持处理 MP3、WAV、FLAC 格式的音频文件,单个文件大小最高支持 200MB。
- 架构:基于变换器(Transformer)架构的文本解码器与双向音频编码器构建。
当前限制(首发版本)
虽然性能强劲,但作为首发版本,MAI-Transcribe-1目前还有一些功能尚未实装。微软计划在后续更新中提供这些能力:
- 不支持实时转录(目前仅支持批量处理)。
- 不支持说话人分离(无法区分对话中的不同发言人)。
- 不支持偏见调整(上下文偏置)功能。
研发背景与上线平台
- 开发团队:由微软AI首席执行官 穆斯塔法·苏莱曼(Mustafa Suleyman) 领导的“MAI超级智能团队”开发,该团队于2025年11月组建。
- 使用平台:
- 开发者:可以通过 Microsoft Foundry 平台和 Microsoft AI Playground 进行试用和调用。
- 终端用户:该模型正在被集成到 Microsoft Copilot 和 Microsoft Teams 中,用于提升会议记录和语音交互的体验。
MAI-Transcribe-1的项目地址
- 项目官网:https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-mai-transcribe-1-mai-voice-1-and-mai-image-2-in-microsoft-foundry/4507787
- 技术论文:https://microsoft.ai/pdf/MAI-Transcribe-1-Model-Card.pdf
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



