MAI-Transcribe-1 – 微软最新推出的语音转文字模型

MAI-Transcribe-1是微软最新推出的一款语音转文字模型。它是微软为了减少对外部供应商(如OpenAI)的依赖,由内部团队自主研发的三款基础AI模型之一。

这款模型主打“全球最高精度”和“高性价比”,旨在为企业级用户提供强大的语音处理能力。

MAI-Transcribe-1 - 微软最新推出的语音转文字模型

核心亮点:精准、快速、便宜

MAI-Transcribe-1在性能指标上非常有竞争力,微软宣称其在多项测试中击败了OpenAI和Google的同类产品

表格

维度表现详情对比优势
精准度在 FLEURS 基准测试(涵盖25种语言)中,平均字错误率(WER)仅为 3.9%低于OpenAI的 Whisper-large-v3 (7.6%) 和 Google 的 Gemini 3.1 Flash (4.9%)
速度批量转录速度是现有 Azure Fast 服务的 2.5倍处理大规模音频文件效率更高。
成本定价为 $0.36 / 音频小时微软称其在大型云厂商中性价比最优

功能特性与技术细节

  • 多语言支持:支持全球使用最广泛的25种主流语言,包括中文、英文、法语等,并在11种核心语言上精度排名第一
  • 抗噪能力:具备强大的环境适应能力,能够有效处理背景噪音低质量音频以及重叠语音等复杂录音条件
  • 文件格式:支持处理 MP3、WAV、FLAC 格式的音频文件,单个文件大小最高支持 200MB
  • 架构:基于变换器(Transformer)架构的文本解码器与双向音频编码器构建

当前限制(首发版本)

虽然性能强劲,但作为首发版本,MAI-Transcribe-1目前还有一些功能尚未实装。微软计划在后续更新中提供这些能力:
  • 不支持实时转录(目前仅支持批量处理)。
  • 不支持说话人分离(无法区分对话中的不同发言人)。
  • 不支持偏见调整(上下文偏置)功能。

研发背景与上线平台

  • 开发团队:由微软AI首席执行官 穆斯塔法·苏莱曼(Mustafa Suleyman) 领导的“MAI超级智能团队”开发,该团队于2025年11月组建
  • 使用平台
    • 开发者:可以通过 Microsoft Foundry 平台和 Microsoft AI Playground 进行试用和调用
    • 终端用户:该模型正在被集成到 Microsoft Copilot 和 Microsoft Teams 中,用于提升会议记录和语音交互的体验

MAI-Transcribe-1的项目地址

  • 项目官网:https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-mai-transcribe-1-mai-voice-1-and-mai-image-2-in-microsoft-foundry/4507787
  • 技术论文:https://microsoft.ai/pdf/MAI-Transcribe-1-Model-Card.pdf
© 版权声明

相关文章

暂无评论

none
暂无评论...