MAI-Transcribe-1 – 微软最新推出的语音转文字模型

AI最新项目2天前更新文明旁观者

MAI-Transcribe-1是微软最新推出的一款语音转文字模型。它是微软为了减少对外部供应商(如OpenAI)的依赖，由内部团队自主研发的三款基础AI模型之一。

这款模型主打“全球最高精度”和“高性价比”，旨在为企业级用户提供强大的语音处理能力。

MAI-Transcribe-1 - 微软最新推出的语音转文字模型

核心亮点：精准、快速、便宜

MAI-Transcribe-1在性能指标上非常有竞争力，微软宣称其在多项测试中击败了OpenAI和Google的同类产品。

表格

维度	表现详情	对比优势
精准度	在 FLEURS 基准测试（涵盖25种语言）中，平均字错误率（WER）仅为 3.9%。	低于OpenAI的 Whisper-large-v3 (7.6%) 和 Google 的 Gemini 3.1 Flash (4.9%)。
速度	批量转录速度是现有 Azure Fast 服务的 2.5倍。	处理大规模音频文件效率更高。
成本	定价为 $0.36 / 音频小时。	微软称其在大型云厂商中性价比最优。

功能特性与技术细节

多语言支持：支持全球使用最广泛的25种主流语言，包括中文、英文、法语等，并在11种核心语言上精度排名第一。
抗噪能力：具备强大的环境适应能力，能够有效处理背景噪音、低质量音频以及重叠语音等复杂录音条件。
文件格式：支持处理 MP3、WAV、FLAC 格式的音频文件，单个文件大小最高支持 200MB。
架构：基于变换器（Transformer）架构的文本解码器与双向音频编码器构建。

当前限制（首发版本）

虽然性能强劲，但作为首发版本，MAI-Transcribe-1目前还有一些功能尚未实装。微软计划在后续更新中提供这些能力：

不支持实时转录（目前仅支持批量处理）。
不支持说话人分离（无法区分对话中的不同发言人）。
不支持偏见调整（上下文偏置）功能。

研发背景与上线平台

开发团队：由微软AI首席执行官 穆斯塔法·苏莱曼（Mustafa Suleyman） 领导的“MAI超级智能团队”开发，该团队于2025年11月组建。
使用平台：
- 开发者：可以通过 Microsoft Foundry 平台和 Microsoft AI Playground 进行试用和调用。
- 终端用户：该模型正在被集成到 Microsoft Copilot 和 Microsoft Teams 中，用于提升会议记录和语音交互的体验。

MAI-Transcribe-1的项目地址

项目官网：https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-mai-transcribe-1-mai-voice-1-and-mai-image-2-in-microsoft-foundry/4507787
技术论文：https://microsoft.ai/pdf/MAI-Transcribe-1-Model-Card.pdf

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

BoClaw-AI原生智能体平台（AI Agent Platform）

BoClaw-AI原生智能体平台（AI Agent Platform）

2周前

0260

PrismAudio – 阿里通义实验室推出的AI视频环境音生成框架

PrismAudio – 阿里通义实验室推出的AI视频环境音生成框架

2周前

0120

Claude模型介绍

Claude模型介绍

2周前

0150

GStack-YC开源Claude高效开发框架详解

GStack-YC开源Claude高效开发框架详解

2周前

0190

暂无评论

none

暂无评论...