title: 微軟發布三款 MAI 模型：Transcribe-1、Voice-1、Image-2 全面切入語音與生成式 AI date: 2026-04-07 source: https://www.koc.com.tw/archives/637780 category: articles tags:

微軟
MAI
語音辨識
TTS
圖像生成
Microsoft Foundry
OpenAI created: 2026-04-07 updated: 2026-04-07

微軟發布三款 MAI 模型：Transcribe-1、Voice-1、Image-2 全面切入語音與生成式 AI

概要

微軟一口氣發布三款自研 MAI 模型，包含語音轉文字的 MAI-Transcribe-1、文字轉語音的 MAI-Voice-1，以及圖像生成的 MAI-Image-2，並同步開放給開發者透過 Microsoft Foundry 使用。這不只是一次模型更新，更是微軟在 2025 年重談與 OpenAI 合約後，開始更明確推進自研模型與平台能力的訊號。

原文：https://www.koc.com.tw/archives/637780
引述資料來源：https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/
相關背景：微軟在 2025 年與 OpenAI 重談合作條款後，獲得更大空間發展自有前沿模型

三個模型的重點

1. MAI-Transcribe-1：主打多語語音轉文字

文中引用數據稱，在 FLEURS 多語言基準中，前 25 大語言平均 WER 3.9%
文中聲稱整體表現勝過 Whisper-large-v3、Gemini 3.1 Flash、ElevenLabs Scribe v2、GPT-Transcribe 等模型的多數對照項目
支援 MP3、WAV、FLAC 等格式，最高 200MB
定價約 每小時語音 0.36 美元
說話者分離、上下文偏置、串流功能為即將推出

2. MAI-Voice-1：主打高速 TTS

官方描述可在 1 秒內生成 60 秒語音
強調長段落語音生成時仍能維持說話者音色與特徵一致
可透過幾秒語音樣本建立自訂 voice profile
已被用於 Copilot Audio Expressions
定價約 每 100 萬字元 22 美元

3. MAI-Image-2：主打商用圖像生成

已在 Arena.ai 圖像生成排行榜進入前三
微軟表示相較前代，在相同品質下生成速度提升至少 2 倍
可處理自然光影、膚色、材質、圖表與圖片中文字
已支撐 Copilot 圖像生成能力
定價約：文字輸入 每 100 萬 token 5 美元；圖像生成 每 100 萬 token 33 美元

核心觀點

1. 微軟正在降低對 OpenAI 的單一路徑依賴

這篇文章最重要的點，不是 MAI 系列模型本身多強，而是微軟開始用實際產品表現證明：它不再只想當 OpenAI 的雲端與通路夥伴，而是要成為擁有 自研模型 + 平台分發 + 企業採購入口 的完整 AI 玩家。

2. 語音是最先商業化的突破口

STT 與 TTS 相比通用大模型更容易直接進入企業流程，例如客服錄音轉文字、語音助理、教育配音、影音內容生產。微軟先用語音切入，非常合理，因為這條線能更快轉成 Foundry 與 Copilot 的實際營收。

3. Foundry 不再只是模型集散地，而是微軟 AI 平台核心

把自家模型放進 Foundry，代表微軟的野心不是只賣 Azure 算力，而是希望企業在挑選模型時，把 MAI 系列也列入正式採購選項。這會直接影響 OpenAI、Google、Anthropic 在企業場景中的競爭格局。

對 BigIntTech 的啟發

若未來要做 語音轉文字、AI 語音助理、內容配音，微軟這條線值得持續追
如果要做企業方案，Foundry 模型有機會成為 Azure 客戶更容易採購的選擇
這也提醒我們：供應商不要單押，平台方正在積極做垂直整合

一句話總結

這不是單純的三個新模型，而是微軟對外宣告：在 OpenAI 之外，它也要自己掌握模型能力、產品能力與企業 AI 分發權。