微軟發布三款 MAI 模型:Transcribe-1、Voice-1、Image-2 全面切入語音與生成式 AI
title: 微軟發布三款 MAI 模型:Transcribe-1、Voice-1、Image-2 全面切入語音與生成式 AI date: 2026-04-07 source: https://www.koc.com.tw/archives/637780 category: articles tags:
- 微軟
- MAI
- 語音辨識
- TTS
- 圖像生成
- Microsoft Foundry
- OpenAI created: 2026-04-07 updated: 2026-04-07
微軟發布三款 MAI 模型:Transcribe-1、Voice-1、Image-2 全面切入語音與生成式 AI
概要
微軟一口氣發布三款自研 MAI 模型,包含語音轉文字的 MAI-Transcribe-1、文字轉語音的 MAI-Voice-1,以及圖像生成的 MAI-Image-2,並同步開放給開發者透過 Microsoft Foundry 使用。這不只是一次模型更新,更是微軟在 2025 年重談與 OpenAI 合約後,開始更明確推進自研模型與平台能力的訊號。
- 原文:https://www.koc.com.tw/archives/637780
- 引述資料來源:https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/
- 相關背景:微軟在 2025 年與 OpenAI 重談合作條款後,獲得更大空間發展自有前沿模型
三個模型的重點
1. MAI-Transcribe-1:主打多語語音轉文字
- 文中引用數據稱,在 FLEURS 多語言基準中,前 25 大語言平均 WER 3.9%
- 文中聲稱整體表現勝過 Whisper-large-v3、Gemini 3.1 Flash、ElevenLabs Scribe v2、GPT-Transcribe 等模型的多數對照項目
- 支援 MP3、WAV、FLAC 等格式,最高 200MB
- 定價約 每小時語音 0.36 美元
- 說話者分離、上下文偏置、串流功能為即將推出
2. MAI-Voice-1:主打高速 TTS
- 官方描述可在 1 秒內生成 60 秒語音
- 強調長段落語音生成時仍能維持說話者音色與特徵一致
- 可透過幾秒語音樣本建立自訂 voice profile
- 已被用於 Copilot Audio Expressions
- 定價約 每 100 萬字元 22 美元
3. MAI-Image-2:主打商用圖像生成
- 已在 Arena.ai 圖像生成排行榜進入前三
- 微軟表示相較前代,在相同品質下生成速度提升至少 2 倍
- 可處理自然光影、膚色、材質、圖表與圖片中文字
- 已支撐 Copilot 圖像生成能力
- 定價約:文字輸入 每 100 萬 token 5 美元;圖像生成 每 100 萬 token 33 美元
核心觀點
1. 微軟正在降低對 OpenAI 的單一路徑依賴
這篇文章最重要的點,不是 MAI 系列模型本身多強,而是微軟開始用實際產品表現證明:它不再只想當 OpenAI 的雲端與通路夥伴,而是要成為擁有 自研模型 + 平台分發 + 企業採購入口 的完整 AI 玩家。
2. 語音是最先商業化的突破口
STT 與 TTS 相比通用大模型更容易直接進入企業流程,例如客服錄音轉文字、語音助理、教育配音、影音內容生產。微軟先用語音切入,非常合理,因為這條線能更快轉成 Foundry 與 Copilot 的實際營收。
3. Foundry 不再只是模型集散地,而是微軟 AI 平台核心
把自家模型放進 Foundry,代表微軟的野心不是只賣 Azure 算力,而是希望企業在挑選模型時,把 MAI 系列也列入正式採購選項。這會直接影響 OpenAI、Google、Anthropic 在企業場景中的競爭格局。
對 BigIntTech 的啟發
- 若未來要做 語音轉文字、AI 語音助理、內容配音,微軟這條線值得持續追
- 如果要做企業方案,Foundry 模型有機會成為 Azure 客戶更容易採購的選擇
- 這也提醒我們:供應商不要單押,平台方正在積極做垂直整合
一句話總結
這不是單純的三個新模型,而是微軟對外宣告:在 OpenAI 之外,它也要自己掌握模型能力、產品能力與企業 AI 分發權。