OpenAI 三大語音模型怎麼用?Podcaster 的 AI 字幕、翻譯與錄音設備指南

OpenAI 三大語音模型怎麼用?Podcaster 的 AI 字幕、翻譯與錄音設備指南

AI 語音模型大爆發,跟你做 podcast 有什麼關係?

你做 podcast、配音、直播、廣播——那 2026 年 5 月發生的這些事,跟你有關。

5 月,AI voice 賽道一週內三家炸場:

  • 5/7 OpenAI 一次發 3 個音訊 API 模型——即時對話、跨語翻譯、即時字幕
  • 5/12 Forbes 報導,Google Gemini Live 被挖出 7 個尚未公開的隱藏 voice 模型
  • 5/12 Meta 又把 Muse Spark 推進 voice conversations,讓 AI 可以打斷、切換話題、跨語言對話

你滑過新聞標題可能想:「這是開發者在玩的事,跟我做內容沒關係。」

不,有關係。而且不是「未來會有關」,是現在就有關

  • 你的競爭對手已經在用 AI 做雙語版本搶國際聽眾——一集 30 分鐘 OpenAI Translate API 成本不到台幣 35 元(不含 voice clone、後製、人工校對、平台費)
  • 你的聽眾被 AI 工具養成壞胃口——沒自動字幕、沒 chapter、沒摘要的 podcast,被棄追的速度比以前快
  • 配音員的工作流正在被重新定義——「真人聲音還能賣多少錢」這個問題正在被市場回答

2026 年要靠聲音吃飯,你得搞清楚 AI 在做什麼。不為了跟風,是為了知道哪些事 AI 已經做得比你好(讓它做)、哪些事 AI 還救不了(這就是你的護城河)。

這篇文章用 podcaster(播客主持人)、配音員、廣播從業者的角度拆 OpenAI 5/7 發的三個 voice 模型,並告訴你一件可能反直覺的事——

AI voice 工具越強,好麥克風跟好錄音介面變得越重要,不是越不重要。買對前端錄音設備,通常比反覆調 AI prompt 更優先。

核心邏輯一句話:傳統後製是「越修越好」,AI workflow 是「越錯越歪」——錄音前端髒一點點,後段就被放大成一坨錯字、翻錯方向、AI 講出來的「不是你說的那句話」。而且錯誤會連鎖:一個字聽錯,後面整段對話的方向都被帶歪。(這個概念第三大段會展開,這裡先給你個底。)

傳統後製 vs AI workflow 對比圖:傳統後製誤差遞減保留原意,AI 鏈每個環節放大誤差導致越錯越歪
傳統後製越修越好,AI workflow 卻是越錯越歪

往下讀你會帶走:

  • OpenAI 三個 voice 模型各自能讓你做什麼(含新增的 Cedar / Marin 兩個音色)
  • 為什麼 AI 工具反而讓好麥克風變更重要
  • 你現在的錄音夠不夠乾淨給 AI 用?5 項自我檢查
  • 會影響 AI workflow 天花板的關鍵設備類型

(讀完約 12 分鐘——但會幫你少走很多彎路)

2026 OpenAI 語音模型比較:Podcaster 與配音員該怎麼選?

給 podcaster 的答案gpt-realtime-translate 適合做多語版本測試、gpt-realtime-whisper 適合 live 字幕與訪談逐字稿、gpt-realtime-2 偏向互動式 voice agent(語音助理)。三者共同前提:原始錄音必須乾淨,否則 AI 會把雜訊、噗音、回音一起放大。

如果你趕時間,直接看這裡:

  • 做即時互動 voice agent(podcast bot、AI 共同主持人)gpt-realtime-2(128K context window(上下文視窗),比 32K 大 4 倍,能容納更長單集脈絡)
  • 做雙語 / 多語 podcast、即時訪談翻譯gpt-realtime-translate(70+ 種輸入語言 → 13 種輸出語言)
  • 自動產生字幕、會議轉錄、live podcast 字幕gpt-realtime-whisper(streaming,邊講邊轉)
  • 你只想要高品質 AI 配音 / 聲音複製 → 暫時還是用 ElevenLabs(OpenAI 在這塊不是強項)

不論你用哪個模型,前端錄音品質永遠是 AI workflow 的天花板——後面有專門一節展開哪些設備類型會影響這個天花板。

不確定怎麼挑?繼續往下看,我們從每個模型在做什麼開始。

三家 voice AI 比較表:OpenAI vs ElevenLabs vs Gemini Live

OpenAI gpt-realtime-2、ElevenLabs v3、Google Gemini Live 三家 voice AI 平台的五軸強弱雷達圖比較
三家 voice AI 強項不同,實務上常混用
項目 OpenAI gpt-realtime-2 ElevenLabs v3 Google Gemini Live
強項 即時對話 + reasoning 一體化、128K context 聲音複製、長篇 narration、情緒表達 Google 生態整合、行動裝置原生
首句延遲 ~1.1 秒(minimal reasoning)/ 2.3 秒(high reasoning)¹ 較高延遲,非即時對話取向(Flash v2.5 才是 ~75ms) 低延遲、比前代更快;官方未公布精確毫秒數
定價 $32/M input audio、$64/M output、cached $0.40/M(token 計費;實際每分鐘成本取決於輸入/輸出音訊長度、文字/圖片輸入、對話回合累積與 cache 命中) 免費方案;Starter $6/月起,Professional Voice Clone 需 Creator 以上 依 Google 官方 Gemini API / Enterprise 方案;本文不列精確價格
適合做 互動式 voice agent、AI 共同主持人 有聲書、配音、品牌人聲 Gemini app / Search Live / Google 產品整合應用
聲音複製 不公開支援 平台支援 voice cloning(聲音複製);可搭配 v3 / TTS 工作流使用 公開文件未列完整 voice cloning 工作流
多語 支援多語;官方未列精確數字 70+ 種(以 ElevenLabs 官方 models 頁為準) 未公開明確數字

¹ 延遲數字來自第三方 Artificial Analysis benchmark 實測(1.12s / 2.33s);OpenAI 官方只確認 reasoning effort 會影響 latency,未公布精確 TTFA。

實務建議:很多 podcast 工作流會混用兩三家——OpenAI 處理即時互動、ElevenLabs 處理需要 host 個人聲音的環節(雙語版 host、品牌 intro、廣告插播)、Gemini Live 在行動裝置上補位。不是非此即彼。

OpenAI 三個模型快速比較表

模型 主要用途 首句延遲 定價 支援語言 Context
gpt-realtime-2 即時雙向對話、voice agent ~1.1s¹ $32/M in、$64/M out、cached $0.40/M 支援多語;官方未列精確語言數 128K tokens(從 32K 升級 4 倍)
gpt-realtime-translate 即時語音翻譯 低延遲串流 $0.034 / 分鐘 70+ → 13 種
gpt-realtime-whisper 即時語音轉文字(字幕用) 低延遲串流 $0.017 / 分鐘 即時語音轉文字;官方未列精確語言數

¹ 同前表註:第三方 Artificial Analysis 實測;OpenAI 官方只確認 reasoning effort 影響 latency,未公布精確 TTFA。

三個模型都是給開發者透過 API 整合進產品的,不是給一般用戶直接用的 ChatGPT 介面。但理解能力邊界,能讓你判斷市面上會出現哪些新工具,以及怎麼把它們納入工作流。

Cedar 與 Marin:這次附送的兩個新音色

除了模型升級,OpenAI 在 Realtime API 新增了兩個專屬音色:

  • Cedar / Marin:OpenAI 官方在 Realtime API 建議使用的高品質聲音;性別感、聲線特質、適合場景以實際試聽為準
  • 試聽連結:OpenAI Playground

對配音員而言,這是個矛盾的好消息:AI 配音越像真人,「真人配音的差異化價值」就越貴——但前提是:你的「真人訊號」要有夠多細節、夠有個人特色——這些是目前 AI 還複製不來的東西。後面會展開講。

Use case 1:用 gpt-realtime-translate 做雙語 podcast

給 podcaster 的答案:這是三個模型裡對 podcaster 變現潛力最直接的一個。一集 30 分鐘的中文 podcast 翻成英文音檔,OpenAI Translate API 成本不到台幣 35 元(不含後製與其他費用)。但翻譯後不會完全保留原 host 聲音特徵——若品牌一致性重要,要搭 ElevenLabs voice cloning。

為什麼這個值得做

過去你想把中文 podcast 出英文版,要嘛:

  1. 請翻譯把逐字稿翻成英文 → 找英文配音員重錄 → 後製混音(成本:每集數千到上萬台幣,週期:1–2 週)
  2. 用 Google Translate 出字幕 → 假裝你做了英文版(聽眾流失率超高)

現在流程壓縮到:把原始音檔送進 API → 拿到目標語言音檔,一集 30 分鐘 OpenAI Translate API 成本不到台幣 35 元(不含後製與其他費用),週期分鐘級。

實際 workflow

建議分兩條:

  • 低成本路線(適合測試市場):原音 → Translate 直接出目標語言音檔 → 上架 → 看數據
  • 品牌路線(適合維持 host 個人聲音):原音 → Translate 出文字稿 → 用 ElevenLabs voice clone 你的聲音配 → 上架

第二條成本高(ElevenLabs 訂閱費 + 一次性 voice clone 設置),但能維持「這還是同一個 host」的品牌一致性。

但有個前提

翻譯模型對「乾淨的原音」很敏感。如果你的原始錄音底噪高、口齒不清、有回音,Translate 出來的結果會:

  • 翻錯字(背景雜音被當成語意片段)
  • 節奏怪(停頓沒切對)
  • 聲音飄(合成端解析不出原本語氣)

這就是為什麼前端錄音設備重要。後面會展開講

Use case 2:用 gpt-realtime-whisper 自動產字幕

給 podcaster 的答案:若不需要即時串流體驗,大部分字幕場景可以先用原本 Whisper API 測試(成本較低)。gpt-realtime-whisper 真正用得到的是「需要即時體驗」的場景——live podcast、voice agent 內部模組、訪談即時記錄。

Whisper 不是新東西——OpenAI 從 2022 年就 open source 了 Whisper 模型。但這次的 gpt-realtime-whisper 不一樣:

  • 原本的 Whisper API($0.006/分鐘):批次處理,要等整個檔案上傳完才開始轉
  • gpt-realtime-whisper($0.017/分鐘):串流處理,邊講邊轉,延遲低

自動字幕實用性的真相

市面上很多 podcast 平台(Spotify、Apple Podcasts)都已自動產字幕。但這些字幕在中文、台語、英文夾雜的內容下,錯字率常明顯升高

真的要 SEO 友善 / 聽障無障礙的字幕,建議走自己跑 Whisper 的路線,加上:

  • 專業領域辭典(把你領域常用的人名、產品名、術語先列進去)
  • 人工校對(最後仍需要人工把關)
  • 分段標題(時間軸 chapter,提升讀者跳讀體驗)

同樣,Whisper 的轉錄精度跟原始音訊清晰度成正比。底噪高、近距離噗音、sibilance(齒音)嚴重的錄音,Whisper 會卡住、漏字、誤判段落。

Use case 3:用 gpt-realtime-2 做互動 voice agent

給 podcaster 的答案:這是三個模型裡最未來、也最不普及的一個。對純內容創作者,比較實際的做法是等市面上有 podcast 平台把這功能包好給你用,再決定要不要付費訂閱。但128K context window 是大賣點——比舊版 32K 大 4 倍,能容納顯著更長的單集脈絡,AI 主持人較不容易在錄到一半就「忘記」前面講了什麼。

gpt-realtime-2 把過去的「聽 → 想 → 說」三個獨立步驟(STT(語音轉文字)→ LLM(大型語言模型)→ TTS(語音合成))合併成單一模型,端到端 first-audio 延遲約 1.1 秒(minimal reasoning)¹可減少 STT→LLM→TTS 串接延遲,實際速度依實作而定

¹ 同前表註:第三方 Artificial Analysis 實測;OpenAI 官方只確認 reasoning effort 影響 latency,未公布精確 TTFA。

對 podcast 來說,這開啟了幾種新可能:

  • AI 共同主持人:你錄 podcast 時,AI 即時回應、補充、提出問題(更長的單集脈絡能維持在 context 內,減少掉脈絡的機率)
  • 聽眾互動式 podcast:聽眾在 app 內可以直接跟 podcast 角色對話
  • 內容衍生品:把 podcast 內容做成 voice agent,讓聽眾可以「跟你的歷史內容對話」

但這些 use case 都需要產品開發能力。對純內容創作者,比較實際的做法是等 podcast 平台把這個功能包好。

128K context window 具體對 podcaster 的影響

用 podcast 場景比喻:

項目 舊版 32K tokens 新版 128K tokens
Context window 32K tokens 128K tokens(為 32K 的 4 倍)
長對話脈絡保持 較易掉脈絡 更容易維持脈絡
聽眾互動 agent 只能問單集片段 可容納更長單集內容;若要支援整個 podcast 系列,仍需要檢索 / 知識庫設計

註:實際可容納音訊長度取決於 token 化方式、輸入格式與流程設計。

AI 救不了的事:為什麼前端錄音是天花板,不是錦上添花

給 podcaster 的答案:AI voice 工具越強,「我有 AI 後製,前端隨便錄就好」這個想法錯得越徹底。AI 對訊號品質的依賴比傳統後製還嚴格,因為 AI 的誤差是放大式而不是遞減式

這節是這整篇文章最重要的部分。AI voice 工具越強,越多人犯一個盲點:

我有 AI 後製了,前端隨便錄就好

這個想法錯得徹底。原因有四:

原因 1:AI 的 error propagation(誤差是放大式的)

STT → LLM → TTS 連鎖反應流程圖:一個字聽錯如何在 AI pipeline 三段被放大成整段對話翻轉的 voice agent 場景 demo
一個字聽錯,AI 主持人會把整集對話帶往相反方向

傳統後製鏈:錄音 → 降噪 → EQ → 壓縮 → 母帶。每個環節都是遞減式修正,最終損耗有限。

AI 鏈:錄音 → STT 模型 → LLM → TTS 模型。每個環節都是放大式誤差——STT 錯一個字,LLM 會基於這個錯字往下推理,TTS 會把推理結果合成成聽起來「很自然但說錯的話」。

底噪、回音、近距離噗音不只是「聽起來髒」,是會直接讓 AI 在某些關鍵字上判斷錯誤,可能一路影響後續的 LLM 判斷與 TTS 輸出。

原因 2:Voice cloning 的品質 floor

如果你想用 ElevenLabs 複製自己的聲音做 AI 主持人,它的天花板就是你給它的原始錄音的天花板

用筆電內建麥 / Logitech 桌面麥 / 藍牙耳機麥錄下來餵 ElevenLabs,你會得到一個有電子味、有底噪、有壓縮 artifact(壓縮雜訊)的「AI 自己」。然後聽眾會問:「你的 podcast 為什麼聽起來怪怪的?」

真正能用的 voice cloning 訓練資料需要:

  • XLR 麥克風 + 低噪錄音介面;若使用電容麥或 inline preamp(如 FetHead / Cloudlifter),需依設備官方規格確認是否需要 48V phantom power(幻象電源)
  • 安靜、低背景噪音、無明顯房間殘響的單一人聲錄音環境
  • Instant Voice Cloning:1–2 分鐘乾淨人聲即可測試;Professional Voice Clone:官方建議至少 30 分鐘,品質目標接近 2–3 小時

原因 3:台灣錄音環境的典型痛點

台灣多數創作者在家錄音,常見的環境問題會直接拖垮 AI workflow:

  • 背景雜音——機車聲、街道車流、樓上施工、隔壁裝潢
  • 持續性低頻——冷氣壓縮機、抽風扇、電腦風扇嗡嗡聲
  • 房間殘響(reverb)——多數家庭環境沒做聲學處理,磁磚、玻璃、空牆反射
  • 近場噪音——鍵盤聲、滑鼠 click、紙張翻動聲

這類「非持續性」噪音特別會讓 AI 轉錄誤判——背景一聲機車轟過,Whisper 可能就在那個句尾掉一段字。所以選用抗噪性佳的動圈麥克風是台灣創作者的首選

原因 4:Translation 的語境理解

gpt-realtime-translate 翻譯品質非常依賴能不能聽清楚原本的語意片段。中文 podcast 常常會混雜英文短詞(「我覺得這個 idea 很 work」),AI 在這種多語切換場景下,底噪會直接讓它把英文字判別成另一個發音相近、但意思完全相反的字

結果就是:你原本講「這個 idea 很 work」(可行),AI 聽成「這個 idea 很 weak」(弱爆)——這一句翻轉了,已經夠糟。

但更糟的是後面的連鎖反應。LLM 會以「使用者覺得這個 idea 弱」當前提繼續推理,接下來幾分鐘的對話、回應、追問、建議,全部建立在這個錯誤判斷上。如果是 AI 共同主持人,它會順著「弱」往下講、順著「弱」追問、順著「弱」收尾——你回頭聽會發現:AI 把你力推的 idea變成要砍掉的 idea,而且每一句聽起來都很自然、很順、很有邏輯,因為它真的有邏輯——只是建立在錯的前提上。再翻譯成英文輸出,雙語版聽眾收到的是一場「主持人嫌棄自己 idea」的 podcast。傳統後製不會發生這種事,AI workflow 會。

這不是 AI 不夠強,是物理層的問題——你給它的訊號不夠乾淨,演算法做不出 magic。

如果這段對你有幫助,歡迎轉給你身邊正在做 podcast、配音、廣播、自媒體的朋友 — 幫他們少走半年的彎路。

你現在的錄音夠不夠乾淨給 AI 用?5 項自我檢查

在花錢買新設備前,先用這 5 項檢查你現有的錄音狀態:

5 個檢查點跑完,才清楚設備是否適合 AI 用
# 檢查項目 怎麼自測 不過關的後果
1 房間底噪是否明顯 麥克風開著、自己安靜不出聲,聽 10 秒。冷氣/機車/街道聲/螢光燈嗡嗡聲明顯嗎? 底噪會被 AI translation/voice cloning 整段放大,輸出聽起來「悶悶的」、像隔著毛玻璃講話
2 人聲是否貼近清楚、無回音 錄一段測試,聽起來像「就在耳邊講話」還是「房間另一頭講話」? 遠麥/回音會讓 Whisper 斷句、Translate 翻錯,字幕變天書
3 是否有噗音/齒音/噴麥 講帶 ㄆ/ㄅ/s/ch 音節的句子,聽喇叭爆音/刺耳嗎? AI voice cloning 會把噗音當你聲音特徵複製,做出「永遠在噴口水」的 AI 主持人
4 整段錄音音量是否穩定 看 DAW(數位音訊工作站)波形,整段動態落差是否明顯偏大、忽大忽小? 音量不穩 → AI 模型對「小聲段落」辨識率掉、「大聲段落」會壓縮失真
5 專有名詞/人名/品牌名轉錄是否常錯 把錄音丟 Whisper 跑一遍,看 Cubase/Apollo/SM7B 這類專名有沒有變音譯怪字 專名錯字會被 LLM 沿用推論,後面 chain 全錯,字幕跟翻譯都不能用

判讀標準:若多項不過關,你的 AI workflow 結果很可能打折——不是 AI 不夠強,是你給它的訊號不夠乾淨。先處理錄音前端,再花時間調 AI prompt。

會影響 AI workflow 天花板的關鍵設備

這節不是購買清單。如果你在思考自己的錄音 setup 怎麼配,下面這幾個類別會直接決定 AI workflow 能處理到什麼品質:

  • 動圈麥克風:抗環境噪音、適合台灣家錄場景,是 AI workflow 最不易出包的起點
  • 廣播級動圈麥克風(業界常以 SHURE SM7B 為代表):podcast、訪談、廣播圈長期使用的工作主力,輸出穩定、音色辨識度高
  • 大振膜電容麥克風(業界常以 Neumann TLM-103 這個等級為代表):細節豐富、底噪低,適合需要乾淨人聲特徵的 voice cloning 訓練素材
  • 錄音介面:48V phantom power、足夠 gain、低噪前級——是麥克風訊號乾淨度的第一道把關
  • 監聽耳機:能在錄製當下聽出底噪、破音、節奏問題,比後製時補救容易得多

我們刻意不在這篇文章裡點名特定型號——適合你的 setup 取決於內容類型、錄音環境、預算與工作流。希望你看完知道為什麼這些類別重要,而不是看完一份購物車。

THINK2 除了長期代理音訊設備之外,也正在把服務延伸到 AI workflow 整合與設備搭配諮詢。對需要把錄音 setup、AI 工具、後製流程串成一條鏈的 podcaster、自媒體工作者、新創團隊,我們可以是你的供應商與顧問。想針對自己的需求聊聊,歡迎透過 LINE 找我們。

AI 配音越像真人,真人配音的差異化價值就越貴

結語:AI 是工具,不是替代品

OpenAI 5 月發的這三個模型確實會改變很多人的工作流——多語 podcast 變便宜、即時字幕變即時、互動 voice agent 變可行。

但 AI workflow 的天花板永遠是你給它的原始訊號品質。買對麥克風、買對錄音介面,通常比反覆調 prompt 更優先。

真人主持的差異化價值,在 AI slop 氾濫的時代會越來越貴——這不是要你拒絕 AI,而是要你用對的方式跟 AI 共處:

  • 用 AI 處理機械工作(字幕、翻譯、簡單 voice agent)
  • 把人力時間留給內容本身(採訪、故事、情緒、品牌人格)
  • 專業設備把屬於你的人格、風格、觀點好好呈現出來——這些 AI 還複製不來的東西,才是你的護城河

有設備搭配的問題?想看更具體的設備清單?歡迎透過 LINE 找我們聊。


本文資料來源:OpenAI 官方發布(2026/5/7)、OpenAI API 文件(pricing / model docs / realtime cost docs)、ElevenLabs 官方文件(models / pricing / voice cloning)、Google Gemini 3.1 Flash Live 官方頁、Meta Muse Spark 官方公告(about.fb.com)、Forbes(Paul Monckton 2026/5/12 揭露 Gemini Live 隱藏模型)、Artificial Analysis 第三方 benchmark(gpt-realtime-2 延遲)、Shure SM7B 官方頁。本文撰寫於 2026/5/14,校稿於 2026/5/16。AI 模型定價與規格可能變動,請以 OpenAI、ElevenLabs、Google、Meta 官方文件為準。