无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI有嘴了!OpenAI連發三語音模型

0
分享至



昨天凌晨,OpenAI發布了三款音頻模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

OpenAI官網的表述是,新模型可以讓開發者構建能在用戶說話時“推理、翻譯和轉寫”的實時語音產品。三款模型已經開放給開發者測試。



這次更新的重點在于三款模型不同場景分工。

GPT-Realtime-2面向實時語音Agent場景,它是OpenAI首個具備“GPT-5級推理”的語音模型,可以處理復雜請求,調用工具,處理中途打斷,并在更長語音會話中維持上下文。

GPT-Realtime-Translate面向實時語音翻譯場景,支持70多種輸入語言到13種輸出語言。

GPT-Realtime-Whisper面向實時語音轉寫,可以在人說話時生成文本,用于字幕、會議記錄和工作流更新。

價格也同步公布。GPT-Realtime-2按token計費,音頻輸入起價為32美元/百萬token,音頻輸出為64美元/百萬token;GPT-Realtime-Translate按分鐘計費,價格為0.034美元/分鐘;GPT-Realtime-Whisper同樣按分鐘計費,價格為0.017美元/分鐘。

相關報道顯示,一些企業用戶包括Zillow、Priceline和德國電信在內的知名廠商已經在測試這些模型。

這是OpenAI過去一年語音路線的一次延伸。

2024年,OpenAI先把ChatGPT高級語音模式背后的低延遲語音能力開放給開發者;2025年8月,OpenAI推出首個正式版Gpt-Realtime,開始面向生產級語音Agent。

今年2月,Gpt-Realtime-1.5成為上一代主力模型,用于語音Agent和客服場景。再到今天的2.0版本的三大模型矩陣,這更像Realtime產品線從體驗功能走向企業API的一次版本升級。



01

從對話走向執行

先來看GPT-Realtime-2,按照OpenAI官方的說法,這是第一款具備“GPT-5級推理”的語音模型。這個模型被設計用于處理復雜請求、調用工具、處理中斷,并在更長的語音會話里保持上下文。

這些能力對應的是語音Agent落地時最常見的問題。

GPT-Realtime-2把上下文窗口從32K提升到128K。這個參數對長會話場景有直接意義。比如一個用戶想要針對某套房產做咨詢、或者想要改簽機票,這些場景都可能包含大量條件和多輪確認。

上下文窗口擴大后,模型可以在更長的實時對話里保留前面出現過的限制、偏好和業務信息。

工具調用也是這次更新里的關鍵詞。RealtimeAPI可以用于構建會調用工具的語音體驗。應用可以保持實時會話連接,連續發送音頻,接收模型事件,更新會話狀態,并把外部系統返回的結果再交給模型繼續回應。

美國房地產信息查詢網站Zillow,成為了OpenAI官方的首批企業案例。

OpenAI在官網中提到,Zillow正在用GPT-Realtime-2構建可以理解住房條件并安排看房的語音助手。Zillow方面表示,在最困難的對抗性測試中,經過prompt優化后,電話任務成功率從69%提升到95%,FairHousing相關合規表現也更穩定。

Fair Housing指美國住房交易中的反歧視合規要求,房產平臺不能在買賣、租賃、貸款或經紀服務中,基于種族、宗教、性別、殘障、家庭狀況、國籍等因素區別對待用戶。

從“能說”到“會說”,這可能是GPT-Realtime-2給予行業的最大震撼。

Booking子公司、知名旅行優惠平臺Priceline,則代表另一類語音模型的落地場景。

據了解,Priceline也在測試GPT-Realtime-2系列。旅游預訂的鏈條很長,用戶可能要查航班、訂酒店、調整日期、處理延誤、比較價格,還可能在境外需要翻譯。語音Agent如果能穩定接入后臺系統,就有機會把“問答”推進到“辦事”。

OpenAI提到的另一個已知客戶是德國電信。電信行業有大規模坐席、復雜套餐、故障處理、多語言服務和賬單解釋,也是語音模型落地的天然場景。



GPT-Realtime-2還有一個細節是可調推理強度。

OpenAI開發者文檔提到,GPT-Realtime-2把推理能力帶入語音到語音工作流。多數生產場景可以先使用較低的推理強度,優先保證通話里的響應速度;遇到更復雜的客服、預訂、排障任務,再提高推理強度,用更多計算換取更完整的判斷。

這個細節很重要。語音交互比文字聊天更怕停頓。用戶在電話里等待一兩秒,會明顯感到卡頓。推理越強,延遲壓力越大。在性能和響應的平衡上,不同的開發者在這個問題上會有一定取舍。。

官方也給出了一些測試數據。OpenAI稱,GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。這兩個指標用于衡量模型在音頻輸入、多輪語音、復雜指令和上下文整合方面的能力。

第二款模型是GPT-Realtime-Translate。

按OpenAI面向開發者的示例說明,GPT-Realtime-Translate主打實時語音到語音翻譯,適合廣播、直播、電話和視頻對話。它會自動識別輸入語言,并輸出翻譯后的語音和文本。開發者只需要設定目標語言。

這個模型支持70多種輸入語言到13種輸出語言。OpenAI稱,它可以在說話人講話時跟上節奏。開發者文檔還提到,傳統語音翻譯常常要求說話人停頓,系統等一句話結束后再翻譯;而GPT-Realtime-Translate更接近連續口譯的形態。

OpenAI把它的場景分成兩類。

一類是廣播式翻譯,比如直播、網絡研討會、講座、財報電話會和大型會議演講。另一類是對話式翻譯,比如呼叫中心、視頻通話和電話工作流。這兩個類別基本覆蓋了企業最愿意付費的跨語言場景:客服、教育、國際會議、內容平臺、跨境銷售和企業培訓。

第三款模型是GPT-Realtime-Whisper。

GPT-Realtime-Whisper強調實時流式轉寫。它可以在說話人講話時生成字幕、會議記錄和工作流更新。相比起前兩個模型,Whisper的商業門檻最低。它的價格僅為0.017美元/分鐘。

三款模型放在一起看,OpenAI已經把實時音頻拆成了三個明確入口:GPT-Realtime-2處理語音Agent,GPT-Realtime-Translate處理跨語言溝通,GPT-Realtime-Whisper處理實時文本化。

三者的價格、延遲要求和客戶場景都不同,奧特曼想要在差異化路線上“通吃”語音AI市場。

02

TTS市場卷完“聲音質量”卷“實時”

這次發布還有一個很清楚的商業信號:OpenAI正在把語音AI能力,全面推向API市場和企業工作流。

除了OpenAI官方提到的Zillow、Priceline和德國電信三大測試客戶,更多公司也在把這批語音模型接進自己的產品。

比如視頻平臺Vimeo、企業知識管理工具Glean、客服軟件公司Intercom,以及面向企業語音Agent的BolnaAI,都出現在目前披露的相關案例中。

換句話說,GPT-Realtime系列已經成為了OpenAI的一個成熟的商業化版圖,客戶覆蓋內容平臺、企業辦公、客服系統和語音Agent創業公司等多類開發者。

OpenAI展示的是一組真實業務中的場景:AI在通話中理解需求、調用系統、翻譯語言,并把語音交互接進企業后臺。

而這一切,正好發生在語音AI市場繼續升溫的周期里。

過去兩年,語音AI賽道最受關注的公司之一是ElevenLabs。這家公司2022年成立,最早靠高度擬真的AI配音、聲音克隆、多語言配音和內容本地化出圈,后來又把產品往企業語音Agent延伸。今年2月,ElevenLabs宣布完成5億美元D輪融資,估值達到110億美元。

這一估值較2025年1月的33億美元大幅上升。公司稱,這筆資金將用于全球擴張,并繼續投入情感化對話模型、配音、轉寫和AI語音Agent等方向。

更近的動態是,ElevenLabs在近期披露,公司年化經常性收入已經超過5億美元,并公布了更多參與D輪融資的新投資方。

其中既包括貝萊德、惠靈頓管理等大型機構,也包括英偉達、賽富時創投、德國電信等產業方。甚至演員Jamie Foxx、Eva Longoria以及《魷魚游戲》創作者黃東赫等個人投資者,也出現在這輪投資名單中。

面對著日益增長的需求,語音AI已經不只是創作者的配音工具。影視、廣告、游戲、教育、企業培訓、無障礙服務、內容出海和電話Agent,都在消耗更自然、更便宜、更可控的機器聲音。

Deepgram代表另一種路線。

這家公司長期做語音識別基礎設施,客戶更多來自聯絡中心、會議、銷售、醫療、金融等高頻語音場景。近年,Deepgram開始補上文本轉語音和語音Agent接口,試圖打通語音模型的辦事場景。

Deepgram披露的信息顯示,旗下Aura-2文本轉語音面向實時語音應用,流式延遲低于200毫秒,并支持對地址、電話號碼、字母數字組合等結構化內容做更自然的朗讀。

它還把語音識別、語音合成、實時情緒分析、話題檢測和摘要能力,放進聯絡中心等企業場景。

Cartesia則主打低延遲和實時交互。

這家公司由前斯坦福AI實驗室成員創辦,技術標簽是狀態空間模型,主打更快、更低成本的實時多模態模型。

它的語音產品Sonic系列,核心賣點是低延遲文本轉語音。Cartesia的Sonic 3文檔稱,它是一個流式文本轉語音模型,強調高自然度、準確跟隨文本和低延遲;Sonic 3支持42種語言,也支持音量、語速和情緒控制。

在Cartesia官網上,可以看到這家公司把90毫秒低延遲作為實時對話體驗的賣點。

這些公司共同推動了TTS市場的變化。

早期TTS競爭主要看聲音像不像真人。之后,行業開始比多語言覆蓋、聲音克隆、情緒表達、版權授權和配音效率。

現在,語音Agent把要求抬高了。企業不只要一個好聽的聲音,還要完整鏈路:語音識別要準,首字延遲要低,大模型要能理解上下文,工具調用要穩定,語音合成要自然,翻譯要連續,轉寫還要能進入后續工作流。

一些行業材料也反映了這個趨勢。Deepgram在TTS對比文章中提到,面向語音Agent的文本轉語音,已經把“首段語音生成低于100毫秒”視為新的基線之一。

在行業內都在競相卷“實時”的背景下,OpenAI最大的優勢來自模型棧。

OpenAI可以把整個企業調用TTS的鏈路,放到同一個開發者平臺里。對開發者來說,少接幾個供應商,就少一些延遲、集成和運維成本。對企業來說,統一平臺也更容易做權限管理、日志留存、數據策略和安全審查。

不過,OpenAI想要通吃企業語音市場,也沒那么容易。

ElevenLabs已跑到110億美元估值、超過5億美元年化收入;Deepgram今年1月完成1.3億美元融資,估值13億美元,服務1300多家客戶;Cartesia也在2025年完成6400萬美元A輪融資,Sonic模型據稱已有1萬多客戶使用,并以90毫秒模型延遲、42種語言主打實時語音。

OpenAI有模型棧優勢,但語音市場并不缺少強勢玩家。



奧特曼對這次發布的公開表態很短。他在X上稱,GPT-Realtime-2進入API是“相當大的一步前進”,同時OpenAI還在繼續改進ChatGPT里的語音體驗。

只是從各大企業用戶爭相測試的情況來看,OpenAI的新一代語音模型,足以讓人期待他在接下來這一年的市場表現。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗公布最新海上損失情況

伊朗公布最新海上損失情況

新華社
2026-06-10 21:30:08
路虎攬勝極光L價格跌至17.98萬元,有銷售顧問:主要是因為已經停產,現處于清庫存階段

路虎攬勝極光L價格跌至17.98萬元,有銷售顧問:主要是因為已經停產,現處于清庫存階段

紅星資本局
2026-06-11 17:44:03
世界杯首紅!鐵腰開場送禮+下半場被罰下 5.1分提前鎖定全場最差

世界杯首紅!鐵腰開場送禮+下半場被罰下 5.1分提前鎖定全場最差

狍子歪解體壇
2026-06-12 04:35:26
番禺萬博被掏空?虎牙、歡聚集體集體搬遷佛山

番禺萬博被掏空?虎牙、歡聚集體集體搬遷佛山

樓市滅霸
2026-06-11 19:35:55
法國海軍:在南海遭遇40艘中國軍艦,法軍的龐大力量使中國冷靜

法國海軍:在南海遭遇40艘中國軍艦,法軍的龐大力量使中國冷靜

一曲一場談
2026-06-10 23:03:21
看熱鬧的網友尷尬了!李佳琦直播賣奔馳:上架40臺秒售罄

看熱鬧的網友尷尬了!李佳琦直播賣奔馳:上架40臺秒售罄

快科技
2026-06-11 08:48:07
全皇馬松了口氣!穆里尼奧完美拿捏姆巴佩,伯納烏危機徹底解除

全皇馬松了口氣!穆里尼奧完美拿捏姆巴佩,伯納烏危機徹底解除

奶蓋熊本熊
2026-06-12 00:26:19
28歲巔峰退出國家隊?趙繼偉克星宣布退役:男籃反倒成最大受益者

28歲巔峰退出國家隊?趙繼偉克星宣布退役:男籃反倒成最大受益者

籃球快餐車
2026-06-12 05:36:36
上海洋山海關的一位科長拿著一顆牛油果來京出席中外記者見面會

上海洋山海關的一位科長拿著一顆牛油果來京出席中外記者見面會

北青網-北京青年報
2026-06-11 16:51:02
杭州重大發現!蕭山林區多次拍到"隱世國寶",工作人員:實在少見

杭州重大發現!蕭山林區多次拍到"隱世國寶",工作人員:實在少見

萬象硬核本尊
2026-06-11 16:05:11
何云偉的相聲專場,票價賣到480一張,你猜臺下坐了多少人?

何云偉的相聲專場,票價賣到480一張,你猜臺下坐了多少人?

手工制作阿殲
2026-06-11 19:43:28
6死7傷!鄉政府大樓被炸震驚中央,四川涼山州6.26特大爆炸案始末

6死7傷!鄉政府大樓被炸震驚中央,四川涼山州6.26特大爆炸案始末

易玄
2024-09-11 10:52:41
金與正去哪兒了?

金與正去哪兒了?

天氣觀察站
2026-06-11 13:52:57
菲律賓大地震中國一毛沒給!馬科斯剛罵完中國,現世報就來了

菲律賓大地震中國一毛沒給!馬科斯剛罵完中國,現世報就來了

共工之錨
2026-06-12 00:28:11
想3打1?東沙爆發沖突,海巡署3艦一齊圍攻海警船,對峙34小時

想3打1?東沙爆發沖突,海巡署3艦一齊圍攻海警船,對峙34小時

鐵錘簡科
2026-06-09 14:06:02
廣西興安爆炸致7死17傷后續,2聲巨響沒有誰想看熱鬧

廣西興安爆炸致7死17傷后續,2聲巨響沒有誰想看熱鬧

九方魚論
2026-06-12 05:31:38
老婆出軌初戀后,我半年沒碰她,她質問我原因,我說:我嫌臟

老婆出軌初戀后,我半年沒碰她,她質問我原因,我說:我嫌臟

千秋文化
2026-06-06 20:06:18
中國腦梗發病率世界第一!醫生:罪魁禍首已揪出,4種蔬菜要少吃

中國腦梗發病率世界第一!醫生:罪魁禍首已揪出,4種蔬菜要少吃

芹姐說生活
2026-06-11 15:36:46
歐文點評穆帥即將回歸皇馬

歐文點評穆帥即將回歸皇馬

體壇周報
2026-06-11 19:32:10
根據中央編辦、省委編辦批復,寧波成立新機構

根據中央編辦、省委編辦批復,寧波成立新機構

政知新媒體
2026-06-11 22:00:39
2026-06-12 07:51:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2534文章數 8065關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

特朗普突然取消對伊朗"猛烈打擊":美伊達成重大協議

頭條要聞

特朗普突然取消對伊朗"猛烈打擊":美伊達成重大協議

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

藝術
房產
家居
時尚
手機

藝術要聞

華國鋒的“華氏顏體”為何被公認為書法珍品?

房產要聞

科城·美林學筑5月領跑崖州灣:成交價、銷售套數、轉化率三項第一

家居要聞

空間微調 移形換境

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

手機要聞

iOS 26泄密案迎來轉折?蘋果與爆料人普羅瑟共同申請撤銷缺席判決

無障礙瀏覽 進入關懷版