无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI 「實時語音」架構首次公開

0
分享至

PRODUCT

Realtime API 是 OpenAI 的實時語音交互接口,在 24 年的 DevDay 首次亮相,當時還是 beta,調用貴到離譜,音頻輸出 200 刀/百萬 token:

兩個月后新加坡 DevDay,我在現場看了多語言混合輸入輸出的演示,情緒和語氣都非常到位,比 Whisper 鏈路的效果好了一個量級

之后經歷了 WebRTC 支持、SIP 電話接入、圖片輸入、多輪調價,到 2025 年 8 月正式 GA。現在這套系統服務數億周活用戶,語音 AI 這條線上,目前沒有第二家能打的

Realtime API 這個東西,最牛逼的是延遲:從你對著手機說一句話開始,到聽到 AI 返回聲音為止,只需要不到 0.3 秒

在這個過程中,聲音變成數據包,穿過 Wi-Fi、運營商的網絡、橫跨大半個互聯網,到達 OpenAI 的服務器。然后,服務器跑完推理、生成語音,再原路返回。整個過程必須快到讓你感覺不到延遲,就像跟一個真人在說話

對于這玩意兒是怎么實現的,OpenAI 今天發了個技術 Blog,來詳細介紹了下


https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

然后...第二作者,是麥當勞

核心信息包括:

→ OpenAI 沒有用行業默認方案,自己設計了relay + transceiver兩層架構,前者只負責轉發數據包,后者負責所有通話狀態

→ relay 極其輕量,不解密、不解碼、不參與任何協商,只看數據包頭部的一小段標記就知道往哪兒轉

→ 全球各地部署了相同的 relay 入口,用戶的數據包在離自己最近的地方進入 OpenAI 的網絡

→ relay 用 Go 語言寫的,沒有用更底層的高性能方案,因為夠用了

→ 整套架構跑在 Kubernetes 上,對外只暴露少量固定端口

技術方案選型

OpenAI 用的實時通信協議叫WebRTC,就是你平時微信視頻通話、Google Meet 開會時底層跑的那套技術。它是一個開放標準,能在瀏覽器、手機和服務器之間傳輸低延遲的音頻和視頻

做 WebRTC 服務,行業里有一個默認選擇叫SFU(選擇性轉發單元)。簡單說就是一個中轉站,每個參與者跟它建一條連接,它負責把聲音和畫面轉發給其他人。多人視頻會議用這個方案很合適,音視頻編解碼、錄制、策略控制都集中管理


SFU 方案:AI 作為 WebRTC 參與者加入,適合多方通話

OpenAI 的場景不一樣。絕大多數會話是 1:1,一個用戶對一個模型,每一輪對話都對延遲極度敏感。SFU 帶來的多方通話基礎設施,在這個場景里是多余的

他們還評估過另一個常規方案TURN,這是 WebRTC 穿透防火墻時常用的中繼方式。但 TURN 要求中繼節點持有客戶端的連接分配狀態,不夠輕量

最后選的方案叫 transceiver 模型:在網絡邊緣部署一個 WebRTC 服務,負責跟客戶端完成連接建立、加密握手這些協議工作,然后把收到的音頻轉成更簡單的內部協議,分別送給后面的推理、轉錄、語音合成服務。所有通話狀態集中在 transceiver 一個地方,后端的 AI 服務可以當普通服務來擴展,完全不需要懂 WebRTC


transceiver 方案:在邊緣終止 WebRTC,轉換為后端協議

端口占用問題

選定 transceiver 方案之后,還有一個工程問題要解決:端口占用

傳統 WebRTC 部署里,每個通話需要占用一個獨立的網絡端口。當同時通話的用戶有幾百萬個的時候,端口會不夠用。OpenAI 的基礎設施跑在容器化平臺 Kubernetes 上,沒法給每個容器預留幾千個公網端口

他們的做法是把數據包的「轉發」和「處理」拆成兩層

relay是第一層,部署在面向公網的入口。它是一個極輕的 UDP 轉發服務:不解密通話內容,不跑任何協議狀態機,不參與編解碼協商,不知道你在說什么。它只做一件事,讀取數據包頭部的一小段標記來判斷這個包屬于哪個會話,然后轉發給對應的 transceiver

transceiver是第二層,在 relay 后面。它擁有通話的全部協議狀態,包括 ICE 連通性檢查、DTLS 加密握手、SRTP 媒體解密,以及會話的整個生命周期。從用戶的手機或瀏覽器來看,通話行為沒有任何變化


relay 只做無狀態轉發,transceiver 持有完整會話狀態

relay 持有的信息極其精簡:一條內存中的轉發映射(這個客戶端的包往哪個 transceiver 送),加幾個監控計數器和過期定時器。沒有持久化,沒有協議參與。如果 relay 重啟了,下一個數據包到達時就能自動重建路由

解決首響應問題

Realtime API 最牛逼的地方,是在 0.3 秒內完成首響應,這就需要對首包進行路由管理。用戶發出的第一個數據包到達 relay 時,relay 還沒有任何關于這個用戶的信息,但它必須立刻知道往哪里轉發。在這一步中,如果停下來查數據庫或者問別的服務都會增加延遲,是不行的

OpenAI 利用了 WebRTC 協議自帶的一個機制:ICE ufrag(ICE 用戶名片段)。這是在通話建立階段雙方交換的一個短標識符,之后客戶端發的每個連通性檢查包都會帶上它。OpenAI 在服務端生成 ufrag 時,把路由需要的信息編碼在了里面

具體流程:通話建立時,transceiver 分配好會話狀態,在協商應答(SDP answer)里返回一個共享的 relay 虛擬 IP 和 UDP 端口。客戶端看到的是一個固定的目標地址,比如203.0.113.10:3478,背后其實是整個 relay 集群

客戶端發出的第一個數據包通常是一個 STUN binding request。relay 只解析這個包頭部的 ufrag 字段,解碼出路由提示,把包轉發給擁有該會話的 transceiver。之后這個客戶端的所有后續包都走同一條已建立的路


從連接建立到媒體傳輸的完整時序:Client → LB → Relay → Transceiver

容災方面,Redis 緩存了「客戶端 IP:Port → transceiver IP:Port」的映射。relay 重啟后可以在下一個 STUN 包到來之前就從 Redis 恢復轉發路徑,進一步縮短中斷窗口

進行全球部署

如果用戶在北京說一句話,如果數據包要跑到美國西海岸才開始處理,單程網絡延遲就可能超過 150 毫秒,一來一回 300 毫秒。對話體驗會明顯卡頓。解決辦法是讓數據包盡早進入 OpenAI 自己的高速網絡

relay 的公網暴露面縮到少量固定地址和端口之后,同一套轉發邏輯就能在全球各地復制部署。OpenAI 把這個叫Global Relay,一組地理分布式的 relay 入口點,都運行相同的包轉發行為


Global Relay 接收全球客戶端的數據包,轉發給 transceiver 集群

用戶的數據包在離自己最近的入口進入 OpenAI 網絡,然后通過內部骨干網到達 transceiver。跟直接穿越公網相比,延遲更低,抖動更小,丟包更少

整套架構跑在 Kubernetes 上不需要暴露成千上萬個 UDP 端口。更小且固定的暴露面更容易做安全策略和負載均衡,擴展時也不需要預留大段公網端口范圍

底層是 Go 寫的

做實時媒體轉發,常規選擇是 C/C++ 或者 Rust,有些追求極致的團隊甚至會上 kernel bypass,繞過操作系統內核讓程序直接操作網卡。OpenAI 的 relay 用 Go 寫,這在行業里算非常規

他們在 Go 運行時層面做了幾個針對性優化:

SO_REUSEPORT讓同一臺機器上多個 relay 進程共享同一個 UDP 端口,操作系統內核在它們之間分配數據包,避免單一進程成為瓶頸

runtime.LockOSThread把每個負責讀 UDP 數據的 goroutine 釘在一個固定線程上,配合 SO_REUSEPORT,同一個通話的包傾向于落在同一個 CPU 核心,緩存命中率更高

→ 預分配內存緩沖區,最小化數據拷貝,避免在轉發熱路徑上觸發 Go 的垃圾回收

這套實現撐住了全球的實時媒體流量,relay 集群規模相對不大。所以他們沒有進一步走 kernel bypass 路線

補充一個細節:OpenAI 使用了Pion,一個 Go 語言的 WebRTC 開源庫。Pion 的作者 Sean Der 在 Hacker News 上確認了這一點

三條設計原則

對于這個項目,OpenAI 在總結了三條原則,對任何做實時系統的團隊都有參考價值:

硬性狀態集中在一個地方transceiver 擁有 ICE、DTLS、SRTP 和會話生命周期,relay 只轉發。狀態集中意味著出了問題只查一個地方

在已有信息上做路由ICE ufrag 是協議自帶的標識符,把路由信息編碼在里面,首包到達時就能路由,不需要在熱路徑上加外部查詢

夠用就不換Go 配合幾個內核級優化對當前負載已經夠用,就沒有上 kernel bypass。先跑起來,再決定要不要換更重的方案

實時語音 AI 能跑起來,靠的是基礎設施讓延遲變得感知不到

OpenAI 改變的是 WebRTC 部署的內部形態,但沒有改變客戶端對 WebRTC 協議的預期

openai.com/index/delivering-low-latency-voice-ai-at-scale

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

閃電新聞
2026-06-12 20:47:48
CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

何老師呀
2026-06-12 18:47:57
“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

澤澤先生
2026-06-06 21:14:40
青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

歷來都很現實
2025-02-23 02:50:42
穆帥考察居萊爾 將打造皇馬新陣

穆帥考察居萊爾 將打造皇馬新陣

體壇周報
2026-06-12 23:35:47
全線大漲,近10萬人爆倉!

全線大漲,近10萬人爆倉!

每日經濟新聞
2026-06-12 09:20:05
若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

三農老歷
2026-06-12 01:32:43
中信建投:關注半導體前驅體量價齊升大趨勢

中信建投:關注半導體前驅體量價齊升大趨勢

界面新聞
2026-06-12 07:46:48
富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

搗蛋窩
2026-05-11 21:35:50
被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

家居設計師蘇哥
2026-06-12 13:21:19
四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

民間胡扯老哥
2026-06-11 10:34:23
美國懵了,世界杯開始了,觀眾沒了?

美國懵了,世界杯開始了,觀眾沒了?

宋鴻兵
2026-06-12 20:02:47
長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

每日經濟新聞
2026-06-12 19:41:05
伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

澎湃新聞
2026-06-12 23:26:12
25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

極目新聞
2026-06-12 17:30:53
曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

羅米的曼聯博客
2026-06-12 10:11:30
羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

一隅非生
2026-06-12 05:49:38
為什么今年沒人提“消費降級”了?

為什么今年沒人提“消費降級”了?

黯泉
2026-05-20 17:47:21
世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

兵哥籃球故事
2026-06-12 14:29:27
2026-06-13 02:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

手機
健康
藝術
親子
公開課

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

老人、小孩、孕婦,吃粽子有啥風險

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版