人眼看視頻到AI理解視頻：北大提出面向AI的實(shí)時通信框架Artic

2026-06-26 15:00:27　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

論文作者均來自北京大學(xué)王選計(jì)算機(jī)研究所，第一作者為吳將凱博士，第二作者為本科生任致遠(yuǎn)，第三、第四作者為博士生鐘俊權(quán)、劉黎明，通訊作者為張行功副教授。

從 ChatGPT、Gemini Live、豆包到智能眼鏡，AI 正在從「文字聊天」走向「邊看邊聊」。但當(dāng)視頻通話的另一端不再是人，而是部署在云端的多模態(tài)大模型時，傳統(tǒng)實(shí)時視頻通信系統(tǒng)遇到了一個根本錯位：它仍在努力讓「人眼看得更舒服」，而新的目標(biāo)其實(shí)是讓「AI 答得更準(zhǔn)確、響應(yīng)更及時」。

北京大學(xué)團(tuán)隊(duì)提出 Artic，一套面向 AI 的實(shí)時視頻通信框架，系統(tǒng)性重構(gòu)了 AI 視頻助手場景下的碼率自適應(yīng)、視頻編碼、反饋控制和評測基準(zhǔn)。實(shí)驗(yàn)結(jié)果顯示，在真實(shí)移動上行網(wǎng)絡(luò)軌跡下，Artic 相比現(xiàn)有框架顯著提升 15.12% 準(zhǔn)確率，并降低 135.31 ms 延遲。

一句話概括：Artic 不是讓視頻一味更清晰，而是讓網(wǎng)絡(luò)傳輸學(xué)會服務(wù)大模型的「理解狀態(tài)」。

圖 1：AI 視頻助手是一種新的實(shí)時通信范式，用戶將視頻和音頻傳給云端大模型，AI 返回語音或文本響應(yīng)。

論文題目：Artic: AI-oriented Real-time Communication for MLLM Video Assistant
作者：Jiangkai Wu, Zhiyuan Ren, Junquan Zhong, Liming Liu, Xinggong Zhang
單位：Peking University
會議：ACM SIGCOMM 2026（已接收）
https://arxiv.org/abs/2602.12641
代碼：
https://github.com/pku-netvideo/Artic
基準(zhǔn)：
https://github.com/pku-netvideo/DeViBench

引言：視頻通信，

正在從「給人看」轉(zhuǎn)向「給 AI 理解」

過去二十多年，實(shí)時視頻通信的優(yōu)化目標(biāo)非常清楚：讓人看得清、看得流暢、不要卡頓。因此，無論是擁塞控制、碼率自適應(yīng)，還是視頻編碼，大多圍繞畫面質(zhì)量（PSNR、SSIM、VMAF）、幀率、分辨率和卡頓率等「人眼體驗(yàn)」指標(biāo)展開。

但 AI 視頻助手改變了這個前提。用戶拿著手機(jī)或智能眼鏡走在路上，攝像頭持續(xù)把第一視角畫面上傳到云端大模型；模型并不需要「欣賞」整個視頻，它只需要抓住足夠回答當(dāng)前問題的關(guān)鍵信息。例如用戶在商場里問「這個商品是什么」、在展館里問「這塊導(dǎo)覽牌寫了什么」，模型真正需要看清的是商品標(biāo)簽、導(dǎo)覽牌文字等局部細(xì)節(jié)，而不是包含背景區(qū)域的整張畫面。

這帶來兩個直接變化。第一，體驗(yàn)質(zhì)量的核心指標(biāo)變了：傳統(tǒng)實(shí)時視頻通信關(guān)心的是人眼感知畫質(zhì)、流暢度和穩(wěn)定性；AI 視頻助手更關(guān)心模型回答是否正確、是否能及時觸發(fā)響應(yīng)。因此，視頻允許在非關(guān)鍵區(qū)域變糊或不流暢，但關(guān)鍵區(qū)域一旦看不清或卡頓，就會直接變成回答錯誤或響應(yīng)滯后。

第二，網(wǎng)絡(luò)條件也變了。AI 視頻助手常運(yùn)行在手機(jī)、智能眼鏡等移動終端上，服務(wù)導(dǎo)覽、購物識物等隨身場景。用戶邊走邊用時，終端位置、朝向和人體遮擋關(guān)系持續(xù)變化，還可能在不同 Wi-Fi 接入點(diǎn)、不同基站覆蓋區(qū)域，或 Wi-Fi 與移動網(wǎng)絡(luò)之間切換；這些物理鏈路和接入路徑變化會直接改變上行信道質(zhì)量。因此，相比視頻會議、遠(yuǎn)程桌面等更偏靜態(tài)使用的傳統(tǒng)實(shí)時視頻通信場景，AI 視頻助手面對的上行帶寬波動更大、發(fā)生得更頻繁。

論文中的生產(chǎn)原型測量給出了一個直觀例子：當(dāng)用戶從穩(wěn)定環(huán)境進(jìn)入電梯時，可用帶寬在約 1.5 秒內(nèi)從 5 Mbps 跌到 1.23 Mbps。傳統(tǒng)實(shí)時視頻通信的擁塞控制來不及收縮碼率，造成最高 1389 ms 的延遲尖峰；隨后碼率被大幅壓低，又會讓關(guān)鍵視覺信息變糊，直接導(dǎo)致大模型回答錯誤。

圖 2：真實(shí)移動場景中，帶寬突降會導(dǎo)致傳統(tǒng)實(shí)時視頻通信出現(xiàn)嚴(yán)重延遲尖峰。

圖 3：當(dāng)關(guān)鍵區(qū)域被低碼率壓糊，大模型可能從正確回答變成錯誤回答。

研究內(nèi)容：Artic 如何讓通信系統(tǒng)「懂 AI」

Artic 的核心思想，是把大模型的感知狀態(tài)納入實(shí)時通信閉環(huán)（整體架構(gòu)如圖 4 所示）。傳統(tǒng)實(shí)時視頻通信看到網(wǎng)絡(luò)有余量，就傾向于把碼率繼續(xù)拉高；Artic 則會追問另一個問題：當(dāng)前視頻質(zhì)量對模型回答來說是否已經(jīng)足夠？如果答案是足夠，就不必繼續(xù)填滿帶寬，而應(yīng)該把余量留給下一次網(wǎng)絡(luò)波動。

圍繞這一思想，Artic 包含三個模塊：響應(yīng)能力感知碼率自適應(yīng)（ReCapABR）負(fù)責(zé)「何時不再加碼率」，零開銷上下文感知流傳輸（ZeCoStream）負(fù)責(zé)「有限碼率應(yīng)該給哪里」，退化視頻理解基準(zhǔn)（DeViBench）則負(fù)責(zé)「如何評測視頻退化對模型理解的影響」。

圖 4：Artic 總體架構(gòu)，包括 ReCapABR、ZeCoStream 和 DeViBench 三個核心部分。

1. ReCapABR：當(dāng)模型已經(jīng)看懂，就不要繼續(xù)搶帶寬

在傳統(tǒng)實(shí)時視頻通信中，帶寬越高通常畫質(zhì)越好，因此擁塞控制會盡可能把可用帶寬用滿。但在 AI 視頻助手里，這個邏輯并不總成立。大模型的回答準(zhǔn)確率存在「飽和」現(xiàn)象：當(dāng)畫面質(zhì)量達(dá)到足以支撐當(dāng)前回答的水平后，繼續(xù)提高碼率，準(zhǔn)確率提升可能很小。

ReCapABR 利用大模型反饋的響應(yīng)置信分?jǐn)?shù)判斷當(dāng)前回答能力是否已經(jīng)飽和。如果模型已經(jīng)有足夠信心，Artic 就主動限制碼率，即使底層擁塞控制認(rèn)為還可以繼續(xù)加碼，也會保留一部分帶寬余量，用來吸收之后可能發(fā)生的網(wǎng)絡(luò)波動。

這是一種很有意思的反直覺設(shè)計(jì)：在網(wǎng)絡(luò)還不錯的時候主動「少發(fā)一點(diǎn)」，反而可以在網(wǎng)絡(luò)變差的時候「少卡很多」。

2. ZeCoStream：把有限碼率花在模型真正關(guān)心的位置

如果網(wǎng)絡(luò)帶寬確實(shí)不足，單純降碼率會讓整幅畫面一起變糊。對人類觀眾來說，這也許只是畫質(zhì)下降；但對大模型來說，某個局部文字、商品標(biāo)簽、車牌或儀表盤一旦糊掉，就可能直接導(dǎo)致答案錯誤。

ZeCoStream 的做法是讓云端大模型反饋當(dāng)前對回答最重要的區(qū)域，客戶端再根據(jù)這些區(qū)域動態(tài)調(diào)整編碼器的量化參數(shù)（QP），把更多比特分配給關(guān)鍵區(qū)域，把更少比特分配給無關(guān)背景。相比在客戶端額外部署輕量模型來做區(qū)域識別，這種方式幾乎不增加端側(cè)計(jì)算開銷，因?yàn)椤改睦镏匾贡緛砭褪谴竽Ｐ驮诶斫庖曨l時已經(jīng)具備的能力。

為了抵消反饋延遲，ZeCoStream 還讓大模型同時預(yù)測當(dāng)前和未來可能重要的區(qū)域，使客戶端不只是被動追隨，而是提前保護(hù)接下來可能影響回答的視覺信息。

3. DeViBench：為 AI 視頻助手建立「退化視頻理解」基準(zhǔn)

現(xiàn)有視頻傳輸評測多關(guān)注人類感知質(zhì)量，現(xiàn)有視頻理解基準(zhǔn)又往往默認(rèn)輸入視頻質(zhì)量較高。兩者都無法回答一個新的系統(tǒng)問題：實(shí)時視頻通信引入的視頻質(zhì)量下降，究竟會怎樣影響大模型的回答準(zhǔn)確率？

為此，Artic 提出 DeViBench。它并不只問粗粒度問題，而是專門構(gòu)造對視頻質(zhì)量敏感的問答樣本：同一問題在高碼率視頻上能答對，在低碼率退化視頻上會答錯，才真正能暴露通信質(zhì)量對模型理解的影響。DeViBench 的自動構(gòu)建流水線包含視頻收集、退化編碼、問答生成、敏感樣本篩選與交叉驗(yàn)證等步驟（見圖 8）。最終包含 1,968 個問答樣本，總視頻時長 88,680 秒，覆蓋 6 * 2 類場景，并提供測試集和驗(yàn)證集。這使它不僅可以評估系統(tǒng)體驗(yàn)質(zhì)量，也可以用于 Artic 的超參數(shù)調(diào)優(yōu)和大模型的 in-context learning。

圖 8：DeViBench 自動問答樣本構(gòu)建流水線，通過高碼率視頻與低碼率退化視頻的回答差異篩選退化敏感問答樣本。

實(shí)驗(yàn)評估：更低延遲、更高準(zhǔn)確率、更可控開銷

研究團(tuán)隊(duì)使用 C++ 和 Python 實(shí)現(xiàn)了 Artic 原型，并與傳統(tǒng) WebRTC 以及不同組件組合進(jìn)行對比。實(shí)驗(yàn)分為三個層面：組件級實(shí)驗(yàn)分別驗(yàn)證 ReCapABR 的延遲收益和 ZeCoStream 的準(zhǔn)確率收益；基于真實(shí)網(wǎng)絡(luò)軌跡的仿真實(shí)驗(yàn)評估了端到端體驗(yàn)質(zhì)量；系統(tǒng)開銷分析則考察客戶端計(jì)算、服務(wù)端成本。

在延遲方面，ReCapABR 在帶寬波動越劇烈時收益越大。當(dāng)每分鐘 1 次帶寬波動時，平均延遲降低 23.7 ms；當(dāng)每分鐘 4 次波動時，平均延遲降低擴(kuò)大到 148.4 ms。

圖 5：ReCapABR 在帶寬波動越頻繁時，延遲收益越明顯。

在準(zhǔn)確率方面，ZeCoStream 在低碼率下優(yōu)勢明顯。以 290 Kbps 為例，普通編碼準(zhǔn)確率僅為 0.39，而 ZeCoStream 可維持在 0.60。若要達(dá)到 0.9 的準(zhǔn)確率，普通編碼需要超過 3171.37 Kbps，ZeCoStream 只需要 907.60 Kbps。

圖 6：ZeCoStream 在低碼率下顯著提升回答準(zhǔn)確率，并降低達(dá)到高準(zhǔn)確率所需的帶寬。

圖 7：ZeCoStream 將有限碼率優(yōu)先分配給與當(dāng)前問題相關(guān)的關(guān)鍵區(qū)域。

端到端結(jié)果顯示，在真實(shí)移動上行網(wǎng)絡(luò)軌跡驅(qū)動的評測中，Artic 不僅可以同時降低延遲與提升準(zhǔn)確率，還在不同底層擁塞控制算法下都有效。如圖 9 所示，以 BBR 為擁塞控制算法時，Artic 將平均準(zhǔn)確率從 79.62% 提升到 84.80%，并降低 135.31 ms 平均延遲；而在 GCC 中，Artic 相比 WebRTC 也實(shí)現(xiàn) 15.12% 的準(zhǔn)確率提升，并同時降低約 90.64 ms 延遲。

圖 9：真實(shí)移動上行網(wǎng)絡(luò)軌跡下，Artic 同時提升準(zhǔn)確率并降低延遲。

客戶端開銷方面，Artic 的設(shè)計(jì)相對輕量。ReCapABR 在端側(cè)只需要根據(jù)模型反饋的置信分?jǐn)?shù)調(diào)整目標(biāo)碼率，ZeCoStream 也只是把服務(wù)端反饋的關(guān)鍵區(qū)域映射為編碼器參數(shù)；這些都是簡單數(shù)值計(jì)算，因此不會明顯增加端側(cè)算力或功耗負(fù)擔(dān)。

服務(wù)端開銷主要來自額外的大模型反饋調(diào)用。論文基于真實(shí)實(shí)驗(yàn)支出估算，在標(biāo)準(zhǔn) AI 視頻助手中，主要成本來自大模型調(diào)用和實(shí)時視頻通信服務(wù)；Artic 額外引入 ReCapABR 的置信反饋和 ZeCoStream 的區(qū)域反饋，使總成本從 0.3126 美元/分鐘增加到 0.3974 美元/分鐘，增幅為 27.13%（如圖 10 所示）。考慮到其能夠換回更穩(wěn)定、更準(zhǔn)確的交互體驗(yàn)，這是值得投入的。

圖 10：Artic 的服務(wù)端成本主要來自額外的大模型反饋調(diào)用，總成本從 0.3126 美元/分鐘增加到 0.3974 美元/分鐘。

結(jié)論：從網(wǎng)絡(luò)系統(tǒng)角度走向「真人交互」

讓 AI 像真人一樣交互，過去更多被理解為模型側(cè)問題：更強(qiáng)的多模態(tài)理解、更自然的語音對話、更長的上下文能力。Artic 強(qiáng)調(diào)了另一條路徑：即使模型本身足夠強(qiáng)，如果視頻流在真實(shí)移動網(wǎng)絡(luò)中出現(xiàn)延遲尖峰、關(guān)鍵區(qū)域被壓糊，AI 仍然無法表現(xiàn)得像「在場的人」。因此，Artic 的意義在于把這一愿景轉(zhuǎn)化為網(wǎng)絡(luò)系統(tǒng)問題：讓實(shí)時視頻通信根據(jù)模型的感知狀態(tài)和真實(shí)需求調(diào)整傳輸策略，使云端大模型在惡劣網(wǎng)絡(luò)中也能及時、準(zhǔn)確地「看見」并回應(yīng)用戶。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.