无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人眼看視頻到AI理解視頻:北大提出面向AI的實(shí)時通信框架Artic

0
分享至



論文作者均來自北京大學(xué)王選計(jì)算機(jī)研究所,第一作者為吳將凱博士,第二作者為本科生任致遠(yuǎn),第三、第四作者為博士生鐘俊權(quán)、劉黎明,通訊作者為張行功副教授。

從 ChatGPT、Gemini Live、豆包到智能眼鏡,AI 正在從「文字聊天」走向「邊看邊聊」。但當(dāng)視頻通話的另一端不再是人,而是部署在云端的多模態(tài)大模型時,傳統(tǒng)實(shí)時視頻通信系統(tǒng)遇到了一個根本錯位:它仍在努力讓「人眼看得更舒服」,而新的目標(biāo)其實(shí)是讓「AI 答得更準(zhǔn)確、響應(yīng)更及時」。

北京大學(xué)團(tuán)隊(duì)提出 Artic,一套面向 AI 的實(shí)時視頻通信框架,系統(tǒng)性重構(gòu)了 AI 視頻助手場景下的碼率自適應(yīng)、視頻編碼、反饋控制和評測基準(zhǔn)。實(shí)驗(yàn)結(jié)果顯示,在真實(shí)移動上行網(wǎng)絡(luò)軌跡下,Artic 相比現(xiàn)有框架顯著提升 15.12% 準(zhǔn)確率,并降低 135.31 ms 延遲。

一句話概括:Artic 不是讓視頻一味更清晰,而是讓網(wǎng)絡(luò)傳輸學(xué)會服務(wù)大模型的「理解狀態(tài)」。



圖 1:AI 視頻助手是一種新的實(shí)時通信范式,用戶將視頻和音頻傳給云端大模型,AI 返回語音或文本響應(yīng)。



  • 論文題目:Artic: AI-oriented Real-time Communication for MLLM Video Assistant
  • 作者:Jiangkai Wu, Zhiyuan Ren, Junquan Zhong, Liming Liu, Xinggong Zhang
  • 單位:Peking University
  • 會議:ACM SIGCOMM 2026(已接收)
  • https://arxiv.org/abs/2602.12641
  • 代碼:
  • https://github.com/pku-netvideo/Artic
  • 基準(zhǔn):
  • https://github.com/pku-netvideo/DeViBench

引言:視頻通信,

正在從「給人看」轉(zhuǎn)向「給 AI 理解」

過去二十多年,實(shí)時視頻通信的優(yōu)化目標(biāo)非常清楚:讓人看得清、看得流暢、不要卡頓。因此,無論是擁塞控制、碼率自適應(yīng),還是視頻編碼,大多圍繞畫面質(zhì)量(PSNR、SSIM、VMAF)、幀率、分辨率和卡頓率等「人眼體驗(yàn)」指標(biāo)展開。

但 AI 視頻助手改變了這個前提。用戶拿著手機(jī)或智能眼鏡走在路上,攝像頭持續(xù)把第一視角畫面上傳到云端大模型;模型并不需要「欣賞」整個視頻,它只需要抓住足夠回答當(dāng)前問題的關(guān)鍵信息。例如用戶在商場里問「這個商品是什么」、在展館里問「這塊導(dǎo)覽牌寫了什么」,模型真正需要看清的是商品標(biāo)簽、導(dǎo)覽牌文字等局部細(xì)節(jié),而不是包含背景區(qū)域的整張畫面。

這帶來兩個直接變化。第一,體驗(yàn)質(zhì)量的核心指標(biāo)變了:傳統(tǒng)實(shí)時視頻通信關(guān)心的是人眼感知畫質(zhì)、流暢度和穩(wěn)定性;AI 視頻助手更關(guān)心模型回答是否正確、是否能及時觸發(fā)響應(yīng)。因此,視頻允許在非關(guān)鍵區(qū)域變糊或不流暢,但關(guān)鍵區(qū)域一旦看不清或卡頓,就會直接變成回答錯誤或響應(yīng)滯后。

第二,網(wǎng)絡(luò)條件也變了。AI 視頻助手常運(yùn)行在手機(jī)、智能眼鏡等移動終端上,服務(wù)導(dǎo)覽、購物識物等隨身場景。用戶邊走邊用時,終端位置、朝向和人體遮擋關(guān)系持續(xù)變化,還可能在不同 Wi-Fi 接入點(diǎn)、不同基站覆蓋區(qū)域,或 Wi-Fi 與移動網(wǎng)絡(luò)之間切換;這些物理鏈路和接入路徑變化會直接改變上行信道質(zhì)量。因此,相比視頻會議、遠(yuǎn)程桌面等更偏靜態(tài)使用的傳統(tǒng)實(shí)時視頻通信場景,AI 視頻助手面對的上行帶寬波動更大、發(fā)生得更頻繁。

論文中的生產(chǎn)原型測量給出了一個直觀例子:當(dāng)用戶從穩(wěn)定環(huán)境進(jìn)入電梯時,可用帶寬在約 1.5 秒內(nèi)從 5 Mbps 跌到 1.23 Mbps。傳統(tǒng)實(shí)時視頻通信的擁塞控制來不及收縮碼率,造成最高 1389 ms 的延遲尖峰;隨后碼率被大幅壓低,又會讓關(guān)鍵視覺信息變糊,直接導(dǎo)致大模型回答錯誤。



圖 2:真實(shí)移動場景中,帶寬突降會導(dǎo)致傳統(tǒng)實(shí)時視頻通信出現(xiàn)嚴(yán)重延遲尖峰。



圖 3:當(dāng)關(guān)鍵區(qū)域被低碼率壓糊,大模型可能從正確回答變成錯誤回答。

研究內(nèi)容:Artic 如何讓通信系統(tǒng)「懂 AI」

Artic 的核心思想,是把大模型的感知狀態(tài)納入實(shí)時通信閉環(huán)(整體架構(gòu)如圖 4 所示)。傳統(tǒng)實(shí)時視頻通信看到網(wǎng)絡(luò)有余量,就傾向于把碼率繼續(xù)拉高;Artic 則會追問另一個問題:當(dāng)前視頻質(zhì)量對模型回答來說是否已經(jīng)足夠?如果答案是足夠,就不必繼續(xù)填滿帶寬,而應(yīng)該把余量留給下一次網(wǎng)絡(luò)波動。

圍繞這一思想,Artic 包含三個模塊:響應(yīng)能力感知碼率自適應(yīng)(ReCapABR)負(fù)責(zé)「何時不再加碼率」,零開銷上下文感知流傳輸(ZeCoStream)負(fù)責(zé)「有限碼率應(yīng)該給哪里」,退化視頻理解基準(zhǔn)(DeViBench)則負(fù)責(zé)「如何評測視頻退化對模型理解的影響」。



圖 4:Artic 總體架構(gòu),包括 ReCapABR、ZeCoStream 和 DeViBench 三個核心部分。

1. ReCapABR:當(dāng)模型已經(jīng)看懂,就不要繼續(xù)搶帶寬

在傳統(tǒng)實(shí)時視頻通信中,帶寬越高通常畫質(zhì)越好,因此擁塞控制會盡可能把可用帶寬用滿。但在 AI 視頻助手里,這個邏輯并不總成立。大模型的回答準(zhǔn)確率存在「飽和」現(xiàn)象:當(dāng)畫面質(zhì)量達(dá)到足以支撐當(dāng)前回答的水平后,繼續(xù)提高碼率,準(zhǔn)確率提升可能很小。

ReCapABR 利用大模型反饋的響應(yīng)置信分?jǐn)?shù)判斷當(dāng)前回答能力是否已經(jīng)飽和。如果模型已經(jīng)有足夠信心,Artic 就主動限制碼率,即使底層擁塞控制認(rèn)為還可以繼續(xù)加碼,也會保留一部分帶寬余量,用來吸收之后可能發(fā)生的網(wǎng)絡(luò)波動。

這是一種很有意思的反直覺設(shè)計(jì):在網(wǎng)絡(luò)還不錯的時候主動「少發(fā)一點(diǎn)」,反而可以在網(wǎng)絡(luò)變差的時候「少卡很多」。

2. ZeCoStream:把有限碼率花在模型真正關(guān)心的位置

如果網(wǎng)絡(luò)帶寬確實(shí)不足,單純降碼率會讓整幅畫面一起變糊。對人類觀眾來說,這也許只是畫質(zhì)下降;但對大模型來說,某個局部文字、商品標(biāo)簽、車牌或儀表盤一旦糊掉,就可能直接導(dǎo)致答案錯誤。

ZeCoStream 的做法是讓云端大模型反饋當(dāng)前對回答最重要的區(qū)域,客戶端再根據(jù)這些區(qū)域動態(tài)調(diào)整編碼器的量化參數(shù)(QP),把更多比特分配給關(guān)鍵區(qū)域,把更少比特分配給無關(guān)背景。相比在客戶端額外部署輕量模型來做區(qū)域識別,這種方式幾乎不增加端側(cè)計(jì)算開銷,因?yàn)椤改睦镏匾贡緛砭褪谴竽P驮诶斫庖曨l時已經(jīng)具備的能力。

為了抵消反饋延遲,ZeCoStream 還讓大模型同時預(yù)測當(dāng)前和未來可能重要的區(qū)域,使客戶端不只是被動追隨,而是提前保護(hù)接下來可能影響回答的視覺信息。

3. DeViBench:為 AI 視頻助手建立「退化視頻理解」基準(zhǔn)

現(xiàn)有視頻傳輸評測多關(guān)注人類感知質(zhì)量,現(xiàn)有視頻理解基準(zhǔn)又往往默認(rèn)輸入視頻質(zhì)量較高。兩者都無法回答一個新的系統(tǒng)問題:實(shí)時視頻通信引入的視頻質(zhì)量下降,究竟會怎樣影響大模型的回答準(zhǔn)確率?

為此,Artic 提出 DeViBench。它并不只問粗粒度問題,而是專門構(gòu)造對視頻質(zhì)量敏感的問答樣本:同一問題在高碼率視頻上能答對,在低碼率退化視頻上會答錯,才真正能暴露通信質(zhì)量對模型理解的影響。DeViBench 的自動構(gòu)建流水線包含視頻收集、退化編碼、問答生成、敏感樣本篩選與交叉驗(yàn)證等步驟(見圖 8)。最終包含 1,968 個問答樣本,總視頻時長 88,680 秒,覆蓋 6 * 2 類場景,并提供測試集和驗(yàn)證集。這使它不僅可以評估系統(tǒng)體驗(yàn)質(zhì)量,也可以用于 Artic 的超參數(shù)調(diào)優(yōu)和大模型的 in-context learning。



圖 8:DeViBench 自動問答樣本構(gòu)建流水線,通過高碼率視頻與低碼率退化視頻的回答差異篩選退化敏感問答樣本。

實(shí)驗(yàn)評估:更低延遲、更高準(zhǔn)確率、更可控開銷

研究團(tuán)隊(duì)使用 C++ 和 Python 實(shí)現(xiàn)了 Artic 原型,并與傳統(tǒng) WebRTC 以及不同組件組合進(jìn)行對比。實(shí)驗(yàn)分為三個層面:組件級實(shí)驗(yàn)分別驗(yàn)證 ReCapABR 的延遲收益和 ZeCoStream 的準(zhǔn)確率收益;基于真實(shí)網(wǎng)絡(luò)軌跡的仿真實(shí)驗(yàn)評估了端到端體驗(yàn)質(zhì)量;系統(tǒng)開銷分析則考察客戶端計(jì)算、服務(wù)端成本。

  • 在延遲方面,ReCapABR 在帶寬波動越劇烈時收益越大。當(dāng)每分鐘 1 次帶寬波動時,平均延遲降低 23.7 ms;當(dāng)每分鐘 4 次波動時,平均延遲降低擴(kuò)大到 148.4 ms。



圖 5:ReCapABR 在帶寬波動越頻繁時,延遲收益越明顯。

  • 在準(zhǔn)確率方面,ZeCoStream 在低碼率下優(yōu)勢明顯。以 290 Kbps 為例,普通編碼準(zhǔn)確率僅為 0.39,而 ZeCoStream 可維持在 0.60。若要達(dá)到 0.9 的準(zhǔn)確率,普通編碼需要超過 3171.37 Kbps,ZeCoStream 只需要 907.60 Kbps。



圖 6:ZeCoStream 在低碼率下顯著提升回答準(zhǔn)確率,并降低達(dá)到高準(zhǔn)確率所需的帶寬。



圖 7:ZeCoStream 將有限碼率優(yōu)先分配給與當(dāng)前問題相關(guān)的關(guān)鍵區(qū)域。

  • 端到端結(jié)果顯示,在真實(shí)移動上行網(wǎng)絡(luò)軌跡驅(qū)動的評測中,Artic 不僅可以同時降低延遲與提升準(zhǔn)確率,還在不同底層擁塞控制算法下都有效。如圖 9 所示,以 BBR 為擁塞控制算法時,Artic 將平均準(zhǔn)確率從 79.62% 提升到 84.80%,并降低 135.31 ms 平均延遲;而在 GCC 中,Artic 相比 WebRTC 也實(shí)現(xiàn) 15.12% 的準(zhǔn)確率提升,并同時降低約 90.64 ms 延遲。



圖 9:真實(shí)移動上行網(wǎng)絡(luò)軌跡下,Artic 同時提升準(zhǔn)確率并降低延遲。

  • 客戶端開銷方面,Artic 的設(shè)計(jì)相對輕量。ReCapABR 在端側(cè)只需要根據(jù)模型反饋的置信分?jǐn)?shù)調(diào)整目標(biāo)碼率,ZeCoStream 也只是把服務(wù)端反饋的關(guān)鍵區(qū)域映射為編碼器參數(shù);這些都是簡單數(shù)值計(jì)算,因此不會明顯增加端側(cè)算力或功耗負(fù)擔(dān)。

  • 服務(wù)端開銷主要來自額外的大模型反饋調(diào)用。論文基于真實(shí)實(shí)驗(yàn)支出估算,在標(biāo)準(zhǔn) AI 視頻助手中,主要成本來自大模型調(diào)用和實(shí)時視頻通信服務(wù);Artic 額外引入 ReCapABR 的置信反饋和 ZeCoStream 的區(qū)域反饋,使總成本從 0.3126 美元/分鐘增加到 0.3974 美元/分鐘,增幅為 27.13%(如圖 10 所示)。考慮到其能夠換回更穩(wěn)定、更準(zhǔn)確的交互體驗(yàn),這是值得投入的。



圖 10:Artic 的服務(wù)端成本主要來自額外的大模型反饋調(diào)用,總成本從 0.3126 美元/分鐘增加到 0.3974 美元/分鐘。

結(jié)論:從網(wǎng)絡(luò)系統(tǒng)角度走向「真人交互」

讓 AI 像真人一樣交互,過去更多被理解為模型側(cè)問題:更強(qiáng)的多模態(tài)理解、更自然的語音對話、更長的上下文能力。Artic 強(qiáng)調(diào)了另一條路徑:即使模型本身足夠強(qiáng),如果視頻流在真實(shí)移動網(wǎng)絡(luò)中出現(xiàn)延遲尖峰、關(guān)鍵區(qū)域被壓糊,AI 仍然無法表現(xiàn)得像「在場的人」。因此,Artic 的意義在于把這一愿景轉(zhuǎn)化為網(wǎng)絡(luò)系統(tǒng)問題:讓實(shí)時視頻通信根據(jù)模型的感知狀態(tài)和真實(shí)需求調(diào)整傳輸策略,使云端大模型在惡劣網(wǎng)絡(luò)中也能及時、準(zhǔn)確地「看見」并回應(yīng)用戶。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
荊軻是戰(zhàn)國著名劍術(shù)家,與秦王一對一交手卻挨了八劍,到底啥原因

荊軻是戰(zhàn)國著名劍術(shù)家,與秦王一對一交手卻挨了八劍,到底啥原因

小豫講故事
2026-06-24 06:00:15
伊朗史上最大“清倉大甩賣”!6800萬桶原油求著賣,買家集體沉默

伊朗史上最大“清倉大甩賣”!6800萬桶原油求著賣,買家集體沉默

小蘭聊歷史
2026-06-26 06:46:15
中國外交官已撤離!比美國還囂張的國家,現(xiàn)如今態(tài)度已360度急轉(zhuǎn)

中國外交官已撤離!比美國還囂張的國家,現(xiàn)如今態(tài)度已360度急轉(zhuǎn)

黑鷹觀軍事
2026-06-26 14:52:29
醫(yī)生告誡:一旦確診頸動脈斑塊,6種食物必須戒掉,避免斑塊增大

醫(yī)生告誡:一旦確診頸動脈斑塊,6種食物必須戒掉,避免斑塊增大

荊醫(yī)生科普
2026-06-25 21:40:07
“霸總專業(yè)戶”退出短劇后擺攤賣菜,“我依然想演戲”

“霸總專業(yè)戶”退出短劇后擺攤賣菜,“我依然想演戲”

極目新聞
2026-06-25 19:29:22
這也太有畫面感了

這也太有畫面感了

浪花媽媽
2026-06-26 08:20:39
電影《抓特務(wù)》資本曝光!馮小剛布局30年,被當(dāng)炮灰的不止是韓紅

電影《抓特務(wù)》資本曝光!馮小剛布局30年,被當(dāng)炮灰的不止是韓紅

李健政觀察
2026-06-26 16:22:38
59歲梁實(shí)第30次高考總分為423分,差本科線32分,得知成績他懊惱得直拍凳子,考前預(yù)估能上550分

59歲梁實(shí)第30次高考總分為423分,差本科線32分,得知成績他懊惱得直拍凳子,考前預(yù)估能上550分

大象新聞
2026-06-26 10:56:20
審計(jì)署抽查60縣,平均每個縣翻出10個億問題資金

審計(jì)署抽查60縣,平均每個縣翻出10個億問題資金

南方都市報(bào)
2026-06-25 12:17:33
劉青山被槍斃40年后,他親弟弟公開發(fā)言,對毛主席的決定作出評價(jià)

劉青山被槍斃40年后,他親弟弟公開發(fā)言,對毛主席的決定作出評價(jià)

冰語歷史
2026-06-09 15:48:50
大量上市!含鉀是冬瓜23倍,建議夏天要多吃,手腳有勁精神好!

大量上市!含鉀是冬瓜23倍,建議夏天要多吃,手腳有勁精神好!

王二哥老搞笑
2026-06-26 03:58:15
哲凱賴什:裁判的執(zhí)法令人沮喪,雖然沒贏但是晉級感覺不錯

哲凱賴什:裁判的執(zhí)法令人沮喪,雖然沒贏但是晉級感覺不錯

懂球帝
2026-06-26 12:02:21
世界杯跳開場舞的Lisa,被美國DJ灌酒玩太花,LV三公子已和她分手

世界杯跳開場舞的Lisa,被美國DJ灌酒玩太花,LV三公子已和她分手

林雁飛
2026-06-25 14:31:22
1-1!亞洲首支出線隊(duì)誕生,日本挑戰(zhàn)五星巴西,韓國晉級形勢如下

1-1!亞洲首支出線隊(duì)誕生,日本挑戰(zhàn)五星巴西,韓國晉級形勢如下

球場沒跑道
2026-06-26 09:24:19
我國發(fā)現(xiàn)一座“新大陸”,面積抵得上三個日本!美國:誰發(fā)現(xiàn)歸誰

我國發(fā)現(xiàn)一座“新大陸”,面積抵得上三個日本!美國:誰發(fā)現(xiàn)歸誰

青煙小先生
2026-06-20 11:30:05
最后的瘋狂:許家印被抓捕的失控三秒鐘

最后的瘋狂:許家印被抓捕的失控三秒鐘

財(cái)經(jīng)保探長
2026-04-09 22:30:38
“我寫了5年的博士論文,你看不懂正常”,博士答辯氣場全開火了

“我寫了5年的博士論文,你看不懂正常”,博士答辯氣場全開火了

妍妍教育日記
2026-06-18 17:20:45
俄軍的噩夢不止莫斯科:烏克蘭克里米亞陽謀,不是奪地,而是放血

俄軍的噩夢不止莫斯科:烏克蘭克里米亞陽謀,不是奪地,而是放血

寰球經(jīng)緯所
2026-06-25 20:47:36
公公搬來養(yǎng)老,每晚準(zhǔn)時敲我房門,第5天我?guī)е⒆踊亓四锛?>
    </a>
        <h3>
      <a href=千秋文化
2026-06-17 20:06:10
中超第16輪裁判安排:女裁判董方雨、鮑夢曉執(zhí)法新鵬城vs成都

中超第16輪裁判安排:女裁判董方雨、鮑夢曉執(zhí)法新鵬城vs成都

懂球帝
2026-06-26 10:58:33
2026-06-26 17:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13368文章數(shù) 142682關(guān)注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發(fā)布GPT-5.6

頭條要聞

朝鮮領(lǐng)導(dǎo)層重大調(diào)整:"反腐少將"被查 趙甬元被"召回"

頭條要聞

朝鮮領(lǐng)導(dǎo)層重大調(diào)整:"反腐少將"被查 趙甬元被"召回"

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財(cái)經(jīng)要聞

懸在科技頭上的達(dá)摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

教育
家居
旅游
藝術(shù)
軍事航空

教育要聞

官方發(fā)布!四川省2026年普通高校招生錄取控制分?jǐn)?shù)線來了!

家居要聞

綠意盎然 自然之境

旅游要聞

老一輩都聽過的滇王故事,一座古廟串聯(lián)起整個消失的古滇王國!

藝術(shù)要聞

470米!重慶“第一高樓”夢斷?上架拍賣!

軍事要聞

伊朗:駛離指定航線船舶不享有安全保障

無障礙瀏覽 進(jìn)入關(guān)懷版