網易首頁 > 網易號 > 正文 申請入駐

姚順雨騰訊首研成果:構建CL-bench、提出大模型新方向

0
分享至




“即使是如今最強的語言模型,在上下文的利用方面仍然做得不好,甚至可以說是還不會利用上下文,從上下文中學習。”

公司情報專家《財經涂鴉》獲悉,2月3日,騰訊混元官網技術博客(Tencent HY Research)發表名為《從上下文中學習,遠比我們想象的要難》的文章,系統介紹了騰訊混元團隊聯合復旦大學的一項新研究。

這是姚順雨加入騰訊擔任首席AI科學家后團隊首次發布研究成果,也是騰訊混元技術博客首次公開。這一博客的推出,旨在分享騰訊混元研究員在前沿技術研究和實踐中的探索與經驗,呈現創新思路與技術洞察。

過去幾年,大語言模型快速進化,如今的前沿模型,已經是頂級的“做題家”:它們能解開奧數級別的難題,能推演復雜的編程邏輯,甚至能通過那些人類需要苦讀數年才能拿下的專業資格考試。然而,在面臨真實世界的任務時,模型表現還有待提升。

回看我們人類的日常工作:開發者掃過從未見過的工具文檔,就能立刻開始調試代碼;玩家拿起新游戲的規則書,在實戰中邊玩邊學;科學家從復雜的實驗日志中篩選數據,推導出新的結論和定律。這些場景中,人類并不只依賴多年前學到的“死知識”,而是在實時地從眼前的上下文(Context)中學習。

在這篇論文里,騰訊混元和復旦大學聯合研究團隊提到,要讓大模型學會“從上下文中學習”,遠比我們想象的要難。并且,即便抹平了上下文帶來的信息差,模型也未必能解決問題,這說明模型在上下文利用上,依然存在顯著的能力短板。

為了衡量現有模型距離真正的“上下文學習者”還有多遠,研究團隊構建了CL-bench,這是一個專門評測語言模型能否從上下文中學習新知識并正確應用的基準。CL-bench包含由資深領域專家精心制作的500個復雜上下文、1,899個任務和31,607個驗證標準。

CL-bench只包含一個簡單但苛刻的要求:解決每個任務要求模型必須從上下文中學習到模型預訓練中不存在的新知識,并正確應用。

通過實驗,論文發現,世界上排名前十的語言模型在CL-bench上的任務解決率平均只有17.2% ,也就是說即使是如今最強的語言模型,在上下文的利用方面仍然做得不好,甚至可以說是還不會利用上下文,從上下文中學習。

這也為大語言模型后續的迭代指出了一個可能的方向,強化模型從上下文中進行學習的能力。

官方技術博客還提到,如果模型的上下文學習能力能像之前其他能力那樣被提升上去,人類在AI系統中的角色將發生轉變:我們不再是主要的數據提供者(training data provider),而變成了上下文提供者(context provider)。未來,競爭的焦點將從“誰能把模型訓練得更好”,轉向“誰能為任務提供最豐富、最相關的上下文”。

研究團隊也強調,模型如何記憶很可能成為2026年大模型發展的另一個核心主題,并且,一旦上下文學習與記憶變得可靠,模型或許就能實現自主學習,它們將自主準備上下文,從中學習并自我鞏固。

在加入騰訊之前,姚順雨曾經發布過一篇名為《The Second Half》的博客,重點提到大模型下半場的重頭戲是“評估”,此后在多次公開講話中,他也提到了打造實用模型的目標,這可以視為他在騰訊混元團隊的重點研發思路之一。本次CL-bench的推出,將成為模型上文學習能力評估的主要基準,為大模型學習更多解決現實世界難題提供幫助。

作者:蘇打

編輯:tuya

出品:財經涂鴉(ID:caijingtuya)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
難以相信!她已經61歲了,看起來竟然像三四十歲的樣子!

難以相信!她已經61歲了,看起來竟然像三四十歲的樣子!

科學發掘
2026-04-23 08:35:50
震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

火山詩話
2026-04-23 16:46:58
123國同時發出逮捕令,中國為何選擇此刻在安理會“算總賬”?

123國同時發出逮捕令,中國為何選擇此刻在安理會“算總賬”?

王姐懶人家常菜
2026-04-24 18:46:27
從谷雨到立夏,這3種“護肝菜”再貴也要吃!養個好身體,好過夏

從谷雨到立夏,這3種“護肝菜”再貴也要吃!養個好身體,好過夏

阿龍美食記
2026-04-23 08:11:53
2009年杭州70碼事件:富二代撞死浙大畢業生,最后賠了多少錢?

2009年杭州70碼事件:富二代撞死浙大畢業生,最后賠了多少錢?

每日一段歷史
2026-04-24 11:38:25
新四軍調一個營伏擊日軍五個人,戰士不解,旅長:一個營可能剛夠

新四軍調一個營伏擊日軍五個人,戰士不解,旅長:一個營可能剛夠

漫步史書
2026-04-24 17:37:49
取消戶籍限制!教育部突發新規!9月1日起執行:家長再也不用焦慮

取消戶籍限制!教育部突發新規!9月1日起執行:家長再也不用焦慮

芳姐侃社會
2026-04-24 22:52:50
張雪機車召回事件升級!63歲技術專家:O型圈不是裝反 是位置裝錯

張雪機車召回事件升級!63歲技術專家:O型圈不是裝反 是位置裝錯

火山詩話
2026-04-24 06:56:24
連贏2局!趙心童首次領先:單桿清臺4-3逆轉丁俊暉,第一階段不敗

連贏2局!趙心童首次領先:單桿清臺4-3逆轉丁俊暉,第一階段不敗

劉姚堯的文字城堡
2026-04-25 00:09:08
毫無斗志!慘遭3殺,殘陣上海全場壓制,邱彪:如此表現贏遼寧?

毫無斗志!慘遭3殺,殘陣上海全場壓制,邱彪:如此表現贏遼寧?

話體壇
2026-04-24 22:12:07
國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

老滿說高考
2026-04-24 20:13:49
索尼再出PS5獨占神作!外媒盛贊:劍指年度最佳!

索尼再出PS5獨占神作!外媒盛贊:劍指年度最佳!

游民星空
2026-04-24 22:04:28
注意!5月1日起全面嚴查,這8種行為直接入刑,普通人千萬別大意

注意!5月1日起全面嚴查,這8種行為直接入刑,普通人千萬別大意

芳姐侃社會
2026-04-23 17:24:10
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災

東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災

干史人
2026-04-18 13:44:12
10月27日俄烏最新:10000烏軍被包圍?

10月27日俄烏最新:10000烏軍被包圍?

西樓飲月
2025-10-27 19:02:48
廣東19歲少女被囚禁!一下飛機被帶走,重金難贖回,真相細思極恐

廣東19歲少女被囚禁!一下飛機被帶走,重金難贖回,真相細思極恐

青橘罐頭
2026-04-24 07:43:19
震驚!大學教師分享女兒留學與歐洲旅行見聞被舉報!網友:活該吧

震驚!大學教師分享女兒留學與歐洲旅行見聞被舉報!網友:活該吧

火山詩話
2026-04-24 09:20:07
山東醫藥大學通報“展某某學位證無法認證”:成立工作組調查核實

山東醫藥大學通報“展某某學位證無法認證”:成立工作組調查核實

界面新聞
2026-04-24 06:53:49
CBA常規賽最佳陣容:上海2人,北京2人,深圳2人,廣東1人

CBA常規賽最佳陣容:上海2人,北京2人,深圳2人,廣東1人

男足的小球童
2026-04-24 18:19:28
2026-04-25 01:32:49
財經涂鴉 incentive-icons
財經涂鴉
公司情報專家
4835文章數 8852關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

親子
健康
本地
房產
公開課

親子要聞

好書共讀 好文共享-《母雞》

干細胞如何讓燒燙傷皮膚"再生"?

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版