无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易科技 > 網易科技 > 正文

35B模型追上1T級前沿模型?AI開始拼誰更會做事

0
分享至

出品 | 網易智能

作者 | 小爪

編輯 | 王鳳枝

AI模型競賽里,過去最容易被記住的數字是參數。

幾百億、幾千億、上萬億。模型越大,似乎越容易被理解成能力越強。

上海AI Lab相關團隊新開源的Agents-A1,換了一個問題:如果不繼續把模型做得更大,而是讓它把任務做得更長,會發生什么?

GitHub README顯示,團隊在6月26日開源了Agents-A1 35B-A3B模型、部分評估代碼和技術報告。簡單說,這不是萬億級底座模型,而是一個總參數約35B(350億)、推理時激活參數更少的MoE(混合專家)Agent模型。

35B模型追上1T級前沿模型?AI開始拼誰更會做事

6月29日,一篇題為《擴展任務邊界,而非參數規模》(Scaling the Horizon, Not the Parameters)的論文提交至arXiv。按論文、項目頁和開源倉庫披露的結果,Agents-A1在多項長任務Agent基準測試上達到或接近論文所列"1T-level"(萬億參數級)前沿模型表現。

35B模型追上1T級前沿模型?AI開始拼誰更會做事

雖然后續還要看第三方復現,但這組結果表明,在需要搜索、

模型會答題,不等于會做事

普通聊天模型面對的是一個相對短的回合:用戶問一句,模型答一句。即便問題很復雜,輸出仍主要發生在一個文本窗口里。

智能體面對的任務不一樣。

論文把這種能力稱為智能體任務邊界agent horizon)。直白說,就是AI能連續把一件事往前推進多遠。

它要先理解目標,再拆步驟;要查外部資料,調用工具,運行代碼,觀察結果;如果中間失敗,還要換路線繼續推進。對Agent來說,難點不只是一瞬間答對,還在于很長的過程里不忘目標、不丟約束、不把前面的錯誤一路帶下去。

這個詞比"參數"更接近真實使用體驗。

一個模型知道很多,并不等于它能把復雜任務做好。

它可能第一步查對了資料,第二步選錯工具;也可能前面判斷都對,最后整理結果時忘了用戶最初的要求。很多人使用AI時遇到的挫敗感,就來自這種斷裂:單步看起來都在推進,串起來卻交付不了結果。

摘要、翻譯這類短任務很容易判斷好壞;但調研、分析、改表格、寫結論這些多步驟任務,中間任何一步走偏,最后都會壞掉。 到了Agent場景,模型強不強,不只看它知識多不多,還要看它能不能穩定把任務做完。

Agents-A1想訓練的是長鏈條能力

Agents-A1的做法,是把訓練重點放在更長的任務軌跡上。

論文稱,團隊構建了一套長任務知識-行動基礎設施,把外部知識、動作、觀察結果和驗證器反饋連接起來,生成平均長度約4.5萬個token的Agent軌跡。

35B模型追上1T級前沿模型?AI開始拼誰更會做事

具體到訓練材料,團隊不只給模型看"題目和標準答案",還把一個任務從開始到結束的過程喂進去。

論文里更具體的抓手,是知識-行動圖(Knowledge-Action Graph,KAG)。它不是普通知識圖譜,不只是記錄實體和關系,而是把一次任務推進中的連續狀態保存下來:模型查到了什么、用了什么工具、工具返回了什么、結果是否通過驗證,以及失敗后怎樣調整下一步。Agents-A1訓練的不是單次回答,而是這種帶反饋的行動過程。模型學到的不只是"最后答案是什么",還有"答案是怎么被查到、執行、驗證和修正的"。

35B模型追上1T級前沿模型?AI開始拼誰更會做事

論文中的訓練流程分為三步:

三步流程的共同目的,是讓模型在訓練階段就反復經歷完整的任務過程,而不只是看到孤立的問答對。它們背后對應的是同一個方向:把"會不會答"轉成"會不會持續行動"。

這也解釋了為什么論文標題強調"擴展任務邊界(Scaling the Horizon)"。它不是說把參數規模這條路扔掉,而是把擴展對象從模型本身,挪到模型能夠處理的任務過程上。

過去的scaling(擴展)更像擴大一顆大腦:更多參數、更多數據、更大算力。Agents-A1討論的scaling更像拉長一個人的工作半徑:它能查多少輪資料,能處理多少次反饋,能在多長的上下文里不迷路,能不能把工具調用和最終答案連成一個閉環。

35B為什么能接近更大的模型

根據論文報告,Agents-A1的評測覆蓋長任務搜索、工程、科學研究、指令遵循和工具調用等方向。它取得較強表現的地方,主要集中在那些需要模型連續處理信息、調用工具并推進任務的Agent基準測試上。

這些基準測試考的不是一次性答題,而是模型能不能在長流程里穩定推進任務。

一篇35B模型論文之所以會拿來和論文所列1T-level前沿模型比較,原因也在這里。

如果任務只是比知識儲備和瞬時推理,大模型通常有天然優勢;但如果任務需要連續行動,訓練數據里有沒有足夠長的過程、模型會不會調用工具、能不能看懂中間狀態,就會變得更重要。

35B模型追上1T級前沿模型?AI開始拼誰更會做事

更細地看,Agents-A1的優勢并不平均分布。論文表格顯示,它在長任務搜索、部分科學和指令遵循類評測上表現突出;但在瀏覽理解、科學編程、機器學習工程基準、材料工具等任務上,前沿大模型仍有明顯優勢。論文作者也承認,MLE-Bench-Lite這類完整工程流程對穩定目標、記憶歷史決策、避免重復試錯要求很高,Agents-A1仍弱于1T-level模型。

但Agents-A1給出的信號是:參數之外,還有一條擴展路線。把模型做得更大是一種scaling;把它能處理的任務鏈條拉長,也是一種scaling。

這條路線對大模型行業很有吸引力。繼續把模型做大,意味著更高的訓練成本、更貴的推理成本,也意味著部署門檻越來越高。如果一個較小模型能通過更好的Agent訓練,在某些長任務場景里接近更大模型,它就給行業提供了另一種效率想象:不是每個問題都必須靠更大的底座解決,有些問題可以靠更好的任務過程解決。

這條路線并不排斥更大的模型。長任務能力本身仍依賴基礎模型的語言理解、推理、代碼和工具調用能力。更合理的理解是,Agent時代的能力競爭不只發生在底座模型大小上,也發生在訓練軌跡、工具環境、反饋機制和驗證器設計上。

這對普通用戶意味著什么

這類論文離普通用戶并不遠。

現在很多人使用AI,仍停留在"問答工具"的階段:寫一段文案、翻譯一段話、總結一份材料。未來更有價值的場景,是把AI放進完整工作流里。

例如,一次行業調研不只是列觀點,而是查資料、篩來源、標注證據、整理表格、寫初稿、檢查不確定項;一個編程任務也不只是回答問題,而是讀問題單、查代碼、改文件、跑測試、提交修復;一個辦公任務則可能跨郵件、日歷、文檔和表格,把待辦追蹤到可以發給同事的結論。

現在很多AI產品已經在往這個方向走。瀏覽器里的Agent想替用戶訂票、購物、查資料;編程工具里的Agent想從issue讀到代碼,再改文件、跑測試;辦公軟件里的Agent想把郵件、日歷、文檔和表格連起來。它們共同考驗的不是一句話答得漂不漂亮,而是AI能不能在長時間里保持目標一致,記住前面做過什么,知道什么時候該查資料,什么時候該調用工具,什么時候該承認不確定。

長任務能力最先改變的,可能就是產品體驗:用戶未必關心底層模型有多大,但會明顯感受到AI能不能把任務一路跟到底。

對普通用戶來說,這種變化可能不會以"你正在使用一個35B Agent模型"的方式出現。它更可能藏在產品體驗里:AI不再頻繁反問你下一步做什么,不再做完一半就忘記上下文,也不再把工具調用結果和最終結論割裂開來。

當這種能力成熟,用戶對AI的期待也會改變。過去我們容忍它像一個聰明但健忘的聊天對象;以后我們會更希望它像一個靠譜的執行者,知道目標、記得過程、能交付結果。

參數競賽沒有結束,但賽道變寬了

Agents-A1不意味著參數規模不重要。

35B模型追上1T級前沿模型?AI開始拼誰更會做事

論文里的結論仍然限定在特定Agent基準測試和作者報告的評測范圍內。更大的模型在通用知識、復雜推理、代碼、科學任務等許多場景里,仍有優勢。

但它提醒了一個變化:AI能力的競爭不再只有模型大小這一條軸。

過去,大家問一個模型強不強,常看它有多少參數、用了多少訓練數據、跑分排第幾。到了Agent場景,還要看它能不能長時間執行任務,能不能使用工具,能不能處理外部反饋,能不能把多個領域能力合在一個模型里。

如果把普通聊天模型比作一個會答題的人,Agent更像一個會做項目的人。

會做項目的人,不能只靠腦子大。它還要有步驟感、工具感、反饋感和持續推進能力。

Agents-A1的價值就在這里。它沒有簡單加入"誰的模型更大"的競賽,而是把問題推向另一個方向:當模型已經足夠聰明時,下一步要訓練的是把事情做到底的能力。

今天很多Agent論文開始有傳播價值,不再只是因為它們能在模型榜單上換一個名次,而是因為它們正在討論AI產品下一步怎樣進入工作流。誰能讓AI更穩定地完成長任務,誰就更接近普通用戶真正愿意付費的場景。

延伸閱讀
相關推薦
熱點推薦
A股,尾盤傳來一個“重大利好”信號,下周,或將迎來大反彈!

A股,尾盤傳來一個“重大利好”信號,下周,或將迎來大反彈!

夜深愛雜談
2026-07-03 19:49:28
3日凌晨爆冷:4強賽出爐橋本慘敗,蒯曼剃光頭,誕生3大不可思議

3日凌晨爆冷:4強賽出爐橋本慘敗,蒯曼剃光頭,誕生3大不可思議

小七說籃球
2026-07-03 11:21:30
國乒16強全軍覆沒!比慘敗更可怕的是3件事,林詩棟打不回來了?

國乒16強全軍覆沒!比慘敗更可怕的是3件事,林詩棟打不回來了?

漫川舟船
2026-07-03 18:41:07
3球2助攻!20歲5000萬超新星閃耀世界杯:連破紀錄引爆豪門爭搶?

3球2助攻!20歲5000萬超新星閃耀世界杯:連破紀錄引爆豪門爭搶?

李喜林籃球絕殺
2026-07-03 18:07:16
70歲知名港星米雪疑遭男性騷擾,雙手明確表示拒絕,但仍然被貼臉

70歲知名港星米雪疑遭男性騷擾,雙手明確表示拒絕,但仍然被貼臉

裕豐娛間說
2026-07-03 08:24:15
“有你這樣的媽,真丟人”,畢業典禮母親出洋相,兒子一臉無奈

“有你這樣的媽,真丟人”,畢業典禮母親出洋相,兒子一臉無奈

熙熙說教
2026-07-01 19:29:52
索尼13年前推文被扒出!回旋鏢正中眉心

索尼13年前推文被扒出!回旋鏢正中眉心

游民星空
2026-07-02 11:13:36
C羅:相比進球被取消和被換下,更難受的是沒有進入首發陣容

C羅:相比進球被取消和被換下,更難受的是沒有進入首發陣容

懂球帝
2026-07-03 12:14:29
紫牛頭條|景區 NPC 與游客互動掰手腕致骨折,自己墊付醫藥費后被游客拉黑

紫牛頭條|景區 NPC 與游客互動掰手腕致骨折,自己墊付醫藥費后被游客拉黑

揚子晚報
2026-07-03 07:25:03
2026年養老金要大變!看懂新規,不吃虧!

2026年養老金要大變!看懂新規,不吃虧!

細說職場
2026-07-03 19:05:51
基努·里維斯在飛機上看的爛片,把主演自己都看崩潰了

基努·里維斯在飛機上看的爛片,把主演自己都看崩潰了

峽谷一級保護廢物
2026-07-02 19:47:14
深度解析:克羅地亞第103分鐘格絕平進球被VAR取消的完整判罰依據

深度解析:克羅地亞第103分鐘格絕平進球被VAR取消的完整判罰依據

夜白侃球
2026-07-03 11:16:26
重磅!正式加盟76人!一億射手搭檔杰倫布朗

重磅!正式加盟76人!一億射手搭檔杰倫布朗

技巧君侃球
2026-07-03 17:22:07
FIFA:智能技術證實克羅地亞“絕平”前有球員觸球,裁判判罰快速精準

FIFA:智能技術證實克羅地亞“絕平”前有球員觸球,裁判判罰快速精準

懂球帝
2026-07-03 11:32:06
一商戶負責人在西安賽格商場墜亡,生前好友:他曾變賣門店發工資,幾年前已有抑郁傾向

一商戶負責人在西安賽格商場墜亡,生前好友:他曾變賣門店發工資,幾年前已有抑郁傾向

瀟湘晨報
2026-07-02 23:29:18
突發6.2級地震!上海有震感!不少網友感到頭暈,燈晃…有人直接沖下18樓

突發6.2級地震!上海有震感!不少網友感到頭暈,燈晃…有人直接沖下18樓

新浪財經
2026-07-03 13:25:30
孫穎莎大勝張本美和,WTT大滿貫賽事中3-0橫掃對手

孫穎莎大勝張本美和,WTT大滿貫賽事中3-0橫掃對手

老稅系戲精北鼻
2026-07-03 07:45:25
40架殲-10C+4架空警-500,俄羅斯壟斷被打破,北非天空要變天

40架殲-10C+4架空警-500,俄羅斯壟斷被打破,北非天空要變天

止戈軍是我
2026-07-03 13:03:51
國產的“他汀”和進口的“他汀”相比較,對肝臟的損害會更大嗎?

國產的“他汀”和進口的“他汀”相比較,對肝臟的損害會更大嗎?

重癥醫生張偉
2026-07-02 20:51:53
網友分享被父母迷暈后送進戒同所:斷水斷食、電擊、循環播放a片

網友分享被父母迷暈后送進戒同所:斷水斷食、電擊、循環播放a片

燈錦年
2026-07-03 11:44:04
2026-07-03 21:00:49

科技要聞

萬億富豪馬斯克 舍不得特斯拉員工敞開用AI

頭條要聞

60歲老人猥褻8歲女童僅獲刑一年三個月 法院決定再審

頭條要聞

60歲老人猥褻8歲女童僅獲刑一年三個月 法院決定再審

體育要聞

C羅穿已故隊友若塔球衣謝場 眼中含淚

娛樂要聞

海來阿木孕期出軌指控掀起全網熱議

財經要聞

"千億"眾邦銀行被接管:系嚴重信用風險

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

游戲
家居
旅游
公開課
軍事航空

肯德基繼續開團索尼!KFC游戲主機發售時間曝光

家居要聞

傳奇筑 日常詩

旅游要聞

今天,為何這么多人循跡梁林路?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使館遇襲 2年多遭襲擊次數已超25次

無障礙瀏覽 進入關懷版
×