无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

英偉達巧用8B模型秒掉GPT-5,開源了

0
分享至

英偉達端著一個8B小模型對GPT-5說:

不好意思,你還得練(bushi)。

何出此言?——英偉達攜手香港大學開源的Orchestrator-8B,人類終極考試HLE分數更高、花錢更少、跑起來速度還更快。

哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。

而它超越GPT-5的打法是不當推理者,而是“工具主理人”,協調使用各路工具。

如何吊打GPT-5?

人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?

Orchestrator干的就是這事兒。

雖然自己只有8B參數,但手下管著一整個工具團隊。

既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業數學工具,還有網頁搜索、本地檢索、代碼解釋器這些實用小幫手。

它并不是自己解題,而是判斷現在該用哪個工具、控制工具的順序和使用次數、還能兼顧效果、成本、用戶偏好,工作日常如下:

  • 拿到難題先分析:這題需要算數學?那就調用Qwen2.5-Math;
  • 過程中動態調整:搜完資料發現需要驗證?那就先用代碼解釋器跑一遍;
  • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優先用本地工具。

簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團隊干專業活。

能讓小模型精準協調這么多工具,全靠英偉達的ToolOrchestra訓練大法。

核心有兩個,一個是有獎有罰的強化學習,一個是量身定制的ToolScale數據集

訓練時給Orchestrator立了三條獎懲規則:

  • 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
  • 效率獎:用的錢少、耗時短加分,反之扣分;
  • 偏好獎:聽用戶的話加分,比如用戶要隱私保護,多用本地搜索就加分。

研究者建了個包含金融、醫療、電商、旅游等10個領域的訓練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。

Orchestrator-8B也在權威測試中交出了令人滿意的答卷。

HLE測試里它拿下37.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;

FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。

小模型的逆襲

實際上,在AI領域工具編排和小模型驅動復合系統的賽道上,英偉達ToolOrchestra訓練的Orchestrator-8B并非孤例。

最早探索讓小模型學會調用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監督學習+自生成數據,讓12B參數的模型學會調用計算器、翻譯API、搜索引擎等基礎工具;

但當時,Toolformer僅聚焦基礎工具,并沒有把大模型納入工具庫。

MIT和CMU聯合團隊的ToolRL,提出以獎勵為核心的工具學習框架,訓練小模型通過強化學習動態選擇工具,主要是解決“傳統工具學習過度依賴人工標注數據” 的問題,通過自動生成工具交互軌跡訓練模型。

雖然也是獎勵機制,但ToolRL的獎勵函數更側重于任務的正確性和工具調用效率,并沒有明確納入用戶偏好,且工具庫以基礎工具和專業API為主。

今年,香港大學和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調用成本優化”的小模型訓練方法。

越來越多的團隊在做相關研究,也有越來越多的人關注該領域的進展。

就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數量小,還能實現「強+省錢」,直接解決了落地時的成本難題。

用低成本實現高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。

作者簡介

Orchestrator-8B這篇論文的一作是香港大學博士蘇弘錦,主要研究方向是數據科學和自然語言處理,現在英偉達實習。

共一是英偉達研究院的研究科學家Shizhe Diao,主要進行大型基礎模型的預訓練、高效調優和對齊方面的研究,曾與字節跳動人工智能實驗室的李航博士合作。

論文地址:https://arxiv.org/abs/2511.21689
項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
數據集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本《周報》刊登了一個胖胖的“毛澤東”,其背后有兩種可能

日本《周報》刊登了一個胖胖的“毛澤東”,其背后有兩種可能

潯陽咸魚
2026-06-07 17:55:11
同樣被民進黨惡意判刑,國臺辦表態:蔡正元、高金素梅不一樣!

同樣被民進黨惡意判刑,國臺辦表態:蔡正元、高金素梅不一樣!

有態度的何總
2026-06-12 09:52:10
打戲比《鏢人》還多,仍被吐槽不如子丹戰常威

打戲比《鏢人》還多,仍被吐槽不如子丹戰常威

生活觀察員啊
2026-06-12 00:22:52
拉什福德轉會阿森納?兩隊醞釀重磅邊鋒互換,阿爾特塔已點頭同意

拉什福德轉會阿森納?兩隊醞釀重磅邊鋒互換,阿爾特塔已點頭同意

夜白侃球
2026-06-12 10:59:11
接送初中生?老教師坦言:小學接安全,初中接的是孩子的整個人生

接送初中生?老教師坦言:小學接安全,初中接的是孩子的整個人生

金哥說新能源車
2026-06-13 06:40:40
充電寶提前宣判“死刑” 安克CEO:充電寶馬上就要消失了!

充電寶提前宣判“死刑” 安克CEO:充電寶馬上就要消失了!

泡泡網
2026-06-12 18:24:29
蘋果想用一副眼鏡,改變你的臉|WWDC 26

蘋果想用一副眼鏡,改變你的臉|WWDC 26

愛范兒
2026-06-11 08:47:25
10.36萬起!廣汽重量級新車上市!

10.36萬起!廣汽重量級新車上市!

科技堡壘
2026-06-12 09:42:41
徹底吵翻!英格蘭全隊被怒批:26 人里只有 1 人配叫世界級

徹底吵翻!英格蘭全隊被怒批:26 人里只有 1 人配叫世界級

瀾歸序
2026-06-13 06:24:45
萬茜帶火了一種疊穿新穿法:白襯衫+牛仔連衣裙,時髦洋氣又高級

萬茜帶火了一種疊穿新穿法:白襯衫+牛仔連衣裙,時髦洋氣又高級

蓓小西
2026-06-11 10:38:45
賴昌星的“紅樓”有多厲害?官員坦白:享受全套服務,沒人能把持

賴昌星的“紅樓”有多厲害?官員坦白:享受全套服務,沒人能把持

流史歲月
2026-06-12 11:04:38
辦世界杯竟成燙手山芋,2030年僅兩個申辦國,為啥沒人搶?

辦世界杯竟成燙手山芋,2030年僅兩個申辦國,為啥沒人搶?

嘆為觀止易
2026-06-08 14:22:53
一度電漲到多少,電車就不劃算了?內行人把賬算透了,看完明白了

一度電漲到多少,電車就不劃算了?內行人把賬算透了,看完明白了

沙雕小琳琳
2026-06-12 17:02:12
終于感受到國企降薪有多狠了

終于感受到國企降薪有多狠了

細說職場
2026-06-12 13:50:35
堪比中船特氣、碾壓MLCC!被低估的AI真正“卡脖子”核心即將爆發

堪比中船特氣、碾壓MLCC!被低估的AI真正“卡脖子”核心即將爆發

侃故事的阿慶
2026-06-12 01:51:09
賽力斯張興海:存儲芯片漲價使問界單車成本漲1.5萬-2萬元

賽力斯張興海:存儲芯片漲價使問界單車成本漲1.5萬-2萬元

IT之家
2026-06-12 16:58:36
申辦奧運沒人搶,世界杯擠破頭!終于看懂世界杯有多賺錢

申辦奧運沒人搶,世界杯擠破頭!終于看懂世界杯有多賺錢

流蘇晚晴
2026-06-12 13:02:58
SpaceX開盤飆漲29%,美股太空股跳水,維珍銀河大跌超25%,科技七巨頭集體下跌

SpaceX開盤飆漲29%,美股太空股跳水,維珍銀河大跌超25%,科技七巨頭集體下跌

21世紀經濟報道
2026-06-12 22:10:31
2億歐,亞馬爾身價超兩支世界杯東道主球隊全隊身價

2億歐,亞馬爾身價超兩支世界杯東道主球隊全隊身價

懂球帝
2026-06-12 22:06:20
6月12日俄烏:布羅夫迪誓言孤立克里米亞,烏再尋求200億美元援助

6月12日俄烏:布羅夫迪誓言孤立克里米亞,烏再尋求200億美元援助

山河路口
2026-06-12 17:54:21
2026-06-13 08:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12784文章數 176492關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

健康
手機
旅游
教育
房產

老人、小孩、孕婦,吃粽子有啥風險

手機要聞

三星官網公布Galaxy A27 5G手機參數,搭載驍龍6 Gen 3芯片

旅游要聞

這個夏天,在鄭州這些地方可以看“海”

教育要聞

從“中間”到“中堅”——學校中層管理者的修煉與升維 | 劉玉

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

無障礙瀏覽 進入關懷版