无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

3B小模型,編程得分比肩Opus 4.5,神秘模型引發熱議,原是國產

0
分享至




編輯|張倩

最近幾天,一個 3B 的小模型在 X 上火了,因為在一些難度可驗證的推理任務上(比如編程),它進入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能區間,而它的體積遠小于這些模型。



這個模型名叫 VibeThinker-3B,是一個擁有 30 億參數的密集推理模型,旨在探索在嚴格的小模型規模下,可驗證推理能力能被推進到何種程度。

模型發布后,很多人都被它的成績驚艷到了,表示要上手一試。





值得注意的是,它還是一個國產模型,來自新浪微博團隊。



技術報告顯示,該模型專為具有可靠驗證信號的任務而設計,包括數學推理、競技編程、STEM 推理以及帶有明確約束的指令執行。

因此,它在各項基準測試中均表現出色 。其在 AIME26 測試中獲得 94.3 分 ,在 HMMT25 測試中獲得 89.3 分 ,在 LiveCodeBench v6 測試中獲得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期間 LeetCode 最新未公開的周賽和雙周賽中取得了 96.1% 的通過率。



這個模型是怎么訓練的?技術報告揭示了一些細節。

首先,它基于 Qwen2.5-Coder-3B 構建,并采用升級版 Spectrum-to-Signal 流程進行后訓練。該流程在監督微調(SFT)中加強了數據合成、質量過濾和課程學習,將 MGPO 風格的強化學習擴展到多個可驗證領域,保留了完整的長上下文推理軌跡,并通過離線自蒸餾和指令強化學習(Instruct RL)來鞏固各項能力。



VibeThinker-3B 整體訓練流程



Spectrum-to-Signal 流程。

此外,VibeThinker-3B 還引入了 Claim-Level 可靠性評估(CLR),這是一種面向答案可驗證推理的測試時 scaling 策略。CLR 進一步提升了數學基準測試的性能,將 AIME26 從 94.3 提高到 97.1,HMMT25 從 89.3 提高到 95.4,并將 BruMO25 提升至 99.2。



其具體訓練流程如下:

  • 基于課程的兩階段 SFT。第一階段側重于數學、編程、STEM 推理、一般對話和指令遵循等方面的廣泛能力覆蓋。第二階段轉向難度更高、視野更廣闊的推理樣本。多樣性探索蒸餾用于保留多個有效的解決方案路徑。
  • 多領域推理強化學習。VibeThinker-3B 重用了 MGPO。強化學習依次應用于數學、編程和 STEM 推理任務。訓練使用單個 64K 長上下文窗口來保留完整的長時域推理軌跡。
  • 離線自蒸餾。從數學、編程和 STEM RL 檢查點篩選和提煉高質量軌跡,最終形成統一的學生模型。學習潛力評分用于優先考慮那些正確但學生尚未很好地模仿的軌跡。
  • Instruct RL。最后階段提高了面向用戶的提示的可控性。對于格式敏感且開放式的教學數據,采用基于規則的驗證器和基于評分標準的獎勵模型。

在最近的一個帖子中,知名 AI 研究者和博主 Sebastian Raschka 系統總結了 VibeThinker-3B 技術報告中披露的要點,包括以下幾條:



如果你對這些內容感興趣,可以去詳細翻閱他們的技術報告。目前,模型也是可以公開下載的。



  • 報告標題:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
  • 報告鏈接:https://arxiv.org/pdf/2606.16140
  • HuggingFace 鏈接:https://huggingface.co/WeiboAI/VibeThinker-3B

不過,該模型的適用范圍是有明確限制的,因為它在需要通用知識的領域表現并不出色。





官方也明確指出了這一點,并提出「參數壓縮覆蓋假設」:不同的能力對模型參數的依賴方式截然不同。可驗證推理更接近于一種高度可壓縮、參數密集的能力,其核心在于多步驟推理、約束滿足、自我糾錯和答案驗證。當任務空間結構足夠清晰且反饋信號足夠可靠時,緊湊型模型也可能具備接近前沿的推理能力。相比之下,開放領域知識、通用對話和長尾場景理解則更依賴于大規模參數來廣泛覆蓋事實、概念和世界知識。這一假設非常具有啟發性。VentureBeat 在報道中寫道:「它揭示了推理能力和事實知識之間存在部分解耦,并且前者可以比之前設想的更有效地壓縮—— 這一洞見對業界如何看待模型設計、部署成本以及高級人工智能功能的普及性都具有深遠的影響。」





作者表示,他們的目標并非打造一個替代大規模模型的小模型,而是沿著特定能力維度,審視小模型的真實邊界。借助 VibeThinker-3B,他們希望表明,小模型不應僅僅被視為降低部署成本的妥協方案。在具有清晰反饋與驗證機制的能力領域中,小型語言模型正展現出一條頗具前景的研究路徑,有望實現前沿水平的性能,并與傳統的參數規模擴展范式形成根本性的互補關系。

目前,該模型在社區中還面臨一些質疑。如果大家對這個模型感興趣,不妨自己去親自試一下。



參考鏈接:https://x.com/orcus108/status/2066876960073281582

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
相差1500萬條人命!新冠真實死亡2210萬,為何塵封6年才揭曉?

相差1500萬條人命!新冠真實死亡2210萬,為何塵封6年才揭曉?

生活魔術專家
2026-06-16 14:33:24
15萬人的國家都能進世界杯,庫拉索與佛得角扯下了中國足球遮羞布

15萬人的國家都能進世界杯,庫拉索與佛得角扯下了中國足球遮羞布

磊子講史
2026-06-17 17:37:03
看了世界杯,中國球迷釋然了,中國足球確實還達不到世界杯的水平

看了世界杯,中國球迷釋然了,中國足球確實還達不到世界杯的水平

霽寒飄雪
2026-06-17 07:36:15
美國斷供C919發動機1年后,世界才發現,中國竟造出了一臺更好的

美國斷供C919發動機1年后,世界才發現,中國竟造出了一臺更好的

林子說事
2026-06-17 17:53:11
世界杯比賽前瞻丨烏茲別克斯坦VS哥倫比亞:亞洲球隊不可輕侮

世界杯比賽前瞻丨烏茲別克斯坦VS哥倫比亞:亞洲球隊不可輕侮

體育世界
2026-06-17 18:13:33
雷軍被罵東施效顰,都是在街邊,都是吃面,遭嘲諷模仿黃仁勛翻車

雷軍被罵東施效顰,都是在街邊,都是吃面,遭嘲諷模仿黃仁勛翻車

烏娛子醬
2026-06-17 15:41:08
奔馳修車4顆輪轂螺絲被老人撿走后續,全程細思極恐,監控曝光

奔馳修車4顆輪轂螺絲被老人撿走后續,全程細思極恐,監控曝光

追蹤之點
2026-06-17 16:49:04
去母留子?知名女演員嫁給投資大佬,卻遭老公與小三上門暴打奪子

去母留子?知名女演員嫁給投資大佬,卻遭老公與小三上門暴打奪子

星娛叨叨社
2026-06-17 14:24:09
百勝集團將以27億美元出售必勝客

百勝集團將以27億美元出售必勝客

齊魯壹點
2026-06-17 12:17:33
唯一退出聯合國的國家,曾妄想統一東南亞!這個國家現狀如何了?

唯一退出聯合國的國家,曾妄想統一東南亞!這個國家現狀如何了?

云霄紀史觀
2026-06-17 19:43:07
在廣州,月入8000到1萬,已經算高收入了

在廣州,月入8000到1萬,已經算高收入了

叮當當科技
2026-06-17 19:03:57
哈蘭德女友賽后發文:哈寶世界杯首秀收獲兩粒進球,新中式旗袍照同步曝光

哈蘭德女友賽后發文:哈寶世界杯首秀收獲兩粒進球,新中式旗袍照同步曝光

喜歡歷史的阿繁
2026-06-17 18:25:34
重慶95后女生拍下火山灰中的紙鸚鵡螺,捧回全球攝影大獎

重慶95后女生拍下火山灰中的紙鸚鵡螺,捧回全球攝影大獎

陌上桃花開的
2026-06-15 22:58:40
女子信佛10年,婚后也天天拜佛,丈夫一氣之下砸碎佛像卻當場傻眼

女子信佛10年,婚后也天天拜佛,丈夫一氣之下砸碎佛像卻當場傻眼

牛魔王與芭蕉扇
2025-03-26 16:49:45
國際排聯官宣!三位主教練被制裁,事關中國隊,原因被曝光

國際排聯官宣!三位主教練被制裁,事關中國隊,原因被曝光

跑者排球視角
2026-06-17 07:11:01
那個滿嘴山東話的光頭佬,才是香港影壇藏得最深的大佬

那個滿嘴山東話的光頭佬,才是香港影壇藏得最深的大佬

情感大頭說說
2026-06-16 11:37:20
瓦良格號給了中國多大震撼?我國專家:蘇聯的鋼材與技術太先進

瓦良格號給了中國多大震撼?我國專家:蘇聯的鋼材與技術太先進

抽象派大師
2026-06-17 04:57:17
父親車禍要救命錢,億萬大伯不肯借,我三天撤掉他89%訂單

父親車禍要救命錢,億萬大伯不肯借,我三天撤掉他89%訂單

曉艾故事匯
2026-06-16 09:41:05
官宣:上海明天入梅,“火力”很猛!端午節大到暴雨!網友心態崩了:那這兩天淋的雨算啥?

官宣:上海明天入梅,“火力”很猛!端午節大到暴雨!網友心態崩了:那這兩天淋的雨算啥?

新民晚報
2026-06-17 14:33:53
某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

番外行
2026-02-26 19:53:05
2026-06-17 21:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13290文章數 142673關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

歐盟模擬拿光刻機卡中國脖子 推演結果讓他們看清現實

頭條要聞

歐盟模擬拿光刻機卡中國脖子 推演結果讓他們看清現實

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

陸家嘴論壇上 央行帶來6大新政策利好

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

親子
教育
房產
本地
軍事航空

親子要聞

少刷點短視頻吧

教育要聞

AI主播說 | 廈大今年本科招生有新變化!

房產要聞

最新房價:海口、三亞;新房、二手房全線下跌!

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版