![]()
編輯|張倩
最近幾天,一個 3B 的小模型在 X 上火了,因為在一些難度可驗證的推理任務上(比如編程),它進入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能區間,而它的體積遠小于這些模型。
![]()
這個模型名叫 VibeThinker-3B,是一個擁有 30 億參數的密集推理模型,旨在探索在嚴格的小模型規模下,可驗證推理能力能被推進到何種程度。
模型發布后,很多人都被它的成績驚艷到了,表示要上手一試。
![]()
![]()
值得注意的是,它還是一個國產模型,來自新浪微博團隊。
![]()
技術報告顯示,該模型專為具有可靠驗證信號的任務而設計,包括數學推理、競技編程、STEM 推理以及帶有明確約束的指令執行。
因此,它在各項基準測試中均表現出色 。其在 AIME26 測試中獲得 94.3 分 ,在 HMMT25 測試中獲得 89.3 分 ,在 LiveCodeBench v6 測試中獲得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期間 LeetCode 最新未公開的周賽和雙周賽中取得了 96.1% 的通過率。
![]()
這個模型是怎么訓練的?技術報告揭示了一些細節。
首先,它基于 Qwen2.5-Coder-3B 構建,并采用升級版 Spectrum-to-Signal 流程進行后訓練。該流程在監督微調(SFT)中加強了數據合成、質量過濾和課程學習,將 MGPO 風格的強化學習擴展到多個可驗證領域,保留了完整的長上下文推理軌跡,并通過離線自蒸餾和指令強化學習(Instruct RL)來鞏固各項能力。
![]()
VibeThinker-3B 整體訓練流程
![]()
Spectrum-to-Signal 流程。
此外,VibeThinker-3B 還引入了 Claim-Level 可靠性評估(CLR),這是一種面向答案可驗證推理的測試時 scaling 策略。CLR 進一步提升了數學基準測試的性能,將 AIME26 從 94.3 提高到 97.1,HMMT25 從 89.3 提高到 95.4,并將 BruMO25 提升至 99.2。
![]()
其具體訓練流程如下:
- 基于課程的兩階段 SFT。第一階段側重于數學、編程、STEM 推理、一般對話和指令遵循等方面的廣泛能力覆蓋。第二階段轉向難度更高、視野更廣闊的推理樣本。多樣性探索蒸餾用于保留多個有效的解決方案路徑。
- 多領域推理強化學習。VibeThinker-3B 重用了 MGPO。強化學習依次應用于數學、編程和 STEM 推理任務。訓練使用單個 64K 長上下文窗口來保留完整的長時域推理軌跡。
- 離線自蒸餾。從數學、編程和 STEM RL 檢查點篩選和提煉高質量軌跡,最終形成統一的學生模型。學習潛力評分用于優先考慮那些正確但學生尚未很好地模仿的軌跡。
- Instruct RL。最后階段提高了面向用戶的提示的可控性。對于格式敏感且開放式的教學數據,采用基于規則的驗證器和基于評分標準的獎勵模型。
在最近的一個帖子中,知名 AI 研究者和博主 Sebastian Raschka 系統總結了 VibeThinker-3B 技術報告中披露的要點,包括以下幾條:
![]()
如果你對這些內容感興趣,可以去詳細翻閱他們的技術報告。目前,模型也是可以公開下載的。
![]()
- 報告標題:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
- 報告鏈接:https://arxiv.org/pdf/2606.16140
- HuggingFace 鏈接:https://huggingface.co/WeiboAI/VibeThinker-3B
不過,該模型的適用范圍是有明確限制的,因為它在需要通用知識的領域表現并不出色。
![]()
![]()
官方也明確指出了這一點,并提出「參數壓縮覆蓋假設」:不同的能力對模型參數的依賴方式截然不同。可驗證推理更接近于一種高度可壓縮、參數密集的能力,其核心在于多步驟推理、約束滿足、自我糾錯和答案驗證。當任務空間結構足夠清晰且反饋信號足夠可靠時,緊湊型模型也可能具備接近前沿的推理能力。相比之下,開放領域知識、通用對話和長尾場景理解則更依賴于大規模參數來廣泛覆蓋事實、概念和世界知識。這一假設非常具有啟發性。VentureBeat 在報道中寫道:「它揭示了推理能力和事實知識之間存在部分解耦,并且前者可以比之前設想的更有效地壓縮—— 這一洞見對業界如何看待模型設計、部署成本以及高級人工智能功能的普及性都具有深遠的影響。」
![]()
![]()
作者表示,他們的目標并非打造一個替代大規模模型的小模型,而是沿著特定能力維度,審視小模型的真實邊界。借助 VibeThinker-3B,他們希望表明,小模型不應僅僅被視為降低部署成本的妥協方案。在具有清晰反饋與驗證機制的能力領域中,小型語言模型正展現出一條頗具前景的研究路徑,有望實現前沿水平的性能,并與傳統的參數規模擴展范式形成根本性的互補關系。
目前,該模型在社區中還面臨一些質疑。如果大家對這個模型感興趣,不妨自己去親自試一下。
![]()
參考鏈接:https://x.com/orcus108/status/2066876960073281582
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.