網易首頁 > 網易號 > 正文申請入駐

3B小模型，編程得分比肩Opus 4.5，神秘模型引發熱議，原是國產

2026-06-17 20:19:03　來源: 機器之心Pro

河北舉報

分享至

編輯｜張倩

最近幾天，一個 3B 的小模型在 X 上火了，因為在一些難度可驗證的推理任務上（比如編程），它進入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能區間，而它的體積遠小于這些模型。

這個模型名叫 VibeThinker-3B，是一個擁有 30 億參數的密集推理模型，旨在探索在嚴格的小模型規模下，可驗證推理能力能被推進到何種程度。

模型發布后，很多人都被它的成績驚艷到了，表示要上手一試。

值得注意的是，它還是一個國產模型，來自新浪微博團隊。

技術報告顯示，該模型專為具有可靠驗證信號的任務而設計，包括數學推理、競技編程、STEM 推理以及帶有明確約束的指令執行。

因此，它在各項基準測試中均表現出色。其在 AIME26 測試中獲得 94.3 分，在 HMMT25 測試中獲得 89.3 分，在 LiveCodeBench v6 測試中獲得 80.2 分（Pass@1），并且在 2026 年 4 月 25 日至 5 月 31 日期間 LeetCode 最新未公開的周賽和雙周賽中取得了 96.1% 的通過率。

這個模型是怎么訓練的？技術報告揭示了一些細節。

首先，它基于 Qwen2.5-Coder-3B 構建，并采用升級版 Spectrum-to-Signal 流程進行后訓練。該流程在監督微調（SFT）中加強了數據合成、質量過濾和課程學習，將 MGPO 風格的強化學習擴展到多個可驗證領域，保留了完整的長上下文推理軌跡，并通過離線自蒸餾和指令強化學習（Instruct RL）來鞏固各項能力。

VibeThinker-3B 整體訓練流程

Spectrum-to-Signal 流程。

此外，VibeThinker-3B 還引入了 Claim-Level 可靠性評估（CLR），這是一種面向答案可驗證推理的測試時 scaling 策略。CLR 進一步提升了數學基準測試的性能，將 AIME26 從 94.3 提高到 97.1，HMMT25 從 89.3 提高到 95.4，并將 BruMO25 提升至 99.2。

其具體訓練流程如下：

基于課程的兩階段 SFT。第一階段側重于數學、編程、STEM 推理、一般對話和指令遵循等方面的廣泛能力覆蓋。第二階段轉向難度更高、視野更廣闊的推理樣本。多樣性探索蒸餾用于保留多個有效的解決方案路徑。
多領域推理強化學習。VibeThinker-3B 重用了 MGPO。強化學習依次應用于數學、編程和 STEM 推理任務。訓練使用單個 64K 長上下文窗口來保留完整的長時域推理軌跡。
離線自蒸餾。從數學、編程和 STEM RL 檢查點篩選和提煉高質量軌跡，最終形成統一的學生模型。學習潛力評分用于優先考慮那些正確但學生尚未很好地模仿的軌跡。
Instruct RL。最后階段提高了面向用戶的提示的可控性。對于格式敏感且開放式的教學數據，采用基于規則的驗證器和基于評分標準的獎勵模型。

在最近的一個帖子中，知名 AI 研究者和博主 Sebastian Raschka 系統總結了 VibeThinker-3B 技術報告中披露的要點，包括以下幾條：

如果你對這些內容感興趣，可以去詳細翻閱他們的技術報告。目前，模型也是可以公開下載的。

報告標題：VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
報告鏈接：https://arxiv.org/pdf/2606.16140
HuggingFace 鏈接：https://huggingface.co/WeiboAI/VibeThinker-3B

不過，該模型的適用范圍是有明確限制的，因為它在需要通用知識的領域表現并不出色。

官方也明確指出了這一點，并提出「參數壓縮覆蓋假設」：不同的能力對模型參數的依賴方式截然不同。可驗證推理更接近于一種高度可壓縮、參數密集的能力，其核心在于多步驟推理、約束滿足、自我糾錯和答案驗證。當任務空間結構足夠清晰且反饋信號足夠可靠時，緊湊型模型也可能具備接近前沿的推理能力。相比之下，開放領域知識、通用對話和長尾場景理解則更依賴于大規模參數來廣泛覆蓋事實、概念和世界知識。這一假設非常具有啟發性。VentureBeat 在報道中寫道：「它揭示了推理能力和事實知識之間存在部分解耦，并且前者可以比之前設想的更有效地壓縮—— 這一洞見對業界如何看待模型設計、部署成本以及高級人工智能功能的普及性都具有深遠的影響。」

作者表示，他們的目標并非打造一個替代大規模模型的小模型，而是沿著特定能力維度，審視小模型的真實邊界。借助 VibeThinker-3B，他們希望表明，小模型不應僅僅被視為降低部署成本的妥協方案。在具有清晰反饋與驗證機制的能力領域中，小型語言模型正展現出一條頗具前景的研究路徑，有望實現前沿水平的性能，并與傳統的參數規模擴展范式形成根本性的互補關系。

目前，該模型在社區中還面臨一些質疑。如果大家對這個模型感興趣，不妨自己去親自試一下。

參考鏈接：https://x.com/orcus108/status/2066876960073281582

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.