網易首頁 > 網易號 > 正文申請入駐

美團開源通用推理基準，26款模型僅2款及格

2026-06-15 01:29:17　來源: 野生運營

北京舉報

分享至

“離洗車店只有50米，我是開車去還是走路去？”你把這個問題丟給一款剛在奧數競賽里拿滿分的大模型，它不會提醒你“走上兩步就到了”，反而會認認真真規劃一條駕車路線。這種能解IMO難題、卻搞不定生活邏輯的荒誕反差，恰好捅破了當前大模型評測的一層窗戶紙：學科推理的高分，很可能只是模型背下了海量題庫的“肌肉記憶”，而不是真正學會了思考。

為了解決這一尷尬，美團旗下LongCat團隊干脆自己造了一把更貼近真實世界的“尺子”——General 365（通用推理基準），并一口氣拉來26款主流模型做了場摸底考試。結果有些出人意料：只有兩款模型達到60分的及格線，目前公認的頂尖選手Gemini 3 Pro也僅以62.8%的成績險勝。它首次把評測焦點從“會不會做題”轉向“會不會思考”，讓我們第一次清晰地看到大模型在通用推理上的真實能力邊界。

過去兩年，推理評測高度集中在數學、物理、編程這些依賴專業知識的科目上，頭部模型在各類題庫上幾乎逼近滿分。但會刷題不等于會推理，高分涌來的同時，現有通用推理基準（如BBH、BBEH）也逐漸暴露出兩個老問題：任務模板化帶來的邏輯雷同，以及性能飽和導致的區分度驟降。換句話說，模型已經學會了“背題型”，而舊考卷已經很難考出它們的真正差距。

General 365的設計目標很明確：把背景知識牢牢鎖在K-12級別，把推理能力從專業知識中剝離出來，系統評估模型在日常場景下的通用推理水平。為此，團隊搭建了一套包含五項核心特征的評估體系：高多樣性——365道原創種子題目及其1095個擴展變體，覆蓋八種挑戰類型，極力避免重復與死記硬背；高挑戰性——SOTA模型也只能勉強及格；聚焦推理——嚴格限定知識范圍，只衡量邏輯推演而非知識檢索；嚴格人工質檢——所有題目、推理軌跡和最終答案都經由人工審核；精準評分——混合規則與模型打分，人工抽樣驗證的準確率達到99.6%。

通用推理的“考綱”被細分為八大維度，每道題至少命其中之一：復雜約束（多條件交織下的全局一致性）、分支與枚舉（解空間的系統遍歷與邊界覆蓋）、時空推理（空間關系與時間序列的動態推演）、遞歸與回溯（假設-驗證-推翻的迭代糾錯）、語義干擾（跨越認知陷阱，嚴格遵循題設規則）、隱式信息（從碎片線索推斷底層邏輯）、最優策略（多路徑方案中的效用權衡與規劃）、概率與不確定性（不完全信息下的概率推斷）。其中“復雜約束類”題目占比最大，“概率與不確定性類”也超過20道，確保了每個維度都有充足的樣本。更關鍵的是，近70%的題目同時擁有兩個或以上的類別標簽，這種復合型的推理任務設計更貼近真實世界的邏輯復雜度，遠非單點測試可比。

題目質量的可靠性是評測基準的根基。General 365的種子題目全部由人工原創，隨后經過難度過濾、多樣性擴充、數據后處理、模型擴題與人工審核，最終形成1460道高質量題目。為驗證多樣性，團隊從語義分布和邏輯獨立性兩個維度下手：t-SNE可視化顯示，General 365的題目嵌入分布均勻分散，相比之下BBH和BBEH均出現明顯的聚集現象，暴露出潛在的邏輯冗余；由Gemini 3 Pro對語義相近的題目對進行推理路徑相似度評分（0-5分），General 365平均僅得2.16分，遠低于前兩者。這意味著模型再想靠“背模板”蒙混過關，在這套新卷子面前基本行不通。

手握校準好的標尺，LongCat團隊對26款主流大模型展開全面實測。整體來看，Gemini 3 Pro以62.8%的成績艱難奪冠，其余絕大部分模型深陷50%-60%區間未能觸及及格線。盡管非推理模型的整體表現稍遜，但Qwen 3 Max Instruct等個別模型還是展現了亮眼表現。將成績按八大維度拆解后，問題更加清晰：“語義干擾”與“最優策略”成為兩大性能洼地，模型在這兩項上的得分普遍比整體準確率低了約10個百分點。這說明大模型極易被題干中的干擾信息帶偏，在需要多步全局規劃的題目上更顯乏力。雷達圖進一步顯示，不同系列模型在“隱式信息”等任務上已經出現明顯的能力分化，暴露出架構與訓練策略帶來的根本差異。

除了看“答得對不對”，團隊的關注點還延伸到了“花了多少算力答對”。結果顯示，Gemini 3 Pro僅用約14k tokens就拿下最高分，而那些準確率與之相近的模型，其輸出長度普遍暴漲至25k-30k tokens。這種巨大的效率差，讓人看到一個更真實的維度：最高分的模型不僅更準，還更省。跨基準的橫向對比則進一步證實了General 365的難度含金量。各大模型在General 365上的準確率較BBH/BBEH普遍大幅下滑，比如GPT-5-Thinking在BBH上還能拿到92.0%的高分，到了General 365上驟降至58.6%。更有意思的是，模型在General 365上雖然準確率明顯偏低，平均輸出長度卻顯著增加——這說明難度的提升來自更深的邏輯鏈條，而非無意義的字數堆砌。

General 365把推理評測從專業知識的依賴中解放出來，讓我們直觀地看到大模型在日常場景下通用推理的短板。它的初衷不是在榜單上再添一個99%的高分，而是找到那條讓模型從“做題機器”走向“人類智慧”的必經之路。畢竟，一個能解IMO難題卻回答不了“走路洗車”的模型，還遠不能被稱為真正的智能。項目已經全面開源，團隊期待更多開發者和研究者一同加入，共同探尋大模型邏輯進

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.