網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)代碼遇上語義：CoREB 如何重新定義代碼檢索評(píng)測(cè)

2026-06-17 19:13:56　來源: 開源中國

廣東舉報(bào)

分享至

本文由螞蟻集團(tuán)出品。 CoREB（Code Retrieval Embedding Benchmark）是螞蟻集團(tuán)圍繞"代碼語義檢索"方向所打造的開放式評(píng)測(cè)基準(zhǔn)。我們希望為整個(gè)社區(qū)提供一套干凈、嚴(yán)格、不可作弊、貼近真實(shí)工程場景的代碼嵌入模型測(cè)試集——讓"代碼模型到底好不好"這件事，從主觀感受走向可量化、可復(fù)現(xiàn)、可追蹤的實(shí)證科學(xué)。

CoREB 主視覺一、為什么我們還需要一個(gè)新的代碼檢索基準(zhǔn)？

過去兩三年，代碼嵌入模型的發(fā)展節(jié)奏明顯加快。從通用方向的 Qwen3-Embedding、jina-embeddings-v4、embeddinggemma，到專注代碼的 jina-code-embeddings、C2LLM、F2LLM，參數(shù)量從 0.5B 一路飆升到 8B；訓(xùn)練數(shù)據(jù)動(dòng)輒上百億 token，對(duì)比學(xué)習(xí)的負(fù)例池也越鋪越大。模型卡上的指標(biāo)越刷越漂亮，論文里的折線圖越畫越陡峭，看起來"代碼檢索"這件事仿佛已經(jīng)被解決了。

然而當(dāng)我們把這些 SOTA 模型搬進(jìn)真實(shí)的"競賽級(jí)"代碼檢索場景里測(cè)試時(shí)，卻發(fā)現(xiàn)一個(gè)令人尷尬的事實(shí)：

現(xiàn)有基準(zhǔn)要么太簡單（同一份代碼改個(gè)變量名都能命中），要么太"作弊"（測(cè)試問題早被模型在預(yù)訓(xùn)練里見過）。

具體而言，社區(qū)現(xiàn)有的代碼檢索評(píng)測(cè)面臨三個(gè)深層痛點(diǎn)：

痛點(diǎn)一：數(shù)據(jù)泄漏幾乎不可避免。主流模型在預(yù)訓(xùn)練時(shí)都接觸過 GitHub、LeetCode、Codeforces 等公共代碼源，許多"老牌"基準(zhǔn)的題目早就被模型背在了"參數(shù)記憶"里。這種情況下，模型在評(píng)測(cè)上的高分，到底是真的學(xué)會(huì)了語義檢索，還是單純做了記憶復(fù)現(xiàn)？沒人說得清。

痛點(diǎn)二：硬負(fù)例其實(shí)并不"硬"。不少基準(zhǔn)號(hào)稱用了 hard negative mining，但仔細(xì)看就會(huì)發(fā)現(xiàn)，所謂"硬負(fù)例"往往只是來自完全無關(guān)問題的隨機(jī)抽樣。這種"假困難"——主題不同、詞匯分布不同、變量命名風(fēng)格也不同——對(duì)任何一個(gè)稍微合格的嵌入模型都不構(gòu)成挑戰(zhàn)。真正考驗(yàn)?zāi)Ｐ偷模悄切?strong>長得像、讀起來像、關(guān)鍵詞都一致、但功能上徹底錯(cuò)誤的代碼與文本。一個(gè)能在這種"語義陷阱"里站穩(wěn)腳跟的模型，才有資格被叫作"理解代碼"。

痛點(diǎn)三：評(píng)測(cè)粒度過粗，掩蓋了真實(shí)的能力差距。多數(shù)榜單只給出一個(gè)"平均分"，把多個(gè)子任務(wù)的得分粗暴加權(quán)。結(jié)果就是：一些模型在簡單任務(wù)上拿滿分，在難任務(wù)上接近 0 分，但平均下來居然能進(jìn)前三。這種榜單不僅誤導(dǎo)研究方向，也誤導(dǎo)工程師在真實(shí)業(yè)務(wù)里的選型決策。

CoREB 就是為同時(shí)解決這三個(gè)痛點(diǎn)而生。我們的設(shè)計(jì)哲學(xué)可以用一句話概括：

讓"看起來能做對(duì)"的模型在 CoREB 上下不來臺(tái)，讓"真的能做對(duì)"的模型在 CoREB 上拿到應(yīng)得的分?jǐn)?shù)。

CoREB 建立在 LiveCodeBench 最新發(fā)布的題庫之上，覆蓋175 道競賽真題、5 種主流編程語言（Python / C++ / Java / Go / Ruby）、上千條由強(qiáng)模型（Claude Sonnet 4.5、Gemini 3 Flash 等）實(shí)測(cè)驗(yàn)證過的高質(zhì)量查詢-代碼對(duì)。

CoREB 數(shù)據(jù)集構(gòu)建管線

整個(gè)數(shù)據(jù)集嚴(yán)格按照"競賽發(fā)布時(shí)間窗"切分訓(xùn)練與測(cè)試，v202602 與 v202603 兩個(gè) release 在題目層面完全互不重疊——前者覆蓋 2024 年 9 月至 2025 年 1 月的題目，后者覆蓋 2025 年 1 月至 4 月。這意味著任何在我們 reranker 訓(xùn)練集上看到過的題目，都絕對(duì)不會(huì)出現(xiàn)在測(cè)試集里。這一時(shí)間切分方案，從根源上排除了"在訓(xùn)練集上微調(diào)出測(cè)試集表現(xiàn)"的泄漏風(fēng)險(xiǎn)。

二、數(shù)據(jù)集一覽：規(guī)模、語言、模型一目了然

CoREB 數(shù)據(jù)集組成

語料庫與查詢的分布

v202603 釋出版本核心數(shù)字：

項(xiàng)目

規(guī)模

代碼語料庫

1,744

claude-sonnet-4-5 × 875 + gemini-3-flash × 869

文本語料庫

875

175 條原始題目描述 + 700 條 LLM 噪聲樣本

查詢總數(shù)

2,483

T2C 1,117 / C2T 1,200 / C2C 166

qrel 標(biāo)注總數(shù)

10,877

含 4,257 正例 + 6,620 硬負(fù)例（v2 graded）

覆蓋語言

Python / C++ / Java / Go / Ruby

覆蓋模型

Claude Sonnet 4.5 + Gemini 3 Flash

每個(gè)語言約 350 條代碼、每個(gè)生成模型約 875 條，分布均衡而干凈。所有代碼都已通過 LiveCodeBench 的測(cè)試用例真實(shí)執(zhí)行過，每條標(biāo)注都附帶 pass/fail 信息——這是我們后續(xù)構(gòu)建"硬負(fù)例"的基石。

更重要的是，CoREB 的所有數(shù)據(jù)100% 來自競賽題目的新發(fā)布窗口，沒有混入任何 Stack Overflow、GitHub 代碼片段、教程示例等來源易污染的語料。這是我們能宣稱"不可作弊"的核心保證之一。

三、三大任務(wù)：覆蓋代碼語義映射的三個(gè)維度

CoREB 的核心結(jié)構(gòu)由三大任務(wù)組成，每個(gè)任務(wù)針對(duì)代碼-語義映射中的一個(gè)獨(dú)立維度：

任務(wù)

簡稱

輸入 → 輸出

難度

真實(shí)場景

文本到代碼

T2C

自然語言描述 → 代碼解

?????

自然語言代碼搜索、需求→代碼生成檢索

代碼到代碼

C2C

一種語言的解 → 另一種語言的等價(jià)解

???

跨語言代碼遷移、多語言代碼庫統(tǒng)一檢索

代碼到文本

C2T

代碼片段 → 對(duì)應(yīng)題目描述

代碼注釋生成、文檔對(duì)齊、可解釋性

T2C：最具挑戰(zhàn)的"憑描述找代碼"

T2C 是 CoREB 中最有挑戰(zhàn)、也最貼近真實(shí)工程需求的任務(wù)。它進(jìn)一步拆解為三個(gè)子任務(wù)，對(duì)應(yīng)不同的工程語境：

?canonical_retro：查詢是規(guī)范化、抽象化后的題目意圖，類似"內(nèi)部技術(shù)文檔檢索"
?full_retro：查詢包含完整題目背景（含示例、約束、邊界條件），類似"用戶在搜索框輸入完整需求"
?search：查詢本身在語料庫里沒有完全對(duì)應(yīng)的題目，要求模型純靠語義泛化，類似"探索性代碼搜索"

search子任務(wù)的結(jié)果尤其值得反復(fù)琢磨：

T2C search 子任務(wù)上所有模型 nDCG 都接近零

所有 11 個(gè)被測(cè)模型的 nDCG@10 都接近 0（范圍 0.0008–0.023）。這不是模型壞了，而是說明當(dāng)我們抽掉"必須有完全匹配項(xiàng)"這條隱含拐杖之后，純語義檢索的能力距離我們想象中的"理解代碼"還有非常遠(yuǎn)的距離。

這一發(fā)現(xiàn)對(duì)工業(yè)界尤其重要：在真實(shí)業(yè)務(wù)場景里，用戶輸入的搜索詞與代碼庫內(nèi)的解幾乎從來不會(huì)字面對(duì)齊。如果一個(gè)模型只會(huì)做"精確題目匹配"，那它能解決的也只是一小部分理想化場景。CoREB 的search子任務(wù)，就是為了把這個(gè)潛在缺陷顯式量化出來。

T2C 的語言偏置：被忽視的真實(shí)問題

不同目標(biāo)語言下，模型表現(xiàn)的差異也相當(dāng)顯著：

T2C 不同語言難度梯度

any（不限語言）一致最高，python大多排第二，ruby與go則是大多數(shù)模型的最痛點(diǎn)。從 C2LLM-7B 的數(shù)據(jù)可以清晰看到："any" 子任務(wù)能跑到 0.756，但java只剩 0.418——同一個(gè)模型、同一類查詢，僅因目標(biāo)語言不同就能拉開近一倍的差距。

這種語言偏置在工程上意味著什么？意味著你不能假設(shè)一個(gè)在 Python 上表現(xiàn)優(yōu)異的模型，到 Go 或 Ruby 上還能保持同樣水平。多語言代碼業(yè)務(wù)的同學(xué)，必須按語言單獨(dú)評(píng)測(cè)后再做選型。

C2C：跨語言"功能等價(jià)"的判定

C2C 任務(wù)要求模型把一份 Python 代碼與其 Java/Go/C++/Ruby 版本對(duì)應(yīng)起來，它考察的是模型能否抽象出"算法意圖"這一層語義，而非被表面語法迷惑：

C2C 跨語言檢索熱力圖

C2C 還揭示了一個(gè)非常有意思的現(xiàn)象：所有模型在 nDCG@1 上都會(huì)拿到 0 分——因?yàn)椴樵冏陨淼拇a也在語料庫里（這是真實(shí)跨語言搜索場景的還原），且總是被排在第一位。

這并不是模型失敗，而是基準(zhǔn)設(shè)計(jì)本身的"誠實(shí)"反映：在真實(shí)的跨語言檢索里，"找到自己"是一種與"找到翻譯"截然不同的行為，是預(yù)期之內(nèi)的。我們用 nDCG@10 這種更寬容的指標(biāo)來評(píng)測(cè) C2C，正是為了避免這種結(jié)構(gòu)性"零分"扭曲整體判斷。

C2T：相對(duì)簡單但暗藏陷阱

C2T 表面上是最簡單的——給一段代碼，找回它的題目描述。但 v2 版本在語料庫里加入了LLM 生成的同題噪聲文本作為 rel=1 硬負(fù)例。這些噪聲文本由 gemini-2.5-flash 生成、經(jīng)過 gpt-4o 二次清洗，主題貼合、句式自然、術(shù)語正確，唯獨(dú)"不是真正的題目描述"。

結(jié)果顯示，即便是最好的模型（Gemini-Embedding-2-preview, 0.7841）也距離"完美命中"還有相當(dāng)差距——這正是噪聲文本在悄悄拉低分?jǐn)?shù)。這種"功能性區(qū)分"恰恰是 CoREB 的核心評(píng)測(cè)哲學(xué)：讓模型證明自己不是被表面相似性誤導(dǎo)，而是真的看懂了語義。

四、三級(jí)分級(jí)標(biāo)注：讓"硬負(fù)例"成為評(píng)測(cè)的靈魂

傳統(tǒng)檢索基準(zhǔn)只有"相關(guān) / 不相關(guān)"二元判定。CoREB 引入了三級(jí)分級(jí) qrel方案，讓每一條標(biāo)注都承載更多語義信息：

級(jí)別

含義（按任務(wù)）

rel=2正例

T2C: 同題且通過全部測(cè)試的代碼；C2T: 該題真正的描述文本；C2C: 正確的跨語言翻譯

rel=1硬負(fù)例

T2C: 同題但未通過測(cè)試的相似代碼；C2T: LLM 生成的同題/近題噪聲文本；C2C: 失敗的翻譯或被子任務(wù)排除的解

缺席

易負(fù)例

與查詢無關(guān)；僅在訓(xùn)練 reranker 時(shí)隨機(jī)抽樣

這個(gè)設(shè)計(jì)的關(guān)鍵點(diǎn)在于：rel=1 的條目仍然留在語料庫中，它們不是被"剔除"的，而是被"標(biāo)記"的。在評(píng)測(cè)時(shí)設(shè)relevance_level=2，rel=1 條目就成了高度迷惑性的"語料庫內(nèi)陷阱"——它們與查詢主題完全一致、詞匯高度重合，一旦被模型排到正例前面就會(huì)立刻拖低 nDCG。

硬負(fù)例引入后對(duì)評(píng)測(cè)指標(biāo)的"通脹壓縮"效應(yīng)

上圖清晰展示了 v2 graded qrel 對(duì)評(píng)測(cè)分?jǐn)?shù)的"通脹壓縮"效應(yīng)——從 v1 二元方案到 v2 三級(jí)方案，幾乎所有模型的 nDCG@10 都下降了 10–15 個(gè)百分點(diǎn)，這正是"假困難"被替換成"真困難"后該有的結(jié)果。壓縮后的分?jǐn)?shù)，才更貼近模型在工業(yè)場景下的真實(shí)戰(zhàn)斗力。

v202603_v2 qrel 規(guī)模：

任務(wù)

正例 (rel=2)

硬負(fù)例 (rel=1)

合計(jì)

T2C

2,814

3,136

5,950

C2T

820

2,650

3,470

C2C

623

834

1,457

總計(jì)4,2576,62010,877

也就是說，硬負(fù)例的數(shù)量與正例相當(dāng)甚至更多。這種設(shè)計(jì)讓 CoREB 真正反映模型區(qū)分"語義近似但功能錯(cuò)誤"的能力——這恰好是工業(yè)代碼搜索最在乎的一點(diǎn)。一個(gè)能在 CoREB 上拿高分的模型，必須真正理解"這段代碼在做對(duì)的事"，而不只是"這段代碼在談對(duì)的話題"。

五、最新評(píng)測(cè)榜單：來自 11 個(gè)主流模型的故事

我們?cè)?v202603_v2 上完成了 11 個(gè)主流嵌入模型的完整評(píng)測(cè)，每一個(gè)數(shù)字都對(duì)應(yīng)一份開放的 result JSON：

模型總體對(duì)比

三任務(wù) nDCG@10 橫向?qū)Ρ?br/>

Rank

模型

參數(shù)量

Avg

T2C

C2C

C2T

gemini-embedding-2-preview

API

C2LLM-7B

jina-code-embeddings-1.5b

1.5B

C2LLM-0.5B

0.5B

jina-code-embeddings-0.5b

0.5B

F2LLM-4B

Qwen3-Embedding-4B

F2LLM-1.7B

1.7B

Qwen3-Embedding-0.6B

0.6B

F2LLM-0.6B

0.6B

Qwen3-Embedding-8B

從這張表里，我們能讀出若干反直覺的故事。每一個(gè)都對(duì)應(yīng)一條值得社區(qū)認(rèn)真討論的研究方向。

發(fā)現(xiàn) 1：通用大模型未必贏——代碼這件事有它自己的語義結(jié)構(gòu)

榜首 Gemini-Embedding-2-preview 平均成績最高，但它在T2C上反而被參數(shù)量小得多的 C2LLM-7B 超越（0.4432 vs 0.4336）。考慮到 Gemini-Embedding 背后是 Google 頂級(jí)的預(yù)訓(xùn)練模型與海量訓(xùn)練數(shù)據(jù)，這一結(jié)果說明：

"代碼這件事"仍然有它獨(dú)立的語義結(jié)構(gòu)，不是用更大的通用語料就能完全覆蓋。

針對(duì)代碼場景做專門的對(duì)比學(xué)習(xí)目標(biāo)、加入功能正確性約束、用執(zhí)行結(jié)果做監(jiān)督信號(hào)——這些專門設(shè)計(jì)的價(jià)值，目前看仍然大于"無腦堆參數(shù)"。

發(fā)現(xiàn) 2：小模型用代碼專精換性能——參數(shù)效率新范式

參數(shù)效率：性能 vs 參數(shù)量

jina-code-embeddings-0.5B（0.5962）力壓 Qwen3-Embedding-8B（0.4277），16 倍參數(shù)差距下反而領(lǐng)先 17 個(gè)百分點(diǎn)。這是給所有在意延遲、顯存與部署成本的工程團(tuán)隊(duì)的一個(gè)強(qiáng)烈信號(hào)：針對(duì)代碼場景做專門訓(xùn)練，勝過盲目堆參數(shù)。

對(duì)一線工程師來說，這條發(fā)現(xiàn)意味著：

? 部署 0.5B 的代碼專用模型，延遲可能只有 8B 通用模型的 1/10，效果卻更好
? 在 GPU 資源緊張的邊緣場景，代碼專精方向是顯著劃算的
? 選型時(shí)不要被"參數(shù)量"或"通用 leaderboard 排名"帶偏，必須用與你業(yè)務(wù)場景同構(gòu)的基準(zhǔn)做實(shí)測(cè)

發(fā)現(xiàn) 3：Qwen3 的"中段塌陷"——尺度律并非萬能

Qwen3 系列展現(xiàn)了非常詭異的非單調(diào)縮放：

? Qwen3-0.6B：C2C nDCG@10 = 0.3836
? Qwen3-4B：C2C nDCG@10 =0.3917（僅微漲）
? Qwen3-8B：C2C nDCG@10 =0.3204（反向下跌）

8B 模型在跨語言代碼檢索上比 0.6B 還差——這種"中段塌陷"在通用文本檢索任務(wù)里幾乎不會(huì)出現(xiàn)，但在代碼任務(wù)里卻頻繁可見。可能的原因包括：訓(xùn)練數(shù)據(jù)中代碼占比下降、對(duì)比學(xué)習(xí)溫度參數(shù)與負(fù)例池規(guī)模的微妙不匹配、或是模型容量過剩導(dǎo)致的過擬合。這是一個(gè)值得整個(gè)社區(qū)深入研究的現(xiàn)象。

發(fā)現(xiàn) 4：子任務(wù)粒度才是真相——總分會(huì)撒謊

子任務(wù)級(jí)別細(xì)粒度對(duì)比

總分掩蓋了許多細(xì)節(jié)。從子任務(wù)級(jí)別可以看到，不同模型的強(qiáng)項(xiàng)分布迥異——有的擅長 retro 重檢索，有的擅長 search 泛化，有的在 cross-lang 跨語言任務(wù)上一騎絕塵，有的則在 match 子任務(wù)上表現(xiàn)穩(wěn)定。

沒有真正的"全能選手"。這就是為什么 CoREB 堅(jiān)持發(fā)布所有子任務(wù)的細(xì)粒度結(jié)果——我們希望讓工程師在選型時(shí)，能精準(zhǔn)對(duì)位自己的業(yè)務(wù)場景，而不是被"平均分"誤導(dǎo)。

發(fā)現(xiàn) 5：reranker 不是萬能補(bǔ)丁

我們額外測(cè)試了 reranker 在 4 個(gè)代表性模型上的效果：

Reranker 對(duì)三任務(wù)帶來的 nDCG 增量

?C2T 任務(wù)上 reranker 持續(xù)拖累性能（?0.042 到 ?0.079）。原因是 C2T 的語料庫較小（僅 875 條），cross-encoder 反而容易被噪聲文本"過度評(píng)分"
?C2C 任務(wù)上 reranker 大多有幫助（+0.005 到 +0.046）。cross-encoder 在跨語言細(xì)粒度區(qū)分上確實(shí)更強(qiáng)
?T2C 任務(wù)上 reranker 幾乎不動(dòng)（?0.009 到 +0.015）。任務(wù)難度過高，單層 reranker 難以撬動(dòng)

這個(gè)結(jié)果對(duì)工業(yè)系統(tǒng)設(shè)計(jì)有直接啟示：

"加個(gè) reranker"并不是免費(fèi)午餐。它在某些任務(wù)上確實(shí)能漲點(diǎn)，但在另一些任務(wù)上反而會(huì)成為系統(tǒng)的拖累。設(shè)計(jì)前必須做完整的端到端基準(zhǔn)測(cè)試。

發(fā)現(xiàn) 6：任務(wù)難度排序高度一致

C2T (0.59–0.78) > C2C (0.32–0.70) > T2C (0.33–0.44)

這個(gè)順序在所有 11 個(gè)模型上無一例外。T2C 的天花板遠(yuǎn)低于另外兩個(gè)任務(wù)，意味著"從自然語言到代碼"的檢索仍是當(dāng)前嵌入技術(shù)最薄弱的環(huán)節(jié)，也是潛在收益最大的研究方向之一。

六、Reranker 訓(xùn)練與評(píng)測(cè)：嚴(yán)格的 train-on-v2、test-on-v3 協(xié)議

我們不只發(fā)布數(shù)據(jù)集，也提供了完整的 reranker 訓(xùn)練/評(píng)測(cè)管線，希望幫助社區(qū)在統(tǒng)一協(xié)議下推進(jìn) cross-encoder 這一方向的研究：

步驟

輸出

規(guī)模

訓(xùn)練集構(gòu)建

v202602_v2 qrels

v202602_v2_reranker_train/3,803 條

測(cè)試集構(gòu)建

v202603_v2 qrels

v202603_v2_reranker_test/3,692 條

每條訓(xùn)練樣本帶有1 個(gè)正例 + 3 個(gè)硬負(fù)例 + 約 29 個(gè)易負(fù)例，覆蓋 T2C / C2T / C2C 三個(gè)任務(wù)。我們刻意保留了硬負(fù)例與易負(fù)例的混合比例，讓 reranker 既能學(xué)到細(xì)粒度區(qū)分，也能保持對(duì)全局語義結(jié)構(gòu)的穩(wěn)健性。

每條記錄的 schema 簡潔清晰：

{
  "query_id": "q_t2c_canonical_retro_any_0001",
  "task": "text2code",
  "subtask": "t2c_canonical_retro_any",
  "query": "...",
  "pos":      [{"id": "code_v202601_00009", "text": "..."}],
  "hard_neg": [{"id": "...", "text": "..."}, ...],
  "easy_neg": [{"id": "...", "text": "..."}, ...]
}

最關(guān)鍵的是：v202602 與 v202603 在 source_problem_id 層面完全不重疊。兩個(gè) release 覆蓋互不相交的競賽時(shí)間窗（Sep 2024–Jan 2025 vs Jan 2025–Apr 2025），從根本上杜絕了"在訓(xùn)練集上微調(diào)出測(cè)試集表現(xiàn)"的數(shù)據(jù)泄漏風(fēng)險(xiǎn)。

我們也觀察到：用 v202602_v2 訓(xùn)練得到的 reranker，在 v202603_v2 測(cè)試集上的 T2C / C2C 提升均能穩(wěn)定保持——這恰恰說明 CoREB 的訓(xùn)練信號(hào)是可遷移、可泛化的，而不是簡單的題目記憶。

七、面向社區(qū)開放：一行代碼即可使用

CoREB 的全部數(shù)據(jù)已在 HuggingFace 完全開源：

from datasets import load_dataset

 # 加載代碼語料庫
corpus  = load_dataset("hq-bench/coreb", "code_corpus",        split="release_v2603")

 # 加載 T2C 任務(wù)
queries = load_dataset("hq-bench/coreb", "text2code_queries",  split="release_v2603")
qrels   = load_dataset("hq-bench/coreb", "text2code_qrels",    split="release_v2603")

 # 也可以切換到 v202602 release（適合用于訓(xùn)練）
old_corpus  = load_dataset("hq-bench/coreb", "code_corpus",     split="release_v2602")
old_qrels   = load_dataset("hq-bench/coreb", "text2code_qrels", split="release_v2602")

8 個(gè) config（code/text 語料庫 + 三任務(wù)的 queries/qrels）× 2 個(gè) release 切片，覆蓋從語料庫、查詢到 qrel 的全部內(nèi)容。所有數(shù)據(jù)均為標(biāo)準(zhǔn) parquet 格式，元數(shù)據(jù)字段（如source_problem_id、language、model、solution_key）一應(yīng)俱全，方便做任意維度的切片分析。

八、給研究者和工程師的話

如果你正在做這些事情，CoREB 都能立刻為你帶來價(jià)值：

?嵌入模型訓(xùn)練：CoREB 提供高質(zhì)量的三級(jí)標(biāo)注，可直接作為 hard negative 來源；正負(fù)例都經(jīng)過測(cè)試用例真實(shí)驗(yàn)證，不需要擔(dān)心"標(biāo)簽噪聲"
?代碼搜索產(chǎn)品：T2C 的search子任務(wù)模擬了真實(shí)"無完美匹配"的檢索場景，是評(píng)估候選模型上線前的最佳壓力測(cè)試
?Reranker 研究：我們公開了完整的 train/test 協(xié)議、3,803 條訓(xùn)練樣本與 3,692 條測(cè)試樣本，開箱即用
?多語言代碼理解：C2C 任務(wù)覆蓋 5 種語言 × 175 道題，是研究跨語言代碼語義對(duì)齊的天然數(shù)據(jù)源
?可解釋性研究：C2T 上 LLM 生成的近似噪聲文本，可作為研究"模型如何區(qū)分功能性描述與表面相似描述"的探針
?模型選型：在你的業(yè)務(wù)上線前，先用 CoREB 對(duì)幾個(gè)候選模型做端到端對(duì)比——?jiǎng)e讓 leaderboard 的平均分蒙蔽你

九、我們相信的事

評(píng)測(cè)從來不是終點(diǎn)，而是研究方法論的起點(diǎn)。一個(gè)好的基準(zhǔn)應(yīng)該做到三件事：

1.暴露當(dāng)前 SOTA 的真實(shí)短板——而不是讓所有模型都看起來"差不多"
2.劃出清晰的研究方向——告訴社區(qū)接下來該把精力投向哪里
3.抵御作弊與污染——讓數(shù)字本身值得信任

CoREB 的目標(biāo)正是這三件事的合一。我們不希望它成為又一個(gè)"看起來很熱鬧"的榜單，而是希望它成為代碼語義檢索領(lǐng)域接下來幾年的事實(shí)標(biāo)準(zhǔn)之一——一個(gè)讓大家在同一個(gè)客觀、嚴(yán)格、不可作弊的舞臺(tái)上比較模型的公共基礎(chǔ)設(shè)施。

螞蟻集團(tuán)一直以來都在大規(guī)模代碼檢索、代碼理解、代碼生成的真實(shí)業(yè)務(wù)場景里持續(xù)投入。CoREB 是我們把這些場景中沉淀下來的方法論、痛點(diǎn)、與解決思路反哺社區(qū)的一個(gè)具體動(dòng)作。我們也希望以此為起點(diǎn)，與社區(qū)一同推動(dòng)代碼語義理解的研究前沿——從"看起來很好"推到"真的好用"。

如果你在閱讀中產(chǎn)生了任何想法、質(zhì)疑、或建議，歡迎在 HuggingFace 倉庫的 issue 區(qū)與我們交流。每一個(gè)真誠的反饋，都會(huì)讓 CoREB 變得更好。

出品方：螞蟻集團(tuán)
數(shù)據(jù)集：hq-bench/corebon HuggingFace
論文與最新榜單：持續(xù)更新中
歡迎在 issue 中提出問題、提出新任務(wù)、或加入更多模型的對(duì)比評(píng)測(cè)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.