本文由螞蟻集團(tuán)出品。 CoREB(Code Retrieval Embedding Benchmark)是螞蟻集團(tuán)圍繞"代碼語義檢索"方向所打造的開放式評(píng)測(cè)基準(zhǔn)。我們希望為整個(gè)社區(qū)提供一套干凈、嚴(yán)格、不可作弊、貼近真實(shí)工程場景的代碼嵌入模型測(cè)試集——讓"代碼模型到底好不好"這件事,從主觀感受走向可量化、可復(fù)現(xiàn)、可追蹤的實(shí)證科學(xué)。
![]()
CoREB 主視覺 一、為什么我們還需要一個(gè)新的代碼檢索基準(zhǔn)?
過去兩三年,代碼嵌入模型的發(fā)展節(jié)奏明顯加快。從通用方向的 Qwen3-Embedding、jina-embeddings-v4、embeddinggemma,到專注代碼的 jina-code-embeddings、C2LLM、F2LLM,參數(shù)量從 0.5B 一路飆升到 8B;訓(xùn)練數(shù)據(jù)動(dòng)輒上百億 token,對(duì)比學(xué)習(xí)的負(fù)例池也越鋪越大。模型卡上的指標(biāo)越刷越漂亮,論文里的折線圖越畫越陡峭,看起來"代碼檢索"這件事仿佛已經(jīng)被解決了。
然而當(dāng)我們把這些 SOTA 模型搬進(jìn)真實(shí)的"競賽級(jí)"代碼檢索場景里測(cè)試時(shí),卻發(fā)現(xiàn)一個(gè)令人尷尬的事實(shí):
現(xiàn)有基準(zhǔn)要么太簡單(同一份代碼改個(gè)變量名都能命中),要么太"作弊"(測(cè)試問題早被模型在預(yù)訓(xùn)練里見過)。
具體而言,社區(qū)現(xiàn)有的代碼檢索評(píng)測(cè)面臨三個(gè)深層痛點(diǎn):
痛點(diǎn)一:數(shù)據(jù)泄漏幾乎不可避免。主流模型在預(yù)訓(xùn)練時(shí)都接觸過 GitHub、LeetCode、Codeforces 等公共代碼源,許多"老牌"基準(zhǔn)的題目早就被模型背在了"參數(shù)記憶"里。這種情況下,模型在評(píng)測(cè)上的高分,到底是真的學(xué)會(huì)了語義檢索,還是單純做了記憶復(fù)現(xiàn)?沒人說得清。
痛點(diǎn)二:硬負(fù)例其實(shí)并不"硬"。不少基準(zhǔn)號(hào)稱用了 hard negative mining,但仔細(xì)看就會(huì)發(fā)現(xiàn),所謂"硬負(fù)例"往往只是來自完全無關(guān)問題的隨機(jī)抽樣。這種"假困難"——主題不同、詞匯分布不同、變量命名風(fēng)格也不同——對(duì)任何一個(gè)稍微合格的嵌入模型都不構(gòu)成挑戰(zhàn)。真正考驗(yàn)?zāi)P偷模悄切?strong>長得像、讀起來像、關(guān)鍵詞都一致、但功能上徹底錯(cuò)誤的代碼與文本。一個(gè)能在這種"語義陷阱"里站穩(wěn)腳跟的模型,才有資格被叫作"理解代碼"。
痛點(diǎn)三:評(píng)測(cè)粒度過粗,掩蓋了真實(shí)的能力差距。多數(shù)榜單只給出一個(gè)"平均分",把多個(gè)子任務(wù)的得分粗暴加權(quán)。結(jié)果就是:一些模型在簡單任務(wù)上拿滿分,在難任務(wù)上接近 0 分,但平均下來居然能進(jìn)前三。這種榜單不僅誤導(dǎo)研究方向,也誤導(dǎo)工程師在真實(shí)業(yè)務(wù)里的選型決策。
CoREB 就是為同時(shí)解決這三個(gè)痛點(diǎn)而生。我們的設(shè)計(jì)哲學(xué)可以用一句話概括:
讓"看起來能做對(duì)"的模型在 CoREB 上下不來臺(tái),讓"真的能做對(duì)"的模型在 CoREB 上拿到應(yīng)得的分?jǐn)?shù)。
CoREB 建立在 LiveCodeBench 最新發(fā)布的題庫之上,覆蓋175 道競賽真題、5 種主流編程語言(Python / C++ / Java / Go / Ruby)、上千條由強(qiáng)模型(Claude Sonnet 4.5、Gemini 3 Flash 等)實(shí)測(cè)驗(yàn)證過的高質(zhì)量查詢-代碼對(duì)。
![]()
CoREB 數(shù)據(jù)集構(gòu)建管線
整個(gè)數(shù)據(jù)集嚴(yán)格按照"競賽發(fā)布時(shí)間窗"切分訓(xùn)練與測(cè)試,v202602 與 v202603 兩個(gè) release 在題目層面完全互不重疊——前者覆蓋 2024 年 9 月至 2025 年 1 月的題目,后者覆蓋 2025 年 1 月至 4 月。這意味著任何在我們 reranker 訓(xùn)練集上看到過的題目,都絕對(duì)不會(huì)出現(xiàn)在測(cè)試集里。這一時(shí)間切分方案,從根源上排除了"在訓(xùn)練集上微調(diào)出測(cè)試集表現(xiàn)"的泄漏風(fēng)險(xiǎn)。
二、數(shù)據(jù)集一覽:規(guī)模、語言、模型一目了然
![]()
CoREB 數(shù)據(jù)集組成
![]()
語料庫與查詢的分布
v202603 釋出版本核心數(shù)字:
項(xiàng)目
規(guī)模
代碼語料庫
1,744
claude-sonnet-4-5 × 875 + gemini-3-flash × 869
文本語料庫
875
175 條原始題目描述 + 700 條 LLM 噪聲樣本
查詢總數(shù)
2,483
T2C 1,117 / C2T 1,200 / C2C 166
qrel 標(biāo)注總數(shù)
10,877
含 4,257 正例 + 6,620 硬負(fù)例(v2 graded)
覆蓋語言
5
Python / C++ / Java / Go / Ruby
覆蓋模型
2
Claude Sonnet 4.5 + Gemini 3 Flash
每個(gè)語言約 350 條代碼、每個(gè)生成模型約 875 條,分布均衡而干凈。所有代碼都已通過 LiveCodeBench 的測(cè)試用例真實(shí)執(zhí)行過,每條標(biāo)注都附帶 pass/fail 信息——這是我們后續(xù)構(gòu)建"硬負(fù)例"的基石。
更重要的是,CoREB 的所有數(shù)據(jù)100% 來自競賽題目的新發(fā)布窗口,沒有混入任何 Stack Overflow、GitHub 代碼片段、教程示例等來源易污染的語料。這是我們能宣稱"不可作弊"的核心保證之一。
三、三大任務(wù):覆蓋代碼語義映射的三個(gè)維度
CoREB 的核心結(jié)構(gòu)由三大任務(wù)組成,每個(gè)任務(wù)針對(duì)代碼-語義映射中的一個(gè)獨(dú)立維度:
任務(wù)
簡稱
輸入 → 輸出
難度
真實(shí)場景
文本到代碼
T2C
自然語言描述 → 代碼解
?????
自然語言代碼搜索、需求→代碼生成檢索
代碼到代碼
C2C
一種語言的解 → 另一種語言的等價(jià)解
???
跨語言代碼遷移、多語言代碼庫統(tǒng)一檢索
代碼到文本
C2T
代碼片段 → 對(duì)應(yīng)題目描述
??
代碼注釋生成、文檔對(duì)齊、可解釋性
T2C:最具挑戰(zhàn)的"憑描述找代碼"
T2C 是 CoREB 中最有挑戰(zhàn)、也最貼近真實(shí)工程需求的任務(wù)。它進(jìn)一步拆解為三個(gè)子任務(wù),對(duì)應(yīng)不同的工程語境:
?canonical_retro:查詢是規(guī)范化、抽象化后的題目意圖,類似"內(nèi)部技術(shù)文檔檢索"
?full_retro:查詢包含完整題目背景(含示例、約束、邊界條件),類似"用戶在搜索框輸入完整需求"
?search:查詢本身在語料庫里沒有完全對(duì)應(yīng)的題目,要求模型純靠語義泛化,類似"探索性代碼搜索"
search子任務(wù)的結(jié)果尤其值得反復(fù)琢磨:
![]()
T2C search 子任務(wù)上所有模型 nDCG 都接近零
所有 11 個(gè)被測(cè)模型的 nDCG@10 都接近 0(范圍 0.0008–0.023)。這不是模型壞了,而是說明當(dāng)我們抽掉"必須有完全匹配項(xiàng)"這條隱含拐杖之后,純語義檢索的能力距離我們想象中的"理解代碼"還有非常遠(yuǎn)的距離。
這一發(fā)現(xiàn)對(duì)工業(yè)界尤其重要:在真實(shí)業(yè)務(wù)場景里,用戶輸入的搜索詞與代碼庫內(nèi)的解幾乎從來不會(huì)字面對(duì)齊。如果一個(gè)模型只會(huì)做"精確題目匹配",那它能解決的也只是一小部分理想化場景。CoREB 的search子任務(wù),就是為了把這個(gè)潛在缺陷顯式量化出來。
T2C 的語言偏置:被忽視的真實(shí)問題
不同目標(biāo)語言下,模型表現(xiàn)的差異也相當(dāng)顯著:
![]()
T2C 不同語言難度梯度
any(不限語言)一致最高,python大多排第二,ruby與go則是大多數(shù)模型的最痛點(diǎn)。從 C2LLM-7B 的數(shù)據(jù)可以清晰看到:"any" 子任務(wù)能跑到 0.756,但java只剩 0.418——同一個(gè)模型、同一類查詢,僅因目標(biāo)語言不同就能拉開近一倍的差距。
這種語言偏置在工程上意味著什么?意味著你不能假設(shè)一個(gè)在 Python 上表現(xiàn)優(yōu)異的模型,到 Go 或 Ruby 上還能保持同樣水平。多語言代碼業(yè)務(wù)的同學(xué),必須按語言單獨(dú)評(píng)測(cè)后再做選型。
C2C:跨語言"功能等價(jià)"的判定
C2C 任務(wù)要求模型把一份 Python 代碼與其 Java/Go/C++/Ruby 版本對(duì)應(yīng)起來,它考察的是模型能否抽象出"算法意圖"這一層語義,而非被表面語法迷惑:
![]()
C2C 跨語言檢索熱力圖
C2C 還揭示了一個(gè)非常有意思的現(xiàn)象:所有模型在 nDCG@1 上都會(huì)拿到 0 分——因?yàn)椴樵冏陨淼拇a也在語料庫里(這是真實(shí)跨語言搜索場景的還原),且總是被排在第一位。
這并不是模型失敗,而是基準(zhǔn)設(shè)計(jì)本身的"誠實(shí)"反映:在真實(shí)的跨語言檢索里,"找到自己"是一種與"找到翻譯"截然不同的行為,是預(yù)期之內(nèi)的。我們用 nDCG@10 這種更寬容的指標(biāo)來評(píng)測(cè) C2C,正是為了避免這種結(jié)構(gòu)性"零分"扭曲整體判斷。
C2T:相對(duì)簡單但暗藏陷阱
C2T 表面上是最簡單的——給一段代碼,找回它的題目描述。但 v2 版本在語料庫里加入了LLM 生成的同題噪聲文本作為 rel=1 硬負(fù)例。這些噪聲文本由 gemini-2.5-flash 生成、經(jīng)過 gpt-4o 二次清洗,主題貼合、句式自然、術(shù)語正確,唯獨(dú)"不是真正的題目描述"。
結(jié)果顯示,即便是最好的模型(Gemini-Embedding-2-preview, 0.7841)也距離"完美命中"還有相當(dāng)差距——這正是噪聲文本在悄悄拉低分?jǐn)?shù)。這種"功能性區(qū)分"恰恰是 CoREB 的核心評(píng)測(cè)哲學(xué):讓模型證明自己不是被表面相似性誤導(dǎo),而是真的看懂了語義。
四、三級(jí)分級(jí)標(biāo)注:讓"硬負(fù)例"成為評(píng)測(cè)的靈魂
傳統(tǒng)檢索基準(zhǔn)只有"相關(guān) / 不相關(guān)"二元判定。CoREB 引入了三級(jí)分級(jí) qrel方案,讓每一條標(biāo)注都承載更多語義信息:
級(jí)別
含義(按任務(wù))
rel=2正例
T2C: 同題且通過全部測(cè)試的代碼;C2T: 該題真正的描述文本;C2C: 正確的跨語言翻譯
rel=1硬負(fù)例
T2C: 同題但未通過測(cè)試的相似代碼;C2T: LLM 生成的同題/近題噪聲文本;C2C: 失敗的翻譯或被子任務(wù)排除的解
缺席
易負(fù)例
與查詢無關(guān);僅在訓(xùn)練 reranker 時(shí)隨機(jī)抽樣
這個(gè)設(shè)計(jì)的關(guān)鍵點(diǎn)在于:rel=1 的條目仍然留在語料庫中,它們不是被"剔除"的,而是被"標(biāo)記"的。在評(píng)測(cè)時(shí)設(shè)relevance_level=2,rel=1 條目就成了高度迷惑性的"語料庫內(nèi)陷阱"——它們與查詢主題完全一致、詞匯高度重合,一旦被模型排到正例前面就會(huì)立刻拖低 nDCG。
![]()
硬負(fù)例引入后對(duì)評(píng)測(cè)指標(biāo)的"通脹壓縮"效應(yīng)
上圖清晰展示了 v2 graded qrel 對(duì)評(píng)測(cè)分?jǐn)?shù)的"通脹壓縮"效應(yīng)——從 v1 二元方案到 v2 三級(jí)方案,幾乎所有模型的 nDCG@10 都下降了 10–15 個(gè)百分點(diǎn),這正是"假困難"被替換成"真困難"后該有的結(jié)果。壓縮后的分?jǐn)?shù),才更貼近模型在工業(yè)場景下的真實(shí)戰(zhàn)斗力。
v202603_v2 qrel 規(guī)模:
任務(wù)
正例 (rel=2)
硬負(fù)例 (rel=1)
合計(jì)
T2C
2,814
3,136
5,950
C2T
820
2,650
3,470
C2C
623
834
1,457
總計(jì)4,2576,62010,877
也就是說,硬負(fù)例的數(shù)量與正例相當(dāng)甚至更多。這種設(shè)計(jì)讓 CoREB 真正反映模型區(qū)分"語義近似但功能錯(cuò)誤"的能力——這恰好是工業(yè)代碼搜索最在乎的一點(diǎn)。一個(gè)能在 CoREB 上拿高分的模型,必須真正理解"這段代碼在做對(duì)的事",而不只是"這段代碼在談對(duì)的話題"。
五、最新評(píng)測(cè)榜單:來自 11 個(gè)主流模型的故事
我們?cè)?v202603_v2 上完成了 11 個(gè)主流嵌入模型的完整評(píng)測(cè),每一個(gè)數(shù)字都對(duì)應(yīng)一份開放的 result JSON:
![]()
模型總體對(duì)比
![]()
三任務(wù) nDCG@10 橫向?qū)Ρ?br/>
Rank
模型
參數(shù)量
Avg
T2C
C2C
C2T
1
gemini-embedding-2-preview
API
2
C2LLM-7B
7B
3
jina-code-embeddings-1.5b
1.5B
4
C2LLM-0.5B
0.5B
5
jina-code-embeddings-0.5b
0.5B
6
F2LLM-4B
4B
7
Qwen3-Embedding-4B
4B
8
F2LLM-1.7B
1.7B
9
Qwen3-Embedding-0.6B
0.6B
10
F2LLM-0.6B
0.6B
11
Qwen3-Embedding-8B
8B
從這張表里,我們能讀出若干反直覺的故事。每一個(gè)都對(duì)應(yīng)一條值得社區(qū)認(rèn)真討論的研究方向。
發(fā)現(xiàn) 1:通用大模型未必贏——代碼這件事有它自己的語義結(jié)構(gòu)
榜首 Gemini-Embedding-2-preview 平均成績最高,但它在T2C上反而被參數(shù)量小得多的 C2LLM-7B 超越(0.4432 vs 0.4336)。考慮到 Gemini-Embedding 背后是 Google 頂級(jí)的預(yù)訓(xùn)練模型與海量訓(xùn)練數(shù)據(jù),這一結(jié)果說明:
"代碼這件事"仍然有它獨(dú)立的語義結(jié)構(gòu),不是用更大的通用語料就能完全覆蓋。
針對(duì)代碼場景做專門的對(duì)比學(xué)習(xí)目標(biāo)、加入功能正確性約束、用執(zhí)行結(jié)果做監(jiān)督信號(hào)——這些專門設(shè)計(jì)的價(jià)值,目前看仍然大于"無腦堆參數(shù)"。
發(fā)現(xiàn) 2:小模型用代碼專精換性能——參數(shù)效率新范式
![]()
參數(shù)效率:性能 vs 參數(shù)量
jina-code-embeddings-0.5B(0.5962)力壓 Qwen3-Embedding-8B(0.4277),16 倍參數(shù)差距下反而領(lǐng)先 17 個(gè)百分點(diǎn)。這是給所有在意延遲、顯存與部署成本的工程團(tuán)隊(duì)的一個(gè)強(qiáng)烈信號(hào):針對(duì)代碼場景做專門訓(xùn)練,勝過盲目堆參數(shù)。
對(duì)一線工程師來說,這條發(fā)現(xiàn)意味著:
? 部署 0.5B 的代碼專用模型,延遲可能只有 8B 通用模型的 1/10,效果卻更好
? 在 GPU 資源緊張的邊緣場景,代碼專精方向是顯著劃算的
? 選型時(shí)不要被"參數(shù)量"或"通用 leaderboard 排名"帶偏,必須用與你業(yè)務(wù)場景同構(gòu)的基準(zhǔn)做實(shí)測(cè)
Qwen3 系列展現(xiàn)了非常詭異的非單調(diào)縮放:
? Qwen3-0.6B:C2C nDCG@10 = 0.3836
? Qwen3-4B:C2C nDCG@10 =0.3917(僅微漲)
? Qwen3-8B:C2C nDCG@10 =0.3204(反向下跌)
8B 模型在跨語言代碼檢索上比 0.6B 還差——這種"中段塌陷"在通用文本檢索任務(wù)里幾乎不會(huì)出現(xiàn),但在代碼任務(wù)里卻頻繁可見。可能的原因包括:訓(xùn)練數(shù)據(jù)中代碼占比下降、對(duì)比學(xué)習(xí)溫度參數(shù)與負(fù)例池規(guī)模的微妙不匹配、或是模型容量過剩導(dǎo)致的過擬合。這是一個(gè)值得整個(gè)社區(qū)深入研究的現(xiàn)象。
發(fā)現(xiàn) 4:子任務(wù)粒度才是真相——總分會(huì)撒謊
![]()
子任務(wù)級(jí)別細(xì)粒度對(duì)比
總分掩蓋了許多細(xì)節(jié)。從子任務(wù)級(jí)別可以看到,不同模型的強(qiáng)項(xiàng)分布迥異——有的擅長 retro 重檢索,有的擅長 search 泛化,有的在 cross-lang 跨語言任務(wù)上一騎絕塵,有的則在 match 子任務(wù)上表現(xiàn)穩(wěn)定。
沒有真正的"全能選手"。這就是為什么 CoREB 堅(jiān)持發(fā)布所有子任務(wù)的細(xì)粒度結(jié)果——我們希望讓工程師在選型時(shí),能精準(zhǔn)對(duì)位自己的業(yè)務(wù)場景,而不是被"平均分"誤導(dǎo)。
發(fā)現(xiàn) 5:reranker 不是萬能補(bǔ)丁
我們額外測(cè)試了 reranker 在 4 個(gè)代表性模型上的效果:
![]()
Reranker 對(duì)三任務(wù)帶來的 nDCG 增量
?C2T 任務(wù)上 reranker 持續(xù)拖累性能(?0.042 到 ?0.079)。原因是 C2T 的語料庫較小(僅 875 條),cross-encoder 反而容易被噪聲文本"過度評(píng)分"
?C2C 任務(wù)上 reranker 大多有幫助(+0.005 到 +0.046)。cross-encoder 在跨語言細(xì)粒度區(qū)分上確實(shí)更強(qiáng)
?T2C 任務(wù)上 reranker 幾乎不動(dòng)(?0.009 到 +0.015)。任務(wù)難度過高,單層 reranker 難以撬動(dòng)
這個(gè)結(jié)果對(duì)工業(yè)系統(tǒng)設(shè)計(jì)有直接啟示:
"加個(gè) reranker"并不是免費(fèi)午餐。它在某些任務(wù)上確實(shí)能漲點(diǎn),但在另一些任務(wù)上反而會(huì)成為系統(tǒng)的拖累。設(shè)計(jì)前必須做完整的端到端基準(zhǔn)測(cè)試。發(fā)現(xiàn) 6:任務(wù)難度排序高度一致
C2T (0.59–0.78) > C2C (0.32–0.70) > T2C (0.33–0.44)
這個(gè)順序在所有 11 個(gè)模型上無一例外。T2C 的天花板遠(yuǎn)低于另外兩個(gè)任務(wù),意味著"從自然語言到代碼"的檢索仍是當(dāng)前嵌入技術(shù)最薄弱的環(huán)節(jié),也是潛在收益最大的研究方向之一。
六、Reranker 訓(xùn)練與評(píng)測(cè):嚴(yán)格的 train-on-v2、test-on-v3 協(xié)議
我們不只發(fā)布數(shù)據(jù)集,也提供了完整的 reranker 訓(xùn)練/評(píng)測(cè)管線,希望幫助社區(qū)在統(tǒng)一協(xié)議下推進(jìn) cross-encoder 這一方向的研究:
步驟
輸出
規(guī)模
訓(xùn)練集構(gòu)建
v202602_v2 qrels
v202602_v2_reranker_train/3,803 條
測(cè)試集構(gòu)建
v202603_v2 qrels
v202603_v2_reranker_test/3,692 條
每條訓(xùn)練樣本帶有1 個(gè)正例 + 3 個(gè)硬負(fù)例 + 約 29 個(gè)易負(fù)例,覆蓋 T2C / C2T / C2C 三個(gè)任務(wù)。我們刻意保留了硬負(fù)例與易負(fù)例的混合比例,讓 reranker 既能學(xué)到細(xì)粒度區(qū)分,也能保持對(duì)全局語義結(jié)構(gòu)的穩(wěn)健性。
每條記錄的 schema 簡潔清晰:
{
"query_id": "q_t2c_canonical_retro_any_0001",
"task": "text2code",
"subtask": "t2c_canonical_retro_any",
"query": "...",
"pos": [{"id": "code_v202601_00009", "text": "..."}],
"hard_neg": [{"id": "...", "text": "..."}, ...],
"easy_neg": [{"id": "...", "text": "..."}, ...]
}最關(guān)鍵的是:v202602 與 v202603 在 source_problem_id 層面完全不重疊。兩個(gè) release 覆蓋互不相交的競賽時(shí)間窗(Sep 2024–Jan 2025 vs Jan 2025–Apr 2025),從根本上杜絕了"在訓(xùn)練集上微調(diào)出測(cè)試集表現(xiàn)"的數(shù)據(jù)泄漏風(fēng)險(xiǎn)。
我們也觀察到:用 v202602_v2 訓(xùn)練得到的 reranker,在 v202603_v2 測(cè)試集上的 T2C / C2C 提升均能穩(wěn)定保持——這恰恰說明 CoREB 的訓(xùn)練信號(hào)是可遷移、可泛化的,而不是簡單的題目記憶。
七、面向社區(qū)開放:一行代碼即可使用
CoREB 的全部數(shù)據(jù)已在 HuggingFace 完全開源:
from datasets import load_dataset
# 加載代碼語料庫
corpus = load_dataset("hq-bench/coreb", "code_corpus", split="release_v2603")
# 加載 T2C 任務(wù)
queries = load_dataset("hq-bench/coreb", "text2code_queries", split="release_v2603")
qrels = load_dataset("hq-bench/coreb", "text2code_qrels", split="release_v2603")# 也可以切換到 v202602 release(適合用于訓(xùn)練)
old_corpus = load_dataset("hq-bench/coreb", "code_corpus", split="release_v2602")
old_qrels = load_dataset("hq-bench/coreb", "text2code_qrels", split="release_v2602")
8 個(gè) config(code/text 語料庫 + 三任務(wù)的 queries/qrels)× 2 個(gè) release 切片,覆蓋從語料庫、查詢到 qrel 的全部內(nèi)容。所有數(shù)據(jù)均為標(biāo)準(zhǔn) parquet 格式,元數(shù)據(jù)字段(如source_problem_id、language、model、solution_key)一應(yīng)俱全,方便做任意維度的切片分析。
八、給研究者和工程師的話
如果你正在做這些事情,CoREB 都能立刻為你帶來價(jià)值:
?嵌入模型訓(xùn)練:CoREB 提供高質(zhì)量的三級(jí)標(biāo)注,可直接作為 hard negative 來源;正負(fù)例都經(jīng)過測(cè)試用例真實(shí)驗(yàn)證,不需要擔(dān)心"標(biāo)簽噪聲"
?代碼搜索產(chǎn)品:T2C 的
search子任務(wù)模擬了真實(shí)"無完美匹配"的檢索場景,是評(píng)估候選模型上線前的最佳壓力測(cè)試?Reranker 研究:我們公開了完整的 train/test 協(xié)議、3,803 條訓(xùn)練樣本與 3,692 條測(cè)試樣本,開箱即用
?多語言代碼理解:C2C 任務(wù)覆蓋 5 種語言 × 175 道題,是研究跨語言代碼語義對(duì)齊的天然數(shù)據(jù)源
?可解釋性研究:C2T 上 LLM 生成的近似噪聲文本,可作為研究"模型如何區(qū)分功能性描述與表面相似描述"的探針
?模型選型:在你的業(yè)務(wù)上線前,先用 CoREB 對(duì)幾個(gè)候選模型做端到端對(duì)比——?jiǎng)e讓 leaderboard 的平均分蒙蔽你
評(píng)測(cè)從來不是終點(diǎn),而是研究方法論的起點(diǎn)。一個(gè)好的基準(zhǔn)應(yīng)該做到三件事:
1.暴露當(dāng)前 SOTA 的真實(shí)短板——而不是讓所有模型都看起來"差不多"
2.劃出清晰的研究方向——告訴社區(qū)接下來該把精力投向哪里
3.抵御作弊與污染——讓數(shù)字本身值得信任
CoREB 的目標(biāo)正是這三件事的合一。我們不希望它成為又一個(gè)"看起來很熱鬧"的榜單,而是希望它成為代碼語義檢索領(lǐng)域接下來幾年的事實(shí)標(biāo)準(zhǔn)之一——一個(gè)讓大家在同一個(gè)客觀、嚴(yán)格、不可作弊的舞臺(tái)上比較模型的公共基礎(chǔ)設(shè)施。
螞蟻集團(tuán)一直以來都在大規(guī)模代碼檢索、代碼理解、代碼生成的真實(shí)業(yè)務(wù)場景里持續(xù)投入。CoREB 是我們把這些場景中沉淀下來的方法論、痛點(diǎn)、與解決思路反哺社區(qū)的一個(gè)具體動(dòng)作。我們也希望以此為起點(diǎn),與社區(qū)一同推動(dòng)代碼語義理解的研究前沿——從"看起來很好"推到"真的好用"。
如果你在閱讀中產(chǎn)生了任何想法、質(zhì)疑、或建議,歡迎在 HuggingFace 倉庫的 issue 區(qū)與我們交流。每一個(gè)真誠的反饋,都會(huì)讓 CoREB 變得更好。
出品方:螞蟻集團(tuán)
數(shù)據(jù)集:hq-bench/corebon HuggingFace
論文與最新榜單:持續(xù)更新中
歡迎在 issue 中提出問題、提出新任務(wù)、或加入更多模型的對(duì)比評(píng)測(cè)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.