无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北航、上海交大等頂尖高校聯(lián)手攻克AI訓(xùn)練數(shù)據(jù)難題

0
分享至


這項(xiàng)由北京航空航天大學(xué)、上海交通大學(xué)、不列顛哥倫比亞大學(xué)、IQuest Research及瀾舟科技共同完成的研究,以預(yù)印本形式于2026年5月發(fā)布在arXiv平臺,論文編號為arXiv:2605.30288。感興趣的讀者可通過該編號查閱完整論文。

**一個繞不開的問題:喂給AI的食材,到底該怎么挑?**

要理解這項(xiàng)研究解決的問題,可以先考慮這樣一個場景:你是一位廚師,正在為一場超級重要的宴席備菜。倉庫里堆滿了食材——有新鮮蔬菜、腌制肉類、調(diào)味料包、速食半成品、甚至還有一些食譜文本和烹飪教學(xué)視頻的文字稿。你沒有時間用完所有食材,必須精挑細(xì)選,但問題是:菜式五花八門,評判蔬菜新鮮度的標(biāo)準(zhǔn)根本沒法用來判斷腌肉夠不夠入味,更沒法用來衡量食譜文字寫得好不好。

這個"挑食材"的困境,正是當(dāng)今大語言模型(AI大腦)開發(fā)者每天面臨的現(xiàn)實(shí)問題。

現(xiàn)代AI大模型的成長分三個階段。第一階段叫"預(yù)訓(xùn)練",相當(dāng)于讓AI海量閱讀網(wǎng)上的一切文字,建立基礎(chǔ)的語言認(rèn)知。第三階段叫"后訓(xùn)練"或"指令微調(diào)",相當(dāng)于手把手教AI怎么禮貌地回答問題、如何遵從用戶的指令。而夾在中間、越來越被重視的第二階段,就是這篇論文聚焦的"中間訓(xùn)練"(Mid-training)。

中間訓(xùn)練的任務(wù)很特別:它保留了第一階段那種大規(guī)模、海量數(shù)據(jù)的訓(xùn)練方式,但同時開始有意識地強(qiáng)化特定能力,比如寫代碼、做數(shù)學(xué)推理、理解超長文檔、使用工具完成復(fù)雜任務(wù)等。更重要的是,它使用的數(shù)據(jù)來源極其多樣——既有像網(wǎng)頁文章一樣的純文字,也有問答對、推理鏈、工具調(diào)用日志,還有多輪對話的代理操作軌跡。這就好比備菜倉庫里同時存放著生鮮、半成品和調(diào)料,評判標(biāo)準(zhǔn)怎么可能統(tǒng)一?

**一、現(xiàn)有方法為何在這個戰(zhàn)場上"水土不服"**

為了挑出高質(zhì)量的訓(xùn)練數(shù)據(jù),研究人員此前已有兩大類工具可用。

第一類是"預(yù)訓(xùn)練派"的工具,比如用模型的困惑度(perplexity,可以理解為"模型讀到這段話時有多懵")來評分,或者用數(shù)據(jù)重要性重采樣的方法來匹配目標(biāo)數(shù)據(jù)分布。這類工具的優(yōu)勢是快、便宜、能處理海量數(shù)據(jù)。缺點(diǎn)是它們依賴的是模型自身的統(tǒng)計(jì)感覺,并不真正理解"這道題的解法寫對了嗎"或"這個工具調(diào)用合理嗎"——它們只是在隱隱感覺哪段數(shù)據(jù)"看起來正常"。

第二類是"后訓(xùn)練派"的工具,比如人工定義質(zhì)量評判標(biāo)準(zhǔn)、用另一個AI模型當(dāng)裁判打分、或者訓(xùn)練一個專門的打分模型。這類工具語義理解能力強(qiáng),能真正判斷內(nèi)容好不好。缺點(diǎn)是它們通常假設(shè)所有數(shù)據(jù)都遵循類似的格式,用統(tǒng)一的標(biāo)準(zhǔn)評判一切——這對中間訓(xùn)練的多樣化數(shù)據(jù)來說,就像用同一把刻度尺去量蘋果的甜度、湯的咸度和音樂的節(jié)奏感,根本驢唇不對馬嘴。

以論文中分析的一個典型例子來說:DataMan是一個廣受認(rèn)可的通用質(zhì)量打分工具,但它無法處理超長的代理操作軌跡(因?yàn)槌隽怂O(shè)計(jì)時預(yù)設(shè)的輸入長度),導(dǎo)致在需要覆蓋這類數(shù)據(jù)的場景下,這個工具直接"罷工"了。更別說,即便它能處理這些數(shù)據(jù),它的評判維度也是為通用文本設(shè)計(jì)的,根本不知道"工具調(diào)用時JSON格式是否正確"這件事有多重要。

正是這個裂縫——要么能擴(kuò)展但語義盲目,要么語義精準(zhǔn)但無法擴(kuò)展——催生了這篇論文提出的解決方案。

**二、MIRA的核心思路:讓評委先搞清楚自己在評什么**

研究團(tuán)隊(duì)將他們的方法命名為MIRA,全稱是"中間訓(xùn)練錨定評分的數(shù)據(jù)來源感知篩選框架"。核心哲學(xué)可以用一句話概括:**評判標(biāo)準(zhǔn)本身應(yīng)該是被發(fā)現(xiàn)的,而不是被強(qiáng)加的。**

回到廚師備菜的比喻。MIRA的做法不是讓一個萬能裁判拿著同一份評分表走遍整個倉庫,而是先把倉庫里的食材按大類分組——蔬菜歸一堆、肉類歸一堆、調(diào)料歸一堆——然后針對每一組,專門找對應(yīng)的行家來定制評判維度:評蔬菜的行家會關(guān)注新鮮程度、含水量和農(nóng)藥殘留;評肉類的行家會關(guān)注腌制是否均勻、保質(zhì)期是否達(dá)標(biāo);評調(diào)料的行家則會關(guān)注濃度和香氣。最后,再根據(jù)這些定制評分訓(xùn)練出各組專屬的"快速審核員",讓他們以極低成本處理倉庫里的海量食材。

具體來說,MIRA的工作流程分為四大步驟,每一步都環(huán)環(huán)相扣,形成一個完整的篩選流水線。

**三、第一步:給數(shù)據(jù)"分家",讓相似的數(shù)據(jù)坐在一起**

中間訓(xùn)練數(shù)據(jù)庫里有21個不同的數(shù)據(jù)來源,包含數(shù)學(xué)推理鏈、代碼問答對、算法文檔、工具調(diào)用日志、軟件工程修復(fù)軌跡等形形色色的內(nèi)容。MIRA做的第一件事,是用一種叫"內(nèi)容嵌入相似度"的技術(shù)——可以理解為把每份數(shù)據(jù)轉(zhuǎn)換成一個能代表其含義的數(shù)字向量,然后看哪些數(shù)據(jù)的向量靠得更近——把21個來源聚合成5個大組。

這5個大組分別是:數(shù)學(xué)推理類問答(包含5個子來源)、代碼通用類問答(包含5個子來源)、代碼文檔文本類(包含3個子來源)、工具調(diào)用代理類(包含5個子來源),以及軟件工程修復(fù)代理類(包含3個子來源)。每個組內(nèi)的數(shù)據(jù)共享相似的能力主題和數(shù)據(jù)格式,這是后續(xù)定制評判維度的基礎(chǔ)。

這種分組有個巧妙之處:它不是人工拍腦袋分的,而是讓數(shù)據(jù)的內(nèi)容本身說了算。相互靠近的數(shù)據(jù)來源被歸在一組,不管研究者最初是否預(yù)期它們屬于同一類。

**四、第二步:請"頂級裁判"自由發(fā)揮,看它真正在意什么**

完成分組之后,MIRA進(jìn)入了最關(guān)鍵也最有創(chuàng)意的一步:**讓頂級AI評委(論文中稱為"前沿教師模型",使用的是Kimi-K2.6)自由說出它對每組數(shù)據(jù)的質(zhì)量判斷。**

怎么個"自由"法?研究團(tuán)隊(duì)從每個組里隨機(jī)抽取一批樣本,然后把這些樣本喂給Kimi-K2.6,并告訴它:"你來評價(jià)這些數(shù)據(jù),質(zhì)量好不好,好在哪里,差在哪里,你自己決定從哪些維度來看,不用參考任何預(yù)設(shè)框架。"

這個設(shè)計(jì)的精髓在于:與其讓研究者預(yù)先假設(shè)"對于代理軌跡數(shù)據(jù),我們應(yīng)該看這五個維度",不如直接問頂級評委:"你在評價(jià)這類數(shù)據(jù)時,實(shí)際上關(guān)注的是什么?"這樣得到的評判維度,是從數(shù)據(jù)本身的特性中自然浮現(xiàn)出來的,而不是從作者的直覺中強(qiáng)加的。

Kimi-K2.6對每條樣本數(shù)據(jù)都會輸出一套自選的15個質(zhì)量維度,每個維度配有分?jǐn)?shù)(0到10分)和一句話說明理由。于是,每個數(shù)據(jù)大組就積累了大量這樣的"自由評判結(jié)果"。

接下來,研究團(tuán)隊(duì)對這些自由評判結(jié)果做了一次"歸納總結(jié)"。每個評判結(jié)果被拆解成一個個"判斷點(diǎn)"——每個判斷點(diǎn)是一對(維度名稱,評判理由)。然后,對同一組內(nèi)所有的判斷點(diǎn)做聚類分析,把意思相近的維度歸到一堆,從每堆中挑出最靠近中心、最有代表性的那個作為"錨點(diǎn)維度"。最終,每個大組都得到了15個錨點(diǎn)維度,構(gòu)成該組數(shù)據(jù)專屬的評判框架,論文稱之為"錨定評分準(zhǔn)則"(Anchor Rubric)。

這個過程有點(diǎn)像開會前先做頭腦風(fēng)暴,讓每個人自由發(fā)言,然后統(tǒng)計(jì)哪些關(guān)鍵詞被反復(fù)提到,最后提煉出幾條真正被大家認(rèn)可的核心議題。不同的是,"每個人"其實(shí)都是同一個頂級AI,而"頭腦風(fēng)暴"的對象是千萬條真實(shí)訓(xùn)練數(shù)據(jù)。

**五、第三步:用"錨定準(zhǔn)則"大批量打分,再訓(xùn)練各組專屬的"廉價(jià)替代"**

有了每個組的錨定評分準(zhǔn)則,下一步就是用它來正式給數(shù)據(jù)打分。研究團(tuán)隊(duì)再次請出Kimi-K2.6,但這次不讓它自由發(fā)揮了——它只需要按照該組的15個固定維度,對更大批量的樣本數(shù)據(jù)逐一打分并給出理由。這次打分產(chǎn)生了超過200萬條帶有結(jié)構(gòu)化評分標(biāo)簽的數(shù)據(jù)記錄。

然而,即便是超高速的前沿模型,也無法以可接受的成本對數(shù)億條訓(xùn)練數(shù)據(jù)逐一評分。這就是"學(xué)生蒸餾"(Student Distillation)這一步的用武之地。

研究團(tuán)隊(duì)將Kimi-K2.6打分的200萬條記錄(一部分用于訓(xùn)練,一部分留作驗(yàn)證)用來訓(xùn)練5個體型更小、運(yùn)行更快的專屬"學(xué)生模型",每個大組一個學(xué)生模型。選用的學(xué)生模型基礎(chǔ)架構(gòu)是Qwen3.5-35B-A3B-Base——這是一個混合專家架構(gòu)的模型,總參數(shù)量約350億,但每次處理文本時只激活約30億個參數(shù),因此運(yùn)行成本遠(yuǎn)低于全量激活的大模型。

訓(xùn)練完成后,這5個學(xué)生模型就能以極低成本對海量數(shù)據(jù)批量打分,輸出格式與教師模型完全一致:每條數(shù)據(jù)對應(yīng)15個維度的評分加上理由。這就是"廉價(jià)替代"的精髓——用頂級評委的標(biāo)準(zhǔn)訓(xùn)練廉價(jià)助手,讓廉價(jià)助手做重復(fù)性的大規(guī)模工作。

**六、第四步:"可靠性篩查"確保打分靠譜,最后按組精準(zhǔn)留人**

完成大規(guī)模打分后,MIRA并不是簡單地把15個維度的分?jǐn)?shù)加起來平均。研究團(tuán)隊(duì)還專門設(shè)計(jì)了一道"質(zhì)量把關(guān)"機(jī)制,稱為"來源條件可靠性聚合"。

為什么需要這道關(guān)卡?因?yàn)榧幢銓W(xué)生模型訓(xùn)練得再好,也可能在某些數(shù)據(jù)來源和某些評分維度的交叉點(diǎn)上出現(xiàn)系統(tǒng)性偏差。比如,對于代碼庫修復(fù)類數(shù)據(jù),"代碼引用準(zhǔn)確性"這個維度需要學(xué)生模型將代碼中的工具調(diào)用與實(shí)際文件系統(tǒng)狀態(tài)對應(yīng)起來,但學(xué)生模型無法看到實(shí)際的文件系統(tǒng),因此這個維度的打分先天就不可靠。

研究團(tuán)隊(duì)的做法是:在驗(yàn)證集上計(jì)算每個(數(shù)據(jù)來源,評分維度)組合的"教師-學(xué)生分?jǐn)?shù)一致性",用平均絕對誤差(MAE,可以理解為"學(xué)生評分與老師評分平均差了多少分")和斯皮爾曼相關(guān)系數(shù)(衡量兩組分?jǐn)?shù)的排名是否一致)兩個指標(biāo)來衡量。如果某個組合的差異超過了閾值(論文中設(shè)定為1分,滿分10分),就把這個組合標(biāo)記為"不可靠",在最終聚合打分時直接忽略這個維度的得分。

這里有一個巧妙的設(shè)計(jì)細(xì)節(jié):這種屏蔽是在打分之后、聚合之前進(jìn)行的"事后處理",而不是在讓學(xué)生模型打分時就去掉這些維度。原因是:如果在輸入給學(xué)生模型的提示詞里刪掉某個維度,會改變剩余維度的打分分布(因?yàn)槟P偷淖⒁饬蜕舷挛母兄獣l(fā)生變化),造成不可控的偏差。而在聚合階段才做屏蔽,既保證了每條數(shù)據(jù)打分時的一致性,又避免了不可靠維度污染最終結(jié)果。

在21個數(shù)據(jù)來源、每組15個維度的框架下,研究共識別出37個不可靠的(來源,維度)組合,占全部315個組合的約12%。這些被屏蔽的組合集中在幾個規(guī)律性的模式上:在數(shù)學(xué)推理類數(shù)據(jù)中,"技術(shù)精確性"這個維度在多個來源上都被標(biāo)記為不可靠;在工具調(diào)用代理類數(shù)據(jù)中,"代碼引用準(zhǔn)確性"和"錯誤恢復(fù)能力"這兩個維度是主要麻煩制造者;在文檔文本類數(shù)據(jù)中,"格式規(guī)范性"相關(guān)的維度出現(xiàn)了較高的不一致性。

完成可靠性屏蔽和分?jǐn)?shù)聚合之后,每條數(shù)據(jù)都有了一個經(jīng)過校準(zhǔn)的綜合質(zhì)量分?jǐn)?shù)。最后一步是根據(jù)這些分?jǐn)?shù)篩選出最終的訓(xùn)練數(shù)據(jù)集。MIRA在這里提供了三種不同粒度的篩選策略,對應(yīng)表格中的三個變體。

MIRA-Global是最簡單粗暴的策略:從整個打過分的語料庫里,直接選出分?jǐn)?shù)最高的前50%數(shù)據(jù),不管數(shù)據(jù)來自哪個來源或哪個組。這種方式能選出絕對高分的數(shù)據(jù),但容易出現(xiàn)"本來就得分偏高的組被過度代表"的問題。MIRA-Group是按能力大組分別設(shè)定篩選閾值,組內(nèi)競爭、組間配額,既保證了每個能力方向都有足夠代表,也允許高質(zhì)量來源在組內(nèi)脫穎而出。MIRA-Source則是更細(xì)粒度的策略,在每一個具體數(shù)據(jù)來源內(nèi)部分別篩選,最大程度保留來源多樣性,但當(dāng)某個來源的數(shù)據(jù)量較小或打分噪聲較大時,這種策略可能變得不穩(wěn)定。研究團(tuán)隊(duì)將MIRA-Group定為"默認(rèn)推薦"策略,認(rèn)為它在能力覆蓋和評分穩(wěn)定性之間找到了最好的平衡點(diǎn)。

**七、實(shí)驗(yàn)驗(yàn)證:在9個代碼評測上"半價(jià)完成滿價(jià)任務(wù)"**

研究團(tuán)隊(duì)選擇了代碼能力強(qiáng)化作為驗(yàn)證場景。原因很直接:代碼數(shù)據(jù)涵蓋了最典型的異構(gòu)中間訓(xùn)練數(shù)據(jù)——既有靜態(tài)的代碼文檔,也有動態(tài)的代碼問答對,還有復(fù)雜的代理工具調(diào)用軌跡,質(zhì)量判斷標(biāo)準(zhǔn)完全不同。而且代碼能力有明確可量化的評測基準(zhǔn),便于比較。

實(shí)驗(yàn)基礎(chǔ)模型選用了Qwen2.5-Coder-14B,這是一個專門針對代碼任務(wù)的140億參數(shù)模型。所有實(shí)驗(yàn)都在Megatron-LM分布式訓(xùn)練框架下進(jìn)行,使用128K上下文長度和BF16精度。中間訓(xùn)練完成后,所有模型都經(jīng)過完全相同的"指令微調(diào)"后處理階段(使用40萬條固定的指令跟隨樣本),以確保任何性能差異都來自中間訓(xùn)練的數(shù)據(jù)篩選策略,而非后續(xù)階段的差異。

評測覆蓋4個大類、9個具體基準(zhǔn):代碼生成類包含MBPP、MBPP+、BigCodeBench-Full、BigCodeBench-Hard和LiveCodeBench;多語言代碼生成使用Multipl-E(覆蓋8種編程語言的宏平均);SQL執(zhí)行準(zhǔn)確性測試包含Spider和BIRD兩個基準(zhǔn);軟件工程修復(fù)測試使用SWE-Multi。最終給出四類的宏平均分作為總體評價(jià)。

對比對象包括:完全不做中間訓(xùn)練的基礎(chǔ)模型(得分28.16,可理解為"零分起點(diǎn)")、在基礎(chǔ)模型上直接做指令微調(diào)(得分48.60,代表"有點(diǎn)基礎(chǔ)但沒有專項(xiàng)訓(xùn)練")、用全量50億token數(shù)據(jù)不加篩選進(jìn)行中間訓(xùn)練的Raw Mixture(得分63.83,代表"用全部食材做的宴席"),以及四種用250億token(即全量數(shù)據(jù)的一半)進(jìn)行篩選后中間訓(xùn)練的方法:隨機(jī)采樣、困惑度篩選、DSIR重要性重采樣、DataMan打分篩選。

實(shí)驗(yàn)結(jié)果非常清晰地呈現(xiàn)了三條核心規(guī)律。

MIRA-Group在宏平均分上達(dá)到64.20,是所有250億token方法中最高的,超過了隨機(jī)采樣的63.23、DataMan的63.01,大幅超過DSIR的59.55和困惑度篩選的54.73。更重要的是,64.20還略高于使用全量500億token的Raw Mixture的63.83——也就是說,用一半的數(shù)據(jù)量,MIRA-Group不僅追平了全量數(shù)據(jù)的效果,還略微超出,實(shí)現(xiàn)了"半價(jià)超越滿價(jià)"。

不同的MIRA變體在不同能力方向上各有所長。MIRA-Group在代碼生成類表現(xiàn)最好,平均得分54.53,在MBPP(88.90)、MBPP+(73.80)和BigCodeBench-Hard(33.11)上均領(lǐng)先所有方法。MIRA-Source在Multipl-E多語言評測上最強(qiáng),得分72.84,這與其最大程度保留來源多樣性的策略高度吻合——多語言代碼數(shù)據(jù)來自多個不同子來源,MIRA-Source的精細(xì)化保護(hù)確保每種語言都有充足的高質(zhì)量代表。MIRA-Group在軟件工程修復(fù)任務(wù)(SWE-Multi)上得到36.33,超過所有其他250億token基線方法,而MIRA-Source在SQL任務(wù)上以94.38接近DSIR的最優(yōu)95.20。

相比之下,DSIR和困惑度篩選的差勁表現(xiàn)背后有一個共同的問題:這兩種方法對數(shù)據(jù)長度都有嚴(yán)重的系統(tǒng)性偏見。困惑度會對越長的文本給出越低的分?jǐn)?shù),因?yàn)殚L文本中的每個token被模型"意外"的概率累積下來就變高了。DSIR在處理超長的代理軌跡數(shù)據(jù)時幾乎完全崩潰,因?yàn)槠鋘-gram特征無法捕捉長依賴關(guān)系。DataMan則在超出其設(shè)計(jì)長度限制的記錄上直接返回?zé)o效分?jǐn)?shù),整個長尾區(qū)域的數(shù)據(jù)都失去了打分信號。而MIRA在不同長度的數(shù)據(jù)上保持了相對穩(wěn)定的打分行為,既不過度青睞短文本,也不在長文本上出現(xiàn)系統(tǒng)性崩潰。

**八、分析揭示:評委的眼光真的"因地制宜"了嗎?**

除了主實(shí)驗(yàn)結(jié)果,研究團(tuán)隊(duì)還做了幾組分析來驗(yàn)證MIRA核心設(shè)計(jì)的有效性。

為了檢驗(yàn)"各組數(shù)據(jù)的評分維度真的不同"這一核心假設(shè),研究團(tuán)隊(duì)對MIRA在所有21個數(shù)據(jù)來源上發(fā)現(xiàn)的錨定維度進(jìn)行了嵌入可視化。他們從問答類、文本類、代理類三大格式中各采樣3000個維度描述,總計(jì)9000個數(shù)據(jù)點(diǎn),用t-SNE降維后畫出二維分布圖。結(jié)果發(fā)現(xiàn),三類格式的維度分布占據(jù)了圖上明顯不同的三個區(qū)域,互不重疊。這意味著MIRA針對不同格式數(shù)據(jù)確實(shí)發(fā)現(xiàn)了本質(zhì)上不同的質(zhì)量判斷視角,而不是換了個說法的同一套標(biāo)準(zhǔn)。

更有意思的一個對比是:研究團(tuán)隊(duì)把DataMan使用的14個通用質(zhì)量維度也用相同的編碼方式映射到同一張圖上。結(jié)果顯示,DataMan的14個維度全部落在MIRA維度空間的內(nèi)部,其中13個在MIRA的95百分位最近鄰距離內(nèi),5個甚至在MIRA的中位數(shù)距離內(nèi)。換句話說,MIRA發(fā)現(xiàn)的維度空間完整覆蓋了DataMan的通用維度,同時還擴(kuò)展到了DataMan從未觸及的區(qū)域。MIRA沒有丟失通用質(zhì)量標(biāo)準(zhǔn),而是在通用標(biāo)準(zhǔn)的基礎(chǔ)上生長出了來源特異性的分支。

可靠性分析也帶來了一些直觀的發(fā)現(xiàn)。論文中展示了代理類、問答類、文本類三個學(xué)生模型的雷達(dá)圖,每個維度的"臂"代表該維度的教師-學(xué)生平均絕對誤差。三張圖呈現(xiàn)出完全不同的輪廓,有些維度所有模型都表現(xiàn)穩(wěn)定,有些則在特定模型上出現(xiàn)了異常突出的高誤差尖刺。被可靠性掩碼屏蔽的單元格恰好集中在這些尖刺周圍,而不是均勻分布,說明不可靠性是稀疏且維度特異的,而不是某個模型整體性地表現(xiàn)差。

論文還通過案例研究具體展示了MIRA在代理數(shù)據(jù)上的評分邏輯。在工具調(diào)用軌跡中,高分樣本的共同特征是:工具調(diào)用時傳遞的JSON格式是合法的,遇到工具返回錯誤時能識別錯誤并調(diào)整下一步行動。低分樣本的常見問題則是:把多個JSON對象拼接成一個無效的參數(shù)字段(形式上看起來是在"調(diào)用工具",但實(shí)際上工具根本無法解析這個調(diào)用),以及收到錯誤反饋后仍然重復(fù)發(fā)出同樣的無效調(diào)用。這兩類問題都是"看起來流暢"但"實(shí)際上廢物"的數(shù)據(jù),純粹的文本流暢度評分無法識別這類缺陷,而MIRA的代理專屬評分維度(包含工具調(diào)用結(jié)構(gòu)有效性和錯誤恢復(fù)能力)能準(zhǔn)確捕捉到。

**說到底,這項(xiàng)研究告訴了我們什么**

歸根結(jié)底,MIRA解決的是一個"用一把尺子量萬物"的根本性問題。AI大模型訓(xùn)練數(shù)據(jù)多種多樣,強(qiáng)行用統(tǒng)一標(biāo)準(zhǔn)評判,要么過于粗糙導(dǎo)致信號失真,要么無法擴(kuò)展到海量數(shù)據(jù)。MIRA的回答是:先讓頂級裁判對每類數(shù)據(jù)"自由訴說"它真正關(guān)心的質(zhì)量維度,再從這些訴說中提煉出每類數(shù)據(jù)專屬的評分框架,最后用"廉價(jià)替代"做大規(guī)模執(zhí)行。

這對實(shí)際的AI開發(fā)工作有直接的意義:同樣的訓(xùn)練算力,MIRA篩選出的數(shù)據(jù)能讓模型學(xué)得更多、更準(zhǔn)、能力覆蓋更廣。實(shí)驗(yàn)中"250億token超越500億token"的結(jié)果,直接意味著訓(xùn)練成本減半、效果不降。對于當(dāng)前AI訓(xùn)練動輒消耗數(shù)千萬度電的現(xiàn)實(shí)而言,這種效率提升并非小事。

當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了局限所在:MIRA專注于數(shù)據(jù)篩選這一環(huán)節(jié),而如何確定不同數(shù)據(jù)類型的混合比例、如何安排訓(xùn)練課程表、如何處理數(shù)據(jù)去重和數(shù)據(jù)污染,這些問題依然是需要單獨(dú)解決的開放問題。MIRA不是萬能的,它是這個復(fù)雜流水線中的一個精心設(shè)計(jì)的關(guān)鍵零件。

對于更廣泛的讀者來說,這項(xiàng)研究提出了一個值得持續(xù)思考的問題:當(dāng)我們評價(jià)事物質(zhì)量時,是否應(yīng)該先問問"用什么標(biāo)準(zhǔn)評價(jià)這類事物才是合適的",而不是直接抄來一套現(xiàn)成框架套用?這種"先發(fā)現(xiàn)評判標(biāo)準(zhǔn),再評判"的思路,或許在遠(yuǎn)超AI訓(xùn)練的很多領(lǐng)域都有它的用武之地。有興趣深入了解的讀者,可以通過arXiv編號2605.30288查閱完整論文。

Q&A

Q1:MIRA框架和普通數(shù)據(jù)篩選方法有什么本質(zhì)區(qū)別?

A:普通方法用一套固定標(biāo)準(zhǔn)評判所有數(shù)據(jù),而MIRA的核心思路是先讓頂級AI模型對每類數(shù)據(jù)"自由評價(jià)",自動發(fā)現(xiàn)每類數(shù)據(jù)真正適用的質(zhì)量維度,再用這些來源專屬的標(biāo)準(zhǔn)打分。簡單說,就是"給每類數(shù)據(jù)配專屬評委",而不是用萬能裁判一刀切。

Q2:MIRA訓(xùn)練出來的學(xué)生打分模型可靠嗎?

A:研究團(tuán)隊(duì)專門設(shè)計(jì)了"可靠性掩碼"機(jī)制來保證這一點(diǎn)。他們在驗(yàn)證集上檢測每個(數(shù)據(jù)來源,評分維度)組合的教師-學(xué)生分?jǐn)?shù)一致性,把誤差超過閾值的組合直接屏蔽,不讓它影響最終評分。實(shí)驗(yàn)顯示,被屏蔽的組合只占全部組合的約12%,且集中在幾個有規(guī)律可循的薄弱環(huán)節(jié),不影響整體評分質(zhì)量。

Q3:中間訓(xùn)練對普通用戶使用的AI產(chǎn)品有什么影響?

A:中間訓(xùn)練直接決定了AI助手在特定任務(wù)上的能力深度。中間訓(xùn)練做得好,AI寫代碼、做數(shù)學(xué)推理、使用工具完成復(fù)雜任務(wù)的能力都會更強(qiáng)、更可靠。MIRA這類高效篩選方法讓開發(fā)者能用更少的計(jì)算資源達(dá)到更好的訓(xùn)練效果,從而加快高質(zhì)量AI產(chǎn)品的迭代速度,最終讓用戶更早用到能力更強(qiáng)的AI工具。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
賣掉油車!我換“純電車”已經(jīng)4年了,現(xiàn)在終于相信朋友當(dāng)初建議

賣掉油車!我換“純電車”已經(jīng)4年了,現(xiàn)在終于相信朋友當(dāng)初建議

華庭講美食
2026-06-14 11:45:02
“摸奶子”再惹爭議,OPPO的流量反噬開始了

“摸奶子”再惹爭議,OPPO的流量反噬開始了

品牌頭版
2026-05-13 10:18:15
太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

火山詩話
2026-06-12 08:54:20
日本強(qiáng)奸犯進(jìn)國家隊(duì)踢世界杯?日本主帥發(fā)表驚人言論:他那是失誤

日本強(qiáng)奸犯進(jìn)國家隊(duì)踢世界杯?日本主帥發(fā)表驚人言論:他那是失誤

十點(diǎn)街球體育
2026-06-13 21:00:12
年輕人開始全款買房:潮汕獨(dú)生女635萬買下北京一套房,“不想背債了”

年輕人開始全款買房:潮汕獨(dú)生女635萬買下北京一套房,“不想背債了”

時代財(cái)經(jīng)
2026-06-12 12:19:50
世界杯伊朗隊(duì)訓(xùn)練場旁不到300米處發(fā)現(xiàn)一具腐尸:尸體藏在美國牌照車內(nèi),有明顯遭暴力痕跡;墨西哥警方介入調(diào)查,稱此事并非針對伊朗隊(duì)

世界杯伊朗隊(duì)訓(xùn)練場旁不到300米處發(fā)現(xiàn)一具腐尸:尸體藏在美國牌照車內(nèi),有明顯遭暴力痕跡;墨西哥警方介入調(diào)查,稱此事并非針對伊朗隊(duì)

揚(yáng)子晚報(bào)
2026-06-13 15:19:53
伊朗消息人士說美伊將舉行視頻會議并簽署協(xié)議

伊朗消息人士說美伊將舉行視頻會議并簽署協(xié)議

財(cái)聯(lián)社
2026-06-14 15:13:15
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

花顏蘊(yùn)韻
2026-06-14 04:18:50
全球最割裂的股市規(guī)則!全世界都是自由T+0,唯獨(dú)大A散戶鎖死T+1

全球最割裂的股市規(guī)則!全世界都是自由T+0,唯獨(dú)大A散戶鎖死T+1

王二哥老搞笑
2026-06-09 20:28:44
心梗!40萬打出1億收入!還被拋棄了!

心梗!40萬打出1億收入!還被拋棄了!

柚子說球
2026-06-13 16:32:13
巴西女子蹦極沒系繩,被直接扔下摔死,現(xiàn)場慘烈,3個員工好淡定

巴西女子蹦極沒系繩,被直接扔下摔死,現(xiàn)場慘烈,3個員工好淡定

打小我就醜
2026-06-14 18:28:51
特斯拉和比亞迪電池差距有多大?老司機(jī):一個真技術(shù),一個只吹牛

特斯拉和比亞迪電池差距有多大?老司機(jī):一個真技術(shù),一個只吹牛

混沌錄
2026-06-12 22:43:35
某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語?

某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語?

番外行
2026-02-26 19:53:05
涉嫌嚴(yán)重違紀(jì)違法,已退休近9年的人保集團(tuán)原副總裁俞小平被查

涉嫌嚴(yán)重違紀(jì)違法,已退休近9年的人保集團(tuán)原副總裁俞小平被查

財(cái)聞
2026-06-14 18:21:19
湖北寶媽2分50秒私密視頻發(fā)到家長群,網(wǎng)友:看過讓人汗顏

湖北寶媽2分50秒私密視頻發(fā)到家長群,網(wǎng)友:看過讓人汗顏

王姐懶人家常菜
2026-06-14 13:53:16
傳國玉璽的下落,史書已經(jīng)給過“暗示”,大概率就在這兩個地方!

傳國玉璽的下落,史書已經(jīng)給過“暗示”,大概率就在這兩個地方!

掠影后有感
2026-06-14 10:05:50
女子考編第一被遞補(bǔ),維權(quán)后崗位直接取消!黑龍江:審核人員失誤

女子考編第一被遞補(bǔ),維權(quán)后崗位直接取消!黑龍江:審核人員失誤

聽心堂
2026-06-13 22:26:26
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

殘夢重生來
2026-06-14 04:59:12
千萬不要給女孩子遞紙巾!

千萬不要給女孩子遞紙巾!

果粉之家
2026-06-14 13:15:35
高鑫王一楠女兒高中畢業(yè)典禮!外公外婆昆明飛上海,全家盛裝出席

高鑫王一楠女兒高中畢業(yè)典禮!外公外婆昆明飛上海,全家盛裝出席

露珠聊影視
2026-06-13 22:29:29
2026-06-14 18:59:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

時尚
教育
本地
旅游
公開課

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

教育要聞

2026高考作文:萬古融雪,終貫滄海

本地新聞

AK劉彰邂逅河北南大港濕地

旅游要聞

重慶長壽洪湖鎮(zhèn)首屆“湖畔果香”采摘暢玩節(jié)甜蜜啟幕

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版