![]()
這項由達姆施塔特工業大學人工智能與機器學習研究組聯合弗勞恩霍夫智能分析與信息系統研究所(Fraunhofer IAIS)及拉馬爾機器學習與人工智能研究所共同完成的研究,于2026年6月以預印本形式發布在arXiv平臺,編號為arXiv:2606.03773。感興趣的讀者可以通過這個編號直接找到完整論文。數據集已公開發布在Hugging Face平臺,地址為AIML-TUDA/KletterMix。
**一場關于語言數據的"糧食危機"**
在討論人工智能語言模型時,大多數人關注的是模型有多"聰明"、參數有多少、訓練了多久。但實際上,有一個更基礎的問題往往被忽視:這些模型在學習階段到底讀了什么書?
訓練一個語言模型,就像培養一個孩子的語言能力。這個孩子讀的書越多、書的質量越高、涵蓋的話題越廣,他長大后的表達能力就越強。問題在于,全球現有的高質量"教材"嚴重偏向英語。英語世界已經為AI模型準備了海量精心篩選、來源多樣、文檔完備的訓練材料,而德語等其他語言的同類資源,無論在規模、質量還是多樣性上,都遠遠落后。
這種差距不是小問題。德語有著獨特的語言結構——它喜歡把很多詞拼接在一起形成超長的復合詞,名詞要大寫,地區方言差異顯著,專業領域的表達方式也和英語截然不同。如果一個德語AI模型主要靠英語數據來學習,它就像一個在英語環境中長大、只會說簡單德語的孩子,在處理真實德語場景時必然力不從心。
研究團隊提出的解決思路可以用一個直白的比喻來說明:與其在德語世界里費力尋找、篩選、清洗足夠多的優質文本,不如直接把一套已經驗證過質量的英語"優質教材"翻譯成德語。這套教材叫做ClimbMix,是英語世界近期整理的一批高質量預訓練數據。研究團隊將翻譯后的德語版本命名為KletterMix——Klettern是德語里"攀爬"的意思,和英語的Climb(ClimbMix的詞根)形成了對應,既保留了傳承關系,又用上了德語,名字本身就是對這項工作的一個小小詮釋。
**一、為什么不直接從網上抓取德語文章?**
這是一個合理的疑問。畢竟互聯網上有大量德語內容,直接爬取不是更簡單嗎?
研究團隊在論文中對這個問題給出了詳細解釋。直接從網絡爬取德語文本并不是不可行,事實上已經有GermanWeb、FineWeb2-DE等團隊在做類似的工作,并取得了一定成效。然而,這條路面臨幾個難以回避的挑戰。
首先是質量參差不齊的問題。網絡爬取的文本包含大量噪聲,從垃圾廣告到格式混亂的頁面不一而足。激進的過濾策略雖然能去掉明顯的垃圾,但也可能誤傷一些質量不錯但格式特殊的內容,同時還是會留下相當多的低質量文本。
其次是多樣性難以保證的問題。高質量的訓練數據需要覆蓋各種話題、各種文體、各種專業領域。網絡爬取很容易在某些熱門話題上過度集中,而在另一些重要但冷僻的領域嚴重欠缺。
最重要的是,英語世界在構建這些訓練數據時,已經投入了大量精力去設計"數據配方"——各類內容以什么比例混合、哪些來源優先、如何去除重復內容等等。這些精心設計的配比決策,直接從德語網絡爬取時幾乎不可能原樣復現。
翻譯路線的核心優勢恰好對應這些痛點:直接繼承了英語數據集的質量篩選結果,保留了多樣化的話題覆蓋,也傳承了經過驗證的數據配方設計。當然,翻譯也會帶來新的問題,比如翻譯腔、語義偏移、翻譯失敗等,這些都需要認真對待。
**二、一條從英語到德語的翻譯流水線是如何建造的?**
將七百多億個詞從一種語言翻譯成另一種語言,這本身就是一項工程壯舉。研究團隊為此設計了一套精密的流水線系統,整個過程分為幾個環環相扣的階段。
翻譯流水線的第一道工序是"長度分揀"。訓練數據中的文章長度差異極大,有些只有幾百個詞的短文,有些則是幾萬詞的長篇技術文檔。如果用統一的方式處理所有文章,短文會浪費大量計算資源,長文則可能超出翻譯模型的處理能力。研究團隊把所有文章按長度分成八個檔次,從4000詞以下的短文一直到64000詞以上的超長文,每個檔次使用針對性的處理參數,既減少浪費又避免截斷。
處理短文比較簡單,整篇文章一次性送入翻譯模型。處理長文則需要一套特殊策略。研究團隊先把長文切分成句子,再把句子貪心地拼湊成不超過20000個詞的翻譯塊。如果某個單句本身就超過了這個限制,就在詞的層面強制切斷作為保底方案。每個翻譯塊在被翻譯時,會附帶上前一個翻譯塊的最后2000個詞作為上下文,幫助翻譯模型保持文章前后的術語一致性和敘述連貫性。最終,所有翻譯塊按原始順序拼接回完整的德語文章。
在"翻譯預算"的設計上,研究團隊也花了心思。英語翻譯成德語,文章通常會變長——德語表達同樣意思往往需要更多字符。如果給每篇文章設定固定的輸出長度上限,會導致大量長文被截斷。團隊采用了動態計算的方式:輸出長度上限等于輸入長度乘以2再加上1024個詞,但不超過32768個詞的總上限。這樣既保證短文不浪費資源,又給長文留有足夠的擴展空間。
整個翻譯過程在大量機器上并行進行。研究團隊使用了126個計算節點,每個節點配備8塊英偉達B200顯卡,整個翻譯工作持續了約10天,累計消耗了約24萬顯卡小時的計算資源。所有翻譯結果按照與原始英語文章一一對應的方式保存,每篇德語文章都攜帶著原始文章的身份標識和全部元數據,以便后續對比和審查。
用于翻譯的模型是Qwen3.5-397B-A17B,這是一個超大型的語言模型。研究團隊在正式翻譯前對三種不同精度版本(FP16、FP8、NVFP4)進行了系統測評,最終選擇了FP8版本。FP8在翻譯質量上與最高精度的FP16版本幾乎無差異,但處理速度更快,在生產環境中也更為穩定。研究團隊還發現NVFP4版本在處理困難樣本時偶爾會出現提前截止或英語詞匯泄漏的問題,因此未采用。
翻譯提示詞的設計刻意保持簡潔。對于普通文章,提示詞就是一句話:"將以下英文文本翻譯成德語,只輸出德語翻譯。"對于需要分塊處理的長文,提示詞會在前面附上前一塊的德語翻譯作為上下文,并特別說明"僅將這部分上下文用于保持敘述連貫,只輸出當前段落的德語翻譯"。這種簡潔的設計避免了模型輸出解釋性文字、格式標記或類似"思維鏈"的額外內容。
**三、翻譯出來的文章質量如何把關?**
七百多億詞的數據,逐篇人工審查顯然不現實。研究團隊為此設計了一套分層的質量評估體系,就像一個有多道關卡的質檢系統。
第一層關卡使用的是COMETKiwi——這是一個專門評估翻譯質量的AI模型,最大的優點是它不需要參考譯文就能給出質量打分。研究團隊從整個語料庫中按來源類別比例抽取了一批樣本,共約十八萬篇文章,逐一用COMETKiwi打分。這些分數揭示了翻譯質量在不同文章類型、不同長度區間、不同來源分類中的分布情況。
然而,COMETKiwi的計算成本很高,無法對七百多億詞的全部數據運行。研究團隊的解法是用已有的COMETKiwi分數來訓練一個"學徒"——一個計算成本極低的梯度提升回歸模型。這個學徒模型的巧妙之處在于,它完全不需要看原始英語文章,只從德語翻譯本身提取特征來預測翻譯質量。
這些特征涵蓋了多個維度。一類是語言識別信號:使用GlotLID工具判斷這篇文章是否真的是德語,以及"德語程度"有多高。如果一篇本該是德語的文章被識別為其他語言,或者德語識別置信度很低,很可能說明翻譯出了問題。另一類是文本形態特征:文章長度、詞匯豐富程度、重復詞匯比例、平均詞長、數字字符占比、標點占比、字母字符占比、換行符占比等。這些特征能捕捉到很多實際問題,比如翻譯模型只輸出了一堆URL、格式嚴重混亂、出現了大量重復內容等。
在十八萬篇文章的測試集上,這個學徒模型展現出了相當不錯的表現——與COMETKiwi分數的皮爾遜相關系數約為0.73,平均絕對誤差約為0.049,表明它能夠相當準確地代理COMETKiwi的評估結果。于是,這個學徒模型被用來給全部翻譯數據打分。
有了全庫的質量分數,研究團隊構建了三個不同嚴格程度的過濾版本:只保留質量分數不低于0.50的文章、不低于0.55的文章、以及不低于0.60的文章。每個版本都控制在約120億詞的訓練預算下,三個版本的差異在后續訓練實驗中逐一進行了對比檢驗。
**四、翻譯出來的語料庫長什么樣?**
研究團隊對翻譯后的語料庫進行了全面的"體檢",從多個角度觀察這批數據是否健康、是否符合預期。
從文章長度分布來看,整個語料庫呈現出典型的重尾分布:大多數文章在一萬詞以內,但有一條長長的尾巴延伸向幾萬詞的超長文章。這種分布模式在真實世界的文本中非常常見,說明翻譯后的數據保留了原始數據集的自然形態。
把文章按照原始長度分檔來看翻譯后的長度,可以發現一個規律:大多數情況下,被分到更長檔次的文章,翻譯后也確實比短檔次的文章更長,這是符合預期的。但每個長度檔次的下端都有一條較長的"低尾"——也就是說,有些本應很長的文章翻譯后卻出奇地短。這些案例是潛在的質量問題信號,可能意味著原文內容被大幅截斷、翻譯模型拒絕翻譯、或者輸出了大量無意義內容。
從話題分布來看,整個語料庫被分為20個來源類別,每個類別的內容主題各不相同。研究團隊通過從每個類別中選取質量最高的100篇文章,讓一個大型語言模型給每個類別打上話題標簽。這20個類別覆蓋了從數學教育、宗教與文學、歷史地理、青少年教育、游戲賭博、空間探索、健康醫療,到軟件開發、環境可持續性、數字技術與社會等各種主題,體現了英語原始數據集在話題上的廣泛覆蓋。
在數據量分布上,類別6(混合科學概念與教育問答)、類別7(動植物與環境保護)和類別12(產品指南與DIY教程)貢獻了最大份額的詞量,而類別20(稅收、人權與選舉的混合內容)則是規模最小的類別。
從質量分數的分布來看,各個來源類別的翻譯質量整體上相當穩定,中位質量分數在不同類別間差異不大。但有兩個類別的分數相對偏低,尤其是類別20,其質量分數的分布明顯低于其他類別,且變異性較大——這與該類別內容本身較為混雜、翻譯難度較高有一定關系。
研究團隊還對翻譯質量進行了手動抽查,整理出了幾類典型的低質量案例。最常見的一類是"拒絕翻譯":模型認為原文內容違反安全準則,輸出了一段德語說明表示拒絕翻譯,而不是實際的翻譯文本。還有一類是"方言錯誤":模型錯誤地使用了阿勒曼方言或瑞士德語的表達,而不是標準德語。此外還有"代碼標識符被翻譯"的問題——本應保持不變的Python或JavaScript代碼中的變量名、關鍵字被硬生生翻譯成了德語,導致代碼語義完全改變。與這些低質量案例形成對比的是高質量翻譯:科學解釋類文章、學術描述類文章,以及代碼討論類(只翻譯了說明文字而保留了代碼本身)的翻譯都表現出色,行文自然,忠實于原文。
**五、用這些數據訓練出來的模型表現如何?**
語料庫質量最終要靠實際訓練結果說話。研究團隊在完全控制的條件下做了一系列訓練實驗。
實驗的基礎框架是這樣的:選用Qwen3-0.6B作為模型架構,這是一個有6億參數的語言模型;訓練數據控制在120億詞左右,對應一個6億參數模型的"Chinchilla最優"訓練量(即每個參數大約看20個詞);所有超參數完全相同,包括優化器配置、學習率計劃、批次大小、詞表等,唯一的變量是訓練數據來自哪個語料庫。
參與對比的語料庫共有五種:FineWeb2-DE(從網絡爬取的德語數據集,由HuggingFace團隊開發)、GermanWeb(由Aleph Alpha公司構建的德語預訓練數據集)、未經過濾的KletterMix,以及質量分數分別高于0.50、0.55、0.60三個閾值的過濾版KletterMix。每種語料庫從全量數據中按來源比例抽取120億詞作為訓練集,同時抽取獨立的驗證集用于過程監控。
從訓練過程來看,KletterMix家族的訓練損失下降得更快、更低。這不僅體現在訓練集上,在完全沒有參與訓練的驗證集上同樣成立——KletterMix模型的驗證損失從訓練早期就開始低于其他兩個基線,并且這種優勢一直保持到訓練結束。這個現象很重要,因為它排除了"KletterMix只是更容易擬合而非真正學到了更多"的可能性。
在下游任務的表現上,研究團隊使用了四個德語版本的標準測試:MMLU(廣泛的知識問答)、PIQA(物理常識推理,比如判斷用什么方式完成一個日常任務更合理)、HellaSwag(情景續寫,判斷哪個句子是某段故事的合理延續)和ARC-Challenge(科學問答,需要綜合多個知識點)。這四個測試從不同角度衡量模型的能力,研究團隊將其平均值作為綜合得分。
GermanWeb在MMLU上表現最好,得分30.0,說明它在廣泛知識覆蓋上有優勢,可能與其對新聞、百科類內容的覆蓋有關。FineWeb2-DE在PIQA上得分最高,達到70.0,說明它在日常物理常識的覆蓋上較為充分。KletterMix家族則在HellaSwag和ARC-C這兩個任務上表現最突出:未過濾的KletterMix在HellaSwag上得34.4,在ARC-C上得26.5;過濾閾值0.60的版本得分更高,HellaSwag為34.6,ARC-C為27.5,綜合得分達到40.2,是所有對比版本中最高的。
這個結果的解讀頗為有趣。HellaSwag測試的是"這個場景接下來最可能發生什么",ARC-C測試的是"需要綜合多個知識點才能回答的科學題"。這兩類任務的共同點是需要模型理解連貫的敘事邏輯和深層的推理關系,而不只是記住孤立的事實。KletterMix的來源是一套經過精心設計的英語優質數據集,其中包含大量有結構的解釋性文章、教育類材料、科普內容,這些內容天然具有較強的邏輯連貫性。將這類內容翻譯成德語后,這種"推理結構"也隨之遷移了過來,從而在需要推理能力的任務上帶來了顯著提升。
研究團隊還做了一個"退火實驗",專門測試KletterMix作為"后期微調數據"的價值。實驗設計是:先用FineWeb2-DE訓練5100步,然后換用不同數據集繼續訓練。換用GermanWeb繼續訓練的版本綜合得分為37.6,換用KletterMix繼續訓練的版本綜合得分達到39.4,比GermanWeb高出1.8分。這個實驗的特別之處在于,兩個版本的起點完全相同,排除了初始化差異的影響,更干凈地體現了數據集本身的質量差異。HellaSwag從31.5上升到34.2,ARC-C從23.0上升到25.2,再次印證了KletterMix對推理類任務的貢獻。
**六、這項研究的局限在哪里?**
研究團隊在論文中坦誠地列出了KletterMix的不足之處,這些局限性值得認真對待。
首先是文化偏向問題。KletterMix的內容來源于英語數據集,即便翻譯成了德語,其中反映的話題、觀點、文化視角依然偏向英語世界。它不是德語本土內容的替代品,無法反映德國、奧地利、瑞士等德語地區特有的文化、歷史、社會議題。
其次是翻譯本身帶來的問題。機器翻譯不可避免地會引入翻譯腔,可能在專業術語的處理上出現前后不一致,在長文或高度專業的文章中也更容易出現語義偏移。代碼、公式、特殊格式的文本翻譯錯誤率較高。
第三是質量評估的局限。COMETKiwi和代理模型都是自動化工具,無法替代人工評估。它們能捕捉到明顯的質量問題,但對于更微妙的語義不準確、自然度問題,以及翻譯在特定專業領域的準確性,自動化工具的判斷力是有限的。
第四是實驗規模的限制。目前的訓練實驗僅在6億參數的小型模型上進行,訓練預算也只有120億詞。對于更大參數量的模型,或者更長訓練周期的場景,KletterMix的表現是否同樣優越,目前尚無直接證據。
研究團隊表示,未來的工作方向包括:針對URL堆積、重復內容、格式混亂等翻譯失敗模式開發更精準的過濾工具;通過人工審查評估不同領域的翻譯自然度和事實準確性;將同樣的翻譯流水線擴展到法語、意大利語、西班牙語等其他語言;以及在更大規模的模型上驗證結論的適用性。
說到底,這項研究提出并實踐了一個樸素但有力的想法:當你手頭沒有足夠多的好教材時,與其在茫茫網海中辛苦淘金,不如先把別人已經精心整理好的優質教材翻譯過來用用看。KletterMix的實驗結果表明,這條路確實可行,至少在推理和情景理解能力上能帶來實在的提升——盡管它不能覆蓋所有維度,也無法取代真正的本土數據。
歸根結底,語言模型的訓練是一道"數據食譜"題,不同來源的數據就像不同的食材,各有其長。GermanWeb在知識廣度上有優勢,FineWeb2-DE在日常常識上更接地氣,而KletterMix則填補了邏輯推理和連貫敘事這塊空白。如何把這三類食材合理搭配、取長補短,或許才是下一階段更值得探索的問題。感興趣深入研究的讀者,可以通過arXiv編號2606.03773找到完整論文,數據集也已在Hugging Face的AIML-TUDA/KletterMix頁面公開。
Q&A
Q1:KletterMix數據集是如何確保翻譯質量的?
A:KletterMix采用分層質量把關。先用COMETKiwi(一種無需參考譯文的翻譯質量評估工具)對約18萬篇抽樣文章打分,再用這些分數訓練一個輕量代理模型,最終對全部數據打分并篩選出三個不同嚴格程度的過濾版本(分數分別高于0.50、0.55、0.60)。代理模型只看德語翻譯本身,分析語言識別置信度、詞匯多樣性、重復比例等特征,與COMETKiwi的相關系數約0.73,能有效識別拒絕翻譯、方言錯誤、代碼被翻譯等常見問題。
Q2:KletterMix和GermanWeb、FineWeb2-DE相比優勢在哪里?
A:三種數據集各有側重。GermanWeb在廣泛知識問答(MMLU)上得分最高,適合事實性知識覆蓋;FineWeb2-DE在日常物理常識(PIQA)上表現最好;KletterMix則在情景續寫(HellaSwag)和科學推理(ARC-C)上領先,綜合得分最高達40.2。這是因為KletterMix來源于結構嚴謹的英語教育類材料,翻譯后保留了較強的邏輯連貫性,對需要推理能力的任務幫助更大。
Q3:KletterMix翻譯數據會不會影響德語模型的文化代表性?
A:這是KletterMix研究團隊明確承認的局限。因為源數據是英語語料庫,翻譯成德語后話題和文化視角依然偏向英語世界,無法反映德國、奧地利、瑞士的本土文化和社會議題。研究團隊建議將KletterMix與本土德語數據配合使用,而非單獨依賴,兩者結合才能兼顧推理能力和文化代表性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.