從高考第一，看見最懂中國的全國產(chǎn)底座大模型

2026-06-12 22:03:23　來源: 中國日報網(wǎng)

北京舉報

分享至

2026年高考結(jié)束后，多家媒體陸續(xù)組織大模型挑戰(zhàn)高考試題，讓“AI高考”再次成為公共話題。

與過去不同，今年的AI高考不再只是讓大模型寫一篇作文、解幾道題，而是更接近真實考試場景：同一套試題、相同提示詞、限定聯(lián)網(wǎng)條件，并邀請一線教師和專家按照高考閱卷標準評分。也正因為如此，這場評測不只是一次模型成績排名，更像是一次面向真實標準的綜合壓力測試。

從目前公開的多項測評結(jié)果看，訊飛星火大模型在數(shù)學、中文作文、英文寫作三個維度都進入第一梯隊，并在數(shù)學評測中表現(xiàn)最為突出。

在《新京報》6月8日組織的2026年新高考I卷數(shù)學評測中，訊飛星火以148分/150分位列第一，高于Kimi、DeepSeek、智譜、MiniMax、ChatGPT等國內(nèi)外主流模型。更關鍵的是，訊飛星火不是只給出了正確答案，而且在規(guī)范分、結(jié)果分和推理清晰度上保持一致。參與評測的北京市中學數(shù)學特級教師點評稱，壓軸題成為區(qū)分模型復雜推理能力的分水嶺，星火在數(shù)形結(jié)合、圖形幾何性質(zhì)研究等方面明顯優(yōu)于其他模型。

語文作文方面，澎湃新聞在6月7日組織9款國內(nèi)外主流大模型挑戰(zhàn)上海卷作文，訊飛星火以65.5分位列第一。在南方日報、南方Plus6月7日的相關測評中，訊飛星火在全國I卷作文評測中以55.5分居首。觀察者網(wǎng)6月10日組織的中英作文盲評里，訊飛星火在語文新課標I卷作文和英語新課標I卷應用文寫作中同樣處于第一梯隊。中文作文能夠把握題意深層要求，英文寫作能夠穩(wěn)定控制語法、詞性、詞數(shù)和表達層次，這說明訊飛星火的能力并非集中在單一學科，而是在真實復雜任務中呈現(xiàn)出綜合穩(wěn)定性。

如果只把這些結(jié)果理解為一次“模型考試成績”，意義反而被看小了。高考之所以值得關注，是因為它提供了一個高度中國化、標準化、可評價的任務場景。它既考知識，也考推理；既考語言，也考規(guī)范；既考結(jié)果，也考過程。一個大模型能不能在高考中取得高分，本質(zhì)上檢驗的是它是否真正理解中國語境、中國知識體系、中國評價標準和中國用戶的表達習慣。

從這個角度看，訊飛星火在高考中的表現(xiàn)，指向的不只是教育能力，而是訊飛星火作為全國產(chǎn)底座大模型的綜合能力。

高考數(shù)學尤其能說明問題。數(shù)學不是簡單的知識記憶題，也不是普通問答題。新高考I卷中的解答題和壓軸題，要求模型讀懂復雜條件，完成多步驟推理，并在推導過程中保持邏輯穩(wěn)定。很多模型可以在基礎題上取得不錯成績，但在長鏈條推理中容易出現(xiàn)跳步、漏條件、結(jié)論先行、過程不完整等問題。訊飛星火在數(shù)學評測中拿到148分，說明它不僅能給出答案，更能完成接近真實高考標準的推理表達。

這背后首先是底座大模型能力的提升。

大模型真正進入產(chǎn)業(yè)應用，不能只看閑聊能力，也不能只看單點生成效果。政企客戶更關心的是，模型能不能處理復雜任務，能不能在標準嚴謹?shù)膱鼍爸斜３址€(wěn)定，能不能輸出可解釋、可追溯、可驗證的結(jié)果。高考數(shù)學恰好是一類典型測試：題目有明確答案，過程有評分標準，推理鏈條足夠復雜，能夠較好地檢驗模型的理解、推理、規(guī)劃和表達能力。

訊飛星火在這一場景中的表現(xiàn)，說明其底座能力已經(jīng)不是“能用”的階段，而是進入了“可承擔復雜任務”的階段。對于政務、教育、醫(yī)療、能源、金融、司法、央國企等場景來說，這種能力非常關鍵。因為這些場景里的問題往往不是簡單問答，而是復雜流程、專業(yè)知識、規(guī)則約束和責任邊界交織在一起。模型必須既懂問題，也懂規(guī)則；既能生成，也能推理；既能給結(jié)果，也能說明依據(jù)。

但更關鍵的變量，是國產(chǎn)算力訓練。

當前行業(yè)里談“國產(chǎn)大模型”，容易混淆兩個概念：一個是模型在國產(chǎn)算力上部署推理，另一個是在國產(chǎn)算力上完成訓練。前者解決的是“能不能跑”，后者解決的是“能不能持續(xù)進化”。對政企客戶來說，真正決定長期安全邊界和能力上限的，恰恰是后者。

公開報道中，劉慶峰曾明確提到，訊飛星火是中國首個基于全國產(chǎn)算力平臺訓練的全棧自主可控大模型。他同時指出，大模型在國產(chǎn)算力上訓練和推理面臨的是完全不同層次的挑戰(zhàn)。推理更像是把已經(jīng)訓練好的模型運行起來，而訓練則要解決大規(guī)模集群調(diào)度、通信效率、算子適配、模型結(jié)構、訓練穩(wěn)定性、數(shù)據(jù)吞吐、斷點恢復等一整套工程難題。

這也是為什么“國產(chǎn)算力訓練”不能被簡單理解成一句口號。它考驗的是一家企業(yè)對算法、數(shù)據(jù)、工程、硬件、平臺和應用場景的系統(tǒng)能力。科技日報、中國日報等媒體報道顯示，科大訊飛團隊持續(xù)翻越國產(chǎn)算力訓練大模型的無人區(qū)，將攻克長思維鏈強化學習訓練效率從30%提升至84%，MoE模型全鏈路訓練效率提升至93%。這些數(shù)字背后，指向的是國產(chǎn)算力不再只是“可用”，而是在大模型關鍵訓練環(huán)節(jié)逐步走向“好用”。

6月11日，科大訊飛發(fā)布了星火多模態(tài)大模型X2-VL。該模型基于訊飛星火 MoE 架構，采用原生多模態(tài)范式訓練，具備輕量化視覺編碼器、快慢思考統(tǒng)一模型等技術特點，在視覺推理、圖文理解、文檔分析、圖表理解等任務中表現(xiàn)突出，進一步增強了對圖像、文字、表格、場景等多模態(tài)信息的綜合理解與推理能力。在以多模態(tài)學科答題為代表的推理任務中，星火多模態(tài)大模型X2-VL展現(xiàn)出強勁實力。基于2026年度全國各地高考模擬試卷中的多模態(tài)試題測試，星火多模態(tài)大模型全學科平均答題準確率接近95%。在教育領域，科大訊飛依托X2-VL等多模態(tài)大模型能力，持續(xù)升級AI答疑輔學、智能批改、課堂互動等智慧教育產(chǎn)品。模型可構建嚴密的邏輯思維鏈，并通過動態(tài)圖形化全方位拆解數(shù)理難題，幫助學生提升直觀認知與解題能力，同時為教師減負增效。

由此來看，訊飛星火在高考數(shù)學測評中取得第一，并非單一考試場景下的偶然表現(xiàn)，而是其多模態(tài)理解、復雜推理能力以及國產(chǎn)算力訓練體系持續(xù)迭代共同作用的結(jié)果。

這種能力基礎放在政企場景中，具有更現(xiàn)實的判斷價值。

因為政企客戶選大模型，本質(zhì)上不是選擇一個“回答問題的工具”，而是在選擇未來智能化系統(tǒng)的底座。這個底座要進入政務服務、城市治理、應急管理、公共安全、教育評價、醫(yī)療輔助、能源生產(chǎn)、央國企業(yè)務管理等關鍵系統(tǒng)。如果底座訓練體系不可控，就意味著能力迭代、數(shù)據(jù)安全、系統(tǒng)遷移和長期演進都存在不確定性。

國產(chǎn)算力訓練的價值，正是在這里顯現(xiàn)出來。它意味著模型能力可以在自主可控體系內(nèi)持續(xù)升級，意味著行業(yè)數(shù)據(jù)和場景反饋能夠形成安全閉環(huán)，意味著客戶不必把核心業(yè)務智能化建立在外部不可控的算力和模型體系之上。對于政務和關鍵行業(yè)來說，這不是技術偏好，而是基礎設施安全問題。

這也是訊飛星火區(qū)別于很多大模型的地方。它不是先在通用能力上追逐榜單，再尋找行業(yè)落地；而是沿著“全國產(chǎn)算力底座+通用大模型能力+行業(yè)場景深耕”的路線推進。底座模型解決通用理解、推理、生成和智能體能力，行業(yè)模型把政務、教育、醫(yī)療、能源、工業(yè)等場景中的知識、規(guī)則和流程注入進去，最終形成可交付、可運行、可持續(xù)優(yōu)化的行業(yè)智能系統(tǒng)。

市場數(shù)據(jù)也在驗證這一路線。沙利文和智能超參數(shù)相關報告顯示，2025年科大訊飛在通用大模型廠商中以210個中標項目、約23.16億元披露金額位居前列，項目覆蓋政務、教育、工業(yè)、能源等多個領域。進入2026年，大模型招投標市場進一步從“底座采購”轉(zhuǎn)向“智能應用落地”，應用類項目占比持續(xù)提升。對政企客戶來說，這說明大模型已經(jīng)不再停留在演示階段，而是開始進入真實業(yè)務流程。

這組數(shù)據(jù)和高考評測之間，其實存在相同的邏輯：一個模型能不能在標準化考試中穩(wěn)定得分，和它能不能在真實業(yè)務中穩(wěn)定交付，本質(zhì)上都在考驗底座能力。前者是公開場景下的壓力測試，后者是產(chǎn)業(yè)場景中的長期驗證。

因此，從高考第一看訊飛星火，不能只看到“會做題”。更應該看到的是，一個基于國產(chǎn)算力持續(xù)訓練和迭代的底座大模型，正在通過標準化評測和行業(yè)項目雙重驗證自身能力。

高考給了外界一個直觀入口：訊飛星火更懂中文、更懂推理、更懂規(guī)范、更懂中國標準。國產(chǎn)算力訓練則給了政企客戶一個更底層的答案：訊飛星火的能力不是建立在不可控底座上，而是在全國產(chǎn)體系中持續(xù)生長出來的。

這才是“最懂中國的全國產(chǎn)底座大模型”的真正含義。它不是一句傳播概念，而是一條技術路線、一套工程體系、一種場景方法論，也是面向政企和關鍵行業(yè)客戶更有確定性的AI基礎設施選擇。

來源：中國日報網(wǎng)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.