2026年高考結(jié)束后,多家媒體陸續(xù)組織大模型挑戰(zhàn)高考試題,讓“AI高考”再次成為公共話題。
與過去不同,今年的AI高考不再只是讓大模型寫一篇作文、解幾道題,而是更接近真實考試場景:同一套試題、相同提示詞、限定聯(lián)網(wǎng)條件,并邀請一線教師和專家按照高考閱卷標準評分。也正因為如此,這場評測不只是一次模型成績排名,更像是一次面向真實標準的綜合壓力測試。
從目前公開的多項測評結(jié)果看,訊飛星火大模型在數(shù)學、中文作文、英文寫作三個維度都進入第一梯隊,并在數(shù)學評測中表現(xiàn)最為突出。
在《新京報》6月8日組織的2026年新高考I卷數(shù)學評測中,訊飛星火以148分/150分位列第一,高于Kimi、DeepSeek、智譜、MiniMax、ChatGPT等國內(nèi)外主流模型。更關鍵的是,訊飛星火不是只給出了正確答案,而且在規(guī)范分、結(jié)果分和推理清晰度上保持一致。參與評測的北京市中學數(shù)學特級教師點評稱,壓軸題成為區(qū)分模型復雜推理能力的分水嶺,星火在數(shù)形結(jié)合、圖形幾何性質(zhì)研究等方面明顯優(yōu)于其他模型。
![]()
語文作文方面,澎湃新聞在6月7日組織9款國內(nèi)外主流大模型挑戰(zhàn)上海卷作文,訊飛星火以65.5分位列第一。在南方日報、南方Plus6月7日的相關測評中,訊飛星火在全國I卷作文評測中以55.5分居首。觀察者網(wǎng)6月10日組織的中英作文盲評里,訊飛星火在語文新課標I卷作文和英語新課標I卷應用文寫作中同樣處于第一梯隊。中文作文能夠把握題意深層要求,英文寫作能夠穩(wěn)定控制語法、詞性、詞數(shù)和表達層次,這說明訊飛星火的能力并非集中在單一學科,而是在真實復雜任務中呈現(xiàn)出綜合穩(wěn)定性。
![]()
如果只把這些結(jié)果理解為一次“模型考試成績”,意義反而被看小了。高考之所以值得關注,是因為它提供了一個高度中國化、標準化、可評價的任務場景。它既考知識,也考推理;既考語言,也考規(guī)范;既考結(jié)果,也考過程。一個大模型能不能在高考中取得高分,本質(zhì)上檢驗的是它是否真正理解中國語境、中國知識體系、中國評價標準和中國用戶的表達習慣。
從這個角度看,訊飛星火在高考中的表現(xiàn),指向的不只是教育能力,而是訊飛星火作為全國產(chǎn)底座大模型的綜合能力。
高考數(shù)學尤其能說明問題。數(shù)學不是簡單的知識記憶題,也不是普通問答題。新高考I卷中的解答題和壓軸題,要求模型讀懂復雜條件,完成多步驟推理,并在推導過程中保持邏輯穩(wěn)定。很多模型可以在基礎題上取得不錯成績,但在長鏈條推理中容易出現(xiàn)跳步、漏條件、結(jié)論先行、過程不完整等問題。訊飛星火在數(shù)學評測中拿到148分,說明它不僅能給出答案,更能完成接近真實高考標準的推理表達。
這背后首先是底座大模型能力的提升。
大模型真正進入產(chǎn)業(yè)應用,不能只看閑聊能力,也不能只看單點生成效果。政企客戶更關心的是,模型能不能處理復雜任務,能不能在標準嚴謹?shù)膱鼍爸斜3址€(wěn)定,能不能輸出可解釋、可追溯、可驗證的結(jié)果。高考數(shù)學恰好是一類典型測試:題目有明確答案,過程有評分標準,推理鏈條足夠復雜,能夠較好地檢驗模型的理解、推理、規(guī)劃和表達能力。
訊飛星火在這一場景中的表現(xiàn),說明其底座能力已經(jīng)不是“能用”的階段,而是進入了“可承擔復雜任務”的階段。對于政務、教育、醫(yī)療、能源、金融、司法、央國企等場景來說,這種能力非常關鍵。因為這些場景里的問題往往不是簡單問答,而是復雜流程、專業(yè)知識、規(guī)則約束和責任邊界交織在一起。模型必須既懂問題,也懂規(guī)則;既能生成,也能推理;既能給結(jié)果,也能說明依據(jù)。
但更關鍵的變量,是國產(chǎn)算力訓練。
當前行業(yè)里談“國產(chǎn)大模型”,容易混淆兩個概念:一個是模型在國產(chǎn)算力上部署推理,另一個是在國產(chǎn)算力上完成訓練。前者解決的是“能不能跑”,后者解決的是“能不能持續(xù)進化”。對政企客戶來說,真正決定長期安全邊界和能力上限的,恰恰是后者。
公開報道中,劉慶峰曾明確提到,訊飛星火是中國首個基于全國產(chǎn)算力平臺訓練的全棧自主可控大模型。他同時指出,大模型在國產(chǎn)算力上訓練和推理面臨的是完全不同層次的挑戰(zhàn)。推理更像是把已經(jīng)訓練好的模型運行起來,而訓練則要解決大規(guī)模集群調(diào)度、通信效率、算子適配、模型結(jié)構、訓練穩(wěn)定性、數(shù)據(jù)吞吐、斷點恢復等一整套工程難題。
這也是為什么“國產(chǎn)算力訓練”不能被簡單理解成一句口號。它考驗的是一家企業(yè)對算法、數(shù)據(jù)、工程、硬件、平臺和應用場景的系統(tǒng)能力。科技日報、中國日報等媒體報道顯示,科大訊飛團隊持續(xù)翻越國產(chǎn)算力訓練大模型的無人區(qū),將攻克長思維鏈強化學習訓練效率從30%提升至84%,MoE模型全鏈路訓練效率提升至93%。這些數(shù)字背后,指向的是國產(chǎn)算力不再只是“可用”,而是在大模型關鍵訓練環(huán)節(jié)逐步走向“好用”。
![]()
6月11日,科大訊飛發(fā)布了星火多模態(tài)大模型X2-VL。該模型基于訊飛星火 MoE 架構,采用原生多模態(tài)范式訓練,具備輕量化視覺編碼器、快慢思考統(tǒng)一模型等技術特點,在視覺推理、圖文理解、文檔分析、圖表理解等任務中表現(xiàn)突出,進一步增強了對圖像、文字、表格、場景等多模態(tài)信息的綜合理解與推理能力。在以多模態(tài)學科答題為代表的推理任務中,星火多模態(tài)大模型X2-VL展現(xiàn)出強勁實力。基于2026年度全國各地高考模擬試卷中的多模態(tài)試題測試,星火多模態(tài)大模型全學科平均答題準確率接近95%。在教育領域,科大訊飛依托X2-VL等多模態(tài)大模型能力,持續(xù)升級AI答疑輔學、智能批改、課堂互動等智慧教育產(chǎn)品。模型可構建嚴密的邏輯思維鏈,并通過動態(tài)圖形化全方位拆解數(shù)理難題,幫助學生提升直觀認知與解題能力,同時為教師減負增效。
![]()
由此來看,訊飛星火在高考數(shù)學測評中取得第一,并非單一考試場景下的偶然表現(xiàn),而是其多模態(tài)理解、復雜推理能力以及國產(chǎn)算力訓練體系持續(xù)迭代共同作用的結(jié)果。
這種能力基礎放在政企場景中,具有更現(xiàn)實的判斷價值。
因為政企客戶選大模型,本質(zhì)上不是選擇一個“回答問題的工具”,而是在選擇未來智能化系統(tǒng)的底座。這個底座要進入政務服務、城市治理、應急管理、公共安全、教育評價、醫(yī)療輔助、能源生產(chǎn)、央國企業(yè)務管理等關鍵系統(tǒng)。如果底座訓練體系不可控,就意味著能力迭代、數(shù)據(jù)安全、系統(tǒng)遷移和長期演進都存在不確定性。
國產(chǎn)算力訓練的價值,正是在這里顯現(xiàn)出來。它意味著模型能力可以在自主可控體系內(nèi)持續(xù)升級,意味著行業(yè)數(shù)據(jù)和場景反饋能夠形成安全閉環(huán),意味著客戶不必把核心業(yè)務智能化建立在外部不可控的算力和模型體系之上。對于政務和關鍵行業(yè)來說,這不是技術偏好,而是基礎設施安全問題。
這也是訊飛星火區(qū)別于很多大模型的地方。它不是先在通用能力上追逐榜單,再尋找行業(yè)落地;而是沿著“全國產(chǎn)算力底座+通用大模型能力+行業(yè)場景深耕”的路線推進。底座模型解決通用理解、推理、生成和智能體能力,行業(yè)模型把政務、教育、醫(yī)療、能源、工業(yè)等場景中的知識、規(guī)則和流程注入進去,最終形成可交付、可運行、可持續(xù)優(yōu)化的行業(yè)智能系統(tǒng)。
市場數(shù)據(jù)也在驗證這一路線。沙利文和智能超參數(shù)相關報告顯示,2025年科大訊飛在通用大模型廠商中以210個中標項目、約23.16億元披露金額位居前列,項目覆蓋政務、教育、工業(yè)、能源等多個領域。進入2026年,大模型招投標市場進一步從“底座采購”轉(zhuǎn)向“智能應用落地”,應用類項目占比持續(xù)提升。對政企客戶來說,這說明大模型已經(jīng)不再停留在演示階段,而是開始進入真實業(yè)務流程。
![]()
這組數(shù)據(jù)和高考評測之間,其實存在相同的邏輯:一個模型能不能在標準化考試中穩(wěn)定得分,和它能不能在真實業(yè)務中穩(wěn)定交付,本質(zhì)上都在考驗底座能力。前者是公開場景下的壓力測試,后者是產(chǎn)業(yè)場景中的長期驗證。
因此,從高考第一看訊飛星火,不能只看到“會做題”。更應該看到的是,一個基于國產(chǎn)算力持續(xù)訓練和迭代的底座大模型,正在通過標準化評測和行業(yè)項目雙重驗證自身能力。
高考給了外界一個直觀入口:訊飛星火更懂中文、更懂推理、更懂規(guī)范、更懂中國標準。國產(chǎn)算力訓練則給了政企客戶一個更底層的答案:訊飛星火的能力不是建立在不可控底座上,而是在全國產(chǎn)體系中持續(xù)生長出來的。
這才是“最懂中國的全國產(chǎn)底座大模型”的真正含義。它不是一句傳播概念,而是一條技術路線、一套工程體系、一種場景方法論,也是面向政企和關鍵行業(yè)客戶更有確定性的AI基礎設施選擇。
來源:中國日報網(wǎng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.