網易首頁 > 網易號 > 正文 申請入駐

在AK大神爆火的任務里,摸清國產AI真實水平

0
分享至


作者 | 四月

4 月 20 日深夜,Kimi K2.6 發布并開源。它最值得被探討的,并非又贏了幾個 Benchmark,跑分逼平乃至反超海外三巨頭。這些數字反映的更多是理論上限,而非你我實際上手時的真實水平。


圖注:K2.6 基準測試成績。在 DeepSearchQA、SWE-Bench Pro 等核心 Agent 與代碼評測項目中位居第一,在 Humanity's Last Exam 等博士級難度測試中持平或優于三巨頭(GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro),整體成績處于同級別模型的第一梯隊。

K2.6 更現實的意義,還在于它拋出了一個關鍵命題:

當模型步入 Agent 時代,競爭內核已從“單次作答的靈光乍現”,躍遷為“多步執行的善始善終”。Agent 的價值不再停留于輸出答案,而在于多步執行、對象管理、結構維護與增量更新中的系統承載能力。

這才是新一代模型真正的分水嶺。

循此判斷,筆者摒棄了常規的單點用例測試,轉而借 Andrej Karpathy 的 AI Wiki 思路,設計了一組高承壓任務。這套思路自 AK 大神在本月初提出,迅速出圈狂攬兩千萬曝光,被視為“檢索增強的下一代范式”。


測試目的直指 Agent 底層能力:它能否超越單純的“內容生成”,展現出將內容組織為結構、將結構推進為系統的建構能力。

比寫代碼難得多的任務

如果只是驗證代碼能力,最簡單的做法是復現網頁、寫個應用。直接,出活快。但這測的只是局部優勢,而非 Agent 的工作流承接力。

所以,Andrej Karpathy 的 AI Wiki 成了更優選。它表面是搭網站,內核卻是一套知識編譯系統。這也正是它比普通 RAG(檢索增強生成) 更難的地方。


圖注:基于 K2.6 Agent 搭建的一套 Harness Engineering Wiki,已形成可檢索、可路由、可寫回的知識閉環系統,具備持續演化的工程知識庫形態。效果可參見:https://f24e2z3zeghre.beta-ok.kimi.link/

很多人一聽“AI 知識庫”,認為還是老一套:切片、建索引、檢索、生成。每次問答都從零開始,毫無沉淀。

而 AK 大神的破局點,正在于把“查資料”變成了“整理知識”,將無狀態檢索(即沒有記憶,不留痕跡)推進為有狀態編譯。這體現在 Wiki 極清晰的三層架構上:


架構之外,更有精髓。AI Wiki 的真正價值,在于把知識系統的重心從“文檔展示”轉向了“對象構建”。原始資料喂進去,不直接吐長文,而是先拆解為主題、概念和來源,再織成一張可檢索、可連接、可擴展的網絡。

頁面 UI 只是表皮,底層真正拷問的是:對象穩不穩?關系立不立得住?新信息進來,舊結構會不會崩?

但原版的 Wiki 思路不是沒有短板:偏本地。它回避了線上系統的致命問題:對象如何持久化?增量如何接入?舊結構如何防覆蓋?前后臺如何同步?

所以,這一次我們不做簡單復刻,而是將其從一套離線編譯流程,改造為可在線運行、持續更新、前臺可訪問的知識網絡。從離線走向在線,從生成走向系統。

這也天然地覆蓋了當前 Agent 最該被檢驗的五大能力:

  • 長鏈執行:持續推進,而非單輪結束

  • 結構組織:拆為對象,而非停留于段落

  • 系統維護:新信息入網,舊結構不崩

  • 前臺落地:組織成可用的界面,而非僅存于后臺

  • 任務拆解:規模擴大時,能否并行處理

為什么要用 K2.6 來測?

Kimi K2.6 值得測,恰恰在于它這次強化的幾條主線,與這類任務高度重合。

從官方披露的信息看,K2.6 的提升并不只停留在參數和榜單,而是明確落在了三種更接近系統任務的能力上:長鏈執行、Vibe Coding 與 Agent 集群。

先看長鏈執行。官方給出的案例里,K2.6 能在復雜任務中連續運行 12 小時以上、調用上千次工具、完成 4000 余行代碼修改;在主動式 Agent 框架中,甚至給出了最長 5 天持續自主運行的能力描述。

這類指標的意義,不只是“它更耐跑了”,而是它開始具備承接持續任務的基本條件。


而 AI Wiki 恰恰不是一次性生成任務,它要求模型能夠在對象抽取、關系組織、頁面生成和后續維護之間不斷往返。沒有足夠強的長鏈穩定性,這類任務很容易在中途塌掉。

再看 Vibe Coding。K2.6 這次另一條被明顯強化的能力,是將代碼、視覺理解與前端表達結合起來,直接交付專業級 Web 應用。對于 AI Wiki 來說,這一點并不只是“頁面更好看”——它意味著模型不只要會整理知識,還要能把知識網絡做成一個可瀏覽、可使用、可繼續擴展的前臺系統。

換句話說,AI Wiki 不是純知識抽取任務,必須落地成可瀏覽、可交互的前臺界面。這正是 K2.6 突出的強項。

最后是 Agent 集群。官方披露,K2.6 的集群架構最高支持 300 個子 Agent 協同,并且明確強調了它在搜索、深度研究、文檔分析和長文創作等任務中的協同能力。

這對于 AI Wiki 也非常關鍵。因為一旦輸入資料一多,任務就很容易從“一個 Agent 持續推進”轉向“多個 Agent 分工處理”。也就是說,AI Wiki 不只是一條長鏈任務,它天然也具備被 Swarm 化的潛力

具體來看,這次任務至少包括四個關鍵環節:

  1. 消化與編譯(Raw Source → 結構化對象)原始文本不能直接當正文展示,必須先被拆解、提純,編譯成主題、概念、對比關系與來源,形成結構化對象層。難點在于:多步驟信息處理中,模型的準確性和連貫性在這里最先暴露。

  2. 聯網與落地(對象層 → 可用前臺系統)基于編譯結果生成 Topic 頁、Concept 頁、對比頁、關系圖譜,并保證頁面之間形成跳轉閉環。這考察的是 Vibe Coding 能力:結構能不能真正變成可用的產品。

  3. 調用與反哺(知識問答 → 持續沉淀)頁面之間不只有鏈接,還要能表達相似關系、對比關系和來源回溯,把"頁面集合"推進成"知識網絡"?珥撁娌僮髦械囊恢滦裕沁@一步的核心考驗。

  4. 維護與演化(增量接入 → 系統自愈)新資料進入后,系統要能繼續觸發編譯,支持斷鏈檢查和重復概念識別。這測的不是一次性生成的驚艷,而是長程運行中的自我修復與持續生長能力。

此外,為更完整地觀察 K2.6 在不同任務組織方式下的能力邊界,這次測試并不只在一個執行環境中完成,而是分別考察了它在單 Agent 、 Agent 網站 和 Agent Swarm (集群)三種模式下的表現:

其中,單 Agent 作為基線,網頁端 Agent 重點考察連續施工能力,Swarm Agent 則進一步測試復雜任務的拆解與協作組織能力。

單 Agent 基準:
系統骨架成型,知識閉環待補

如果只給 K2.6 一個基礎單 Agent 執行環境作為基準水平,它的表現可以概括為一句話:前臺成型很快,系統感很強,但知識閉環最初并沒有自然成立。

它最先兌現的,是兩項能力。

這輪測試里,K2.6 最先體現出來的,不是單點頁面生成能力,而是把復雜任務持續推進成一個完整原型的能力。圍繞我們給出的要求,它先后完成了信息架構設計、對象層拆解、頁面路由搭建和主要交互補全,逐步做出了賬號登錄、工作臺、知識索引、主題頁 / 概念頁、問答 / 洞察面板以及知識圖譜等核心模塊。


從結果上看,這已經不是一個零散頁面集合,而是一套具備明確結構和產品感的知識網絡雛形。

這里最值得強調的,首先是它的長鏈條任務能力。

AI Wiki 不是一次性生成任務,而是一個需要在資料輸入、知識編譯、頁面生成、關系組織和后續維護之間反復往返的長鏈工作流。K2.6 在單 Agent 模式下,已經表現出了承接這類任務的基本穩定性:它不是完成一個頁面就停,而是能沿著既有上下文持續往前推進,把任務一步步從“做頁面”推向“搭系統”。

這一點很重要,因為如果沒有足夠強的長鏈穩定性,這類任務通常會很快退化成局部補丁,而無法積累成完整結構。

第二個更突出的優點,是它的自我修復能力。

單 Agent 模式下,K2.6 并不是一開始就把所有鏈路都做對了,但它有很強的“沿著當前系統繼續修”的能力:頁面缺入口,就補路由;對象層不完整,就補實體;跳轉不閉環,就補詳情頁;圖譜數據不夠,就繼續補關系讀取。

這種能力的價值在于,它不只是生成一次結果,而是能在連續上下文中維持系統狀態,對已有結構做增量修正。這比“第一版就完美”更接近真實工程任務,也更能體現 Agent 的實際承接能力。

同時,K2.6 的Vibe Coding能力在這一輪里也相當突出。它不僅能把知識對象落成前臺,還能迅速做出風格統一、結構清晰、適合展示的產品界面。換句話說,單 Agent 模式下,它已經證明自己不只是會寫頁面,而是能把抽象任務迅速組織成一個“像樣的系統原型”。

當然,單 Agent 的邊界也在這一輪里顯露出來。最核心的問題不是頁面是否成型,而是知識鏈路不會隨著頁面一起自動成立。也就是說,前臺可以很快搭出來,但知識編譯、問答調用和沉淀閉環,初始狀態下往往還需要繼續補強。

更進一步:從單點執行到系統組織

單 Agent 已經給出了基線:它能把復雜任務壓成系統原型。接下來的問題是,當執行環境增強,K2.6 能把任務推進多深?

從結果看,網頁端 Agent 和 Swarm 模式都帶來了明顯提升,但方向截然不同:網頁端 Agent 強化了對同一系統的連續施工與修正能力;Swarm 模式強化了對復雜任務的拆解、分工與編排能力。

4.1 Agent 網站模式:更強的連續施工能力

“Agent 網站”最突出的特質,不是多做了幾個頁面,而是能在同一套系統上連續迭代。


圖注:Agent 網站模式的體驗入口

在測試中,它圍繞既有知識網絡持續補全:從編譯管線、狀態處理到知識圖譜,始終保持了極強的上下文延續性。對于 AI Wiki 這類任務,最難的從來不是初版原型,而是多輪修改后系統不散架:對象層有沒有被保留?邏輯有沒有被延續?網頁端 Agent 在這一點上表現出了真正的工程連貫性。

更進一步,它的核心優勢在于能不斷重新識別系統的真實約束。


最典型的例子是登錄與數據庫的實現:它先按標準全棧思路做了認證和持久化,但部署后迅速察覺靜態環境無法承載后端服務,于是果斷切回本地持久化方案,把產品重新拉回可運行狀態。

當然,它的邊界也依然存在。Agent 網站模式的典型問題,不是不會推進,而是容易先把前臺和交互做成立,再逐步追補底層鏈路。

4.2 Agent Swarm 模式:不再硬扛,開始組織系統開發

如果說網頁端 Agent 是更強的執行器,那么 Swarm 模式帶來的則是質的躍遷:它讓 K2.6 嘗試把任務本身組織成一個可拆分、可協作、可調度的系統工程。


在測試中,Swarm 不再滿足于修補現有網絡,而是把開發過程抽象成了一套集群工作流:定義 Research、Architect、Compiler 等角色,制定流程模板、命令系統、狀態機與消息協議,甚至做出了任務流可視化。


這種變化極其關鍵。AI Wiki 天然是多線程任務,研究、編譯、生成、維護如果全壓在一個 Agent 身上,長鏈路很容易出現崩潰。Swarm 給出的是系統工程的解法:不把所有事硬扛,而是先拆成角色,再組織成流程。

它的深層價值,在于極強的抽象表達能力。它能把零散的開發過程,重寫成結構化的方法體系——誰先做、誰負責、怎么流轉、交付什么。這意味著它不僅在執行項目,更在生成一份可復用的“開發語法”。

能力形態開始從“完成一次任務”躍升為“為同類任務生成可復制框架”。

然而,Swarm 的邊界也很清楚:方法論和協作框架做得漂亮,但具體執行細節未必同等扎實。不過這恰好印證了它的核心定位:它不是更強的執行模式,而是讓復雜任務進入“可分工、可編排、可復用”狀態的能力放大器。

4.3 三種模式,三層系統能力

將三種模式放在同一坐標系,比較三者各自最有代表性的能力形態能力本質更為清晰。


從“單輪聰明”到“長鏈存活”

這輪評測下來,我越來越清晰地感受到:模型競爭的重心正在改變。

真正重要的,已經不只是回答得像不像、寫得好不好,而是它能不能在真實任務里持續推進、持續修補,并最終把結果落成一個可用的系統。

單 Agent 搭骨架、Agent 網頁通經絡、 Agent Swarm 做編排,這不僅是對 K2.6 的能力測繪,更是行業下一階段的預演。

Agent 時代,競爭深水區,已從“誰生成質量更高”轉為了“誰的系統存活率更高”。

市場早已厭倦了單輪聰明的玩具。當下真正需要的,是三種硬核特質的系統融合:抗衰減的長鏈可靠性、遇阻即改的路徑校準力、面向系統的結構編排力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
80W全能卷王,輕薄本也能玩3A!惠普星Book Pro 16深度測評

80W全能卷王,輕薄本也能玩3A!惠普星Book Pro 16深度測評

電腦報
2026-04-20 16:51:12
克媒:莫德里奇顴骨骨折賽季報銷,預計將戴面具出戰世界杯

克媒:莫德里奇顴骨骨折賽季報銷,預計將戴面具出戰世界杯

懂球帝
2026-04-27 22:00:51
羅永浩連發6個問句怒懟!俞敏洪反思“東方甄選多位主播離職”,有網友說“任何一個人遭遇羅永浩、董宇輝這種忘恩負義的小人都夠嗆”

羅永浩連發6個問句怒懟!俞敏洪反思“東方甄選多位主播離職”,有網友說“任何一個人遭遇羅永浩、董宇輝這種忘恩負義的小人都夠嗆”

魯中晨報
2026-04-27 17:56:12
大五座SUV市場都在演戲!嵐圖泰山X8,撕碎所有偽大五座

大五座SUV市場都在演戲!嵐圖泰山X8,撕碎所有偽大五座

科技每日推送
2026-04-23 18:25:22
車企為什么開始把新車首發押在京東上?

車企為什么開始把新車首發押在京東上?

豹變
2026-04-25 08:00:03
匈牙利一夜變天:馬扎爾開啟全面清算!歐爾班往哪走?

匈牙利一夜變天:馬扎爾開啟全面清算!歐爾班往哪走?

大江看潮
2026-04-27 09:05:55
江淮汽車:目前尊界S800面向國內銷售

江淮汽車:目前尊界S800面向國內銷售

每日經濟新聞
2026-04-27 16:27:20
演員陸毅嘴唇發紫,被網友提醒去醫院體檢;陸毅聽勸后回應:心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

演員陸毅嘴唇發紫,被網友提醒去醫院體檢;陸毅聽勸后回應:心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

浙江之聲
2026-04-27 13:09:03
吉林伊通驚現200萬豪華住宅式墓地,獨門獨戶地上地下兩層

吉林伊通驚現200萬豪華住宅式墓地,獨門獨戶地上地下兩層

大象新聞
2026-04-27 13:41:32
克宮發出最后通牒要求烏作出“痛苦決定”,德國炮彈產能超越美國

克宮發出最后通牒要求烏作出“痛苦決定”,德國炮彈產能超越美國

史政先鋒
2026-04-27 18:27:59
拆解健合:一季度數據里的抗周期基因

拆解健合:一季度數據里的抗周期基因

一點財經
2026-04-27 18:31:37
這才是提高數學成績最好的方法!(建議永久收藏)

這才是提高數學成績最好的方法。ńㄗh永久收藏)

戶外阿毽
2026-04-27 09:46:34
這位派出所長,你瘋了嗎?

這位派出所長,你瘋了嗎?

新海言
2026-04-27 11:01:05
余承東在華為權力排名

余承東在華為權力排名

生活新鮮市
2026-04-27 18:30:53
32歲男子:一周多達9次,不幸猝死,妻子:多次勸說,他就是不聽

32歲男子:一周多達9次,不幸猝死,妻子:多次勸說,他就是不聽

川渝視覺
2026-04-27 22:04:50
開源模型橫掃21個科學任務!寬德Will聯手斯坦福清北,試錯變武器

開源模型橫掃21個科學任務!寬德Will聯手斯坦福清北,試錯變武器

機器之心Pro
2026-04-26 13:19:19
自導自演白宮記協晚宴槍擊事件?特朗普回應

自導自演白宮記協晚宴槍擊事件?特朗普回應

極目新聞
2026-04-27 19:31:28
我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

朗威談星座
2026-04-26 10:47:21
隨著吳宜澤13-11勝塞爾比,火箭12-13,世錦賽8強對陣出爐附賽程

隨著吳宜澤13-11勝塞爾比,火箭12-13,世錦賽8強對陣出爐附賽程

小火箭愛體育
2026-04-28 00:09:23
上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

青梅侃史啊
2026-04-27 11:38:30
2026-04-28 02:47:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12309文章數 51863關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

教育
數碼
家居
時尚
游戲

教育要聞

你不說這是計算障礙,我真以為我是智障呢

數碼要聞

6K/3K雙模切換!三星這款顯示器什么水平?

家居要聞

江景風格 流動的秩序

絲巾的10種系法,愛美的女人必看

《AC黑旗》重制版新增專屬劇情!原版編劇親自執筆

無障礙瀏覽 進入關懷版