網易首頁 > 網易號 > 正文申請入駐

Kimi K2.6 開源：一個人，和他的 300 Agents

2026-04-21 00:06:30　來源: 賽博禪心

北京舉報

分享至

ESSAY

《企鵝月下追 Kimi》，的封面

之前畫過一張圖，叫「企鵝月下追 Kimi」... Moonshot 也是月下，但在看完 Kimi 的最新發布后，覺得下半句有了

Kimi 點兵，多多益善

Kimi 今天發了 K2.6，開源在 HuggingFace：

K2.6 對外的全面 benchmark，對手是 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro

橫向看，Humanity's Last Exam、DeepSearchQA、SWE-Bench Pro 三項跑贏三家旗艦。其余多數 benchmark 也貼在第一檔

除此之外，還帶來了這些東西，是我想重點說的：

→ Agent 集群

→ Claw 群組

→ 一篇叫 Attention Residuals 的論文

合在一起，指向了群體智能

先說 K2.6 的 Agent 集群

先看 K2.6 本身。代碼能力比 K2.5 提升近 20%，任務步驟數平均少了 35%。跨語言泛化也在漲，Rust、Go、Python、前端、DevOps 都更穩

作為全天候 Agent 的底層模型，K2.6 的內部 Claw-bench 比 K2.5 漲了 10%。長程任務里，指令遵循和自我糾錯的表現都上來了

按 Kimi 自己的定位，K2.6 在 Agent 場景對標 Claude Opus 4.6，價格是 Opus 的 1/8

但集群的重點不在單兵，過去調 AI 干活，一次只能要一個東西。要 PPT 換 prompt 重開，要 Excel 再換一次

K2.6 的集群改了這條規則，一次跑完，一整套產物同時出。Kimi 給這套起名 AgentSwarm，一次能拉 100 個不同專長的分身。分身用的都是 K2.6 底座，掛不同的 Skill 就分化出不同的專長

一個 Coordinator 在上面派活，下面掛幾個各有專長的 subagent

比如我讓 Kimi 給 Anthropic CEO 阿莫迪做一本畫冊，記錄他從普林斯頓物理博士一路到 2021 帶人分叉出 Anthropic 的全過程。Kimi 把任務拆成九個階段，研究的子代理扒 Dario 的全部公開資料，排版的子代理把 PDF 做成畫冊，做表的子代理整理出他每一次離開和加入的決策節點 Excel，寫稿的子代理用第一人稱寫一封《Dear 2008》。同時跑完

九個分身各管一段時間。慎思這只，專研 Dario 的 OpenAI 那幾年

在這個集群里，常駐一個 Coordinator，拆任務、派角色、審成果都歸它

而在這里，Skill 是給 AI 的工作說明書。把一份你認可的產物丟給 Kimi，研報、論文、商業計劃書都行，它會把里面的分析框架、語言風格、排版結構學下來，存成一個 Skill

比如你找到一份 20 年前高盛寫的并購白皮書，扔給 Kimi，20 分鐘后你有一個「高盛并購方法論」的 Skill。下次 Agent 集群做并購分析，掛上就行

集群解決產能，Skill 解決標準

這里，我讓他幫我去給阿莫迪來寫一個深度研究，

然后他給我做出了一份 80 頁的 PPT，還有各種深度材料

這里，Kimi 以 Agent 集群點專長

AgentSwarm 跑出的交易系統多目標性能優化路徑圖

再看 Claw 群組

Kimi Claw 是 Kimi 的龍蝦 Agent：

Claw 群組，則是讓這些龍蝦進同一個群聊一起干活，組織協作，一鍵出道

建群入口，Kimi 自己來當群聊協調員。十三香進簋街美食群，決定蝦生的下一步

作為用戶，可以新建一個群，能把自己的龍蝦、朋友的龍蝦、阿里騰訊 MiniMax 別家模型的龍蝦都拉進來。自己訓過的 OpenClaw 關聯到 Kimi 賬戶后也能拉進群。單群最多 50 個成員，人和蝦合起來算

過去的 Agent 框架，解決的是人怎么指揮 Agent。Agent 之間怎么說話、怎么分工、怎么互相引用對方的結果，沒人管過

你來旁觀一支 AI 隊伍為你干活

簋街美食群里，Kimi 當協調員，十三香開始做市場調研。這只蝦正在認真討論自己的下一步

集群是并行分工，一個用戶派 N 個 subagent 干活。群聊是多實體對話，N 個用戶、N 只蝦，里面有對抗、有信息不對稱、有涌現

一個新聞拋進群，幾只不同角色的蝦同時給判斷。審計的挑風險，風控的算回撤，分析師的拉歷史對比。用戶最后決定聽哪一只

AI 到這一步第一次有了社交關系

你的蝦可以借給朋友，朋友的蝦也可以進你的群。比如你朋友是會計，他訓過的會計蝦拉進來用一次就好

連訂閱額度也跟著一起流轉。你沒買 Kimi Pro，朋友的蝦進你群，他的 Pro 能力自然帶過來

專家把自己訓過的蝦開放給付費用戶，知識付費就從「買內容」變成「租一個專家助手」

這里，Kimi 拿 Claw 群組點人脈

第三件藏得最深

https://arxiv.org/abs/2603.15031

Kimi 在 arXiv 掛了一篇論文，叫 Attention Residuals：把所有 LLM 都在用的殘差連接，從每一層按固定方式往后傳，改成每一層自己學一個權重，決定前面哪些層該聽、哪些少聽

這里先說殘差連接這個老結構，是 2015 年何愷明提出，之后被所有 LLM 繼承。在它之前，深度學習訓不動超過 30 層，有了它，百層也能訓

殘差的默認做法是加。第 1 層的輸出、第 2 層的輸出、一直到第 29 層的輸出，到了第 30 層，全部等權相加。每一層對后面層的貢獻是固定的，模型訓練過程中調整不了

問題就出在這個等權。第 30 層收到的是一鍋端進來的 29 層總和，哪一層對當前任務關鍵、哪一層是雜音，它自己分不出來

還有一個副作用，論文里叫 dilution。深層要想讓自己的信號不被前面幾十層蓋過去，只能把輸出幅度寫大。訓練到后期，PreNorm 架構的 LLM 各層輸出的數值量級會隨著深度線性漲，這一現象在多個開源模型上被觀察到過

Kimi 的做法，是給每一層加一組可學習的權重，用 softmax 歸一。訓練時，第 30 層會學出一個分布，告訴自己前面 29 層里哪些該多聽、哪些少聽。dilution 跟著消失，深層的輸出量級有界，反向傳播的梯度在各層分布也更均勻

論文 Figure 1：Standard Residuals / Full AttnRes / Block AttnRes

論文里把這個對應關系叫 sequence-depth duality。時間維度上 Transformer 替代了 RNN，深度維度上 AttnRes 替代殘差，是同構的兩步

論文附錄里有張權重熱力圖，每一個深色格子，都是一次學會的選擇

訓練完之后，每一層聽前面哪些層、分別聽多重

Attention 層和 MLP 層的風格不一樣。Attention 層分布更散，會跨幾層往早期借信息，有的甚至繞回最早那一層。MLP 層幾乎只看上一層

論文里的 Block AttnRes 是工程折中。理論上最理想的，是每一層注意到前面所有層。但大規模分布式訓練下通信量會爆炸。Block 把層打成 8 個 block，只傳 block 級的表示，通信量從 O(Ld) 降到 O(Nd)

工程效果直給：Block AttnRes 的 8 塊方案，在同樣算力下，驗證 loss 等價于基線的 1.25 倍算力。Kimi 把這組實驗在不同模型規模上都跑了一遍，每一檔都成立。這套已經合進 Kimi Linear 的 48B 總參 / 3B 激活模型，跑了 1.4T token，下游任務全面漲點

而在這里，Kimi 用 AttnRes 點的推理

同一個指向

任務層的點兵是 Agent 集群，社交層的點兵是 Claw 群組，模型內部的點兵是 AttnRes

群體智能的關鍵詞落在智能上：每個兵長什么樣、該派去哪，模型得看得清

Kimi 點兵，能多多，更益善

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.