ESSAY
![]()
《企鵝月下追 Kimi》,的封面
之前畫過一張圖,叫「企鵝月下追 Kimi」... Moonshot 也是月下,但在看完 Kimi 的最新發布后,覺得下半句有了
Kimi 點兵,多多益善
Kimi 今天發了 K2.6,開源在 HuggingFace:
![]()
K2.6 對外的全面 benchmark,對手是 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro
橫向看,Humanity's Last Exam、DeepSearchQA、SWE-Bench Pro 三項跑贏三家旗艦。其余多數 benchmark 也貼在第一檔
除此之外,還帶來了這些東西,是我想重點說的:
→ Agent 集群
→ Claw 群組
→ 一篇叫 Attention Residuals 的論文
合在一起,指向了群體智能
先說 K2.6 的 Agent 集群
先看 K2.6 本身。代碼能力比 K2.5 提升近 20%,任務步驟數平均少了 35%。跨語言泛化也在漲,Rust、Go、Python、前端、DevOps 都更穩
作為全天候 Agent 的底層模型,K2.6 的內部 Claw-bench 比 K2.5 漲了 10%。長程任務里,指令遵循和自我糾錯的表現都上來了
按 Kimi 自己的定位,K2.6 在 Agent 場景對標 Claude Opus 4.6,價格是 Opus 的 1/8
但集群的重點不在單兵,過去調 AI 干活,一次只能要一個東西。要 PPT 換 prompt 重開,要 Excel 再換一次
K2.6 的集群改了這條規則,一次跑完,一整套產物同時出。Kimi 給這套起名 AgentSwarm,一次能拉 100 個不同專長的分身。分身用的都是 K2.6 底座,掛不同的 Skill 就分化出不同的專長
![]()
一個 Coordinator 在上面派活,下面掛幾個各有專長的 subagent
比如我讓 Kimi 給 Anthropic CEO 阿莫迪做一本畫冊,記錄他從普林斯頓物理博士一路到 2021 帶人分叉出 Anthropic 的全過程。Kimi 把任務拆成九個階段,研究的子代理扒 Dario 的全部公開資料,排版的子代理把 PDF 做成畫冊,做表的子代理整理出他每一次離開和加入的決策節點 Excel,寫稿的子代理用第一人稱寫一封《Dear 2008》。同時跑完
![]()
九個分身各管一段時間。慎思這只,專研 Dario 的 OpenAI 那幾年
在這個集群里,常駐一個 Coordinator,拆任務、派角色、審成果都歸它
而在這里,Skill 是給 AI 的工作說明書。把一份你認可的產物丟給 Kimi,研報、論文、商業計劃書都行,它會把里面的分析框架、語言風格、排版結構學下來,存成一個 Skill
比如你找到一份 20 年前高盛寫的并購白皮書,扔給 Kimi,20 分鐘后你有一個「高盛并購方法論」的 Skill。下次 Agent 集群做并購分析,掛上就行
集群解決產能,Skill 解決標準
這里,我讓他幫我去給阿莫迪來寫一個深度研究,
![]()
然后他給我做出了一份 80 頁的 PPT,還有各種深度材料
![]()
![]()
這里,Kimi 以 Agent 集群點專長
![]()
AgentSwarm 跑出的交易系統多目標性能優化路徑圖
再看 Claw 群組
Kimi Claw 是 Kimi 的龍蝦 Agent:
Claw 群組,則是讓這些龍蝦進同一個群聊一起干活,組織協作,一鍵出道
![]()
建群入口,Kimi 自己來當群聊協調員。十三香進簋街美食群,決定蝦生的下一步
作為用戶,可以新建一個群,能把自己的龍蝦、朋友的龍蝦、阿里騰訊 MiniMax 別家模型的龍蝦都拉進來。自己訓過的 OpenClaw 關聯到 Kimi 賬戶后也能拉進群。單群最多 50 個成員,人和蝦合起來算
過去的 Agent 框架,解決的是人怎么指揮 Agent。Agent 之間怎么說話、怎么分工、怎么互相引用對方的結果,沒人管過
你來旁觀一支 AI 隊伍為你干活
![]()
簋街美食群里,Kimi 當協調員,十三香開始做市場調研。這只蝦正在認真討論自己的下一步
集群是并行分工,一個用戶派 N 個 subagent 干活。群聊是多實體對話,N 個用戶、N 只蝦,里面有對抗、有信息不對稱、有涌現
一個新聞拋進群,幾只不同角色的蝦同時給判斷。審計的挑風險,風控的算回撤,分析師的拉歷史對比。用戶最后決定聽哪一只
AI 到這一步第一次有了社交關系
你的蝦可以借給朋友,朋友的蝦也可以進你的群。比如你朋友是會計,他訓過的會計蝦拉進來用一次就好
連訂閱額度也跟著一起流轉。你沒買 Kimi Pro,朋友的蝦進你群,他的 Pro 能力自然帶過來
專家把自己訓過的蝦開放給付費用戶,知識付費就從「買內容」變成「租一個專家助手」
這里,Kimi 拿 Claw 群組點人脈
第三件藏得最深
![]()
https://arxiv.org/abs/2603.15031
Kimi 在 arXiv 掛了一篇論文,叫 Attention Residuals:把所有 LLM 都在用的殘差連接,從每一層按固定方式往后傳,改成每一層自己學一個權重,決定前面哪些層該聽、哪些少聽
這里先說殘差連接這個老結構,是 2015 年何愷明提出,之后被所有 LLM 繼承。在它之前,深度學習訓不動超過 30 層,有了它,百層也能訓
殘差的默認做法是加。第 1 層的輸出、第 2 層的輸出、一直到第 29 層的輸出,到了第 30 層,全部等權相加。每一層對后面層的貢獻是固定的,模型訓練過程中調整不了
問題就出在這個等權。第 30 層收到的是一鍋端進來的 29 層總和,哪一層對當前任務關鍵、哪一層是雜音,它自己分不出來
還有一個副作用,論文里叫 dilution。深層要想讓自己的信號不被前面幾十層蓋過去,只能把輸出幅度寫大。訓練到后期,PreNorm 架構的 LLM 各層輸出的數值量級會隨著深度線性漲,這一現象在多個開源模型上被觀察到過
Kimi 的做法,是給每一層加一組可學習的權重,用 softmax 歸一。訓練時,第 30 層會學出一個分布,告訴自己前面 29 層里哪些該多聽、哪些少聽。dilution 跟著消失,深層的輸出量級有界,反向傳播的梯度在各層分布也更均勻
![]()
論文 Figure 1:Standard Residuals / Full AttnRes / Block AttnRes
論文里把這個對應關系叫 sequence-depth duality。時間維度上 Transformer 替代了 RNN,深度維度上 AttnRes 替代殘差,是同構的兩步
論文附錄里有張權重熱力圖,每一個深色格子,都是一次學會的選擇
![]()
訓練完之后,每一層聽前面哪些層、分別聽多重
Attention 層和 MLP 層的風格不一樣。Attention 層分布更散,會跨幾層往早期借信息,有的甚至繞回最早那一層。MLP 層幾乎只看上一層
論文里的 Block AttnRes 是工程折中。理論上最理想的,是每一層注意到前面所有層。但大規模分布式訓練下通信量會爆炸。Block 把層打成 8 個 block,只傳 block 級的表示,通信量從 O(Ld) 降到 O(Nd)
工程效果直給:Block AttnRes 的 8 塊方案,在同樣算力下,驗證 loss 等價于基線的 1.25 倍算力。Kimi 把這組實驗在不同模型規模上都跑了一遍,每一檔都成立。這套已經合進 Kimi Linear 的 48B 總參 / 3B 激活模型,跑了 1.4T token,下游任務全面漲點
而在這里,Kimi 用 AttnRes 點的推理
同一個指向
任務層的點兵是 Agent 集群,社交層的點兵是 Claw 群組,模型內部的點兵是 AttnRes
群體智能的關鍵詞落在智能上:每個兵長什么樣、該派去哪,模型得看得清
Kimi 點兵,能多多,更益善
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.