網易首頁 > 網易號 > 正文 申請入駐

Kimi K2.6 開源,最強大Agent模型,部署教程

0
分享至

月之暗面剛剛開源了Kimi K2.6,直接把 Agent 能力拉到了一個新高度


一句話總結

Kimi K2.6 是目前最強的開源原生多模態 Agent 模型

1T 參數 MoE 架構,32B 激活參數,256K 上下文,原生支持圖片和視頻輸入,還能同時指揮 300 個子 Agent 協同執行 4000 步任務

說白了,這次升級的核心不是"更聰明",而是"更能干"——從一個會思考的模型,進化成了一個能自主執行復雜任務的 Agent 引擎

模型架構

K2.6 延續了 K2.5 的 MoE 架構,參數規模沒變,但能力大幅躍升:

參數

規格

總參數量

1T

激活參數

32B

層數

61(含 1 層 Dense)

專家數

384

每 Token 激活專家數

8

上下文長度

256K

注意力機制

MLA

激活函數

SwiGLU

視覺編碼器

MoonViT(400M)

詞表大小

160K

跟 K2.5 架構完全一致,部署方法可以無縫復用

這對運維來說是好消息——換模型不用換部署流程

四大核心能力

K2.6 這次主打四個方向,每一個都指向"干活":

1. 長程編程(Long-Horizon Coding)

不是寫個函數那種小活兒,是端到端的復雜編程任務——跨語言(Rust、Go、Python 都行)、跨領域(前端、DevOps、性能優化全覆蓋)。看看 Terminal-Bench 2.0 的成績:K2.6 拿了 66.7 分,GPT-5.4 和 Claude Opus 4.6 都是 65.4。SWE-Bench Pro 更直接,K2.6 拿了 58.6,GPT-5.4 是 57.7,Claude 只有 53.4

2. 代碼驅動設計(Coding-Driven Design)

簡單一句話 prompt 甚至一張圖,K2.6 就能給你生成生產級的前端界面——結構化布局、交互元素、動畫效果一步到位。這個能力對全棧開發者來說太香了。

下面是 Kimi Design Bench 的測試結果,在四大類設計任務上 K2.6 表現很強:


Kimi Design Bench 設計能力測試

3. Agent 集群(Elevated Agent Swarm)

這個是我最激動的

K2.6 能橫向擴展到300 個子 Agent,協同執行 4000 步任務。它可以動態把一個大任務拆解成并行的專業化子任務,一次性輸出文檔、網站、電子表格等多種交付物

BrowseComp Agent Swarm 測試里,K2.6 拿了 86.3 分,GPT-5.4 只有 78.4——Agent 編排能力已經是開源模型里的天花板了

4. 主動式編排(Proactive & Open Orchestration)

K2.6 能驅動 7×24 小時后臺運行的自主 Agent,主動管理日程、執行代碼、跨平臺操作,不需要人盯著。月之暗面自家 RL 基礎設施團隊用 K2.6 驅動的 Agent連續自主運行了 5 天,負責監控、故障響應和系統運維。

Claw Bench 內部評測顯示,K2.6 在持續自主運行場景下比 K2.5 有顯著提升:


Kimi Claw Bench 自主 Agent 能力評測

配合 Kimi Code CLI(https://www.kimi.com/code),體驗最佳

跑分解讀:和頂級閉源模型正面硬剛

K2.6 的對手是 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 這些頂級閉源模型。看看關鍵數據:

Agent 能力(最亮眼):

測試項

K2.6

GPT-5.4

Claude Opus 4.6

K2.5

HLE-Full(帶工具)

54.0

52.1

53.0

50.2

DeepSearchQA(準確率)

83.0

63.7

80.6

77.1

BrowseComp(Agent Swarm)

86.3

78.4

MCPMark

55.9

62.5

56.7

29.5

Claw Eval(pass^3)

62.3

60.3

70.4

52.3

OSWorld-Verified

73.1

75.0

72.7

63.3

在 DeepSearchQA 上,K2.6 的準確率 83.0% 比 GPT-5.4 的 63.7% 高了接近 20 個點,這差距太大了

HLE-Full(帶工具)上也超過了所有閉源模型

編程能力:

測試項

K2.6

GPT-5.4

Claude Opus 4.6

K2.5

Terminal-Bench 2.0

66.7

65.4

65.4

50.8

SWE-Bench Pro

58.6

57.7

53.4

50.7

SWE-Bench Verified

80.2

80.8

76.8

LiveCodeBench v6

89.6

88.8

85.0

編程方面跟 GPT-5.4 和 Claude 基本持平甚至略有優勢,作為開源模型,這個成績很炸裂

相比 K2.5 的躍升:

最能說明問題的是跟自家 K2.5 的對比:

  • MCPMark:29.5 → 55.9(近乎翻倍

  • APEX-Agents:11.5 → 27.9(翻了 2.4 倍

  • Terminal-Bench 2.0:50.8 → 66.7(**+15.9**)

  • BrowseComp:74.9 → 83.2

  • Claw Eval pass^3:52.3 → 62.3

MCPMark 的躍升最能說明問題——K2.5 對工具調用還比較生疏,K2.6 已經輕車熟路了。

部署方式

K2.6 跟 K2.5 架構相同,部署流程完全復用。官方推薦三個推理引擎:

vLLM 部署(推薦):

# 安裝 vLLM(穩定版推薦 0.19.1)
uv pip install -U vllm \
--torch-backend=auto \
--extra-index-url https://wheels.vllm.ai/nightly


# 啟動服務(H200 單機 TP8)
vllm serve $MODEL_PATH -tp 8 \
--mm-encoder-tp-mode data \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2

注意兩個關鍵參數:--tool-call-parser kimi_k2開啟工具調用,--reasoning-parser kimi_k2開啟思考模式。

SGLang 部署:

# 安裝 SGLang
pip install "sglang @ git+https://github.com/sgl-project/sglang.git=python"
pip install nvidia-cudnn-cu12==9.16.0.29


# 啟動服務
sglang serve --model-path $MODEL_PATH --tp 8 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2

KTransformers 部署(消費級顯卡也能跑!):

這個是重點——KTransformers 支持 CPU+GPU 異構推理,8 張 L20 + Intel CPU 就能跑起來,Prefill 640 tokens/s,Decode 24.5 tokens/s(48 并發)。更絕的是,配合 LLaMA-Factory 做 LoRA 微調,2 張 4090 就能搞定,訓練吞吐 44.55 tokens/s。

# KTransformers + SGLang 異構推理
python -m sglang.launch_server \
--model /path/to/kimi-k2.6 \
--kt-weight-path /path/to/kimi-k2.6 \
--kt-cpuinfer 96 \
--kt-num-gpu-experts 30 \
--kt-method RAWINT4 \
--tensor-parallel-size 4 \
--trust-remote-code

transformers版本要求:>=4.57.1, <5.0.0

API 使用

K2.6 支持 Thinking 模式和 Instant 模式,API 兼容 OpenAI 和 Anthropic 格式:

import openai

client = openai.OpenAI(
base_url="https://platform.moonshot.ai/v1",
api_key="YOUR_API_KEY"
)

# Thinking 模式(默認,推薦 temperature=1.0)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[{"role": "user", "content": "解釋量子糾纏"}],
max_tokens=4096
)
# response.choices[0].message.reasoning ← 思考過程
# response.choices[0].message.content ← 最終回答

# Instant 模式(推薦 temperature=0.6)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[{"role": "user", "content": "解釋量子糾纏"}],
max_tokens=4096,
extra_body={"thinking": {"type": "disabled"}}
)

K2.6 還支持一個實用功能:Preserve Thinking——多輪對話中保留完整的推理鏈,對 Coding Agent 場景特別有用

另外,圖片和視頻輸入也都支持(視頻目前僅限官方 API)

我的觀點

說幾個讓我印象深刻的點:

1. Agent 集群能力是真正的差異化

GPT-5.4 和 Claude 在單步推理上依然強悍,但 K2.6 在 Agent 編排層面做出了差異化。300 個子 Agent 協同 4000 步,這個能力在開源世界里沒有對手。BrowseComp Agent Swarm 的 86.3 vs GPT-5.4 的 78.4,差距一目了然

2. 從 K2.5 到 K2.6 的進步幅度驚人

MCPMark 翻倍、APEX-Agents 翻 2.4 倍,這說明月之暗面在 Agent 能力上做了非常多針對性的優化。K2.5 在工具調用上還有點笨拙,K2.6 已經很絲滑了。

3. 部署門檻在降低

KTransformers 讓 L20 甚至 4090 用戶也有機會跑萬億參數模型,雖然速度不算快,但至少讓更多人能體驗到。LoRA 微調只要 2 張 4090,這個門檻對很多團隊來說已經可以接受了。

不足之處也得說:

  • 在純推理任務(AIME、HMMT、HLE-Full 無工具)上,跟 GPT-5.4 和 Gemini 3.1 Pro 還有差距

  • BabyVision 得分 39.8 遠低于 GPT-5.4 的 49.7,視覺理解還有提升空間

  • 1T 參數的部署成本依然不低,H200 單機 TP8 才是推薦配置

  • Modified MIT License,商用需要注意許可條款

總結

Kimi K2.6 的定位非常清晰:開源世界的最強 Agent 模型

它不追求在所有維度碾壓閉源模型,而是在 Agent 編排、工具調用、長程編程這些"干活"場景上做到了最好

如果你在做 AI Agent 相關的產品,K2.6 值得認真評估

.6

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
活久見!網傳河南一千萬富家兒子結婚,女方接受不辦婚禮不給彩禮

活久見!網傳河南一千萬富家兒子結婚,女方接受不辦婚禮不給彩禮

火山詩話
2026-04-22 15:04:24
1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

鶴羽說個事
2026-04-22 22:36:00
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
湖人消息:小里狀態升級,艾頓霸氣發聲,G3出場情況更新

湖人消息:小里狀態升級,艾頓霸氣發聲,G3出場情況更新

冷月小風風
2026-04-24 09:53:50
恭喜杜鋒!朱總簽下冠軍控衛廣東后衛線補強徐杰胡明軒將有好幫手

恭喜杜鋒!朱總簽下冠軍控衛廣東后衛線補強徐杰胡明軒將有好幫手

秋姐居
2026-04-24 09:35:56
“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

妍妍教育日記
2026-04-15 09:30:09
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

墨印齋
2026-04-23 12:35:16
色字頭上一把刀!知名女星曝陳小春“猛料” ,好男人人設崩塌?

色字頭上一把刀!知名女星曝陳小春“猛料” ,好男人人設崩塌?

她時尚丫
2026-04-23 22:01:25
61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

以茶帶書
2026-04-14 14:09:22
國安后腰位置還有一張底牌沒亮相!本賽季剛加盟俱樂部,值得期待

國安后腰位置還有一張底牌沒亮相!本賽季剛加盟俱樂部,值得期待

振剛說足球
2026-04-24 09:44:08
大伯出價50萬買我百萬房產,托我媽說情遭拒,他怒問:我讓你凈賺三十萬還嫌少?

大伯出價50萬買我百萬房產,托我媽說情遭拒,他怒問:我讓你凈賺三十萬還嫌少?

原廣工業
2026-04-23 18:12:36
陜西榆林32歲男子深陷境外虛擬貨幣黑平臺4年多,近30萬元打水漂,抑郁躺平不上班滿頭白發

陜西榆林32歲男子深陷境外虛擬貨幣黑平臺4年多,近30萬元打水漂,抑郁躺平不上班滿頭白發

大風新聞
2026-04-23 18:44:07
在農村穿成這樣合適嗎?我覺得合適真的太合適了

在農村穿成這樣合適嗎?我覺得合適真的太合適了

美女穿搭分享
2026-04-18 15:50:15
又一個國家要挨揍了?俄軍大將宣布:要不惜一切保護該國22萬俄僑

又一個國家要挨揍了?俄軍大將宣布:要不惜一切保護該國22萬俄僑

古史青云啊
2026-04-24 09:59:11
火箭隊主帥烏多卡在G2將里德·謝潑德雪藏后,談了他的上場時間

火箭隊主帥烏多卡在G2將里德·謝潑德雪藏后,談了他的上場時間

好火子
2026-04-24 05:54:36
日本突然要找中國談判,高市早苗實際不怕別的,就怕中國馬上收網

日本突然要找中國談判,高市早苗實際不怕別的,就怕中國馬上收網

痛了還要扯著嘴角微笑
2026-04-24 08:43:38
意甲豪門驚曝集體嫖娼案!約70名球員涉案,超100名女性慘遭奴役

意甲豪門驚曝集體嫖娼案!約70名球員涉案,超100名女性慘遭奴役

聽心堂
2026-04-23 11:03:26
中南醫院護士長王婷:顏值、身材、能力“三絕”,各種獎拿到手軟

中南醫院護士長王婷:顏值、身材、能力“三絕”,各種獎拿到手軟

漢史趣聞
2026-04-21 10:45:23
比亞迪大唐EV北京車展開啟預售:950km續航全球第一

比亞迪大唐EV北京車展開啟預售:950km續航全球第一

快科技
2026-04-21 17:48:45
鄭麗文訪美確定!希望美方級別越高越好,話音剛落,華盛頓潑冷水

鄭麗文訪美確定!希望美方級別越高越好,話音剛落,華盛頓潑冷水

云舟史策
2026-04-23 07:14:45
2026-04-24 10:59:01
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

凌晨突發!GPT-5.5正式上線:跑分更猛

頭條要聞

受AI沖擊"霸總"回家種地:比拍戲難 今年基本回不了本

頭條要聞

受AI沖擊"霸總"回家種地:比拍戲難 今年基本回不了本

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

健康
親子
本地
時尚
公開課

干細胞如何讓燒燙傷皮膚"再生"?

親子要聞

語出驚人的萌娃

本地新聞

SAGA GIRLS 2026女團選秀

今年最好看的3個顏色,太適合夏天了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版