網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kimi K2 Thinking 模型發(fā)布并開源，全面提升 Agent 和推理能力｜Z News

2025-11-08 09:08:22　來源: 真格基金

北京舉報(bào)

分享至

11 月 6 日，Kimi 發(fā)布 Kimi K2 Thinking，已在網(wǎng)頁端與最新版 App 上線，同時(shí)其 API 也正式登陸 Kimi 開放平臺(tái)。

Kimi K2 是基于「模型即 Agent」理念訓(xùn)練的新一代 Thinking Agent。在 OpenAI 評(píng)估 AI Agent 網(wǎng)絡(luò)瀏覽能力的基準(zhǔn)測(cè)試 BrowseComp 中，Kimi K2 以 60.2% 的成績(jī)成為新的 SOTA 模型。

真格基金于 2023 年天使輪投資月之暗面。自 2023 年 10 月發(fā)布以來，Kimi 持續(xù)升級(jí)基礎(chǔ)模型能力，拓展產(chǎn)品功能與交互體驗(yàn)。Kimi K2 模型最初發(fā)布于 7 月 11 日。目前，包括 Cursor、Genspark、Perplexity、YouWare 等多款產(chǎn)品已接入或使用 Kimi K2 模型。

我們期待在未來與 Kimi 和更多用戶一起共創(chuàng)智能。

今天，我們發(fā)布 Kimi K2 Thinking——Kimi 迄今能力最強(qiáng)的開源思考模型。

Kimi K2 Thinking 是我們基于「模型即 Agent」理念訓(xùn)練的新一代 Thinking Agent，它原生掌握「邊思考，邊使用工具」的能力。在人類最后的考試（Humanity's Last Exam）、自主網(wǎng)絡(luò)瀏覽能力（BrowseComp）、復(fù)雜信息收集推理（SEAL-0）等多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)達(dá)到 SOTA 水平，并在 Agentic 搜索、Agentic 編程、寫作和綜合推理能力等方面取得全面提升。

Kimi K2 Thinking 模型無需人類干預(yù)，即可憑借持續(xù)穩(wěn)定的深度思考能力自主實(shí)現(xiàn)高達(dá) 300 步的工具調(diào)用，從而幫助用戶解決更復(fù)雜的問題。這是我們?cè)?Test-Time Scaling（測(cè)試時(shí)擴(kuò)展）領(lǐng)域的最新進(jìn)展，通過同時(shí)擴(kuò)展思考 Token 和工具調(diào)用的步數(shù)，實(shí)現(xiàn)更強(qiáng)的 Agent 和推理性能。

Kimi K2 Thinking 模型已上線 kimi.com 和最新版 Kimi 手機(jī)應(yīng)用的常規(guī)對(duì)話模式。Kimi Agent 模式的底層模型后續(xù)也將升級(jí)為 Kimi K2 Thinking 模型，帶來完整的多步思考和工具調(diào)用能力。

Kimi K2 Thinking 模型的 API 可通過 Kimi 開放平臺(tái)（platform.moonshot.cn）訪問。如需自行部署，請(qǐng)?jiān)?Hugging Face、ModelScope 等平臺(tái)下載模型。

推理性能全面提升

我們來看一個(gè)人類最后的考試中人文類題目推理過程示例。在這個(gè)示例中，Kimi K2 Thinking 經(jīng)過 5 次搜索和推理，結(jié)合每步搜索到的新信息，層層深入，最終推理出了答案：

上下滾動(dòng)查看完整推理過程

自主搜索與瀏覽能力全面提升

在復(fù)雜搜索和瀏覽場(chǎng)景中，Kimi K2 Thinking 模型也表現(xiàn)出色。BrowseComp 是由 OpenAI 發(fā)布的一個(gè)專門評(píng)估 AI Agent 網(wǎng)絡(luò)瀏覽能力的基準(zhǔn)測(cè)試，這項(xiàng)測(cè)試的初衷是衡量 AI Agent 在信息過載環(huán)境中展現(xiàn)出的堅(jiān)持性與創(chuàng)造力，即能否像人類研究員一樣「刨根問底」。在這項(xiàng)極具挑戰(zhàn)的任務(wù)上，人類平均只能達(dá)到 29.2% 的成績(jī)。Kimi K2 Thinking 在這項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出極強(qiáng)的鉆研能力，以 60.2% 的成績(jī)成為新的 SOTA 模型。

在長(zhǎng)程規(guī)劃和自主搜索能力的驅(qū)動(dòng)下，Kimi K2 Thinking 可借助多達(dá)上百步的「思考 → 搜索→ 瀏覽網(wǎng)頁 → 思考 → 編程」動(dòng)態(tài)循環(huán)，持續(xù)地提出并完善假設(shè)、驗(yàn)證證據(jù)、進(jìn)行推理，并構(gòu)建出邏輯一致的答案。這種邊主動(dòng)搜索邊持續(xù)思考的能力，使 Kimi K2 Thinking 能夠?qū)⒛：议_放式的問題分解為清晰、可執(zhí)行的子任務(wù)。

我們來看一個(gè)示例，在這個(gè)例子中，Kimi K2 Thinking 經(jīng)過兩次搜索和思考，先根據(jù)股票回購(gòu)的已知信息找到了這家制造快艇的公司，然后在美國(guó)證券交易委員會(huì)（SEC）的官網(wǎng)上找到了股票回購(gòu)公告信息，得出了準(zhǔn)確的答案：

上下滾動(dòng)查看完整推理過程

Agentic 編程能力持續(xù)精進(jìn)

Kimi K2 Thinking 模型的編碼能力也得到了增強(qiáng)，在多語言軟件工程基準(zhǔn) SWE-Multilingual、SWE-bench 驗(yàn)證集和 Terminal 終端使用等基準(zhǔn)測(cè)試中的表現(xiàn)有了進(jìn)一步提升。

我們觀察到 Kimi K2 Thinking 在處理 HTML、React 以及組件豐富的前端任務(wù)時(shí)性能有明顯提升，能將創(chuàng)意轉(zhuǎn)變?yōu)楣δ荦R全、響應(yīng)式的產(chǎn)品。在 Agentic Coding 場(chǎng)景中，Kimi K2 Thinking 能在調(diào)用各種工具的同時(shí)進(jìn)行思考，靈活地融入 software agents 中，處理更復(fù)雜、多步驟的開發(fā)工作流。

我們來看兩個(gè)例子：

現(xiàn)在，Kimi K2 Thinking 可以幫你復(fù)刻一個(gè)真實(shí)可用的 Word 文字編輯器。

Kimi K2 Thinking 也可以幫你創(chuàng)造一個(gè)華麗風(fēng)格的體素藝術(shù)（voxel art）作品：

通用基礎(chǔ)能力升級(jí)

創(chuàng)意寫作：Kimi K2 Thinking 顯著提升了寫作能力，它能將粗略的靈感轉(zhuǎn)化為清晰、動(dòng)人且意圖明確的敘述，使其兼具韻律感和深度。它能輕松駕馭微妙的文風(fēng)差異和模糊的結(jié)構(gòu)，并在長(zhǎng)篇大論中保持風(fēng)格的連貫性。在創(chuàng)意寫作方面，它筆下的意象更生動(dòng)，情感共鳴更強(qiáng)烈，將精準(zhǔn)的表達(dá)與豐富的表現(xiàn)力融為一體。

學(xué)術(shù)與研究：在學(xué)術(shù)研究和專業(yè)領(lǐng)域，Kimi K2 Thinking 在分析深度、信息準(zhǔn)確性和邏輯結(jié)構(gòu)方面均有顯著提升。它能有條不紊地剖析復(fù)雜的指令，并以清晰嚴(yán)謹(jǐn)?shù)姆绞酵卣顾悸贰＿@使其尤其擅長(zhǎng)處理學(xué)術(shù)論文、技術(shù)摘要，以及那些對(duì)信息完整性和推理質(zhì)量要求極高的長(zhǎng)篇報(bào)告。

個(gè)人與情感：在回應(yīng)個(gè)人或情感類問題時(shí)，Kimi K2 Thinking 的回答更富同理心，立場(chǎng)也更中正平和。它的思考深入周到且具體明確，能提供細(xì)致入微的觀點(diǎn)和切實(shí)可行的后續(xù)建議。它能清晰并關(guān)切地幫助用戶梳理復(fù)雜的決策，其語氣既腳踏實(shí)地又切實(shí)中肯，更有人情味。

我們來看一個(gè)輔助閱讀英文技術(shù)論文的例子：

上下滾動(dòng)查看完整分析過程

原生 INT4 量化提升推理效率

低比特量化是降低大規(guī)模推理服務(wù)器的延遲和 GPU 顯存占用的有效方法。我們的測(cè)試發(fā)現(xiàn)，因?yàn)樗伎寄Ｐ蜁?huì)產(chǎn)生極長(zhǎng)的解碼長(zhǎng)度，常規(guī)的量化手段往往會(huì)導(dǎo)致模型性能大幅下降。為了克服這一挑戰(zhàn)，我們?cè)诤笥?xùn)練（post-training）階段采用了量化感知訓(xùn)練（QAT），并對(duì) MoE 組件應(yīng)用了 INT4 純權(quán)重（weight-only）量化。

這使得 Kimi K2 Thinking 模型能夠在復(fù)雜推理和 Agentic 任務(wù)中支持原生的 INT4 推理，并將生成速度提升了約 2 倍。INT4 對(duì)推理硬件的兼容性更強(qiáng)，對(duì)國(guó)產(chǎn)加速計(jì)算芯片也更加友好。值得注意的是，Kimi 所有的基準(zhǔn)測(cè)試成績(jī)都是在 INT4 精度下取得的。

現(xiàn)在開始使用

前往 kimi.com 或更新到最新版 Kimi App，從「工具箱」中打開 K2 模型的「長(zhǎng)思考」開關(guān)，即可把你遇到的復(fù)雜任務(wù)丟給 Kimi 一起思考。

Kimi K2 Thinking 模型 API 已上架 Kimi 開放平臺(tái)（platform.moonshot.cn），支持 256K 上下文，價(jià)格與 Kimi K2-0905 相同，每百萬 Token 輸入 4 元，輸出 16 元，命中緩存的輸入為 1 元。速度高達(dá) 100 Token/s 的 Turbo API 也同步上架，每百萬 Token 輸入 8 元，輸出 58 元，命中緩存的輸入為 1 元。歡迎開發(fā)者測(cè)試反饋新模型 API。

關(guān)于 Kimi K2 模型

Kimi K2 模型最初發(fā)布于 7 月 11 日，它是一款混合專家架構(gòu)（MoE）的開源基礎(chǔ)模型，總參數(shù) 10,000 億，激活參數(shù) 320 億。9 月 5 日，Kimi K2-0905 版更新，進(jìn)一步提升了代碼能力，并且將上下文窗口從 128K 升級(jí)到 256K。截止目前，包括 Cline、Cursor、flowith、Genspark、Kilo Code、Kortix Suna、OpenRouter、Perplexity、RooCode、TRAE、Trickle、Vercel、Windsurf 、YouWare 等在內(nèi)的產(chǎn)品都接入或在使用 Kimi K2 模型。11 月 6 日，Kimi K2 Thinking 模型發(fā)布，全面提升 Agent 和推理能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.