11 月 6 日,Kimi 發(fā)布 Kimi K2 Thinking,已在網(wǎng)頁端與最新版 App 上線,同時(shí)其 API 也正式登陸 Kimi 開放平臺(tái)。
Kimi K2 是基于「模型即 Agent」理念訓(xùn)練的新一代 Thinking Agent。在 OpenAI 評(píng)估 AI Agent 網(wǎng)絡(luò)瀏覽能力的基準(zhǔn)測(cè)試 BrowseComp 中,Kimi K2 以 60.2% 的成績(jī)成為新的 SOTA 模型。
真格基金于 2023 年天使輪投資月之暗面。自 2023 年 10 月發(fā)布以來,Kimi 持續(xù)升級(jí)基礎(chǔ)模型能力,拓展產(chǎn)品功能與交互體驗(yàn)。Kimi K2 模型最初發(fā)布于 7 月 11 日。目前,包括 Cursor、Genspark、Perplexity、YouWare 等多款產(chǎn)品已接入或使用 Kimi K2 模型。
我們期待在未來與 Kimi 和更多用戶一起共創(chuàng)智能。
今天,我們發(fā)布 Kimi K2 Thinking——Kimi 迄今能力最強(qiáng)的開源思考模型。
Kimi K2 Thinking 是我們基于「模型即 Agent」理念訓(xùn)練的新一代 Thinking Agent,它原生掌握「邊思考,邊使用工具」的能力。在人類最后的考試(Humanity's Last Exam)、自主網(wǎng)絡(luò)瀏覽能力(BrowseComp)、復(fù)雜信息收集推理(SEAL-0)等多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)達(dá)到 SOTA 水平,并在 Agentic 搜索、Agentic 編程、寫作和綜合推理能力等方面取得全面提升。
Kimi K2 Thinking 模型無需人類干預(yù),即可憑借持續(xù)穩(wěn)定的深度思考能力自主實(shí)現(xiàn)高達(dá) 300 步的工具調(diào)用,從而幫助用戶解決更復(fù)雜的問題。這是我們?cè)?Test-Time Scaling(測(cè)試時(shí)擴(kuò)展)領(lǐng)域的最新進(jìn)展,通過同時(shí)擴(kuò)展思考 Token 和工具調(diào)用的步數(shù),實(shí)現(xiàn)更強(qiáng)的 Agent 和推理性能。
Kimi K2 Thinking 模型已上線 kimi.com 和最新版 Kimi 手機(jī)應(yīng)用的常規(guī)對(duì)話模式。Kimi Agent 模式的底層模型后續(xù)也將升級(jí)為 Kimi K2 Thinking 模型,帶來完整的多步思考和工具調(diào)用能力。
Kimi K2 Thinking 模型的 API 可通過 Kimi 開放平臺(tái)(platform.moonshot.cn)訪問。如需自行部署,請(qǐng)?jiān)?Hugging Face、ModelScope 等平臺(tái)下載模型。
推理性能全面提升
我們來看一個(gè)人類最后的考試中人文類題目推理過程示例。在這個(gè)示例中,Kimi K2 Thinking 經(jīng)過 5 次搜索和推理,結(jié)合每步搜索到的新信息,層層深入,最終推理出了答案:
上下滾動(dòng)查看完整推理過程
自主搜索與瀏覽能力全面提升
在復(fù)雜搜索和瀏覽場(chǎng)景中,Kimi K2 Thinking 模型也表現(xiàn)出色。BrowseComp 是由 OpenAI 發(fā)布的一個(gè)專門評(píng)估 AI Agent 網(wǎng)絡(luò)瀏覽能力的基準(zhǔn)測(cè)試,這項(xiàng)測(cè)試的初衷是衡量 AI Agent 在信息過載環(huán)境中展現(xiàn)出的堅(jiān)持性與創(chuàng)造力,即能否像人類研究員一樣「刨根問底」。在這項(xiàng)極具挑戰(zhàn)的任務(wù)上,人類平均只能達(dá)到 29.2% 的成績(jī)。Kimi K2 Thinking 在這項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出極強(qiáng)的鉆研能力,以 60.2% 的成績(jī)成為新的 SOTA 模型。
在長(zhǎng)程規(guī)劃和自主搜索能力的驅(qū)動(dòng)下,Kimi K2 Thinking 可借助多達(dá)上百步的「思考 → 搜索→ 瀏覽網(wǎng)頁 → 思考 → 編程」動(dòng)態(tài)循環(huán),持續(xù)地提出并完善假設(shè)、驗(yàn)證證據(jù)、進(jìn)行推理,并構(gòu)建出邏輯一致的答案。這種邊主動(dòng)搜索邊持續(xù)思考的能力,使 Kimi K2 Thinking 能夠?qū)⒛:议_放式的問題分解為清晰、可執(zhí)行的子任務(wù)。
我們來看一個(gè)示例,在這個(gè)例子中,Kimi K2 Thinking 經(jīng)過兩次搜索和思考,先根據(jù)股票回購(gòu)的已知信息找到了這家制造快艇的公司,然后在美國(guó)證券交易委員會(huì)(SEC)的官網(wǎng)上找到了股票回購(gòu)公告信息,得出了準(zhǔn)確的答案:
上下滾動(dòng)查看完整推理過程
Agentic 編程能力持續(xù)精進(jìn)
Kimi K2 Thinking 模型的編碼能力也得到了增強(qiáng),在多語言軟件工程基準(zhǔn) SWE-Multilingual、SWE-bench 驗(yàn)證集和 Terminal 終端使用等基準(zhǔn)測(cè)試中的表現(xiàn)有了進(jìn)一步提升。
我們觀察到 Kimi K2 Thinking 在處理 HTML、React 以及組件豐富的前端任務(wù)時(shí)性能有明顯提升,能將創(chuàng)意轉(zhuǎn)變?yōu)楣δ荦R全、響應(yīng)式的產(chǎn)品。在 Agentic Coding 場(chǎng)景中,Kimi K2 Thinking 能在調(diào)用各種工具的同時(shí)進(jìn)行思考,靈活地融入 software agents 中,處理更復(fù)雜、多步驟的開發(fā)工作流。
我們來看兩個(gè)例子:
現(xiàn)在,Kimi K2 Thinking 可以幫你復(fù)刻一個(gè)真實(shí)可用的 Word 文字編輯器。
Kimi K2 Thinking 也可以幫你創(chuàng)造一個(gè)華麗風(fēng)格的體素藝術(shù)(voxel art)作品:
通用基礎(chǔ)能力升級(jí)
創(chuàng)意寫作:Kimi K2 Thinking 顯著提升了寫作能力,它能將粗略的靈感轉(zhuǎn)化為清晰、動(dòng)人且意圖明確的敘述,使其兼具韻律感和深度。它能輕松駕馭微妙的文風(fēng)差異和模糊的結(jié)構(gòu),并在長(zhǎng)篇大論中保持風(fēng)格的連貫性。在創(chuàng)意寫作方面,它筆下的意象更生動(dòng),情感共鳴更強(qiáng)烈,將精準(zhǔn)的表達(dá)與豐富的表現(xiàn)力融為一體。
學(xué)術(shù)與研究:在學(xué)術(shù)研究和專業(yè)領(lǐng)域,Kimi K2 Thinking 在分析深度、信息準(zhǔn)確性和邏輯結(jié)構(gòu)方面均有顯著提升。它能有條不紊地剖析復(fù)雜的指令,并以清晰嚴(yán)謹(jǐn)?shù)姆绞酵卣顾悸贰_@使其尤其擅長(zhǎng)處理學(xué)術(shù)論文、技術(shù)摘要,以及那些對(duì)信息完整性和推理質(zhì)量要求極高的長(zhǎng)篇報(bào)告。
個(gè)人與情感:在回應(yīng)個(gè)人或情感類問題時(shí),Kimi K2 Thinking 的回答更富同理心,立場(chǎng)也更中正平和。它的思考深入周到且具體明確,能提供細(xì)致入微的觀點(diǎn)和切實(shí)可行的后續(xù)建議。它能清晰并關(guān)切地幫助用戶梳理復(fù)雜的決策,其語氣既腳踏實(shí)地又切實(shí)中肯,更有人情味。
我們來看一個(gè)輔助閱讀英文技術(shù)論文的例子:
上下滾動(dòng)查看完整分析過程
原生 INT4 量化提升推理效率
低比特量化是降低大規(guī)模推理服務(wù)器的延遲和 GPU 顯存占用的有效方法。我們的測(cè)試發(fā)現(xiàn),因?yàn)樗伎寄P蜁?huì)產(chǎn)生極長(zhǎng)的解碼長(zhǎng)度,常規(guī)的量化手段往往會(huì)導(dǎo)致模型性能大幅下降。為了克服這一挑戰(zhàn),我們?cè)诤笥?xùn)練(post-training)階段采用了量化感知訓(xùn)練(QAT),并對(duì) MoE 組件應(yīng)用了 INT4 純權(quán)重(weight-only)量化。
這使得 Kimi K2 Thinking 模型能夠在復(fù)雜推理和 Agentic 任務(wù)中支持原生的 INT4 推理,并將生成速度提升了約 2 倍。INT4 對(duì)推理硬件的兼容性更強(qiáng),對(duì)國(guó)產(chǎn)加速計(jì)算芯片也更加友好。值得注意的是,Kimi 所有的基準(zhǔn)測(cè)試成績(jī)都是在 INT4 精度下取得的。
現(xiàn)在開始使用
前往 kimi.com 或更新到最新版 Kimi App,從「工具箱」中打開 K2 模型的「長(zhǎng)思考」開關(guān),即可把你遇到的復(fù)雜任務(wù)丟給 Kimi 一起思考。
Kimi K2 Thinking 模型 API 已上架 Kimi 開放平臺(tái)(platform.moonshot.cn),支持 256K 上下文,價(jià)格與 Kimi K2-0905 相同,每百萬 Token 輸入 4 元,輸出 16 元,命中緩存的輸入為 1 元。速度高達(dá) 100 Token/s 的 Turbo API 也同步上架,每百萬 Token 輸入 8 元,輸出 58 元,命中緩存的輸入為 1 元。歡迎開發(fā)者測(cè)試反饋新模型 API。
關(guān)于 Kimi K2 模型
Kimi K2 模型最初發(fā)布于 7 月 11 日,它是一款混合專家架構(gòu)(MoE)的開源基礎(chǔ)模型,總參數(shù) 10,000 億,激活參數(shù) 320 億。9 月 5 日,Kimi K2-0905 版更新,進(jìn)一步提升了代碼能力,并且將上下文窗口從 128K 升級(jí)到 256K。截止目前,包括 Cline、Cursor、flowith、Genspark、Kilo Code、Kortix Suna、OpenRouter、Perplexity、RooCode、TRAE、Trickle、Vercel、Windsurf 、YouWare 等在內(nèi)的產(chǎn)品都接入或在使用 Kimi K2 模型。11 月 6 日,Kimi K2 Thinking 模型發(fā)布,全面提升 Agent 和推理能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.