網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

階躍星辰：模型層突破多模態(tài)和推理能力后，Agent元年終于到了

2025-02-24 21:56:01　來(lái)源: 四木相對(duì)論

北京舉報(bào)

分享至

三天前，“大模型六小虎”中最低調(diào)的「階躍星辰」對(duì)外舉辦了一場(chǎng)大秀——“Step UP生態(tài)開(kāi)放日”在上海徐匯開(kāi)幕。

今年1月，它在6天里連發(fā)了6個(gè)模型，一口氣把語(yǔ)言、語(yǔ)音、推理、圖片理解、視頻生成全都覆蓋，稱(chēng)得上是低調(diào)的卷王。

這次活動(dòng)上，這個(gè)大模型卷王更是集中對(duì)外集中秀了一波生態(tài)肌肉。

一進(jìn)入會(huì)場(chǎng)，一排排AI應(yīng)用“檔口”整齊排列。這里不只有階躍自家產(chǎn)品“躍問(wèn)”，還有一大堆合作開(kāi)發(fā)者的應(yīng)用產(chǎn)品，包括前段時(shí)間刷屏的“貍譜”，小火過(guò)一段期間的“陌生人鬧鐘”，“林間聊愈室”以及“心光AI”、“物圓”，還有公益項(xiàng)目“小胰寶”等等。

*來(lái)路演的AI應(yīng)用們，四木相對(duì)論攝影

圍繞自己的大模型建立起“應(yīng)用生態(tài)圈”，是階躍過(guò)去一年的核心話(huà)題之一。

到了2025年，隨著模型層多模態(tài)和慢思考（推理）能力的提升，階躍的生態(tài)故事會(huì)重點(diǎn)發(fā)力Agent。

這也是階躍星辰創(chuàng)始人、CEO姜大昕這次亮相強(qiáng)調(diào)的核心觀點(diǎn)。

“為什么很多人認(rèn)為2025年會(huì)是Agent元年？因?yàn)锳gent 爆發(fā)的兩大必要條件，多模態(tài)的能力和慢思考能力都在2024年得到突破。”他說(shuō)。

一年發(fā)布11款模型，還在開(kāi)發(fā)視覺(jué)推理模型

先來(lái)看看階躍過(guò)去一年的“成績(jī)單”：

2024年一年發(fā)布了11個(gè)模型，覆蓋語(yǔ)音識(shí)別、語(yǔ)音生成、多模態(tài)理解、圖像及視頻生成的全面能力。
2025年1月，Step R-mini發(fā)布，是Step系列的首款推理模型。
2月18日，階躍又發(fā)布了開(kāi)源視頻生成模型Step-Video-T2V以及開(kāi)源語(yǔ)音交互模型 Step-Audio。姜大昕介紹，Step-Video-T2V參數(shù)量達(dá)到 300 億，是目前全球范圍內(nèi)參數(shù)量最大、性能最好的開(kāi)源視頻生成大模型； Step-Audio的參數(shù)量更是達(dá)到1300 億。
最新的兩個(gè)開(kāi)源大模型發(fā)布后，就有 21 個(gè)開(kāi)源模型生態(tài)接入，海外各平臺(tái)曝光量近千萬(wàn)，收藏速度遠(yuǎn)超同類(lèi)知名模型。
Step-1V多模態(tài)理解大模型位列LMSYS 榜單國(guó)內(nèi)第一，Step-1o Vision 在國(guó)內(nèi)權(quán)威的大型模型評(píng)估平臺(tái)“司南”(Opencompass)多模態(tài)評(píng)測(cè)實(shí)時(shí)榜單中，位列第一。

值得注意的是，不同于DeepSeek開(kāi)源側(cè)重于文本和推理的大模型，階躍星辰開(kāi)源的是兩款多模態(tài)模型。

這或許和階躍星辰堅(jiān)持的AGI路線圖有關(guān)。

早在一年前階躍初次亮相時(shí)，姜大昕就規(guī)劃了實(shí)現(xiàn)AGI的路線圖，包括模擬世界、探索世界和歸納世界三個(gè)階段：

在模擬世界階段，訓(xùn)練模型的主要范式是模仿學(xué)習(xí)，學(xué)習(xí)的主要目標(biāo)是各種模態(tài)的表征，包括從聲音、文本、圖像、視頻一直到4D時(shí)空的物理世界。
下一步是培養(yǎng)模型能夠解決復(fù)雜問(wèn)題的能力，即邏輯推理能力。這里需要AI學(xué)會(huì)拆解問(wèn)題并不斷探索，類(lèi)似于人腦系統(tǒng)2的模式，也就是慢思考的方式，而強(qiáng)化學(xué)習(xí)是其中最主要的訓(xùn)練方法。
最后是機(jī)器能夠自主學(xué)習(xí)、主動(dòng)地發(fā)現(xiàn)物理規(guī)律，這樣AI就可以在生物核能材料、量子計(jì)算等領(lǐng)域和人類(lèi)科學(xué)家一起創(chuàng)新。

目前，階躍也正走在這一路線上。在發(fā)布多模態(tài)模型之后，這家公司的推理模型也有新的進(jìn)展。

關(guān)于推理模型，姜大昕透露：

階躍開(kāi)發(fā)了 Open-Reasoner-Zero，這是階躍與清華聯(lián)合完成的「首個(gè)從預(yù)訓(xùn)練模型直接進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)的開(kāi)源實(shí)現(xiàn)」，以約4%的訓(xùn)練迭代次數(shù)超過(guò)相同尺寸模型采用DeepSeek-R1-Zero方案的分?jǐn)?shù)。在開(kāi)發(fā)過(guò)程中，階躍還發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象，即只用最基本的PPO算法和基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)，就可以激發(fā)模型進(jìn)行長(zhǎng)思維鏈的思考，并有效提高它的推理能力。
階躍內(nèi)部正在開(kāi)發(fā)一款視覺(jué)推理模型，可以解決復(fù)雜問(wèn)題，具備慢思考的能力。如何把強(qiáng)化學(xué)習(xí)的方法引入視覺(jué)領(lǐng)域，實(shí)現(xiàn)在視覺(jué)空間下慢思考正是階躍的努力方向。

Agent落地智能終端

模型的提升勢(shì)必讓?xiě)?yīng)用受益。從2023年到2025年，最被期待的AI Native產(chǎn)品是Agent。

完成了模型層的初步打磨，階躍也把Agent看作重點(diǎn)。

目前，階躍將Agent分為兩個(gè)大類(lèi)：垂類(lèi)Agent和智能終端Agent。這兩個(gè)方向上，它選擇與“生態(tài)伙伴”合作開(kāi)發(fā)。

階躍將智能終端Agent分為五個(gè)等級(jí)，1-3等級(jí)從低到高依次能解決簡(jiǎn)單任務(wù)、綜合任務(wù)、復(fù)雜任務(wù)，進(jìn)而可主動(dòng)發(fā)起任務(wù)，最后實(shí)現(xiàn)情感陪伴。

目前，階躍在智能終端Agent方向主要布局汽車(chē)、手機(jī)、具身智能、IoT等關(guān)鍵應(yīng)用場(chǎng)景。

一系列在今天發(fā)布的重要合作展示出階躍的Agent生態(tài)：

AI+車(chē)：階躍星辰將與吉利汽車(chē)集團(tuán)、千里科技合作推動(dòng)“AI+車(chē)”的深度融合。千里科技董事長(zhǎng)印奇也出席了這次圓桌論壇。
手機(jī)終端：基于階躍Step系列多模態(tài)模型，OPPO 推出了「一鍵問(wèn)屏」和「一鍵全能搜」兩大AI 手機(jī)功能：用戶(hù)可以通過(guò)小布助手App與AI 交互，實(shí)現(xiàn)拍照問(wèn)答、文檔問(wèn)答，識(shí)屏問(wèn)答等。同時(shí)，用戶(hù)也可以對(duì)小布助手直接下達(dá)指令，讓AI 可以獨(dú)立進(jìn)入各種App端完成任務(wù)，比如一鍵搜所有。
具身智能：與智元機(jī)器人合作，共同探索 AI+具身機(jī)器人應(yīng)用場(chǎng)景。階躍還透露將為智元機(jī)器人的開(kāi)發(fā)提供千億級(jí)token。
IoT 終端：階躍星辰通過(guò)生態(tài)開(kāi)放的方式，與包括TCL在內(nèi)的一系列IoT平臺(tái)和設(shè)備廠商協(xié)作，推動(dòng)設(shè)備間智能升級(jí)和體驗(yàn)連接。

垂類(lèi)Agent多點(diǎn)開(kāi)花

在垂直類(lèi)Agent方面，圍繞金融財(cái)經(jīng)、內(nèi)容創(chuàng)作、新零售、數(shù)字人等行業(yè)，階躍也有不小的進(jìn)展。

比如，2024年，階躍星辰和上海報(bào)業(yè)旗下界面財(cái)聯(lián)社達(dá)成深度戰(zhàn)略合作，聯(lián)合創(chuàng)辦大模型科技公司財(cái)躍星辰。

目前，財(cái)躍星辰已經(jīng)面向金融行業(yè)推出“財(cái)躍大模型” ，它還面向 C 端推出財(cái)富小助理「AI小財(cái)神」，為用戶(hù)提供AI數(shù)據(jù)挖掘、AI 對(duì)話(huà)和財(cái)報(bào)解讀等功能。

階躍還宣布和瑞幸咖啡、通用GPU及算力系統(tǒng)提供商天數(shù)智芯達(dá)成戰(zhàn)略合作，從算力、基座模型到新零售，希望閉環(huán)技術(shù)研發(fā)和消費(fèi)場(chǎng)景。

在內(nèi)容領(lǐng)域，它也和中廣天擇達(dá)成了合作。中廣天擇介紹，合作主要集中在微短劇、動(dòng)漫等熱門(mén)應(yīng)用場(chǎng)景，內(nèi)容包括共同開(kāi)發(fā)數(shù)字視頻垂類(lèi)大模型、搭建數(shù)據(jù)要素治理平臺(tái)、智能生產(chǎn)平臺(tái)等。

在DeepSeek “掀翻牌桌”的沖擊下，國(guó)內(nèi)其他頭部大模型近期都在調(diào)整策略。

現(xiàn)在看來(lái)，階躍邁出的一步是布局Agent生態(tài)。

尤其當(dāng)完善整個(gè)模型層的布局后，階躍星辰的Agent落地故事或許已擁有一個(gè)扎實(shí)開(kāi)始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.