這兩天國內(nèi) AI 圈最火的非 Manus 莫屬了.一句話總結(jié),那么就是:交互上有非常大的創(chuàng)新,受限于模型與數(shù)據(jù),目前沒有護城河。
優(yōu)點:
? Manus 在產(chǎn)品交互上有非常大的創(chuàng)新,可以說相當驚艷。很容易上手,整個過程對用戶透明不需要干預(yù),結(jié)果很直觀。
? 采用模擬人類瀏覽網(wǎng)頁的方式讓它更具有通用性,適用于通用任務(wù)而不是特定任務(wù)類型,未來有更大想象空間,好比類人的機器人可以做更多的通用型任務(wù)。
? 可以對獲取到的數(shù)據(jù)進行分析生成漂亮的圖表。
? 生成的代碼直接可以在虛擬機運行看到效果
不足:
? 通過 ToDo List 規(guī)劃的方式,雖然可以讓 AI 探索的路徑不至于太發(fā)散,但是會讓結(jié)果趨于平庸,畢竟稍微復(fù)雜一點的任務(wù)是需要根據(jù)獲得的信息做動態(tài)調(diào)整的。
? 受限于模型的能力和上下文窗口長度,在資料的篩選,和最終資料的合并整理上,會有比較大損耗,最終生成結(jié)果和質(zhì)量大部分時候是比較平庸的。
? 使用目前模擬瀏覽器搜索、點擊、滾動,再用視覺識別文字圖表的方式,時間成本和資源成本都不低,通過 OCR 獲取屏幕內(nèi)容也可能會導(dǎo)致信息缺失。
技術(shù)實現(xiàn)
一圖勝千言,圖1 大致畫了一下 Manus 的架構(gòu)圖(不代表真實實現(xiàn),僅作示意參考),主要有幾個模塊:
1. 虛擬機:一個 Linux 系統(tǒng)的虛擬機,安裝有
? Chrome 瀏覽器,用來訪問網(wǎng)頁
? Python 運行環(huán)境,可以執(zhí)行腳本分析數(shù)據(jù),可以啟動一個網(wǎng)頁運行環(huán)境
2. 任務(wù)規(guī)劃器:根據(jù)用戶輸入的任務(wù)請求,拆分成 ToDo List,我推測是 Claude 模型,因為這一步至關(guān)重要,必須要求模型有很強的推理能力,目前來說 Claude 3.7 Sonnet 應(yīng)該是很經(jīng)濟實惠的選擇
3. 任務(wù)執(zhí)行調(diào)度器:根據(jù) ToDo List 的任務(wù)清單,逐一執(zhí)行,根據(jù)任務(wù)去選擇最合適的 Agent。由于這一步重點是在 Agent 的選擇,所以不需要能力太強的模型,可以用開源模型比如 Qwen 稍微微調(diào)一下就可以用了。
4. 各種執(zhí)行不同類型任務(wù)的 Agents:Manus 內(nèi)置了很多 Agent,比如最復(fù)雜的應(yīng)該是類似于 OpenAI Operator 的網(wǎng)頁瀏覽 Agent,比如根據(jù)特定 API 檢索特定數(shù)據(jù)的 Agent,每個 Agent 在完成任務(wù)后都會把任務(wù)結(jié)果寫到虛擬機。
5. 任務(wù)匯總生成器:當每個子任務(wù)執(zhí)行完成后,任務(wù)執(zhí)行調(diào)度器就會通知任務(wù)匯總生成器,任務(wù)匯總生成器就會去虛擬機讀取 ToDo List 以及各個子任務(wù)的生成結(jié)果,把這些結(jié)果匯總整理生成最終結(jié)果,根據(jù)任務(wù)要求,可能是一份調(diào)研報告,可能是網(wǎng)頁程序。由于這一步要求有極強的推理能力和語言能力,所以必然要求一個很強的模型,所以我猜這里也應(yīng)該是 Claude 3.7 Sonnet。
Manus 的護城河在哪里?
如果連我這樣一個偽專業(yè)人士也能大致分析出它的技術(shù)實現(xiàn),那么是不是其他團隊也可以去馬上山寨一個出來?Manus 的護城河在哪里呢?
對于現(xiàn)在的 AI 產(chǎn)品來說,護城河主要就幾個點:
1. 模型 + 算力
2. 數(shù)據(jù)
3. 用戶體驗
比如說 OpenAI 的 Deep Research,雖然開源或者商業(yè)的競品很多,但是效果比它好的還沒有第二家,因為它用來規(guī)劃任務(wù)、選擇工具、匯總的模型是他們家最強的推理 o3 模型,可能也是業(yè)界最強的推理模型,無論是推理能力還是上下文長度都超過了公開的 Claude 3.7 Sonnet 模型,同時他們還基于 o3 針對 Deep Research 做了大量的強化學(xué)習(xí)訓(xùn)練,讓模型在執(zhí)行任務(wù)和生成內(nèi)容都可以取得很好的效果,模型能力就是 OpenAI 的護城河。
比如說 Google,雖然模型不一定有 OpenAI 的強,但是它們家的數(shù)據(jù)搜索能力是最強的,可以獲取到優(yōu)質(zhì)的數(shù)據(jù)源,所以效果也不錯,數(shù)據(jù)搜索就是 Google 的護城河。
比如說經(jīng)常被比作是“套殼”的 AI 產(chǎn)品 Perplexity,模型比不過 OpenAI,數(shù)據(jù)搜索比不上 Google,但是依然在 AI 搜索中占有很重要的地位,它依賴的是獨特的用戶體驗,更懂用戶,更好的提供了用戶想要的搜索結(jié)果。
但這里的用戶體驗,不是傳統(tǒng)意義上的用戶界面交互層面的體驗,而是基于大量用戶使用數(shù)據(jù)而個性化優(yōu)化后的優(yōu)化體驗,很懂用戶想要什么。
Perplexity 和 Cursor 這類 AI “套殼”產(chǎn)品的護城河,就在于它有大量用戶數(shù)據(jù)沉淀后的用戶體驗。
要有一個生態(tài)占位思路,先推出產(chǎn)品,先占住這個生態(tài)位,然后不斷迭代,不斷提升能力,就能夠做得越來越好。 相似的例子是Cursor,他們最開始發(fā)布的產(chǎn)品,效果也沒有那么好,沒有那么驚艷,但是他們等到了 claude sonnet 3.5 這個模型的出現(xiàn),于是全球各地開發(fā)者都在自來水推薦 Cursor 。 試想一下,如果 Cursor 等到了 claude sonnet 3.5 發(fā)布之后,才去開始動手做,那么機會還會是 Cursor 的嗎?
吸引來用戶,留住用戶,形成口碑,把這些用戶數(shù)據(jù)沉淀下來進一步提升用戶體驗,以后隨著模型能力的升級一起更新迭代,就能真正形成自己的護城河,再難被其他競品超越。
Manus 開了個好頭,但挑戰(zhàn)還是不小的,開源的實現(xiàn)、商業(yè)上的山寨版本應(yīng)該很快就要出來了,用戶的熱度也會消散的很快,一旦有新的熱點馬上就會去追逐新的熱點了,就像你還記得 OpenAI 家的 Operator 嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.