網易首頁 > 網易號 > 正文申請入駐

給 OpenClaw 做硬件沒前途，但給上下文系統做，是值得的

2026-04-02 19:10:29　來源: FounderPark

北京舉報

分享至

一家叫泛靈人工智能的團隊，出了一款主打「超級辦公助理」的硬件產品。

參數配置很厲害，x86 芯片直接跑本地 Ubuntu，推理芯片可以本地跑 122B 的 MoE 模型 +27B 的稠密模型。支持辦公場景的實時會議錄音，操作任何設備的錄屏，線下開會和外出調研的全記錄。

目標是成為「口袋里的全模態超級辦公助理」，后 OpenClaw 時代的個人 Agent Native 硬件基座。

初看到這個宣傳，會有很多疑問，甚至質疑。

云端模型越來越強大、價格在持續下降的時候，把模型全放在端側，有價值嗎？122B 的模型到底能做啥？又做上下文記錄又做任務處理，難道是想做 All in One 嗎？

一個小團隊，做這么復雜的硬件，今年 9 月份才量產，真的不是噱頭嗎？

所以今天這篇采訪，更多的是好奇和 challenge 的角度，試圖去理解他們為什么要用獨立的硬件去作為上下文管理和路由系統，以及在他們看來，收集用戶更多的 context，到底價值在哪里。

但很明顯，不管是硬件還是軟件，大家對于終點的設想看起來是一致的，「構建用戶的上下文中心，降低用戶使用 AI 的門檻」。只是每個團隊的解法不一樣，比如我們之前采訪的 Airjelly，用軟件的形式，通過收集用戶的 Enter 行為來確認用戶的意圖，降低人和 AI 的摩擦。

而泛靈的團隊，選擇了硬件這條很明顯更難的一條路。

以下是 Founder Park 與泛靈人工智能 CEO Lotus、CPO Alfred 的對話，經編輯整理。

采訪 | 萬戶

編輯 | 夏天

??關注 Founder Park，最及時最干貨的創業分享

超 22000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的 AI 產品曝光渠道

01用 ToB 做產品驗證，用廣告做 PMF 驗證

Founder Park：簡單介紹一下你們的團隊吧，大家是怎么聚在一起做這件事的？

Lotus：我們是比較典型的硬核工程加跨界產品的組合。創始團隊有海外藤校背景的產品經理，索尼的影像工程師，大疆的渠道老兵，主導過多代旗艦手機營銷的小米市場老將，CTO 是英偉達中國開發者最有價值專家。核心團隊還有 MIT、蘋果、微軟、字節跳動等頂級公司和學校的同學，背景跨度很大。每個人都有做硬件的背景，大家聚在一起主要有兩個原因：我們是連續創業團隊，而且對技術演進方向有很多相同的非共識。

Alfred：最早我和 Jay（COO）、Thomas（CTO）三個人合作做的第一個硬件，是給影像行業解決虛擬制片（用攝影機拍 LED 大屏）的問題。我們做的是解決虛擬制片中攝影機和 LED 屏同步、空間定位的專業硬件，叫 MagicCineTool。后來因為貿易戰對 PCB 和電子元器件加征關稅，這個產品流產了，大家才轉型開始做 RM-01。

Founder Park：ToB 產品 RM-01 是怎么來的，商業化跑通了嗎？

Alfred：2023 年就開始了，比 DeepSeek 那波熱度更早。一開始先做軟件——基于 Qwen 1.5 的 110B 和 72B 做了一套軟件，賣 20 萬左右，但客戶需要部署一兩百萬的服務器去做推理。那時候大家還沒有「算力服務器」的概念，單位可能配個 NAS 或者傳統服務器，這個賬根本算不過來。

還有一個重要原因是我們當時做了一套公文寫作系統，這類客戶有嚴格的數據隱私需求，必須本地化部署和推理。那時候模型廠商都在做線上推理，但對數據隱私有要求又想用 AI 的客戶，其實沒人服務——這部分客戶非常有價值。兩個原因加在一起，我們決定做一個自己的硬件，把軟件搭載上去作為整體解決方案交付，這就是 RM-01 的由來。

從 2023 年開始，到 2025 年 9 月完成 3C 認證，我們在內部對 RM-01 做了三代迭代：體積越做越小，加密鑒權改了很多遍，客戶管理模型的方式從最早不能換模型，到后來通過 CFe 卡換模型并做非對稱加密強綁定。DeepSeek 一體機火的時候我們壓著沒賣——團隊有很多傳統硬件大廠背景，做產品有一種慣性：一定要打磨到位了才推向市場，不會急于搶熱度。

Lotus：因為一開始做 RM-01 是從自己痛點出發，前幾代剛出來的時候，周圍合作過的開發者、集成商發現這個產品能解決痛點，POC 進展非常快，拿著半成品的機器就開始測了。第一批客戶就是這些開發者，集成商，他們把整套軟件加模型部署上去，以 DaaS（Device as a Solution）的方式賣給他們的客戶。

從去年 10 月底正式銷售到現在，大概有 200 多萬的現金流。比如快餐連鎖品牌把設備放在端側做 AI 服務，前端接 AR 眼鏡做員工培訓，以前用人培訓周期很長，現在用 AI 加 AR 縮短了很多。我們把服務交給更貼近客戶的 ISV——他們更了解客戶細節，我們專注把機器的穩定性和性能越做越好。

RM-01 的實物圖

Founder Park：ToB 有了第一批客戶和現金流，為什么轉向 ToC？

Lotus：ToB 有幾個結構性問題。國內做 ToB 很多時候靠商務關系，發展上限有限；大客戶 POC 周期動輒半年，還要滿足各種合規性要求，整個鏈條非常長。我們內部也討論過做定制化還是做標品的問題——定制化對創業團隊來說很容易陷進去，所以我們給 ToB 產品的定義是「企業級消費產品」，買了就能用，這個思路后來也延續到了 ToC 產品上。

另一方面，我們團隊最開始就想做 ToC，例如工業設計和制造標準從一開始就和 ToC 接軌。只是 2024 年受制于成本和技術成熟度，再加上消費側需求不成熟，沒有機會。到去年 9 月，成本控制、市場需求、技術成熟度同時到了一個節點，才做了戰略轉型：ToB 以慣性方式繼續推進，未來主要做 ToC。

Alfred：我們做產品的思路更像 IBM 或惠普那些舊敘事里做硬件的人——先做 ToB，把 ToB 作為 ToC 的驗證和打磨階段，一代一代在 ToB 上把技術成熟到可以下放到 ToC 的時候，才來做 ToC。

Lotus：還有一個是客戶側的真實需求，是很多 ToB 客戶一直在問：你們這個設備能不能做得更小？我當時就問自己，如果把產品做得非常小，變成真正便攜式的計算設備，它能帶來什么變化？這里面有個很重要的點是數據的獲取方式。之前很大的機器很難做到隨時采集、隨時錄制，必須依托門檻很高的企業級數據清洗和導入。但如果變得足夠便攜，從能夠采集的數據源數量上就發生了根本變化——如果一個強算力設備足夠便攜，它就能以極低成本、極高隱私的方式連續獲取用戶各類上下文。

當使用本地算力把人的原始數據轉化成足夠多的面向 AI 的上下文之后，整個 AI 系統能產生非常多意想不到的價值。帶著這個想法，我們才開始探索 ToC 方向。

Founder Park：ToB 的用戶畫像是很明確，可是 ToC 似乎一開始沒有明確的用戶？

Lotus：最開始確實比較模糊。我們的 ToB 客戶本身就不是典型大企業，很多是中小型企業、團隊工作室、高校實驗室。后來我們在面向投資人融資時發現他們也有這種需求——當時大家在聊 Plaud，聊小的錄音設備，他們每天開很多會，都有上下文記錄的問題。我說了 ToC 的想法之后，他們說想買一個試試。

我們在去年 12 月上線了面向海外市場的測試，在 FB 上投放了一些廣告，把產品信息和功能特性都列上去，看具體是誰會對產品感興趣。投放結束后畫像比較明確了：科技大廠高管、SMB 小企業主、高級銷售以及醫生、律師、投資人。

用戶反饋的核心需求是：Workflow Automation（任務自動化）、Personal Knowledge Base（個人知識庫）、Local Inference（本地模型推理）。還有第四個——他們不愿意付 Token 的費用。我們就是基于這批真實數據，開始真正打磨 ToC 產品的方向。

02用戶不會為 Context 付費，只會為結果付費

Founder Park：C 端產品主要解決什么問題？

Lotus：我們對產品有兩個定義：對外叫「全模態超級辦公助理」，內部叫「超級節點」（Supernode）。它是一個計算平臺，有強大的本地算力，能承載大模型和 Agent Runtime 環境，承載 Agent 的手和眼。它就像一個大的 Agent 網絡中的一個節點，匯聚各種 Context。

目前主要做的場景是辦公場景——錄屏、線下會議錄音，但這些都不是最終目的，因為他們都是收集 Context 的一種途徑。我們對這些 Context 進行收集、處理、組織、計算，然后分發。這個節點其實是未來 A2A 網絡中重要的一個入口，核心目的之一是幫用戶重構個人的上下文中心。

未來可以接入各種硬件生態——智能眼鏡、智能手表、智能耳機、掛墜。像 Looki 前兩天開放了 API 接口，我們可以做 Day One 適配，直接把 API 接進來。通過不斷擴展感官，用戶的 Context 中心會越來越完整。

第二部分則是基于個人上下文，主動完成 Context 的路由并直接交付結果。這里最有價值的是幫助用戶完成個性化的長尾任務，而所謂主動式，是指系統能在合適的場景和時間點預判用戶需求，在用戶發起指令之前先把任務做好。

我們觀察到，白領和知識工作者日常使用終端設備，本質上是在執行各自的 SOP：獲取原始數據，調用工具處理，再把結果放進下一個流程。每個人的 SOP 都不一樣，背后體現的是個人偏好、行業經驗、邏輯框架和方法論。我們的設備通過連續流式地觀察用戶行為，理解用戶真實意圖，把這些高頻 SOP 無感沉淀成可復用的個人數字資產。

這里有兩個關鍵。

第一是連續性，只有拉長時間線，才能看清一個用戶的真實意圖，或者說任務的邊界：觸發條件、執行管線；第二是無感，系統需要在不打擾用戶的前提下，基于本地算力持續模擬、篩選并優化 SOP。隨著用戶上下文中心、經驗證的個性化 SOP 和不斷更新的熱上下文一起積累，HippoGenius 就能主動完成越來越多個性化的長尾任務，比如提前搜集整理信息，按照用戶喜好做 DCF 分析并生成財務模型，最后在用戶周會前生成匯報文檔并撰寫好給上級的匯報郵件草稿待用戶審核后發送，核心價值就是幫用戶節省時間。

Founder Park：但單純的收集上下文今天是沒價值的吧？

Lotus：對。我們做了非常多測試后發現，Context 本身沒有直接價值——用戶拿到很多 Context 之后是不知所措的，還要找工具、找模型來處理，最后才變成結果。用戶不會愿意為 Context 付費，只會為結果付費。

但現在很多產品想給用戶產出好結果卻做不好，底層原因有兩個：一是 Context 不夠多，二是 Context 路由過程中試錯太多導致費用爆炸。這兩個問題的核心是：用戶不應該為過程付費。線性交互中，用戶 Context 匱乏，需要不斷把腦海里的東西輸入給模型，但用戶不會為單獨準備 Context 而付費。而 OpenClaw 這類產品會因為模型把多輪調用工具輸出的結果放進上下文導致輸入 Token 消耗巨大，也可能試錯了、用錯了工具，還得從頭再來。

我們要把 Context 和人以及 AI 世界的鏈路打通。從多模態原始數據轉化成文本 Context，我們有本地模型，不用花錢——Context 獲取成本打到零。從文本 Context 到主動執行任務并交付結果，中間 Context 路由過程中的工具調用和試錯，因為有本地算力，成本也是零。

舉個例子，幫用戶做任務自動化，我們可以同時模擬十幾條甚至數十條通向最終結果的路徑，基于用戶 Context 做模擬，然后對結果進行排名，選出 Top 2 的結果給用戶。其他結果直接扔掉，整個過程本身不用花錢。用戶不會遇到「幫我做了幾十次模擬，最后花了兩千美金」的問題。

Founder Park：所以單純收集上下文是不夠的，還需要連續地、實時地處理？

Alfred：對，一定要盡量實時處理，而且數據組織同樣關鍵。否則用戶一天產生的上下文會不斷堆積，即使模型名義上有很長的上下文窗口，真正處理時也很容易出現中段信息被稀釋、重點不清、檢索效率下降的問題。

飛書錄音豆推出后效果很好、搶占了一波 Plaud 用戶，核心就在于實時轉寫——一個重要原因就在于它不是把整段長錄音一次性丟給模型，而是先做實時轉寫，再按章節、主題和任務線索拆分處理，最后再做總結和歸納。這樣模型拿到的不是原始數據，而是已經初步結構化過的信息，結果通常會更穩定。

對我們來說也一樣，實時處理不只是把內容轉成文字，更重要的是同步沉淀摘要、標簽、待辦和可檢索結構，讓一次錄音或錄屏最后不是停留在一份靜態紀要上，而是變成后續還能繼續調用、執行和演化的知識項目。

很多產品做不好，關鍵缺了數據組織這一環。寫文章也好，做研報也好，模型能力其實都很強，寫不好的原因一是數據來源不完整，二是數據組織不好——200-300 K 的上下文沒有被整理成適合模型消費的結構，即便模型支持較長上下文，面對低質量、低結構化的信息堆積，效果往往也不會理想。

Manus 做研報效果好，很大程度上是因為它在上下文工程化上的完成度。它不只是「調用了模型」，而是把信息獲取、信息清洗、任務拆解和執行鏈路做得比較扎實，比如用沙盒里的 Computer Use 去處理爬蟲拿不到的信息、登錄態和人機驗證，對無法直接抓取的內容再通過截圖和轉寫補足。這些本質上都是上下文的組織、補全和調度能力，而不只是模型能力本身。

Founder Park：這么說飛書算不算你們的競品？它也擁有大量用戶上下文，也能在 APP 間串API。

Lotus：飛書是個非常好的例子。它是一個完整的生態，擁有大量用戶 Context——會議錄音、飛書文檔、歷史數據，各 APP 之間 API 互通，路由成本非常低。從產品體驗上看，飛書跟我們做的事非常像。

但飛書是字節的垂類生態，做的事都跟飛書產品相關。我們做的是跨生態、跨平臺的事。用戶的工作不可能只在飛書上進行——很多時候在微信上，在釘釘上，在各種網頁端的 APP 里。所以我們站在一個第三方的視角，從用戶立場出發去處理這個問題。

Alfred：哪怕飛書做了一樣的事情，用戶把所有生態接進飛書這件事依然耗時間且麻煩，且不說信任度問題。但如果一個小硬件任何時候只要插上就不用管了，摩擦是更低的。

我寫了一個小軟件來驗證這個路徑——把 iPhone 的靜音鍵變成了 Action Button，一摁按鈕就自動截屏用多模態模型去總結。長期使用下來發現真的很驚喜：一周以后模型給我推了三個點，其中一個是建議我關注閑魚上 AI Max 395 價格的持續下跌。為什么？因為我這 7 天里看到了一些新的推理引擎和芯片演進方向，模型捕捉到了這些關聯，建議我去看價格趨勢來印證。原來如果用戶能持續、無感地提供上下文，模型可以洞察到很多東西。

我們很多人發現不了上下文的價值，是因為沒有一個很輕的交互方式讓我們能連續地把上下文扔上去。

03核心價值是減少人和 AI 之間的摩擦，成為用戶的 Time Saver

Founder Park：作為新的消費電子產品，用戶第一天能體會到什么價值？

Lotus：這是最關鍵的問題。如果沒有 Day One Value，用戶沒法跨過消費心理門檻來購買。

第一天提供四個即時價值。第一，Onboard 時系統會請求獲取本地工作文件只讀權限和線上軟件登錄權限，授權后自動讀取本地數據，同時時在 Ubuntu 沙盒內登錄用戶授權的 APP 并下載工作文檔做向量化——第一天就能形成個人知識庫。

第二，我們在設備中給用戶提供的模型，Agentic 和 VL 能力已追平云端 Claude Sonnet 4.5，用戶第一天就可以把設備當一臺本地版 Manus 去用。同時設備搭載的自研記憶系統對用戶上下文進行精確管理，在體驗上超越 OpenClaw，而 OpenClaw 每月平均兩三百美金 API 費用，再加上 Manus 基礎版 40 美金，算 ROI 三個月就能回本。如果算上多模態數據壓縮轉化成 Context 的費用，只需要一周就能回本。

第三，通用型任務自動化。這是海外用戶呼聲最高的功能。比如聊天過程中提到下周要開個會，Agent 系統檢測到這句話并轉化為多步驟任務——預約會議、發送鏈接給參會人、基于會議主題和用戶上下文生成會前 Todo List——加入排隊隊列，用戶確認后立刻執行。飛書會把它變成一個 Todo，但 Todo 需要人去做；我們是把 Todo 變成機器可以做的事，用戶只需要 Review。這是 Todo 和執行 Todo 之間的根本差別。

第四，8 個麥克風陣列，100 到 150 平方米辦公環境內精確 3D 音源定位與切分，錄音質量對標市面上 7-8 千元的錄音設備，搭配強算力可做實時轉寫、轉譯和總結。

本質上，HippoGenius 是一個用戶意圖預測系統——結合構建好的用戶上下文中心、沉淀下來的用戶個性化 SOP 和不斷采集的熱上下文做預判。比如 7 點 59 分，系統已經知道用戶每天 8 點要給老板發匯報郵件，會基于前天工作內容自動總結、按用戶口吻寫好草稿，并在收件人一欄填上老板的郵箱放在草稿箱。用戶打開手機看到的是一個 Draft，Review 覺得 OK 就可以直接發。

預判系統把 Context 路由到合適的管線里執行合適的任務，極大減少了人和 AI 之間的摩擦。所以我們給 HippoGenius 的核心價值定位叫 Time Saver。

Founder Park：那長期價值怎么體現？

Lotus：白領和知識工作者使用終端設備的本質就是在執行 SOP——獲取原始數據，打開軟件處理，得到結果，再放到下一個管線里。每個人的 SOP 不一樣，體現的是他的偏好、行業經驗和方法論。我們交付的是標品，但每個人的使用體驗完全不同。

長期價值的核心是兩點：無感沉淀和主動式交互。

連續性是個性化的基礎——一個分析師花 20 分鐘收集信息做研報，但只看這 20 分鐘可能只能看到機械的信息收集。但如果看到前 20 分鐘與老板溝通研報方向，以及后 30 分鐘整理排版發送郵件，才能在更長時間軸上看清用戶真實意圖——幫老板處理任務并做匯報，或者說是用戶 SOP 的邊界：觸發條件和執行管線。

無感則意味著用戶不需要主動定義 SOP——機器在用戶操作時進行連續觀察學習，而在用戶休息時同時模擬數十條可能令用戶滿意的執行管線，基于原始 Context 數據生成結果并做 Ranking，用戶選擇后基于反饋收斂。這是給 SOP 做強化學習，抹去試錯成本，也極大降低了執行失敗帶來的失望感。我們內部叫它「SOP 競技場」。

隨著使用時間越來越久，三個核心組件不斷成熟：已構建好的用戶上下文中心、經過驗證的個性化 SOP、源源不斷新進來的熱 Context。系統和用戶的對齊率越來越高，機器就能主動完成越來越多個性化且長尾的高價值任務。

Alfred：補充一個我們實際在用的場景。

做 ToB 市場時每天開好幾場客戶 POC 會議，之前會后要手動把客戶反饋填進表格，可能兩三個小時。現在把 HippoGenius 的開發板（樣機）放在電腦旁邊，開會時它能看到屏幕、聽到聲音。幾場開完，它已經積累了所有 Context，直接登錄內部飛書賬號把反饋結果填進表格，并把表格發送給做售前的同事，只有客戶后續跟進意見需要手動寫。

就像一個助理一直跟在你身邊——拿到最懂你的上下文，以最懂你的方式，實現你最想要的結果。

04最好的上下文管理系統，必須是獨立硬件

Founder Park：假設用戶本身的設備算力夠，電腦+軟件是不是就夠了？為什么還要單獨的硬件？

Alfred：用戶買 Mac 或 Windows 電腦，差不多還是 16-32GB 內存。除掉操作系統和常駐資源，能跑模型的內存最大不超過 20GB，最小可能是 6-7G。在這個體量上能用的全量模型最大到 9B 左右，而且量化過的模型——不管是用 MLX 跑還是 llama.cpp 的 GGUF 格式，4bit 量化后模型的整體 Loss 比較高。小模型本來效果就比較差。

更關鍵的是，這些小模型在做多模態理解時問題很大——它能準確轉譯用戶目前錄屏或截屏上的所有內容，但做不到用戶注意力的感知。比如用戶在某個頁面停留了幾秒，切到另一個頁面又做了什么，這一個連續動作背后代表的用戶含義，小模型理解不了。它只能做單幀畫面理解或單個視頻內容的轉述。

這樣的上下文放到記憶管理系統里，會產生很大問題——在模型看來，什么信息都有，但什么信息都沒有。每個看起來都是重點，沒有噪音，也就沒有重點。模型的注意力一樣會散落掉，無法提取用戶真正干了什么。這是小模型最大的問題，也是我們這么努力把算力堆上去、把顯存堆上去的原因。

Lotus：我們內部做過測試。iPhone 17 Pro 是 3 納米制程，上面跑模型大概跑個 4B 或 7B 已經是極限了。像之前豆包手機，本地 Agent 干的活就是做 GUI 點擊操作，一些非常基礎的工作。更復雜的任務或跑更大的模型則完全不可能。

電腦能力強一些，但也有限。我們測過 M3 Max 頂配版，40GB RAM，跑 Qwen 8B 的 VL 模型，溫度迅速升到 80 到 90 度，待機時長從可能一天降到一個小時。跑起來之后打開飛書、Keynote 或瀏覽器開多個 Tab 就做不到了，基本只能做 AI 這一件事。用戶變成了單線程——只能用模型或者只能辦公，二選一。

所以一定會獨立出來一臺設備，專門幫用戶把 AI 這件事干好，手機干手機的事，電腦干電腦的事，互相把最擅長的事做好。

Founder Park：端云協同呢？本地小模型做 VL 處理，云端大模型分析意圖？

Alfred：我們試過 4B 搭配 235B 的組合——235B 在那個時間節點上已經很不錯了，但因為端側輸入質量太差，云端模型也很無能為力。

我們的上下文生成系統也不僅僅是直接放一個模型那么簡單。在最前端入口，我們會有一個 YOLO 模型負責給不同的視頻流打 Tag，然后把它路由到不同的處理管線上去。如果僅僅用一個模型硬跑，對模型能力要求比較高，所以我們的工程化方案是分層分級處理，在效能和成本之間找到最佳平衡。

Lotus：軟件方面也可以延伸講一下。國內外很多軟件都想做上下文統一和整理——國內像 Remio，最近很火的瀏覽器產品 Tabbit，還有字節開源的 MineContext，以及硅谷之前比較火的 Rewind。大家的愿景非常清楚，都想做這件事。

但軟件需要依托用戶的系統資源——算力、存儲、電量。比如 Rewind 持續錄制用戶屏幕保存下來做 OCR，但把一段視頻流直接扔給模型處理費用非常貴，同時為了保證隱私又不可能把用戶整段視頻流傳到云端，所以只能做本地簡單 OCR 和關鍵詞檢索回溯。還有的方案是做間歇式截屏——每隔十幾秒截取屏幕，但上下文是碎片化的，沒辦法知道用戶連續在做什么，也很難從碎片化的上下文中判斷用戶的真實意圖。

在硬件資源限制和 Token 費用問題下，軟件能發揮的上限是比較有限的。

05更好的端云協同：端側持續產生高質量上下文，云端做指揮

Founder Park：這個設備是全本地模型處理，還是也可以和云端模型協同？

Alfred：我們非常認同端云協同是未來的主流，而且這也是我們設備的主要使用方式。但端云協同不是簡單地把模型分布在不同位置，而是端側負責持續產生高質量上下文和執行，云端做任務結構化、規劃和全局協同。

就像現在寫代碼時，用 Claude Opus 這樣很強的模型做任務規劃，再換成更小的模型去實際執行，效果依然很好。很大的模型幾乎都是 MoE 架構，總參數量大、世界知識和任務覆蓋面廣，每次激活少量專家參與推理控制成本；而中小尺寸的稠密模型全參數參與推理，執行任務時邊界更清晰、收斂性更高、推理路徑更穩定。

端側開源模型今年重點強化了 VL、OCR、Agentic 等能力——Browser Use、Computer Use——本質上都是環境感知和執行能力，像我們的五官和手，不是大腦。這些能力天然需要低時延、高頻交互，端側數據源離計算更近、處理鏈路更短、隱私鏈路更清晰、成本更低，是這些能力的第一落點。云端模型更多則承擔著知識補全、任務拆解、群體協同。決定整個 AI 系統上限的，是模型架構、部署位置、任務拆解方式和調度策略的整體匹配，而不是某一種模型。

也就是說，我們會在 HippoGenius 上運行多種模型，包括但不限于 ASR、TTS、OCR、VL 等；針對不同的任務，使用不同的模型組合和路由策略。

Founder Park：那什么任務是必須接云端模型的？

Alfred：可能最主要的場景是代碼工作和重度邏輯推演工作。

Founder Park：你們會把這款設備定義為 All-in-One 嗎？

Lotus：我們的定義恰恰是 All-in-One 的反面——這個產品只做一件事：構建用戶的上下文中心，并主動把上下文路由到合適的工具，降低用戶使用 AI 的門檻。它不是說你買了就可以告別云端大模型，而是你和 AI 之間的個人中樞和路由——因為它有你最好的上下文，不管是本地幫你處理還是找云端幫你處理，都可以從這里派發。

如果有一天市面上出現了「HippoGenius 是全能產品」這樣的聲音，恰恰說明連續上下文在各方面都發揮出價值了。但本質上我們只做一件事——降低人和 AI 之間的摩擦。

06A6 筆記本的形態+極輕便的「小尾巴」，是現有工藝下的最優選擇

Founder Park：一個典型的用戶使用場景大概是什么樣的？

Lotus：用戶通過一個 USB-C 小設備與 HippoGenius 交互，類似無線鼠標接收器，插在手機、電腦或平板上與主機無線配對。設計核心是讓硬件「長在」用戶設備上——底部 USB-C 接口支持充電和數據傳輸，24 小時無需取下，功耗僅 0.6 瓦，對手機電池幾乎沒有負擔。

Alfred：可以把它理解為一個無線圖傳，把視頻信號通過硬接口直接推流傳到主機，不做壓縮編碼。線下時，傳感器錄到的音視頻通過近場傳輸直接推流；離開主機時，數據暫存在手機 APP，有 WiFi 后通過 P2P 加密傳回。

Lotus：以白領為例——早上出門帶手機就行。到了辦公場景，按一下物理按鈕開始錄屏（也可同時觸發錄音）開始，以 Session 為單位有選擇地記錄，而不是 Always On。對于經常出差的商務人士，設備支持完全離線，在飛機上就是一個隨時待命的本地 AI 助手，甚至可以在用戶休息時自主完成任務。

Founder Park：主機內部的芯片架構是怎樣的？

Lotus：主機內部有三顆關鍵芯片。第一顆是 X86 SoC，運行完整的 Ubuntu 沙盒。第二顆是英偉達的推理芯片，專注推大模型，穩定 32 路并發，可同時服務 30 到 50 個 Sub-Agent。第三顆是 ESP32，負責加密鑒權，同時 X86 SoC 串口上顯示為鍵盤和鼠標——這意味著它能操作所有 GUI 應用，第三方軟件不會將其識別為 Bot，而是真實用戶在操控。

Alfred：現在大家還在大量使用 GUI，GUI Agent 不可避免，但 Agent 調用 CLI 更自然、更快、更收斂。ESP32 的鍵盤鼠標能力是在 CLI 無法覆蓋時的補全，不是主路徑。

Founder Park：為什么是現在這樣的造型？

Alfred：中間否決過兩個方案。第一個是充電寶形態——好握持、親和力強、侵入性低，但這是舊時代的產品形態，和我們想定義的全新產品概念不符。第二個是比 Plaud 厚一倍的卡片形態，像飛書錄音豆底座那樣——沒有辦法滿足本地強算力的支撐，缺了這一環系統邏輯閉不了環，變成空中樓閣。

最終基于三個考量。一是工程化——三顆 SoC 的散熱和供電需要基礎體積。二是性能——沒有做得更薄是考慮到麥克風腔體體積，大體積腔體能提供更好的音源定位和收音質量。三是場景適配——作為全新定義的產品不能對人的生活有過強侵入性，要符合商務場景的預期。所以做成 A6 筆記本大小。

外殼確定用鋁合金——從鋁材到表面處理供應鏈全鏈路管控，外觀高級、傳熱能力強，可兼顧強制風冷和表面自然散熱。RM-01 更像一本稍微厚一點的書立在那里，HippoGenius 從書的形態遷移成更薄的筆記本形態。核心能力是記錄個人 Context、構建個人 Context 中心，再把 Context 路由到下一個工具，所以它更像一本人生筆記本。

配了一支可選配的磁吸筆配件，但不是寫字用的，筆底端 4K 鏡頭、筆夾上緣 2K 鏡頭、頂部雙麥克風、筆夾底端觸發按鈕。

三個核心場景。第一是線下開會——不方便拿大設備甚至 Plaud 那樣的卡片出來，筆在辦公場景非常自然、非侵入式。第二是外出調研——手被占著的時候把筆夾到衣服口袋里，POV 視角，手勢揮一下就能拍照。第三是隨手筆記——按一下按鍵用底端 4K 鏡頭記錄關鍵筆記、板書、場景。這支筆補全了線下除音頻之外的多模態能力。

Founder Park：設備續航怎么樣？

Lotus：正常續航 8 到 10 小時，覆蓋整個辦公日。純錄音或信息采集可達 35 到 40 小時，待機 40 天。關鍵在于間歇性運行，不同的模型組合分批次處理任務，處理完即待機，小時平均功耗 6 瓦，峰值不超過 20 瓦。晚上放回底座充電，同時異步處理白天未完成的任務。

Alfred：能耗管理分三檔：節能模式延遲處理視頻流，平衡模式對關鍵幀實時轉寫，高效模式完全實時。音頻轉錄始終實時，因為 ASR 對 275 TOPS 算力幾乎沒有負擔。每個任務類型都有獨立的策略劃分，三檔只是用戶側的粗粒度控制。

Founder Park：主機自帶 5G 芯片嗎？

Alfred：我們在考慮做 eSIM。因為前測中有真實用戶反饋——高級銷售和金融工作者經常需要外出工作，去客戶現場銷售或做金融審計，有隨身攜帶的需求。這些場景下主機需要獨立聯網能力。

Lotus：聯網方面，我們做了兩層脫敏。第一層是多模態原始數據到文本 Context 的脫敏——上傳一段錄屏視頻和上傳一段模型對錄屏信息的文本描述，敏感度完全不同。第二層基于標準規范加用戶個人偏好，對 Context 二次脫敏。所有從設備發到網絡的信息都經過兩層脫敏后，已經不含任何跟用戶直接相關的內容，只是一段結構化的功能性描述。云端模型處理后返回結果，再填回到需要的地方。

主機頂部有一個物理開關——像 iPhone 的靜音鍵，左右可以推。推到一邊允許接入網絡，推到另一邊完全離線運行。用戶必須明確知道當前是斷網還是聯網狀態。

我們還想在后期探索一個事——用攝像頭、陀螺儀、人體存在傳感器、近場毫米波雷達等各類傳感器配合，把筆立在桌子上，在保證隱私的個人使用場景下，通過人物姿態、頭部位置變化做輔助的注意力記錄和判斷，更好地做上下文過濾從提升記憶管理系統效率。

Founder Park：用攝像頭來做注意力感知嗎？

Lotus：用戶注意力就是一個過濾器，我們的 Context 很多很雜，如果像錄屏軟件那樣同時錄制多個屏幕包括后臺，收集到的信息完全是散亂的。但如果以用戶注意力為導向做上下文加權，就能濾掉大量噪音。

Alfred：比如用戶在翻 PDF，但攝像頭捕捉到眼神飄忽，我們就判斷這個 PDF 不是當下最關心的內容，將其切片做成 RAG 塞入知識庫，需要時再召回，而不是直接放進上下文。在連續時間軸上，注意力分布不均勻，捕捉到這個分布，才能給不同上下文賦予不同權重。目前我們采用的是一套軟硬件結合的注意力算法去分析用戶在連續時間線上的注意力分布。

這也是我們堅持做重硬件的核心原因——樹莓派、RK3576 這類輕量方案完成不了。需要強算力中樞配合多傳感器和多模態輸入，少一環結果就會產生漂移。

Founder Park：為什么叫 HippoGenius？

Lotus：Hippocampus 是海馬體——人類生成新記憶都要通過它。Genius 是天才。HippoGenius 就是你的「天才海馬體」，幫你把那些原本會流失的記憶留住，慢慢地，它又會越來越懂你的習慣和節奏，在你需要的時候，主動把這些記憶變成提醒、總結，以及預判并幫你完成下一步的工作。

07其他公司要做這個硬件，至少需要一到兩年

Founder Park：HippoGenius 目前量產的核心難度在哪里？

Alfred：最大的挑戰是散熱和供電——體積極大縮小后要保持原有性能。供電和電池占了大量體積，留給散熱的空間非常狹小。難點不在于穩定導出熱量，而在于推理芯片在推理過程中會突發熱尖峰和電流尖峰，需要高比熱容和電源分區來抹平。最終需要在散熱和供電之間找到平衡點——根據用戶更在乎續航還是推理效率來做取舍。

顯存帶寬方面，我們選用的顆粒帶寬比較低，但影響不大——顯存帶寬不是推理速度的第一制約。英偉達 DGX Spark 發布后很多測評說推理慢是因為帶寬低，但我們在更低帶寬的 Jetson Orin 上推得比它還快，背后是大量算子優化。存儲用 eMMC 就夠了，因為所有數據都是轉寫后的文本、字符串和 Token，對傳輸帶寬要求很低。

Founder Park：你們做這件事的壁壘在哪里？

Alfred：硬件壁壘確實比較高。我們選的這顆芯片是 SM87 的平臺，它并不是為今天這類大參數 LLM 推理場景專門設計的芯片。雖然 NVIDIA 提供了 JetPack、TensorRT、cuDNN 等官方推理棧，但不少面向數據中心的新算子、推理框架和高性能 kernel 支持并不完整，也幾乎沒有優化。圍繞這些關鍵鏈路，我們做了大量移植、編譯和性能優化，把大模型推理相關的關鍵算子、運行時和工程鏈路都優化到可交付水平。相關工作也已經開源。

開源的核心是控制產品路徑——我們發布什么，其他廠家就用什么。當時的算子移植高度依賴特定版本的工具鏈、推理框架和大量工程化 patch。隨著上游庫持續迭代，原來的依賴組合已經很難完整復現；如果沒有保留完整的環境快照和補丁鏈路，即使是原團隊，今天要低成本原樣重做一遍也未必容易。

Qwen 3.5 發布后，我們也測試過 vLLM、SGLang 這類通用推理框架。在我們的目標設備和目標負載下，它們的表現還不夠理想。原因不只是模型本身，還包括邊緣側芯片上的框架開銷、內存占用和 kernel 適配深度。針對這些問題，我們做了一個更輕量的自研 C++ Runner。在指定模型、全/半精度和最大上下文長度下，它在延遲和吞吐上比通用框架快了近一倍，同時運行時開銷也更低。此外，我們完成了對新一代 Blackwell 的兼容和優化，對設備樹、BSP/系統層和推理引擎做了大量自研定制。

此外，我們是國內第一個把這款推理芯片上板的推理硬件廠商，所以產品才能做這么薄。標準的方案通常是以模組形態通過板對板連接器接入載板。我們的方案不是 Module-on-Board，而是 Chip-on-Board 設計，把核心 SoC 及其配套高速與供電系統直接做進主板。這省掉了模組和連接器堆疊，對整機厚度、結構集成和散熱路徑優化都有幫助，但也顯著提高了高速布線、供電、EMI/EMC 和量產驗證的工程門檻。這類方案的難點不在于把板子點亮，而在于把性能、厚度、散熱和量產可靠性同時做平衡，因此后來者的追趕周期通常會比較長。

Founder Park：那如果是大廠呢？

Lotus：手機和電腦廠商從生態位上就不太適合做這件事。這些廠商既要承載軟件生態，又要服務終端用戶。把底層數據打通做 Agent 入口技術上不難，但一旦這么做，就從底層邏輯上侵犯了生態合作伙伴的利益——軟件不用點 GUI 了，用戶不用看廣告了，硬件廠商和生態廠商的關系會急劇惡化。

而且用戶對手機和電腦的期待已經很高了。大家是既要又要的狀態——做了 AI 其他事還要做。怎么可能保證手機正常運行的情況下，還運行一個強大的 AI 系統幫你本地完成所有事？這非常難。

所以我們認為一定會出現一個第三方的強算力本地設備。而且從硬件限制來看，手機電池撐不起實時上下文收集，電腦的既要又要也很難滿足。

08硬件只是商業化的第一步，核心是成為人和 AI 世界之間的中樞

Founder Park：你們的設備明顯是本地跑 OpenClaw 的絕佳設備，為什么不打這個點的定位？

Lotus：OpenClaw 是非常好的產品，讓普通消費者用上了有記憶管理系統、能主動執行任務的 Agent 系統。但它目前比較偏 MVP——記憶管理系統用 MD 文件直接管理，實際測試下來對上下文壓力非常大，Token 費用很難控制。我們把 OpenClaw 搭載在 ToB 設備上做過技術驗證，確實能跑，但從 Demo 到商業化交付，中間還有大量工程化落地的問題要解決，比如安全性和記憶組織架構。

如果宣傳「我們是本地的 OpenClaw」，就是在拉高用戶預期。OpenClaw 執行任務鏈條很長，中間某個環節失敗了可能直接彈錯誤讓用戶接管，體驗會非常 frustrated。我們因為能做本地模擬，可以在很大程度上先把失敗消化掉，用戶看到的只是一個好結果——這是云端很難實現的，有本地算力的產品天生擅長干這個事。不如我們自己做一次完整迭代，從記憶架構到管線管理全部升級，真正做出讓用戶覺得「哇，真的很好用」的產品體驗。

Founder Park：商業化路徑怎么考慮？

Lotus：端云協同是大方向，端側是入門基礎，云端是價值延伸的戰略要地。商業化有四個方向。

第一是 API Router 服務，我們充當端云協同的中轉角色，用戶買 Credit 使用云端模型，當然所有請求會經過兩層脫敏后再上傳。

第二是數據服務，基礎層是云端備份，更深層是模型蒸餾——用戶積累了大量個人數據和 SOP 后，通過線上模型蒸餾固化到模型中，OTA 傳回本地做更新。

第三是 SOP 社區。設備內部能沉淀大量用戶個性化 SOP，我們想構建一個有網絡效應的產品——隨著人群和 SOP 越來越多，新、老用戶的設備附加值都越來越高。

第四是多人協作——這是最有想象空間的。比如一個投資團隊，每人擁有一臺 HippoGenius，一起做某個項目時在云端開一個 Workspace，它擁有整個團隊每個人開放了權限的 Context 的總和，所有 Agent 預先交換信息，拉齊進度，Workspace 里的 Agent 團隊自動規劃和執行任務，人唯一需要介入的場景就是補充關鍵信息和在關鍵節點做決策。

這在未來會形成一種新的團隊協作范式——人作為一個團隊，Agent 分身們作為一個團隊，線上線下協同辦公，大幅度提升協作辦公的效率。人作為信息輸入源提供補充信息，作為決策者提供關鍵決策，大量的工作由線上 Agent 團隊來完成。Workspace 本身就可以以席位為單位，進行管理和收費。

這四個方向背后有一個更大的范式轉移。之前從互聯網成長起來的企業是以注意力經濟為核心的——搶奪用戶注意力，投放廣告。但 GUI 消失的浪潮已經起來了，Agent 開始用 CLI 交互，一定會有一個從注意力經濟轉向 A2A 經濟的過程。廣告的投放會匯集到下一個信息集成和分發平臺上去，而我們給自己的定義就是人和 AI 世界之間的中樞。當然這還是個暢想，需要謹慎處理用戶信任問題。

Founder Park：你們怎么判斷個人 Agent 未來的終局形態？

Lotus：未來個人 Agent 的終局可能是無處不在的流動形態——它代表的是你的數字分身，不會被禁錮在固定的實體里。當它控制空調和家里的電器時，這些電器就是個人 Agent 的化身；幫你操作軟件、剪輯視頻時，軟件本身就是 Agent 的化身。

但在抵達終局之前，人類必須跨越一個鴻溝——讓 AI 與人達到極高比例的對齊。對齊的唯一前提是以低成本、高隱私、高同步率、高帶寬獲取用戶的全量 Context。它不是一蹴而就的，而是從構建 Context 開始，慢慢數字化、慢慢同步，對齊率越來越高，在某個臨界點發生質變，進入 Agent 時代。未來 Agent 一定不是一個單獨的硬件，而是一個全局的、無處不在的形態。

Founder Park：如果最后沒成，你們覺得可能是因為什么？

Lotus：底層技術演進發生逆轉——比如 A2A 方向突然停滯。更本質地說，是信息傳播的速度和方式發生了逆轉。A2A 帶來的最大價值就是信息傳播方式變了、速度變快了，接入 A2A 之后人已經明顯跟不上那個速度了。除非這種傳播方式和速度發生逆轉，否則這個進程一定會發生。

Alfred：從硬件角度，需要同時滿足兩個條件，獨立硬件才可能不再被需要。

第一，電池取得重大突破，電池能量密度大幅進步——目前電池技術沒有特別大的突破，手機撐不起實時視頻流的捕捉和轉寫。

第二，芯片制程再次獲得突破——從端側芯片來講，蘋果看得最遠、走得最快、能耗比做得最好。

如果同時滿足，那就不需要獨立硬件了。但我們判斷短期內不會發生。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.