无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<small id="l63uu"></small>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

拍照即交互、專為Z世代打造，Chance AI做了世界首款視覺Agent產品

2026-04-03 17:58:45　來源: FounderPark

北京舉報

0

分享至

一款 AI 產品出現在了國際頂級的藝術展覽中，而且是充當解說員的身份。

上周，亞洲當代藝術博覽會 Art Central 落幕。Chance AI 作為這屆博覽會官方引入的首個 AI 產品，負責幫觀眾解讀藝術品。觀眾舉起手機，對準一幅畫，拍照即交互，聽 AI 解釋：這件作品為什么成立，它背后意味著什么。

創始人曾熙給這套系統起了個名字「Visual Agent」。核心邏輯是，讓 AI 先看懂，再開口。

認知科學 PhD 背景的曾熙，曾在一加、OPPO 和字節跳動做過十多年的產品與設計。他相信，尤其是 Z 世代的年輕人，天然地習慣通過圖像和直覺去理解世界。

「AI 與人類不應該是一個輸入框的關系。更直覺的方式是：我一看，AI 就已經理解我需要什么。」

Chance AI 第一次把這套人類認識世界的方法，帶進了 Agent 的 Harness Engineering 里。在視覺理解的核心 Benchmark MMMU 上，Chance AI 目前排名世界第一，準確率 86.07%，超過了人類評分（85.4%）和所有主流大模型。

以 Visual Agent 為切入點，Chance AI 發布后在推特上引起了 AI 行業不少硅谷大 V 的討論，AK、Robert Scoble、Rohan Paul、Madza、Parul Gautam 等大佬都點贊轉發。產品目前已有 20 萬用戶，高校 Z 世代人群居多。

再往下一步，Chance AI 想讓 Visual Agent 成為下一代的 AI 終端入口?！敢曈X，才是人類最直覺的操作系統。」

以下是 Founder Park 與 Chance AI 創始人曾熙的對話，經編輯整理。

產品官網：https://www.chance.vision/

采訪 | 萬戶

編輯 | 夏天

??關注 Founder Park，最及時最干貨的創業分享

超 22000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的 AI 產品曝光渠道

01產品最初的 MVP 驗證，是一款導覽小程序

Founder Park：簡單介紹一下團隊和你個人的過往經歷。

曾熙：我過去在一加、OPPO 和字節跳動工作，做了十幾年的產品和設計，主要都是在做消費電子方向。從手機硬件到手機操作系統，再到 AI 應用，加起來做過差不多近 6 億級別用戶規模的產品了。也是在字節的那一段時間，我開始更深入地參與 AI 產品的構建，尤其是多模態相關的探索。

我自己的學科背景其實有一點不一樣，PhD 研究方向是認知科學。我一直在思考一個問題：人是如何最直覺地理解這個世界的？這也是我后來做 Chance AI 的起點，不是說 AI 能做什么，而是反過來推導：AI 如何幫助人們更好地在現實生活中去理解世界，然后進入下一步決策。

團隊方面，大部分是我在這三段經歷里認識的、合作特別好的同事。尤其是負責視覺推理和算法的、海外增長的同學，都是之前共事的同事。

Founder Park：什么契機決定離開大廠，全身心投入 Chance AI？當時看到了什么機會？

曾熙：主要是有三個時刻。第一個是我在字節做豆包的時候。2024 年的時候發現很多人喜歡在豆包里上傳圖片，然后和豆包聊。當時隱約覺得一種新的交互習慣要出現了。

第二個時刻是 VLM 的出現。GPT-4o 第一次有了很強的多模態能力。我們當時就在思考，基于 VLM 能不能做出應用層的東西？很多人基于 LLM 做東西，但還沒有人基于 VLM 做東西。

第三個是真正讓我們下定決心的時刻。2024 年底，我們幾個朋友在深圳做了一次 Andy Warhol 的展覽。我們做了一個 AI 導覽小程序，所有人進來后掃描會場里的畫，然后與作者進行對話。展覽結束三個月后，我們發現竟然還有 1500 個用戶持續地用這個小程序去看生活中的東西。我們去回訪這些用戶，發現他們用來給小朋友看花草、看名勝古跡、看收藏的球星卡和潮玩，或者看想買的東西。

當時我們認為這是真實存在的需求。從那之后，到了 2025 年初，我從字節離開，決定全職做這件事。

Founder Park：怎么介紹目前你們的這款產品？

曾熙：Chance AI 是一款視覺 Agent 產品。打開 App 之后，沒有輸入框，只有一個相機。拍照即交互——對準花草、名勝古跡、球星卡，或者任何你感興趣的東西，AI 就開始工作。

我們不叫自己「AI 相機」或者「視覺搜索」，而是 Visual Agent。因為在我們理解里，它是一個更主動的、和你一起參與的系統——它不是等你輸入再響應，而是參與你整個看世界的過程。核心邏輯是：讓 AI 先看懂，再開口。

02Visual Agent 的核心，幫用戶構建一套理解世界的系統

Founder Park：Chance AI 提出了「Visual Agent」這個概念，它和傳統的視覺識別工具，比如 Google Lens 的區別是什么？

曾熙：簡單來說，Google Lens 或者別的工具，比如關于識別花草的、鳥的、紅酒的，統稱為「識別工具」。它們的目標是把東西識別清楚以后，把你帶到搜索或帶到交易。Google Lens 一開始就是為了電商而生的產品，找同款，所以它的結果就是鏈接和價格。

我們觀察到的問題是：用戶很多時候并不是想知道這個東西是什么，而是想知道為什么它長這個樣子？它為什么有意思？它跟什么樣的文化、歷史故事有關？所以我們把重點放在解釋層上面，不是描述層面。

假設你的偶像是喬布斯，我跟你說「這是喬布斯最喜歡的某個廚房料理機，因為他小時候家里就是用的這個款式，后來影響了他做 iPod 的經歷」，這個時候你的感受會區別于講表面信息的時候。這個我們已經驗證過了，尤其是潮玩，都是塑料，為什么某些潮玩賣得特別好而某些就一般？因為某個潮玩代表了某種情緒，但那個情緒是需要被誘導出來的。

這是下一個時代新用戶的行為模式，所以我們是為這群新用戶做的新產品形態。它不僅僅是識別，它需要把感知、上下文、社會共識全部連接起來。

Google Lens 是一個工具，我們是在幫用戶構建一個理解系統。因為我們相信一切行動都是建立在理解之上的。一個你不理解的東西，你不可能想要買它、擁有它或者想去那個地方。這是很大的區別。

Founder Park：那 Chance AI 和普通 ChatBot 的區別是什么？

曾熙：這些通用模型的視覺能力，本質上對它們來講是一個附加能力。它們沒有針對多模態能力做任何優化，核心仍然是對話，輸入框，用戶先提問，再調用部分視覺作為輸入的一部分。我們認為這是不合理的，因為真實世界不是這樣的。真實世界是你看到一個東西，你甚至都不知道該怎么問，你只是覺得「我想關注這個東西了」，有一瞬間的好奇心。

我們的做法是貼近真實世界，從你看到的世界開始，而不是從問題開始、從輸入框開始。這帶來一個很本質的區別：對 Chatbot 來講，一進去必然是一個輸入框；對我們來講，一進去就是相機，要么你就拍，要么你就上傳圖片。本質上它不是能力的差別，而是產品方向的選擇。

Founder Park：相當于 ChatBot 里的視覺識別只是文字交互中的附加功能。但對你們來說，視覺本身就是用戶理解世界的最主要方式。

曾熙：對。如果做類比的話，有點像 ElevenLabs。今天 Gemini、GPT、豆包全部都可以生成音樂了，為什么 ElevenLabs、Suno 還是能獲得非常好的表現？因為它們起步早，有非常垂直的定位，然后隨著月活越來越多形成正向飛輪。對我們來說也是一樣，今天比如用戶要看穿搭、看審美、看藝術品或看潮玩，已經沒有任何通用模型能比我們更強。

Founder Park：也就是說你們已經基于用戶迭代出來了很多場景，比如 OOTD 穿搭、看膚色這些，涌現出了很多用戶自己建的場景。

曾熙：沒錯，而且這些用戶的需求是大廠不會干的事。所以我們一定得繞開大廠的輻射范圍，離用戶很近、對用戶的反應更快，這也是我們的「護城河」之一。

03Z世代天然更習慣用視覺去表達和理解世界

Founder Park：Chance AI 面向的核心目標人群是Gen Z，你們當時是怎么確定他們是第一批用戶的？

曾熙：還是一個被選擇的過程。我們有很多假設，最后是因為這批人的表現最好，所以圈定他們作為早期種子用戶。我們發現他們有一個共同點，給他們一個標簽叫「藝術的生活家」。他們不是那種藝術家，但一定是那種對生活很有追求、很有品質的人，很在意自己的 Image。

我們發現這群人都有這個特性，我們叫做視覺驅動型用戶。大部分是藝術學院或文理學院的學生。他們很喜歡用表情包、meme 圖片、視頻溝通，而不是通過郵件或長文本。很多時候他們不是在表達一個問題，更多是在表達那個 vibe，特別抽象，但又特別能引起共鳴。

這是我們最后沉淀下來發現表現最好的用戶群。比較有優勢的是，這群用戶恰好又是在社交媒體上比較活躍發聲的用戶，自然就給我們的增長帶來了助力。所以我們并不是把 Gen Z 廣泛地定義為目標用戶，而是因為這群人更習慣用視覺去理解世界。

我們在產品上也往這群人靠攏，很注重審美、文化風格這一類的東西，而不是告訴你一個客觀參數。當他們使用我們產品的時候就覺得很自然，不需要去想，因為一想就變理性了，一旦觸動思考、要想怎么組織一句話，就變得很理性，跟他們追求感性、追求 Vibe 的特質是違背的。所以這群人使用我們產品的學習成本幾乎為零，這也是為什么他們很自然地成為了我們的種子用戶。

Founder Park：你們現在的用戶規模大概是多少？增長主要靠什么？

曾熙：我們現在大約 20 萬用戶，其中差不多 15 萬是 25 歲以下的年輕用戶。

最主要的增長來源是校園計劃，靠學生的口碑傳播。我們會鼓勵不同校園里的活動。比如 sponsor 一些資金支持，二三十個學生一起去逛某個地方，逛的過程中使用我們的產品，最終坐在一起在咖啡店里分享發現了什么有趣的東西。

Founder Park：你們的預期是一直服務大學生群體，還是陪伴他們進入社會后繼續服務？

曾熙：我們服務的是 Visual Native 的人群，沒有那么明顯的年齡界限，只是現階段他們正好處在 18 到 25 歲這個年齡段。我相信即使他們步入社會以后，也還是保留這個用戶習慣的。接下來可能 15、16 歲的人也會更加 Digital Native。

Chance AI 的各類線下校園活動

Founder Park：不同地區的人群在使用場景上會有區別嗎？

曾熙：會有，但差異體現在看什么，而不是怎么看。美國用戶大部分看穿搭購物、化妝品、潮玩。歐洲用戶很喜歡看藝術品、建筑、展覽、書籍封面，一個法國學生可能會拍意大利語的書籍封面，然后去讀內容。拉美用戶更偏神秘學，看手相、看面相，每天出門前拍一拍來決定今天要注意什么。而且他們會把穿搭和神秘學聯系在一起，根據今天的運勢決定要戴什么顏色的首飾。

Founder Park：如果想從現在的20萬到 100 萬、500 萬，大概是怎樣的增長路徑？核心靠什么實現用戶增長？

曾熙：短期以產品驅動為主?？诒畟鞑ピ谶_到 100 萬用戶以前可能都不會改變。因為這個產品的核心不是獲取流量，而是需要幫助用戶形成一種新的使用習慣。如果習慣沒有建立，去做投流、買量是沒辦法放大的。

增長路徑現在比較清晰，把核心場景打透。除了日常的視覺理解以外，比如穿搭場景、神秘學場景、旅行場景、購物場景，我們要圍繞這些場景把它做深?，F在只能說有一個苗頭，看到了努力的方向，但還沒有拼盡全力去做深。

然后再通過內容和社交去做擴散。比如我們現在穿搭場景里有直接一鍵幫你生成 Instagram Story 的模式，除了給你打分、給你顏色搭配建議、飾品建議以外，更重要的是有一鍵變成 Ins Story 圖片的功能。

04不是效率工具，是 lifestyle 的視覺伴侶

Founder Park：一開始預想產品要做成什么樣？早期優先解決什么問題？

曾熙：很坦白地說，當時是沒有的，我們只是知道「看世界」是一個比較具體的需求，但具體看什么我們完全不知道。我們認為要做好的事情就是把架構做好，用戶會告訴我們他們選擇看什么東西，看得多了以后再針對性地優化。

比如穿搭這件事，我們一開始并沒有幫用戶看穿搭的 Visual Agent，而是穿搭照片的占比多了以后，我們才專門針對穿搭去做優化，是這種反哺回來的形式。這來源于我在一加時候的社區共創基因。我覺得這教會了我非常多，如果你還沒想清楚，沒關系，最重要的是趕緊先把你的能力丟出去，用戶會告訴你他們需要什么。

Founder Park：你們最初上線的版本，先解決的是讓用戶能拍照跟世界進行交互，這個交互形式是從一開始就確定了嗎？

曾熙：對，這個架構從一開始就確定了。我們有一段時間在首頁加了輸入框，結果那段時間產品的表現特別差。

Founder Park：加輸入框反倒效果差了？

曾熙：對。我們加輸入框加得很次要，作為搜索框的形式存在，結果讓用戶失焦了。很多人直接把它當成 Chatbot 來用。所以我們把輸入框去掉之后，這群用戶離開了，但反而長期留存變得更好了。

Founder Park：你之前提到「提示詞是為懶惰的 AI 準備的」，那在圖片生成后的追問環節，這種「基于單圖的對話」與傳統 Chatbot 的區別是什么？

曾熙：所有后續追問都是基于同一個主題的。就像我所有追問都是基于「我今天穿什么衣服」這個主題，所以它會針對這個有很強的上下文，它知道我前面試了多少套、每一套之間細微的區別是什么，從而判斷你是不是正在猶豫去的場合不知道穿什么。我們認為這是很天然的、直覺的。別的 Chatbot 里開一個對話框是一個主題，對我們來講每張圖片就是一個主題。

Founder Park：那不同的圖片，比如看手相、OOTD 這些，是直接上傳一張看手相的圖就可以，還是需要選一個場景才會進入對應的功能？

曾熙：兩種都有。有些強風格化的東西會給你推薦，比如你把某個產品丟進去，有可能是想買它、想吐槽它、想給它寫一首詩，這時候我們會做推薦。但有些很特定的場景，比如拍一朵花或拍手紋，我們就很確定地知道該導入到哪個功能。你問的這個問題其實很本質，本質上我們不應該再有推薦，但限于 VLM 的能力，目前不得不有一個過渡狀態。

Founder Park：如果用戶輸入的信息只有一張圖，你們怎么去理解用戶的意圖？

曾熙：這又回到我 PhD 研究的課題上了。視覺一定先于語言，當你看到一個東西的時候，你可能都沒想好怎么組織語言，但你已經有一個念頭了。所以我們認為，你跟看到的東西的交互發生在后面，輸入框是發生在追問里，而不是你產生意圖的那個瞬間。

當你看到一個東西的時候，至少百分之八九十的意圖已經能命中，你看到一套衣服，大概率想買它或想知道適不適合自己，可能有百分之一二十的概率是你想把它買給你的女朋友。這就需要長時間的交互，我才知道你是男生還是女生，為什么一個男生要拍女裝？隨著第二次、第三次交互，我就能知道原來你是在幫別人挑禮物。

所以意圖在你看到圖片的瞬間，以及長期交互的過程里，會變得越來越準、越來越懂你，是一個收縮的狀態。

Founder Park：所以，拍的時候用戶自己可能也沒有很明確的意圖，更多是直覺。拍完之后的下一步交互，是用戶在明確自己的意圖，Chance AI 也在更明確地理解用戶。后面的交互是大家逐漸把意圖收斂的過程。

曾熙：沒錯。分享一個核心用戶群數據：我們有一個指標叫單次核心任務流的交互時長，是 6.4 分鐘。也就是說，當用戶上傳一張圖片觸發一個任務流后，他跟這張圖片的交互時長是 6.4 分鐘，基本上每個人會進行 3 到 5 輪對話。

Founder Park：所以，Chance AI 瞄準的用戶不是那種「我很明確地要做什么」的用戶？

曾熙：對，所以它并不是一個效率工具，更偏 lifestyle，是一個視覺伴侶。我們的用戶都是北美的年輕人。他們可能上課的時候用 GPT 寫課件、寫論文，但出去玩、跟小姐妹喝下午茶、跟兄弟逛球鞋店，基本上都是 Chance AI 的場景。

Chance AI 是一個 lifestyle 的 companion，會陪你一起看世界，「看」是它最重要的能力。

Founder Park：你們會怎么定義這個產品最終給用戶的價值？

曾熙：它是一個非效率場景的、幫你賦能生活方式的 AI 產品。分享一個例子，產品在去年年底迎來了一波增長，原因是快到圣誕節的時候，非常多人要挑禮物，就用 Chance AI 給自己的男女朋友或家人挑禮物。

05把人類看世界的方法帶到 Harness Engineering 里

Founder Park：在技術架構方面，你們是怎么做的？

曾熙：我們 post-training 了一些開源的 VLM，用在不同的場景里。但對我們來說更寶貴的還是我們做了一套 visual 的 harness engineering。

我們這套技術架構，本質上是從人類如何真實地看世界出發，然后把這個過程映射到我們的 Visual Agent 里。在人類的認知過程中，其實有一條非常清晰的處理鏈路：

首先是視覺信號的采集——通過眼球和視網膜接收外界的光信號；隨后，這些信號通過視神經被轉化為神經信號并傳遞到大腦；接著進入視覺皮層（visual cortex），從初級視覺區（V1）到更高層區域逐級處理，完成對形狀、結構、語義、空間關系等信息的整合與理解；最后才進入決策，這個東西我要不要拿起來？我是一只手拿還是兩只手拿？它燙不燙？

你會看到分了四層：信號采集、信號傳遞、視覺皮層處理、大腦決策?，F在其他 AI 產品的問題是，他們想讓眼睛做思考，把這些步驟混在一起，想用一個模型實現從看見到思考的全鏈路。

我們的 visual agent 在技術上沒有什么秘密，就是把這四個鏈路拆開做。難的是我們第一次把人類認識世界的方法帶到了 agent 的 Harness Engineering 里面。

Founder Park：每一步都會有一個大模型來處理？

曾熙：對，它會根據看到的物體在每一步決定是調用云端模型還是我們自己的 post-train 的模型，調用哪個 skill。比如發現用戶看的是衣服，衣服對趨勢比較敏感，就會去調用一個能找到 Instagram trending hashtag 的 skill。每一層都發生自己的判斷。它是一個工程能力，不是把所有東西做到一個模型上面。

這才是我們理解的 AI，因為人就是這么看世界的，我們只是把人看世界的方法復制到了技術實現上。我們一開始花了很多時間，來摸清楚這件事。

Founder Park：中間走了什么彎路？

曾熙：走了特別大的彎路。我們一開始也想用一個模型做所有事情，然后發現怎么設計都有問題，理解能力強了，就調用不了 skill；skill 強了，視覺理解的本質又沒了。特別難，中間發生了非常多這種事情。

最后主要還是我 PhD 在認知科學方面的知識啟發了我，為什么我們要期待把眼睛和大腦做成一個東西？這可能一開始就是錯的。

Founder Park：感覺比起你們現在的模型架構，底層的 VLM 反倒不是核心優勢？

曾熙：沒錯。這就是為什么我們在 MMMU Benchmark 上能做到全世界第一。對我們來說，VLM 用誰家的都不重要，哪個便宜就用哪家，無論用哪家都能達到那么好的效果。我覺得這才是我們在技術層面有價值的地方。

Founder Park：你們大概什么時候摸索清楚這個架構確實能跑通了？

曾熙：從 2025 年初到 2025 年中，我們一直都在研究這個問題，都沒做產品。而且 2025 年初 VLM 能力更差，憑什么我們視覺理解能力能比別人好？真的就是后面做的這套 Harness。

Founder Park：感覺這個 Harness Engineering 有點類似于把人類本能的看東西、理解東西的邏輯復用到了 AI agent 的流程里面。復用的是人類本能的流程，而不是我們自己的實踐 SOP。

曾熙：是的。為什么燙杯子不能碰？你什么時候決定要不要聯想回以前的記憶？這個判斷邏輯很重要。如果判斷要聯想，可能要花很多時間和 Token，怎么判斷聯想還是不聯想？要不要在過往的 Visual Memory 里做匹配？這又得回到用戶，靠用戶反饋，我們才能有一個閾值去調整什么情況下要聯想、什么情況下不聯想。

我們做的事情在 LLM 領域不是什么新鮮的事情，但的確是第一個把這些方法帶到視覺領域的公司。

Founder Park：所以在這套 Visual Agent 里，有 VLM 也有 LLM，互相搭配最終產出結果？

曾熙：是的，每個節點里最終看到的結果，最多的時候能調用 6 到 8 個模型。

甚至結果會因為每個用戶的品味不同而異。我們有一個功能，是根據你看到的圖片來給你推薦音樂。這是很多人用的一個場景：我要發一個 Instagram Story，要配一個背景音樂，怎么知道我看到的東西跟音樂之間是正相關的？比如我看到一個洛杉磯的落日，它就給我配了一首落日飛車那種很舒緩的 City Pop 音樂?？瓷先ズ苤庇X，但我們在里面做了大量的工程，怎么把一個圖像找到很適合這個圖像 Vibe 的音樂，然后推薦出 Spotify 鏈接。雖然它只是結果頁里的一個小框框，但真的很不容易。

最后產出的結果也很偶然，相當于我們做好了一套 Skill Set，讓模型自己決定要調用什么。

Founder Park：最近流行的 OpenClaw 是用 MD 文件來儲存 context。你們是怎么存儲、管理用戶的 memory 和 context 的？

曾熙：我們沒辦法用單一的文件來做用戶的記憶存儲。在視覺記憶方面，我們并不是把每一張圖都變成你的記憶。我們會把圖片分成三個級別的不同像素。比如一張圖片，在后臺會被壓縮成 100x100 的小方框，人眼看上去是沒有意義的東西，但模型之間能理解。我們要確保 agent 內部之間用最小單元進行溝通，傳輸的只是 100x100 的像素就能完成信息傳遞。

某些場景下我們會用中等尺寸的圖片，比如 500x500，進行思考部分，到展示給用戶時才回到原尺寸。

Founder Park：所以你們是用視覺圖片的形式在不同 agent 之間做信息傳達，不是在一開始就轉譯成語義文本來傳播？

曾熙：我們去年做 memory 的時候，就是把圖片拿掉變成純文本，結果發現效果特別差。純文本是累積型數據，越用越多，可能就有幾百個 MD 文件了。效果差，溝通效率也低。

后來我們發現，把文字大量壓縮成低像素圖片之后，模型間的溝通效率反而提高了，效果又變好了。

我們發現一個很哲學的問題是，視覺才是最高效的溝通媒介。DeepSeek 發過一個 OCR 的模型，相同的 100 比特信息，變成文字傳輸快還是變成一張圖傳輸快？他們的結論是變成圖傳輸快，跟我們的結論完全一樣。但他們主要聚焦 OCR，把文獻語言圖片化，我們面對的可能更復雜一點，除了 OCR 類圖片，更多的是那種說不清道不明的 Vibe。

06你必須離用戶很近，才知道產品下一步是什么

Founder Park：Visual Agent，跟 Manus 或 Claude Code 這類生產力、工具型 Agent 有什么區別？

曾熙：我們把它定義成 Visual Agent，最重要的點在于它是一個能和你一起看世界的 Agent。我們不叫自己 AI 相機或視覺搜索，而是叫 Visual Agent，因為在我們理解里它是一個更主動的、和你一起參與的系統，它不是一個響應式的輸入，而是參與你整個看世界的過程。

具體來說有兩個很大的變化。第一是連續性：不是一次性的識別，而是一個持續的理解過程。它知道你上周的穿搭、三天前的穿搭、你買過什么東西。它會建議「你可以試一下剛買的那雙藍色鞋子，更配你這套藍色西裝」。

第二是它具有行動能力。比如我看到一個活動海報，它可以幫我加到日歷里；看到一個菜單，它可以幫我點菜；看到一個商品，它可以全網比價找到最合適的購買鏈接。具有行動能力對我們來說非常重要。真正的閉環是要完成一個行動。

Founder Park：對 Agent 來說，看懂可能只是第一步。那看懂之后，接下來要提供什么價值，你們有判斷或者預期嗎？

曾熙：舉個具體的例子。有用戶開始用我們看球星卡來了解卡的稀有度和歷史。但他看懂之后想炫耀給自己的圈子，所以我們給球星卡做了一張海報式的電子證書。然后他說「我要發到 Instagram story 和 WhatsApp 群組里」，我們又加了一鍵分享功能。最后他甚至想看看別的網站上它值多少錢，可能有一天想賣掉。

它是一個你必須離用戶很近，才知道下一步是什么的過程。

Founder Park：怎么定義離用戶很近？

曾熙：我們現在和美國 6 所大學里的不同協會，都有很緊密的合作關系，所以能很及時的通過調研了解他們的場景，從醒來到睡覺前什么時候打開攝像頭、每次打開攝像頭干什么、預期完成什么任務、哪些是我們能做的、哪些現在做不了但以后有可能做。這種敏感度也是我認為我們現在最大的護城河。

07和 AI 一起看，天然就是下一個時代的 AI 終端入口

Founder Park：Chance AI 目前有十幾個功能模塊，從藝術分析、穿搭、菜譜，再到看面相。哪些場景做，哪些場景不做，你們是怎么取舍的？

曾熙：首要考慮的因素還是用戶。用戶會告訴我們，我們最主要做的是把能力架構做好，確保你掃的時候不會崩，10 秒鐘就能出結果而不是等一分鐘。里面涉及不同的數據、不同的搜索能力、不同的 RAG、不同的 MOE，都已經在那了，但怎么用靠用戶的想象力。

用戶需求和我們能實現的能力之間有「重合點」，這個重合的地方就是我們會去做的功能。

Founder Park：那你們觀察到用戶在 Chance AI 主要在做什么？

曾熙：現在的用戶行為前三，第一是和你的圖片互動，大概占到差不多一半的時間，拍一張圖以后不斷追問上下文、跟它說話，從而形成判斷、形成行動；第二是看首頁內容，會跟內容互動、留評論、回復，更多的是學習，看別人怎么用。原來這個東西也能拍飛機，能拍護膚品，能看藝術品，它起到了一個低成本教育用戶的展示區作用；第三是看自己拍過的內容。

現在的用戶行為跟我們現在產品形態的設計是完全符合的：第一拍照交互，第二看首頁探索別人拍的和不同玩法，第三看自己過去看過的東西。

Founder Park：用戶看自己過去拍的東西是高頻行為？

曾熙：是的，有點出乎我們意料。我們發現有的同學已經把它當成一個專屬剪貼本來用了。比如有一個日本用戶，很神奇，他喜歡收藏昆蟲標本，有一天拍了 180 次，第二天拍了 160 次，把自己收藏的所有標本都輸進去了。

有點像 AI native 的 Pinterest，Pinterest 是根據像素決定分類，我們是根據圖義來分類的。它能自動把每個類別的上下文拉過來，比如「這是什么亞熱帶的什么蟲，它跟你收藏里的某個蟲是同一個產地的」。Memory 部分的使用時長越來越多，使用時長多的用戶留存極高。

Founder Park：現在有一批人群在高頻使用這個產品，你們會把它定義成 AI 時代的一款社交產品嗎？

曾熙：社交可能是它的某一個過渡態，因為它確實能幫助相同興趣的人連接到一起。這是我們很開心看到的，現在很多人在社交平臺上大部分內容是被動接收的，算法決定了你看到什么。但我們更鼓勵的是，先主動去發現真實世界里的東西，然后我幫你找到也喜歡這個東西的人，你們之間產生交流。

在這個階段，社交不是我們最重要的東西，可能用戶達到 100 萬之后，社交會形成一個很重要的形態。

Founder Park：你們會怎么看待這批用戶對 Chance AI 的定位？

曾熙：漸漸地它會變成一個習慣。我們想培養的是用戶習慣，當他未來想到要看什么的時候，先想到和 Chance AI 一起看。我們希望在這個階段盡量多地讓他們給我們反饋，無論是產品上的、數據上的還是模型能力上的，有了這種反饋我們的飛輪才能轉起來。

對我們來講最寶貴的是「和 AI 一起看世界」這個行為，在手機上它是不太自然的，但到了下一個時代的 AI 終端，它就會變得非常自然。想象一下你戴著 Ray-Ban Meta Glasses，很自然地問你「你怎么看那個？」AI 因為很懂你，「我覺得你穿那個不好看，你家里已經有個類似的了，再買很多余。但剛剛那個我覺得挺好看的，你怎么不考慮一下？」就開始跟你聊。這個場景就很自然了。

08Visual Agent 最終會成為一個新的操作系統

Founder Park：在下一階段，AI 硬件天然就有視覺入口，甚至 Visual Agent 本身也能成為一個新的 AI 入口。你覺得這件事真正發生，還需要哪些條件？

曾熙：這個問題我們也經常在思考。首先能確定的是，未來 AI 硬件的終端形態一定是和用戶一起看世界，根據你看到的東西來進行交互，這是確定的，不確定的是時機。

我們認為目前的卡點在三個地方。第一是基礎技術，VLM 今天已經有了，但還沒辦法做到超級實時，或者在很低成本的情況下瞬間完成電影里那種感覺，這部分我們一直在關注，也一直在等待；第二是硬件供應鏈的成熟，目前我們判斷還沒到爆發的周期。即使 Meta Glasses 已經賣了 200 萬臺，但離真正成為每個人日常使用的、像手機一樣級別的產品，還有一定距離；第三是用戶習慣，用戶有沒有養成和 AI 一起看世界的新習慣。年輕用戶其實已經有了，但要擴展成大眾市場，主要還是看那群習慣了文本交互的用戶，他們切入視覺交互會不會有阻礙。

這三個考慮點是我們正在觀察的。我們很開心地看到這件事其實已經正在發生了，只是近還是遠，現在還在觀察中。

Founder Park：你覺得 Visual Agent 最終會是一個什么形態？硬件、操作系統、還是 APP？

曾熙：我們理解它一定是一個操作系統，就是電影《Her》里的那個 Samantha。

Founder Park：如果最終形態是操作系統，會不會更依賴于LLM的智力提升？

曾熙：LLM到今天已經很成熟了，基本沒有什么卡點。反而要回到生活場景上，是有困難的，Claude Code 很難幫你一起去買一個雪糕，或者跟你一起看落日。生活場景，才是大眾市場的最主要場景。

我們的判斷是：今天文本場景很成熟，很多大廠在里面解決基礎問題。反而是文本之上的視覺層面，目前還沒什么人看到，也沒什么人在上面努力。

Founder Park：Visual Agent 和 ElevenLabs 這樣的 voice agent，是什么關系？

曾熙：互補。我相信最終是沒有模態之間的區分的。對用戶來說，不會分什么是文字、什么是語音、什么是圖片，最終都會混合成為一個正常的輸入輸出系統。有點像看電影，你不會在意是聲音讓你笑還是臺詞讓你笑。

Founder Park：那未來你們會做硬件嗎？

曾熙：遲早會做。做硬件對我們團隊來說反而是舒適區，供硬件產品定義、軟硬結合用戶體驗、全球市場產品 GTM、生命周期管理等，團隊有豐富經驗。難的是現在這個階段，先把這一套視覺思考的大腦搭建好。比如 Meta Glasses 你現在戴著看黑色水壺問「這是什么？」，它跟你說「這是一個黑色的圓柱形物體」，這是無用信息。它們離真正的價值差得太遠了。

09FOMO 的是效率不夠快，而不是終點方向

Founder Park：現階段，Chance AI 的競品是什么？

曾熙：如果一定要選的話可能有三類：第一類是上一個時代的各種垂類識別軟件，植物、花鳥那種，技術上的競品；第二類是入口型產品，像 Google Lens 這種；第三類可能是 AI 硬件，像 Looki 這種 Always-on 的設備。

我們最關注的還是入口型產品。我們希望用戶拿起攝像頭的時候，最先想到的是用我們。如果他拿起攝像頭用了別的 App，那個 App 就會被我們視為潛在競品。

Founder Park：你們自己核心的壁壘是什么？或者說別人做不到、你們跑得更快的是什么？

曾熙：前邊也提到了。我們離用戶很近，這種「敏感度」是我們現在最大的護城河。我們有能接住用戶的工程能力，有把在美國真實生活的年輕人每天的需求轉化為功能的流程，有跟他們直接溝通的渠道和分發能力。有了這些以后，我們就有自己的飛輪，Harness Engineering 的飛輪。

Founder Park：作為創業者，你今年會 FOMO 嗎？

曾熙：只要在這個行業里就會 FOMO，因為變化太快了。三個月前你講 OpenClaw，可能沒人知道是什么，現在全民 OpenClaw，這也是讓人興奮的地方。

我們可能會 FOMO 一些技術實現的效率、對工具的選擇，這個很常見，我們很害怕自己正在使用的工具不是世界上最先進的。

但在產品方向上我們是很有自信的。我們認定視覺這件事很直覺，人類跟世界就是這么交互的，這不是這幾年的事情，是好幾百萬年的事情，這是不變的。變的是怎么讓速度加快、怎么讓它發生。我們擔心的是，如果實現效率不夠快，可能站在船頭的人就不是我們了。

Founder Park：所以還是會有各種技術、效率上的焦慮？

曾熙：在 How 上面是有焦慮的，但在 Why 上面是沒有的。我們現在很確定一定會在牌桌上，只是不確定是牌桌的上位還是下位。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

你以為在養龍蝦，其實龍蝦在養你

孤獨大腦 2026-03-24 19:41:59
0 跟貼 0
早期項目 | 字節、OPPO、一加三重背景產品人，將軟硬一體寫入底層，要讓AI看懂世界

36氪 2026-04-10 09:09:09
0 跟貼 0

對話Chance AI創始人：看見世界的另一條路，走出“大模型同質化”的圍墻

華爾街見聞官方 2026-03-31 16:43:17
0 跟貼 0

馬斯克花 100 億想清楚一件事，不做 coding agent 就是等死

愛范兒 2026-05-18 22:19:15
1 跟貼 1
全球首個AI專家市場上線！把你的絕活打包，數字分身7x24小時變現

新智元 2026-05-19 12:37:46
2 跟貼 2

從爆火到平淡，OpenClaw改變了什么

鈦媒體APP 2026-05-08 08:53:10
5 跟貼 5

蘋果 50 年，什么都被抄走了，除了這一樣

愛范兒 2026-04-01 12:35:27
0 跟貼 0
被曝花20億，Anthropic收購Agent工具企業，斷供谷歌OpenAI

智東西 2026-05-19 20:33:35
0 跟貼 0

深度｜Karpathy為何突然加入Anthropic，只能當Dario的「-2」？

新智元 2026-05-20 04:41:58
0 跟貼 0
AI翻身做主管？CAO上崗實測：組隊4分鐘，翻車一整天

雷科技 2026-05-19 21:52:57
0 跟貼 0
跨越落地鴻溝！清華長三院發布首個真實場景AI競技場，實戰誰是最佳？

新智元 2026-05-19 19:47:58
0 跟貼 0
蘋果成立50年，喬布斯的預言正在逐個應驗

DeepTech深科技 2026-03-14 21:21:07
0 跟貼 0
AI語音交互，催生了一個“剛需”品類

36氪 2026-04-03 11:01:20
0 跟貼 0
中美最貴飯局C位，竟是個56歲中國女人，連庫克馬斯克都甘心讓位

兵鑒史 2026-05-18 09:06:56
0 跟貼 0
喬布斯誕辰 71 周年，他的 30 個朋友給我們寫了封信

愛范兒 2026-02-25 22:10:26
0 跟貼 0
治好了20歲的所有迷茫：給年輕創作者的一封信

愛范兒 2026-02-27 19:59:35
0 跟貼 0
2個人4億美金，撕裂硅谷的底線

虎嗅APP 2026-05-20 02:52:15
0 跟貼 0
HyperEyes：并行多模態搜索智能體的效率革命

機器之心Pro 2026-05-19 18:49:37
0 跟貼 0
谷歌開發者大會火力全開：AI搜索、代碼生成、視頻模型齊發

財聯社 2026-05-20 03:40:08
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
男孩擁有特殊視覺能力，意外發現神秘事物，背后真相不簡單

料定歷史 2026-05-15 10:24:53
1 跟貼 1
何小鵬不慌了 | JackTok賈可尖峰對話

新浪財經 2026-05-18 09:44:15
0 跟貼 0
AI Agent成了中年男人的新網癮。心流是最好的專注

朱常在 2026-05-17 13:06:51
0 跟貼 0
阿里Qwen3.7競技場殺至國產第一！一手實測：分分鐘破解奧賽難題，圖文視覺全都難不倒

智東西 2026-05-19 22:51:11
0 跟貼 0
有時候視覺可以欺騙你的大腦

司偉祺 2026-05-16 14:34:57
1 跟貼 1
數千萬玩家隨手拍的照片，正在訓練城市里的送餐機器人

萬物皆可科普2啊 2026-05-19 18:35:24
0 跟貼 0
立體書里藏著溫馨視覺魔術，你看到的蘋果，也許是......網友：也許，這本書其實是我的！

蓬勃資訊 2026-05-17 11:10:31
1 跟貼 1
困在蒜田里的農戶

新京報 2026-05-19 09:01:42
1837 跟貼 1837
Unity 中國資源商店推薦系列 | RealToon專業動漫/卡通著色器

Unity 2026-05-19 19:17:23
0 跟貼 0
影像創作者的新打卡地索尼影創學院新升級

影像新勢力 2026-05-19 16:37:09
0 跟貼 0
永磁體飛輪發動機

制造科技 2026-05-15 19:13:23
0 跟貼 0
這視覺效果真絕了，一時有點分不清，是技術好還是牛配合！

前沿說生活 2026-05-18 14:48:35
0 跟貼 0
科技與藝術的碰撞，觀眾秒變“入畫之人”

焦點視訊 2026-05-17 07:39:34
0 跟貼 0
大錄古藏寨里的視覺與信仰之旅

圖龍攝影 2026-05-19 15:06:19
0 跟貼 0
讓領導覺得你很有靈氣的微習慣

德魯克博雅管理 2026-05-19 17:07:23
0 跟貼 0
離開自戀者第一年：沒人告訴你的重建時間表

云朵偷喝奶茶 2026-05-20 00:14:02
0 跟貼 0
估值重構還是價值陷阱？理想L9 Livis的AI豪賭

明亮Company 2026-05-18 11:41:42
0 跟貼 0
凱克·帕爾默新片：最瘋癲的視覺喜劇來了

熱搜摘要官 2026-05-20 01:19:26
0 跟貼 0

研究發現：體質好的人，一般有6個特征，能占4個，就很不錯

研究發現：體質好的人，一般有6個特征，能占4個，就很不錯

蜉蝣說

2026-05-19 21:58:27

生育率問題的罪魁禍首不是房價和經濟而是你手里拿著的這樣東西

生育率問題的罪魁禍首不是房價和經濟而是你手里拿著的這樣東西

新浪財經

2026-05-17 14:34:05

錢大媽5年閉店約500家，創始人馮冀生套現超億元跑路

錢大媽5年閉店約500家，創始人馮冀生套現超億元跑路

財觀潮頭

2026-05-19 20:42:43

安切洛蒂談世界杯：五個奪冠熱門，但沒有球隊是完美的

安切洛蒂談世界杯：五個奪冠熱門，但沒有球隊是完美的

懂球帝

2026-05-19 09:42:40

華為、騰訊、比亞迪等都等不及了！深圳高校2026集體“瘋狂上新”

華為、騰訊、比亞迪等都等不及了！深圳高校2026集體“瘋狂上新”

深圳夢

2026-05-19 21:53:00

姚晨緊急刪文僅一天，不對勁一幕出現，為什么圈內好友無一人發聲

姚晨緊急刪文僅一天，不對勁一幕出現，為什么圈內好友無一人發聲

青杉依舊啊啊

2026-05-20 02:54:17

挺進決賽！U17國足2比0完勝澳大利亞，將與日本隊爭冠！

挺進決賽！U17國足2比0完勝澳大利亞，將與日本隊爭冠！

足球報

2026-05-20 04:30:59

深挖 | 夏奇拉：世界杯的“音樂符號”，人生比情歌更跌宕

深挖 | 夏奇拉：世界杯的“音樂符號”，人生比情歌更跌宕

新民周刊

2026-05-19 09:10:27

上海交大樊同學要哭死：學校終止她的儲才計劃，取消她校內轉專業

上海交大樊同學要哭死：學校終止她的儲才計劃，取消她校內轉專業

江山揮筆

2026-05-19 22:16:34

深夜，“烏龍指”再現？！

證券時報

2026-05-19 23:34:05

好消息！上調至3.67%

幸福肥東

2026-05-19 14:56:40

誰干的？以色列核彈頭儲存基地發生強烈爆炸！特朗普推遲打擊伊朗

誰干的？以色列核彈頭儲存基地發生強烈爆炸！特朗普推遲打擊伊朗

影孖看世界

2026-05-19 21:47:46

全民拒接陌生來電，我們正在經歷，一場無聲的信任危機

全民拒接陌生來電，我們正在經歷，一場無聲的信任危機

天天熱點見聞

2026-05-07 06:55:16

A股：中央兩部門剛剛發聲，釋放一信號，明日將迎來更大的變盤

A股：中央兩部門剛剛發聲，釋放一信號，明日將迎來更大的變盤

云鵬敘事

2026-05-20 00:00:05

還是忘不了！特朗普又曬檢閱解放軍儀仗隊照片，還展示自己軍裝照

還是忘不了！特朗普又曬檢閱解放軍儀仗隊照片，還展示自己軍裝照

阿龍聊軍事

2026-05-17 21:08:17

熱議海港勝成都：史上最弱海港做到了；成都主場失利是警醒

熱議海港勝成都：史上最弱海港做到了；成都主場失利是警醒

懂球帝

2026-05-19 23:11:08

蔡卓妍：全部都是假的

最江陰

2026-05-19 15:05:17

郎朗真有福！吉娜戛納紅毯開叉到大腿根，生圖曝光網友吵翻天！

郎朗真有福！吉娜戛納紅毯開叉到大腿根，生圖曝光網友吵翻天！

動物奇奇怪怪

2026-05-20 04:29:55

果然！是華人而不是中國人統治了芯片，真夠扎心的…

果然！是華人而不是中國人統治了芯片，真夠扎心的…

慧翔百科

2026-05-19 08:34:16

怒增5700億！大行消費貸“殺瘋了”

怒增5700億！大行消費貸“殺瘋了”

柒財經

2026-05-19 23:19:43

關注AI創業，專注和創業者聊真問題

1217文章數 162關注度

往期回顧全部

科技要聞

馬斯克敗訴，法院判他起訴OpenAI太晚了

頭條要聞

媒體：特朗普為何拋涉臺"四不"說法魯比奧解釋清楚了

頭條要聞

媒體：特朗普為何拋涉臺"四不"說法魯比奧解釋清楚了

體育要聞

文班亞馬：沒拿到MVP，就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒，為什么她還能蹦噠

財經要聞

潔麗雅硬剛豪門內斗傳言

汽車要聞

煥新極氪009上市41.38萬起齊家版讓MPV回歸家庭

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產

家居

手機

時尚

教育要聞

中考數學，-0的倒數是多少？

房產要聞

7516元/㎡，161套一次全甩！?？谧≌畹蛢r出現了！

家居要聞

觀山隱秀心靈沉淀

110㎡淡而有致的生活表達
精神奢享對話塔尖需求
內在自敘，無域有方

手機要聞

5月最后十天，5款新機連番轟炸！從電競旗艦到中端影像都齊了

57歲惡女出手整治浪姐，全網拍手叫好

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<i id="bz4bl"><ins id="bz4bl"></ins></i>

<td id="bz4bl"><tr id="bz4bl"></tr></td>