无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

拍照即交互、專為Z世代打造,Chance AI做了世界首款視覺Agent產品

0
分享至

一款 AI 產品出現在了國際頂級的藝術展覽中,而且是充當解說員的身份。

上周,亞洲當代藝術博覽會 Art Central 落幕。Chance AI 作為這屆博覽會官方引入的首個 AI 產品,負責幫觀眾解讀藝術品。觀眾舉起手機,對準一幅畫,拍照即交互,聽 AI 解釋:這件作品為什么成立,它背后意味著什么。

創始人曾熙給這套系統起了個名字「Visual Agent」。核心邏輯是,讓 AI 先看懂,再開口。

認知科學 PhD 背景的曾熙,曾在一加、OPPO 和字節跳動做過十多年的產品與設計。他相信,尤其是 Z 世代的年輕人,天然地習慣通過圖像和直覺去理解世界。

「AI 與人類不應該是一個輸入框的關系。更直覺的方式是:我一看,AI 就已經理解我需要什么。」

Chance AI 第一次把這套人類認識世界的方法,帶進了 Agent 的 Harness Engineering 里。在視覺理解的核心 Benchmark MMMU 上,Chance AI 目前排名世界第一,準確率 86.07%,超過了人類評分(85.4%)和所有主流大模型。

以 Visual Agent 為切入點,Chance AI 發布后在推特上引起了 AI 行業不少硅谷大 V 的討論,AK、Robert Scoble、Rohan Paul、Madza、Parul Gautam 等大佬都點贊轉發。產品目前已有 20 萬用戶,高校 Z 世代人群居多。

再往下一步,Chance AI 想讓 Visual Agent 成為下一代的 AI 終端入口?!敢曈X,才是人類最直覺的操作系統。」

以下是 Founder Park 與 Chance AI 創始人曾熙的對話,經編輯整理。

產品官網:https://www.chance.vision/

采訪 | 萬戶

編輯 | 夏天

??關注 Founder Park,最及時最干貨的創業分享

超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的 AI 產品曝光渠道

01產品最初的 MVP 驗證,是一款導覽小程序

Founder Park:簡單介紹一下團隊和你個人的過往經歷。

曾熙:我過去在一加、OPPO 和字節跳動工作,做了十幾年的產品和設計,主要都是在做消費電子方向。從手機硬件到手機操作系統,再到 AI 應用,加起來做過差不多近 6 億級別用戶規模的產品了。也是在字節的那一段時間,我開始更深入地參與 AI 產品的構建,尤其是多模態相關的探索。

我自己的學科背景其實有一點不一樣,PhD 研究方向是認知科學。我一直在思考一個問題:人是如何最直覺地理解這個世界的?這也是我后來做 Chance AI 的起點,不是說 AI 能做什么,而是反過來推導:AI 如何幫助人們更好地在現實生活中去理解世界,然后進入下一步決策。

團隊方面,大部分是我在這三段經歷里認識的、合作特別好的同事。尤其是負責視覺推理和算法的、海外增長的同學,都是之前共事的同事。

Founder Park:什么契機決定離開大廠,全身心投入 Chance AI?當時看到了什么機會?

曾熙:主要是有三個時刻。第一個是我在字節做豆包的時候。2024 年的時候發現很多人喜歡在豆包里上傳圖片,然后和豆包聊。當時隱約覺得一種新的交互習慣要出現了。

第二個時刻是 VLM 的出現。GPT-4o 第一次有了很強的多模態能力。我們當時就在思考,基于 VLM 能不能做出應用層的東西?很多人基于 LLM 做東西,但還沒有人基于 VLM 做東西。

第三個是真正讓我們下定決心的時刻。2024 年底,我們幾個朋友在深圳做了一次 Andy Warhol 的展覽。我們做了一個 AI 導覽小程序,所有人進來后掃描會場里的畫,然后與作者進行對話。展覽結束三個月后,我們發現竟然還有 1500 個用戶持續地用這個小程序去看生活中的東西。我們去回訪這些用戶,發現他們用來給小朋友看花草、看名勝古跡、看收藏的球星卡和潮玩,或者看想買的東西。

當時我們認為這是真實存在的需求。從那之后,到了 2025 年初,我從字節離開,決定全職做這件事。

Founder Park:怎么介紹目前你們的這款產品?

曾熙:Chance AI 是一款視覺 Agent 產品。打開 App 之后,沒有輸入框,只有一個相機。拍照即交互——對準花草、名勝古跡、球星卡,或者任何你感興趣的東西,AI 就開始工作。

我們不叫自己「AI 相機」或者「視覺搜索」,而是 Visual Agent。因為在我們理解里,它是一個更主動的、和你一起參與的系統——它不是等你輸入再響應,而是參與你整個看世界的過程。核心邏輯是:讓 AI 先看懂,再開口。

02Visual Agent 的核心,幫用戶構建一套理解世界的系統

Founder Park:Chance AI 提出了「Visual Agent」這個概念,它和傳統的視覺識別工具,比如 Google Lens 的區別是什么?

曾熙:簡單來說,Google Lens 或者別的工具,比如關于識別花草的、鳥的、紅酒的,統稱為「識別工具」。它們的目標是把東西識別清楚以后,把你帶到搜索或帶到交易。Google Lens 一開始就是為了電商而生的產品,找同款,所以它的結果就是鏈接和價格。

我們觀察到的問題是:用戶很多時候并不是想知道這個東西是什么,而是想知道為什么它長這個樣子?它為什么有意思?它跟什么樣的文化、歷史故事有關?所以我們把重點放在解釋層上面,不是描述層面

假設你的偶像是喬布斯,我跟你說「這是喬布斯最喜歡的某個廚房料理機,因為他小時候家里就是用的這個款式,后來影響了他做 iPod 的經歷」,這個時候你的感受會區別于講表面信息的時候。這個我們已經驗證過了,尤其是潮玩,都是塑料,為什么某些潮玩賣得特別好而某些就一般?因為某個潮玩代表了某種情緒,但那個情緒是需要被誘導出來的。

這是下一個時代新用戶的行為模式,所以我們是為這群新用戶做的新產品形態。它不僅僅是識別,它需要把感知、上下文、社會共識全部連接起來。

Google Lens 是一個工具,我們是在幫用戶構建一個理解系統。因為我們相信一切行動都是建立在理解之上的。一個你不理解的東西,你不可能想要買它、擁有它或者想去那個地方。這是很大的區別。


Founder Park:那 Chance AI 和普通 ChatBot 的區別是什么?

曾熙:這些通用模型的視覺能力,本質上對它們來講是一個附加能力。它們沒有針對多模態能力做任何優化,核心仍然是對話,輸入框,用戶先提問,再調用部分視覺作為輸入的一部分。我們認為這是不合理的,因為真實世界不是這樣的。真實世界是你看到一個東西,你甚至都不知道該怎么問,你只是覺得「我想關注這個東西了」,有一瞬間的好奇心。

我們的做法是貼近真實世界,從你看到的世界開始,而不是從問題開始、從輸入框開始。這帶來一個很本質的區別:對 Chatbot 來講,一進去必然是一個輸入框;對我們來講,一進去就是相機,要么你就拍,要么你就上傳圖片。本質上它不是能力的差別,而是產品方向的選擇。

Founder Park:相當于 ChatBot 里的視覺識別只是文字交互中的附加功能。但對你們來說,視覺本身就是用戶理解世界的最主要方式。

曾熙:對。如果做類比的話,有點像 ElevenLabs。今天 Gemini、GPT、豆包全部都可以生成音樂了,為什么 ElevenLabs、Suno 還是能獲得非常好的表現?因為它們起步早,有非常垂直的定位,然后隨著月活越來越多形成正向飛輪。對我們來說也是一樣,今天比如用戶要看穿搭、看審美、看藝術品或看潮玩,已經沒有任何通用模型能比我們更強。

Founder Park:也就是說你們已經基于用戶迭代出來了很多場景,比如 OOTD 穿搭、看膚色這些,涌現出了很多用戶自己建的場景。

曾熙:沒錯,而且這些用戶的需求是大廠不會干的事。所以我們一定得繞開大廠的輻射范圍,離用戶很近、對用戶的反應更快,這也是我們的「護城河」之一。

03Z世代天然更習慣用視覺去表達和理解世界

Founder Park:Chance AI 面向的核心目標人群是Gen Z,你們當時是怎么確定他們是第一批用戶的?

曾熙:還是一個被選擇的過程。我們有很多假設,最后是因為這批人的表現最好,所以圈定他們作為早期種子用戶。我們發現他們有一個共同點,給他們一個標簽叫「藝術的生活家」。他們不是那種藝術家,但一定是那種對生活很有追求、很有品質的人,很在意自己的 Image。

我們發現這群人都有這個特性,我們叫做視覺驅動型用戶。大部分是藝術學院或文理學院的學生。他們很喜歡用表情包、meme 圖片、視頻溝通,而不是通過郵件或長文本。很多時候他們不是在表達一個問題,更多是在表達那個 vibe,特別抽象,但又特別能引起共鳴。

這是我們最后沉淀下來發現表現最好的用戶群。比較有優勢的是,這群用戶恰好又是在社交媒體上比較活躍發聲的用戶,自然就給我們的增長帶來了助力。所以我們并不是把 Gen Z 廣泛地定義為目標用戶,而是因為這群人更習慣用視覺去理解世界。

我們在產品上也往這群人靠攏,很注重審美、文化風格這一類的東西,而不是告訴你一個客觀參數。當他們使用我們產品的時候就覺得很自然,不需要去想,因為一想就變理性了,一旦觸動思考、要想怎么組織一句話,就變得很理性,跟他們追求感性、追求 Vibe 的特質是違背的。所以這群人使用我們產品的學習成本幾乎為零,這也是為什么他們很自然地成為了我們的種子用戶。


Founder Park:你們現在的用戶規模大概是多少?增長主要靠什么?

曾熙:我們現在大約 20 萬用戶,其中差不多 15 萬是 25 歲以下的年輕用戶。

最主要的增長來源是校園計劃,靠學生的口碑傳播。我們會鼓勵不同校園里的活動。比如 sponsor 一些資金支持,二三十個學生一起去逛某個地方,逛的過程中使用我們的產品,最終坐在一起在咖啡店里分享發現了什么有趣的東西。

Founder Park:你們的預期是一直服務大學生群體,還是陪伴他們進入社會后繼續服務?

曾熙:我們服務的是 Visual Native 的人群,沒有那么明顯的年齡界限,只是現階段他們正好處在 18 到 25 歲這個年齡段。我相信即使他們步入社會以后,也還是保留這個用戶習慣的。接下來可能 15、16 歲的人也會更加 Digital Native。


Chance AI 的各類線下校園活動

Founder Park:不同地區的人群在使用場景上會有區別嗎?

曾熙:會有,但差異體現在看什么,而不是怎么看。美國用戶大部分看穿搭購物、化妝品、潮玩。歐洲用戶很喜歡看藝術品、建筑、展覽、書籍封面,一個法國學生可能會拍意大利語的書籍封面,然后去讀內容。拉美用戶更偏神秘學,看手相、看面相,每天出門前拍一拍來決定今天要注意什么。而且他們會把穿搭和神秘學聯系在一起,根據今天的運勢決定要戴什么顏色的首飾。

Founder Park:如果想從現在的20萬到 100 萬、500 萬,大概是怎樣的增長路徑?核心靠什么實現用戶增長?

曾熙:短期以產品驅動為主??诒畟鞑ピ谶_到 100 萬用戶以前可能都不會改變。因為這個產品的核心不是獲取流量,而是需要幫助用戶形成一種新的使用習慣。如果習慣沒有建立,去做投流、買量是沒辦法放大的。

增長路徑現在比較清晰,把核心場景打透。除了日常的視覺理解以外,比如穿搭場景、神秘學場景、旅行場景、購物場景,我們要圍繞這些場景把它做深?,F在只能說有一個苗頭,看到了努力的方向,但還沒有拼盡全力去做深。

然后再通過內容和社交去做擴散。比如我們現在穿搭場景里有直接一鍵幫你生成 Instagram Story 的模式,除了給你打分、給你顏色搭配建議、飾品建議以外,更重要的是有一鍵變成 Ins Story 圖片的功能。

04不是效率工具,是 lifestyle 的視覺伴侶

Founder Park:一開始預想產品要做成什么樣?早期優先解決什么問題?

曾熙:很坦白地說,當時是沒有的,我們只是知道「看世界」是一個比較具體的需求,但具體看什么我們完全不知道。我們認為要做好的事情就是把架構做好,用戶會告訴我們他們選擇看什么東西,看得多了以后再針對性地優化。

比如穿搭這件事,我們一開始并沒有幫用戶看穿搭的 Visual Agent,而是穿搭照片的占比多了以后,我們才專門針對穿搭去做優化,是這種反哺回來的形式。這來源于我在一加時候的社區共創基因。我覺得這教會了我非常多,如果你還沒想清楚,沒關系,最重要的是趕緊先把你的能力丟出去,用戶會告訴你他們需要什么。

Founder Park:你們最初上線的版本,先解決的是讓用戶能拍照跟世界進行交互,這個交互形式是從一開始就確定了嗎?

曾熙:對,這個架構從一開始就確定了。我們有一段時間在首頁加了輸入框,結果那段時間產品的表現特別差。

Founder Park:加輸入框反倒效果差了?

曾熙:對。我們加輸入框加得很次要,作為搜索框的形式存在,結果讓用戶失焦了。很多人直接把它當成 Chatbot 來用。所以我們把輸入框去掉之后,這群用戶離開了,但反而長期留存變得更好了。

Founder Park:你之前提到「提示詞是為懶惰的 AI 準備的」,那在圖片生成后的追問環節,這種「基于單圖的對話」與傳統 Chatbot 的區別是什么?

曾熙:所有后續追問都是基于同一個主題的。就像我所有追問都是基于「我今天穿什么衣服」這個主題,所以它會針對這個有很強的上下文,它知道我前面試了多少套、每一套之間細微的區別是什么,從而判斷你是不是正在猶豫去的場合不知道穿什么。我們認為這是很天然的、直覺的。別的 Chatbot 里開一個對話框是一個主題,對我們來講每張圖片就是一個主題。

Founder Park:那不同的圖片,比如看手相、OOTD 這些,是直接上傳一張看手相的圖就可以,還是需要選一個場景才會進入對應的功能?

曾熙:兩種都有。有些強風格化的東西會給你推薦,比如你把某個產品丟進去,有可能是想買它、想吐槽它、想給它寫一首詩,這時候我們會做推薦。但有些很特定的場景,比如拍一朵花或拍手紋,我們就很確定地知道該導入到哪個功能。你問的這個問題其實很本質,本質上我們不應該再有推薦,但限于 VLM 的能力,目前不得不有一個過渡狀態。

Founder Park:如果用戶輸入的信息只有一張圖,你們怎么去理解用戶的意圖?

曾熙:這又回到我 PhD 研究的課題上了。視覺一定先于語言,當你看到一個東西的時候,你可能都沒想好怎么組織語言,但你已經有一個念頭了。所以我們認為,你跟看到的東西的交互發生在后面,輸入框是發生在追問里,而不是你產生意圖的那個瞬間。

當你看到一個東西的時候,至少百分之八九十的意圖已經能命中,你看到一套衣服,大概率想買它或想知道適不適合自己,可能有百分之一二十的概率是你想把它買給你的女朋友。這就需要長時間的交互,我才知道你是男生還是女生,為什么一個男生要拍女裝?隨著第二次、第三次交互,我就能知道原來你是在幫別人挑禮物。

所以意圖在你看到圖片的瞬間,以及長期交互的過程里,會變得越來越準、越來越懂你,是一個收縮的狀態

Founder Park:所以,拍的時候用戶自己可能也沒有很明確的意圖,更多是直覺。拍完之后的下一步交互,是用戶在明確自己的意圖,Chance AI 也在更明確地理解用戶。后面的交互是大家逐漸把意圖收斂的過程。

曾熙:沒錯。分享一個核心用戶群數據:我們有一個指標叫單次核心任務流的交互時長,是 6.4 分鐘。也就是說,當用戶上傳一張圖片觸發一個任務流后,他跟這張圖片的交互時長是 6.4 分鐘,基本上每個人會進行 3 到 5 輪對話。

Founder Park:所以,Chance AI 瞄準的用戶不是那種「我很明確地要做什么」的用戶?

曾熙:對,所以它并不是一個效率工具,更偏 lifestyle,是一個視覺伴侶。我們的用戶都是北美的年輕人。他們可能上課的時候用 GPT 寫課件、寫論文,但出去玩、跟小姐妹喝下午茶、跟兄弟逛球鞋店,基本上都是 Chance AI 的場景。

Chance AI 是一個 lifestyle 的 companion,會陪你一起看世界,「看」是它最重要的能力。

Founder Park:你們會怎么定義這個產品最終給用戶的價值?

曾熙:它是一個非效率場景的、幫你賦能生活方式的 AI 產品。分享一個例子,產品在去年年底迎來了一波增長,原因是快到圣誕節的時候,非常多人要挑禮物,就用 Chance AI 給自己的男女朋友或家人挑禮物。

05把人類看世界的方法帶到 Harness Engineering 里

Founder Park:在技術架構方面,你們是怎么做的?

曾熙:我們 post-training 了一些開源的 VLM,用在不同的場景里。但對我們來說更寶貴的還是我們做了一套 visual 的 harness engineering。

我們這套技術架構,本質上是從人類如何真實地看世界出發,然后把這個過程映射到我們的 Visual Agent 里。在人類的認知過程中,其實有一條非常清晰的處理鏈路:

首先是視覺信號的采集——通過眼球和視網膜接收外界的光信號;隨后,這些信號通過視神經被轉化為神經信號并傳遞到大腦;接著進入視覺皮層(visual cortex),從初級視覺區(V1)到更高層區域逐級處理,完成對形狀、結構、語義、空間關系等信息的整合與理解;最后才進入決策,這個東西我要不要拿起來?我是一只手拿還是兩只手拿?它燙不燙?

你會看到分了四層:信號采集、信號傳遞、視覺皮層處理、大腦決策?,F在其他 AI 產品的問題是,他們想讓眼睛做思考,把這些步驟混在一起,想用一個模型實現從看見到思考的全鏈路。

我們的 visual agent 在技術上沒有什么秘密,就是把這四個鏈路拆開做。難的是我們第一次把人類認識世界的方法帶到了 agent 的 Harness Engineering 里面。

Founder Park:每一步都會有一個大模型來處理?

曾熙:對,它會根據看到的物體在每一步決定是調用云端模型還是我們自己的 post-train 的模型,調用哪個 skill。比如發現用戶看的是衣服,衣服對趨勢比較敏感,就會去調用一個能找到 Instagram trending hashtag 的 skill。每一層都發生自己的判斷。它是一個工程能力,不是把所有東西做到一個模型上面。

這才是我們理解的 AI,因為人就是這么看世界的,我們只是把人看世界的方法復制到了技術實現上。我們一開始花了很多時間,來摸清楚這件事。

Founder Park:中間走了什么彎路?

曾熙:走了特別大的彎路。我們一開始也想用一個模型做所有事情,然后發現怎么設計都有問題,理解能力強了,就調用不了 skill;skill 強了,視覺理解的本質又沒了。特別難,中間發生了非常多這種事情。

最后主要還是我 PhD 在認知科學方面的知識啟發了我,為什么我們要期待把眼睛和大腦做成一個東西?這可能一開始就是錯的。

Founder Park:感覺比起你們現在的模型架構,底層的 VLM 反倒不是核心優勢?

曾熙:沒錯。這就是為什么我們在 MMMU Benchmark 上能做到全世界第一。對我們來說,VLM 用誰家的都不重要,哪個便宜就用哪家,無論用哪家都能達到那么好的效果。我覺得這才是我們在技術層面有價值的地方。


Founder Park:你們大概什么時候摸索清楚這個架構確實能跑通了?

曾熙:從 2025 年初到 2025 年中,我們一直都在研究這個問題,都沒做產品。而且 2025 年初 VLM 能力更差,憑什么我們視覺理解能力能比別人好?真的就是后面做的這套 Harness。

Founder Park:感覺這個 Harness Engineering 有點類似于把人類本能的看東西、理解東西的邏輯復用到了 AI agent 的流程里面。復用的是人類本能的流程,而不是我們自己的實踐 SOP。

曾熙:是的。為什么燙杯子不能碰?你什么時候決定要不要聯想回以前的記憶?這個判斷邏輯很重要。如果判斷要聯想,可能要花很多時間和 Token,怎么判斷聯想還是不聯想?要不要在過往的 Visual Memory 里做匹配?這又得回到用戶,靠用戶反饋,我們才能有一個閾值去調整什么情況下要聯想、什么情況下不聯想。

我們做的事情在 LLM 領域不是什么新鮮的事情,但的確是第一個把這些方法帶到視覺領域的公司。

Founder Park:所以在這套 Visual Agent 里,有 VLM 也有 LLM,互相搭配最終產出結果?

曾熙:是的,每個節點里最終看到的結果,最多的時候能調用 6 到 8 個模型。

甚至結果會因為每個用戶的品味不同而異。我們有一個功能,是根據你看到的圖片來給你推薦音樂。這是很多人用的一個場景:我要發一個 Instagram Story,要配一個背景音樂,怎么知道我看到的東西跟音樂之間是正相關的?比如我看到一個洛杉磯的落日,它就給我配了一首落日飛車那種很舒緩的 City Pop 音樂??瓷先ズ苤庇X,但我們在里面做了大量的工程,怎么把一個圖像找到很適合這個圖像 Vibe 的音樂,然后推薦出 Spotify 鏈接。雖然它只是結果頁里的一個小框框,但真的很不容易。

最后產出的結果也很偶然,相當于我們做好了一套 Skill Set,讓模型自己決定要調用什么。

Founder Park:最近流行的 OpenClaw 是用 MD 文件來儲存 context。你們是怎么存儲、管理用戶的 memory 和 context 的?

曾熙:我們沒辦法用單一的文件來做用戶的記憶存儲。在視覺記憶方面,我們并不是把每一張圖都變成你的記憶。我們會把圖片分成三個級別的不同像素。比如一張圖片,在后臺會被壓縮成 100x100 的小方框,人眼看上去是沒有意義的東西,但模型之間能理解。我們要確保 agent 內部之間用最小單元進行溝通,傳輸的只是 100x100 的像素就能完成信息傳遞。

某些場景下我們會用中等尺寸的圖片,比如 500x500,進行思考部分,到展示給用戶時才回到原尺寸。

Founder Park:所以你們是用視覺圖片的形式在不同 agent 之間做信息傳達,不是在一開始就轉譯成語義文本來傳播?

曾熙:我們去年做 memory 的時候,就是把圖片拿掉變成純文本,結果發現效果特別差。純文本是累積型數據,越用越多,可能就有幾百個 MD 文件了。效果差,溝通效率也低。

后來我們發現,把文字大量壓縮成低像素圖片之后,模型間的溝通效率反而提高了,效果又變好了。

我們發現一個很哲學的問題是,視覺才是最高效的溝通媒介。DeepSeek 發過一個 OCR 的模型,相同的 100 比特信息,變成文字傳輸快還是變成一張圖傳輸快?他們的結論是變成圖傳輸快,跟我們的結論完全一樣。但他們主要聚焦 OCR,把文獻語言圖片化,我們面對的可能更復雜一點,除了 OCR 類圖片,更多的是那種說不清道不明的 Vibe。

06你必須離用戶很近,才知道產品下一步是什么

Founder Park:Visual Agent,跟 Manus 或 Claude Code 這類生產力、工具型 Agent 有什么區別?

曾熙:我們把它定義成 Visual Agent,最重要的點在于它是一個能和你一起看世界的 Agent。我們不叫自己 AI 相機或視覺搜索,而是叫 Visual Agent,因為在我們理解里它是一個更主動的、和你一起參與的系統,它不是一個響應式的輸入,而是參與你整個看世界的過程。

具體來說有兩個很大的變化。第一是連續性:不是一次性的識別,而是一個持續的理解過程。它知道你上周的穿搭、三天前的穿搭、你買過什么東西。它會建議「你可以試一下剛買的那雙藍色鞋子,更配你這套藍色西裝」。

第二是它具有行動能力。比如我看到一個活動海報,它可以幫我加到日歷里;看到一個菜單,它可以幫我點菜;看到一個商品,它可以全網比價找到最合適的購買鏈接。具有行動能力對我們來說非常重要。真正的閉環是要完成一個行動。

Founder Park:對 Agent 來說,看懂可能只是第一步。那看懂之后,接下來要提供什么價值,你們有判斷或者預期嗎?

曾熙:舉個具體的例子。有用戶開始用我們看球星卡來了解卡的稀有度和歷史。但他看懂之后想炫耀給自己的圈子,所以我們給球星卡做了一張海報式的電子證書。然后他說「我要發到 Instagram story 和 WhatsApp 群組里」,我們又加了一鍵分享功能。最后他甚至想看看別的網站上它值多少錢,可能有一天想賣掉。

它是一個你必須離用戶很近,才知道下一步是什么的過程。

Founder Park:怎么定義離用戶很近?

曾熙:我們現在和美國 6 所大學里的不同協會,都有很緊密的合作關系,所以能很及時的通過調研了解他們的場景,從醒來到睡覺前什么時候打開攝像頭、每次打開攝像頭干什么、預期完成什么任務、哪些是我們能做的、哪些現在做不了但以后有可能做。這種敏感度也是我認為我們現在最大的護城河。

07和 AI 一起看,天然就是下一個時代的 AI 終端入口

Founder Park:Chance AI 目前有十幾個功能模塊,從藝術分析、穿搭、菜譜,再到看面相。哪些場景做,哪些場景不做,你們是怎么取舍的?

曾熙:首要考慮的因素還是用戶。用戶會告訴我們,我們最主要做的是把能力架構做好,確保你掃的時候不會崩,10 秒鐘就能出結果而不是等一分鐘。里面涉及不同的數據、不同的搜索能力、不同的 RAG、不同的 MOE,都已經在那了,但怎么用靠用戶的想象力。

用戶需求和我們能實現的能力之間有「重合點」,這個重合的地方就是我們會去做的功能。

Founder Park:那你們觀察到用戶在 Chance AI 主要在做什么?

曾熙:現在的用戶行為前三,第一是和你的圖片互動,大概占到差不多一半的時間,拍一張圖以后不斷追問上下文、跟它說話,從而形成判斷、形成行動;第二是看首頁內容,會跟內容互動、留評論、回復,更多的是學習,看別人怎么用。原來這個東西也能拍飛機,能拍護膚品,能看藝術品,它起到了一個低成本教育用戶的展示區作用;第三是看自己拍過的內容。

現在的用戶行為跟我們現在產品形態的設計是完全符合的:第一拍照交互,第二看首頁探索別人拍的和不同玩法,第三看自己過去看過的東西。

Founder Park:用戶看自己過去拍的東西是高頻行為?

曾熙:是的,有點出乎我們意料。我們發現有的同學已經把它當成一個專屬剪貼本來用了。比如有一個日本用戶,很神奇,他喜歡收藏昆蟲標本,有一天拍了 180 次,第二天拍了 160 次,把自己收藏的所有標本都輸進去了。

有點像 AI native 的 Pinterest,Pinterest 是根據像素決定分類,我們是根據圖義來分類的。它能自動把每個類別的上下文拉過來,比如「這是什么亞熱帶的什么蟲,它跟你收藏里的某個蟲是同一個產地的」。Memory 部分的使用時長越來越多,使用時長多的用戶留存極高。

Founder Park:現在有一批人群在高頻使用這個產品,你們會把它定義成 AI 時代的一款社交產品嗎?

曾熙:社交可能是它的某一個過渡態,因為它確實能幫助相同興趣的人連接到一起。這是我們很開心看到的,現在很多人在社交平臺上大部分內容是被動接收的,算法決定了你看到什么。但我們更鼓勵的是,先主動去發現真實世界里的東西,然后我幫你找到也喜歡這個東西的人,你們之間產生交流。

在這個階段,社交不是我們最重要的東西,可能用戶達到 100 萬之后,社交會形成一個很重要的形態。

Founder Park:你們會怎么看待這批用戶對 Chance AI 的定位?

曾熙:漸漸地它會變成一個習慣。我們想培養的是用戶習慣,當他未來想到要看什么的時候,先想到和 Chance AI 一起看。我們希望在這個階段盡量多地讓他們給我們反饋,無論是產品上的、數據上的還是模型能力上的,有了這種反饋我們的飛輪才能轉起來。

對我們來講最寶貴的是「和 AI 一起看世界」這個行為,在手機上它是不太自然的,但到了下一個時代的 AI 終端,它就會變得非常自然。想象一下你戴著 Ray-Ban Meta Glasses,很自然地問你「你怎么看那個?」AI 因為很懂你,「我覺得你穿那個不好看,你家里已經有個類似的了,再買很多余。但剛剛那個我覺得挺好看的,你怎么不考慮一下?」就開始跟你聊。這個場景就很自然了。

08Visual Agent 最終會成為一個新的操作系統

Founder Park:在下一階段,AI 硬件天然就有視覺入口,甚至 Visual Agent 本身也能成為一個新的 AI 入口。你覺得這件事真正發生,還需要哪些條件?

曾熙:這個問題我們也經常在思考。首先能確定的是,未來 AI 硬件的終端形態一定是和用戶一起看世界,根據你看到的東西來進行交互,這是確定的,不確定的是時機。

我們認為目前的卡點在三個地方。第一是基礎技術,VLM 今天已經有了,但還沒辦法做到超級實時,或者在很低成本的情況下瞬間完成電影里那種感覺,這部分我們一直在關注,也一直在等待;第二是硬件供應鏈的成熟,目前我們判斷還沒到爆發的周期。即使 Meta Glasses 已經賣了 200 萬臺,但離真正成為每個人日常使用的、像手機一樣級別的產品,還有一定距離;第三是用戶習慣,用戶有沒有養成和 AI 一起看世界的新習慣。年輕用戶其實已經有了,但要擴展成大眾市場,主要還是看那群習慣了文本交互的用戶,他們切入視覺交互會不會有阻礙。

這三個考慮點是我們正在觀察的。我們很開心地看到這件事其實已經正在發生了,只是近還是遠,現在還在觀察中。

Founder Park:你覺得 Visual Agent 最終會是一個什么形態?硬件、操作系統、還是 APP?

曾熙:我們理解它一定是一個操作系統,就是電影《Her》里的那個 Samantha。

Founder Park:如果最終形態是操作系統,會不會更依賴于LLM的智力提升?

曾熙:LLM到今天已經很成熟了,基本沒有什么卡點。反而要回到生活場景上,是有困難的,Claude Code 很難幫你一起去買一個雪糕,或者跟你一起看落日。生活場景,才是大眾市場的最主要場景。

我們的判斷是:今天文本場景很成熟,很多大廠在里面解決基礎問題。反而是文本之上的視覺層面,目前還沒什么人看到,也沒什么人在上面努力。

Founder Park:Visual Agent 和 ElevenLabs 這樣的 voice agent,是什么關系?

曾熙:互補。我相信最終是沒有模態之間的區分的。對用戶來說,不會分什么是文字、什么是語音、什么是圖片,最終都會混合成為一個正常的輸入輸出系統。有點像看電影,你不會在意是聲音讓你笑還是臺詞讓你笑。

Founder Park: 那未來你們會做硬件嗎?

曾熙:遲早會做。做硬件對我們團隊來說反而是舒適區,供硬件產品定義、軟硬結合用戶體驗、全球市場產品 GTM、生命周期管理等,團隊有豐富經驗。難的是現在這個階段,先把這一套視覺思考的大腦搭建好。比如 Meta Glasses 你現在戴著看黑色水壺問「這是什么?」,它跟你說「這是一個黑色的圓柱形物體」,這是無用信息。它們離真正的價值差得太遠了。

09FOMO 的是效率不夠快,而不是終點方向

Founder Park:現階段,Chance AI 的競品是什么?

曾熙:如果一定要選的話可能有三類:第一類是上一個時代的各種垂類識別軟件,植物、花鳥那種,技術上的競品;第二類是入口型產品,像 Google Lens 這種;第三類可能是 AI 硬件,像 Looki 這種 Always-on 的設備。

我們最關注的還是入口型產品。我們希望用戶拿起攝像頭的時候,最先想到的是用我們。如果他拿起攝像頭用了別的 App,那個 App 就會被我們視為潛在競品。

Founder Park:你們自己核心的壁壘是什么?或者說別人做不到、你們跑得更快的是什么?

曾熙:前邊也提到了。我們離用戶很近,這種「敏感度」是我們現在最大的護城河。我們有能接住用戶的工程能力,有把在美國真實生活的年輕人每天的需求轉化為功能的流程,有跟他們直接溝通的渠道和分發能力。有了這些以后,我們就有自己的飛輪,Harness Engineering 的飛輪。

Founder Park:作為創業者,你今年會 FOMO 嗎?

曾熙:只要在這個行業里就會 FOMO,因為變化太快了。三個月前你講 OpenClaw,可能沒人知道是什么,現在全民 OpenClaw,這也是讓人興奮的地方。

我們可能會 FOMO 一些技術實現的效率、對工具的選擇,這個很常見,我們很害怕自己正在使用的工具不是世界上最先進的。

但在產品方向上我們是很有自信的。我們認定視覺這件事很直覺,人類跟世界就是這么交互的,這不是這幾年的事情,是好幾百萬年的事情,這是不變的。變的是怎么讓速度加快、怎么讓它發生。我們擔心的是,如果實現效率不夠快,可能站在船頭的人就不是我們了。

Founder Park:所以還是會有各種技術、效率上的焦慮?

曾熙:在 How 上面是有焦慮的,但在 Why 上面是沒有的。我們現在很確定一定會在牌桌上,只是不確定是牌桌的上位還是下位。


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
研究發現:體質好的人,一般有6個特征,能占4個,就很不錯

研究發現:體質好的人,一般有6個特征,能占4個,就很不錯

蜉蝣說
2026-05-19 21:58:27
生育率問題的罪魁禍首不是房價和經濟 而是你手里拿著的這樣東西

生育率問題的罪魁禍首不是房價和經濟 而是你手里拿著的這樣東西

新浪財經
2026-05-17 14:34:05
錢大媽5年閉店約500家,創始人馮冀生套現超億元跑路

錢大媽5年閉店約500家,創始人馮冀生套現超億元跑路

財觀潮頭
2026-05-19 20:42:43
安切洛蒂談世界杯:五個奪冠熱門,但沒有球隊是完美的

安切洛蒂談世界杯:五個奪冠熱門,但沒有球隊是完美的

懂球帝
2026-05-19 09:42:40
華為、騰訊、比亞迪等都等不及了!深圳高校2026集體“瘋狂上新”

華為、騰訊、比亞迪等都等不及了!深圳高校2026集體“瘋狂上新”

深圳夢
2026-05-19 21:53:00
姚晨緊急刪文僅一天,不對勁一幕出現,為什么圈內好友無一人發聲

姚晨緊急刪文僅一天,不對勁一幕出現,為什么圈內好友無一人發聲

青杉依舊啊啊
2026-05-20 02:54:17
挺進決賽!U17國足2比0完勝澳大利亞,將與日本隊爭冠!

挺進決賽!U17國足2比0完勝澳大利亞,將與日本隊爭冠!

足球報
2026-05-20 04:30:59
深挖 | 夏奇拉:世界杯的“音樂符號”,人生比情歌更跌宕

深挖 | 夏奇拉:世界杯的“音樂符號”,人生比情歌更跌宕

新民周刊
2026-05-19 09:10:27
上海交大樊同學要哭死:學校終止她的儲才計劃,取消她校內轉專業

上海交大樊同學要哭死:學校終止她的儲才計劃,取消她校內轉專業

江山揮筆
2026-05-19 22:16:34
深夜,“烏龍指”再現?!

深夜,“烏龍指”再現?!

證券時報
2026-05-19 23:34:05
好消息!上調至3.67%

好消息!上調至3.67%

幸福肥東
2026-05-19 14:56:40
誰干的?以色列核彈頭儲存基地發生強烈爆炸!特朗普推遲打擊伊朗

誰干的?以色列核彈頭儲存基地發生強烈爆炸!特朗普推遲打擊伊朗

影孖看世界
2026-05-19 21:47:46
全民拒接陌生來電,我們正在經歷,一場無聲的信任危機

全民拒接陌生來電,我們正在經歷,一場無聲的信任危機

天天熱點見聞
2026-05-07 06:55:16
A股:中央兩部門剛剛發聲,釋放一信號,明日將迎來更大的變盤

A股:中央兩部門剛剛發聲,釋放一信號,明日將迎來更大的變盤

云鵬敘事
2026-05-20 00:00:05
還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

阿龍聊軍事
2026-05-17 21:08:17
熱議海港勝成都:史上最弱海港做到了;成都主場失利是警醒

熱議海港勝成都:史上最弱海港做到了;成都主場失利是警醒

懂球帝
2026-05-19 23:11:08
蔡卓妍:全部都是假的

蔡卓妍:全部都是假的

最江陰
2026-05-19 15:05:17
郎朗真有福!吉娜戛納紅毯開叉到大腿根,生圖曝光網友吵翻天!

郎朗真有福!吉娜戛納紅毯開叉到大腿根,生圖曝光網友吵翻天!

動物奇奇怪怪
2026-05-20 04:29:55
果然!是華人而不是中國人統治了芯片,真夠扎心的…

果然!是華人而不是中國人統治了芯片,真夠扎心的…

慧翔百科
2026-05-19 08:34:16
怒增5700億!大行消費貸“殺瘋了”

怒增5700億!大行消費貸“殺瘋了”

柒財經
2026-05-19 23:19:43
2026-05-20 05:19:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
1217文章數 162關注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經要聞

潔麗雅硬剛豪門內斗傳言

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

教育
房產
家居
手機
時尚

教育要聞

中考數學,-0的倒數是多少?

房產要聞

7516元/㎡,161套一次全甩!??谧≌畹蛢r出現了!

家居要聞

觀山隱秀 心靈沉淀

手機要聞

5月最后十天,5款新機連番轟炸!從電競旗艦到中端影像都齊了

57歲惡女出手整治浪姐,全網拍手叫好

無障礙瀏覽 進入關懷版