无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

最早做文生視頻的人,開始構(gòu)建世界

0
分享至


出品|虎嗅科技組

作者|陳伊凡

編輯|苗正卿

頭圖|AI生成

“AI原生100”是虎嗅科技組推出針對(duì)AI原生創(chuàng)新欄目,這是本系列的第「54」篇文章。

“創(chuàng)業(yè)只能掙到自己認(rèn)知范圍內(nèi)的錢,認(rèn)知范圍外是一個(gè)巨大的陷阱,把我們這幫青蛙陷在井里。”

梅濤用這句話來描述創(chuàng)業(yè)公司面臨的挑戰(zhàn)和作為視頻模型生成公司智象未來創(chuàng)始人兼CEO的焦慮,不是技術(shù)不夠強(qiáng),也不是錢不夠多,是認(rèn)知邊界。如何跳出這口井?梅濤的辦法是:自身迭代、團(tuán)隊(duì)的碰撞,朋友圈的刺激。

近日,全球知名獨(dú)立第三方AI模型評(píng)測(cè)平臺(tái)Artificial Analysis的文生圖榜單(Text to Image Leaderboard)更新,HiDream-O1-Image 開源版本躋身文生圖(Text to Image)模型榜單前列,并位列開源模型第一。Artificial Analysis是目前全球公認(rèn)最具權(quán)威性和參考價(jià)值的獨(dú)立 AI 基準(zhǔn)測(cè)評(píng)機(jī)構(gòu)之一,在業(yè)界常被譽(yù)為“AI 領(lǐng)域的 Gartner”。


Artificial Analysis的文生圖榜單

走進(jìn)智象未來合肥的辦公室,首先映入眼簾的是一面員工照片墻。所有頭像,都是AIGC生成的動(dòng)漫風(fēng)格。這家公司的核心業(yè)務(wù)是圖像和視頻生成——AI時(shí)代的自己,是他們?cè)谥窍笪磥淼牡谝徽n。


智象未來合肥辦公室門口的照片墻 圖片由智象未來提供

梅濤的會(huì)客廳,滿墻合影。這是梅濤的朋友圈,也是全球人工智能行業(yè)的半壁江山。隨便指向哪一張,梅濤都能說出來龍去脈——哪年在哪里,當(dāng)時(shí)聊了什么,那個(gè)人后來去了哪里。微軟的同事,京東的伙伴,投資人,行業(yè)里來來往往的導(dǎo)師、朋友和合作伙伴……照片背后的故事,他細(xì)數(shù)家珍。


梅濤在世界人工智能大會(huì)上發(fā)言 圖片由智象未來提供

智象未來成立四年,從圖像、視頻生成到原生全模態(tài)世界模型,從工具到co-creator,從DIT架構(gòu)迭代到UiT架構(gòu),每一次轉(zhuǎn)向都是對(duì)原有認(rèn)知的突破。(虎嗅注:以 Sora 為代表的 DiT架構(gòu),它將圖像或視頻拆解為大量細(xì)小單元,并統(tǒng)一推演它們之間的關(guān)系,因此能夠生成細(xì)節(jié)豐富、視覺沖擊力強(qiáng)的結(jié)果。UiT思路則是將文本 Token、視覺信息和控制條件納入同一個(gè)模型空間,由統(tǒng)一 Transformer 直接完成對(duì)齊、理解與生成。簡(jiǎn)言之,UiT能讓理解與生成更統(tǒng)一。)

智象未來這次的就是用UiT架構(gòu),將8B參數(shù)的模型打出了超出56B模型的效果。

對(duì)于普通用戶來說,直接感受到的結(jié)果就是:模型更能理解用戶想要什么,生成效果更穩(wěn)定,復(fù)雜修改也更容易一次完成。

我們聊天的時(shí)點(diǎn),恰逢視頻生成模型賽道加速升溫的時(shí)間節(jié)點(diǎn)和拐點(diǎn)。年初,Seedance2.0把AI視頻生成從“能用”推向“可控且可規(guī)?;?。近日,快手計(jì)劃分拆旗下視頻生成大模型業(yè)務(wù)可靈 AI,并以約 200 億美元估值尋求融資。商業(yè)化、資本化與模型能力同步提速,意味著視頻生成正成為生成式 AI 的核心戰(zhàn)場(chǎng)。

與此同時(shí),初創(chuàng)公司也出現(xiàn)了分化,除了智象未來,還有愛詩科技、生數(shù)科技這樣的頭部公司,資本和用戶都在涌入,格局也在固化。

在這場(chǎng)競(jìng)爭(zhēng)中,智象未來不是融資最多的,也不是體量最大的。東方富海合伙人王兵選擇智象未來,看中的是這家公司強(qiáng)大且穩(wěn)定的底層技術(shù)班底。梅濤本身,就是視頻生成的開創(chuàng)者,2017年,梅濤是全球第一篇文生視頻論文的作者。智象未來這么多年,該論文的核心研究者都沒有離職,極其穩(wěn)定?!白罱K能融到持續(xù)多資金的公司,一定是人才密度最高的公司,這是所有行業(yè)通律?!蓖醣f。

與此同時(shí),另一個(gè)重要的賽道正在向視頻模型公司打開——具身智能世界模型,新的錢也開始涌入。Yann LeCun的AMI Labs在2026年3月完成10.3億美金種子輪,估值35億美元;李飛飛的World Labs在2026年2月完成了10億美元融資,估值飆升至50億美元。2026年年初至今,已經(jīng)有超過13億美元流向世界模型賽道。

當(dāng)越來越多公司開始說世界模型時(shí),我問梅濤,智象未來提出這個(gè)概念,是為了講故事嗎?梅濤說不是,早在 2022 年,他已經(jīng)帶著團(tuán)隊(duì)在京東亞洲一號(hào)物流倉(cāng)里研究如何讓機(jī)器人如何穩(wěn)態(tài)運(yùn)營(yíng)識(shí)別海量的包裹分揀,創(chuàng)業(yè)之初也在具身智能和視覺生成兩個(gè)方向之間深度思考過,最終選擇了視覺生成賽道,而2024年,智象未來內(nèi)部已經(jīng)在討論世界模型,“做視頻生成模型的這波人,是最有可能把世界模型做成?!?/p>

智象未來CTO姚霆說,智象的核心邏輯是做視覺創(chuàng)作,核心是解決創(chuàng)作本身的問題。這也是智象決定開展不同業(yè)務(wù)的底層邏輯。不管是面向影視、營(yíng)銷行業(yè)做創(chuàng)作,還是給機(jī)器人做相關(guān)內(nèi)容創(chuàng)作,都屬于創(chuàng)作。在服務(wù)不同行業(yè)的過程中,會(huì)沉淀對(duì)應(yīng)的行業(yè)know-how,將其轉(zhuǎn)化為相關(guān)功能,未來隨著智能體發(fā)展,還可以沉淀為具備行業(yè)屬性的skill。

虎嗅交流了智象未來的創(chuàng)始人兼CEO梅濤、CTO姚霆、東方富海合伙人王兵以及諾亦騰創(chuàng)始人戴若犁,試圖還原在新技術(shù)浪潮到來之時(shí),一家以創(chuàng)作為主線的初創(chuàng)公司如何建構(gòu)新的世界。

世界模型:視覺生成模型公司的新故事和底牌

在一場(chǎng)智象未來的內(nèi)部討論會(huì)上,梅濤他們?cè)诎装迳嫌貌煌伾墓P寫了團(tuán)隊(duì)對(duì)于世界模型的理解,其中特別用紅色的筆寫下“mold the world”——建模這個(gè)世界的同時(shí),構(gòu)建世界。

在梅濤的思考中,世界模型需要三個(gè)要素:第一,能夠?qū)W會(huì)各種模態(tài)的表達(dá),能夠?qū)φ麄€(gè)世界進(jìn)行建模;第二,能夠結(jié)合物理規(guī)律和因果關(guān)系進(jìn)行推理,“Reason the world”;第三,能夠把物理世界按照想象重建出來,也就是“mold the world”。

如今,對(duì)于世界模型的定義有三類,第一類路線是以李飛飛的World Labs為代表,核心理念是指一種空間智能,他們認(rèn)為世界模型應(yīng)該構(gòu)建一個(gè)持久的、三維的、可交互的實(shí)體空間;第二類路線是Yann LeCun為代表,認(rèn)為世界模型是智能體內(nèi)部的一個(gè)模塊,用于在抽象層面預(yù)測(cè)后果;第三類路線就是以DeepMind為代表的"視頻即世界",將視頻生成作為世界模型的表現(xiàn)形式。

在王兵看來,到 2026 年行業(yè)對(duì)世界模型的理解逐步形成共識(shí):無論是做 VLA 還是世界模型,核心都是底層基模能力。世界模型本質(zhì)上要訓(xùn)練出一個(gè)能夠理解并預(yù)測(cè)物理世界的大模型,不具備大模型訓(xùn)練能力的公司,很難真正做好這件事。擁有視頻模型訓(xùn)練能力的公司,已經(jīng)具備世界模型訓(xùn)練基礎(chǔ)。從文藝創(chuàng)作類視頻模型拓展具身智能相關(guān)的世界模型,本質(zhì)上是把訓(xùn)練數(shù)據(jù)換成符合物理規(guī)律、面向具體場(chǎng)景的具身數(shù)據(jù),訓(xùn)練方法和工程能力是一脈相承的。真正的關(guān)鍵,是場(chǎng)景數(shù)據(jù)的選擇、規(guī)模和標(biāo)注質(zhì)量。

也因此,具身智能成了智象未來進(jìn)入世界模型的切口。

作為機(jī)器人數(shù)據(jù)公司諾亦騰的創(chuàng)始人,戴若犁思考世界模型相關(guān)的合作和布局已經(jīng)半年多。他很清楚,諾亦騰內(nèi)部雖然有擅長(zhǎng)世界模型訓(xùn)練等團(tuán)隊(duì),但訓(xùn)練多模態(tài)基礎(chǔ)模型耗時(shí)至少兩個(gè)月到三個(gè)月,成本千萬級(jí),重復(fù)研發(fā)屬于資源浪費(fèi),因此和視頻模型公司合作,是效率更高的做法。戴若犁說,視頻生成模型和具身智能的核心能力是同一個(gè),那就是預(yù)測(cè)。

戴若犁舉個(gè)了例子, 假設(shè)你要訓(xùn)練一個(gè)機(jī)器人抓取桌上的杯子。傳統(tǒng)的做法是,給機(jī)器人大量的抓取數(shù)據(jù)讓它學(xué)會(huì)"看到杯子——伸手——抓住"這個(gè)動(dòng)作序列。但這種方法的問題是,如果杯子的形狀、位置、材質(zhì)發(fā)生變化,機(jī)器人就不知道怎么辦了。

但如果用視頻生成模型的思路,機(jī)器人會(huì)先預(yù)測(cè):如果這樣伸手,杯子會(huì)怎么動(dòng)?如果我用這個(gè)力度抓,杯子會(huì)不會(huì)碎?它會(huì)在腦子里模擬一遍整個(gè)過程,然后選擇最優(yōu)的行動(dòng)方案。這種能力,就是視頻生成的世界模型帶來的。

諾亦騰的需求很清晰:把動(dòng)捕數(shù)據(jù)里的視覺缺陷修掉。操作者戴著動(dòng)捕手套,手套遮住了手部,給后續(xù)訓(xùn)練留下一個(gè)視覺盲點(diǎn);測(cè)試場(chǎng)景太單一,缺乏多樣性。

戴若犁考察了國(guó)內(nèi)合適的合作方,最終敲定和智象未來的合作,除了發(fā)現(xiàn)智象未來也有向具身智能布局的規(guī)劃,“手快”也是這場(chǎng)合作達(dá)成的關(guān)鍵原因。提出需求之后,智象未來就開展 POC 驗(yàn)證,很快得到積極結(jié)論。

智象未來CTO姚霆負(fù)責(zé)了這場(chǎng)合作,他說之所以“手快”,其實(shí)是兩個(gè)原因,一是模型能力已經(jīng)到了成熟階段,接到數(shù)據(jù)后很快完成生成,初始精度就達(dá)標(biāo)。二是智象之前做過大量視覺理解任務(wù),這類數(shù)據(jù)生產(chǎn)工作流要生成能力和理解類算法同時(shí)到位。

這個(gè)合作在2025年初開始落地。智象未來用諾亦騰提供的動(dòng)作捕捉數(shù)據(jù),訓(xùn)練了一個(gè)具身智能的原型模型。這個(gè)模型能夠完成抓取、放置、推動(dòng)、旋轉(zhuǎn)等基礎(chǔ)動(dòng)作,并且在執(zhí)行任務(wù)時(shí),會(huì)自動(dòng)考慮物理約束。更重要的是,這個(gè)模型的泛化能力很強(qiáng)。用杯子訓(xùn)練的模型,能夠直接遷移到抓取其他物體上。這種泛化能力,正是世界模型的核心價(jià)值。


做視頻領(lǐng)域的Anthropic

智象未來想成為一家什么樣的公司?梅濤的類比是視頻領(lǐng)域的Anthropic。這個(gè)類比的標(biāo)準(zhǔn)是基于ToB的企業(yè)服務(wù),這也是智象未來的商業(yè)模式。這家后起于OpenAI的公司,突破了1.2萬億的估值。

梅濤把大模型賽道分為三層。第一層是大型互聯(lián)網(wǎng)公司,有流量入口、C端用戶,像Google、字節(jié)。第二層是做基礎(chǔ)模型的公司,例如OpenAI的Sora。第三層是做各種agent和垂類應(yīng)用的公司,像Cursor這樣的。

智象未來的定位在第二層和第三層之間——既做模型又做應(yīng)用,模型和應(yīng)用雙輪驅(qū)動(dòng)。但梅濤很清楚,他們的模型一定不是要做非常通用的模型跟大廠競(jìng)爭(zhēng),而是基于自己的場(chǎng)景來優(yōu)化,做有特色的模型。

“大模型的能力有點(diǎn)像海平面,一直在往上漲,很多公司就被淹沒了?!?/p>

梅濤用這個(gè)比喻來描述AI行業(yè)的變化,那么沒被淹沒的是什么?要么是足夠高的山,要么是隨水而漲的船。智象未來的定位是兩者都做:圖片和視頻模型是一座高山峰,三個(gè)場(chǎng)景的Agent 是三艘船:一個(gè)是跨境電商的短視頻營(yíng)銷,另一個(gè)是影視制作,還有一個(gè)面向?qū)I(yè)級(jí)C端用戶的場(chǎng)景,社媒內(nèi)容創(chuàng)作。三種場(chǎng)景,ToB是核心。

“在AI的商業(yè)模式里,最長(zhǎng)久、最健康的應(yīng)該一定是企業(yè)服務(wù)。”梅濤說,原因很簡(jiǎn)單:企業(yè)客戶的復(fù)購(gòu)率極高,隨著產(chǎn)品深度的增加,客單價(jià)可以不斷提升,其商業(yè)天花板遠(yuǎn)超C端。

至于C端,純工具性的C端產(chǎn)品,用戶新鮮感一過,留存率極低,且Token消耗巨大,價(jià)格昂貴。如果無法讓C端用戶大量付費(fèi),這種模式無法形成完整的商業(yè)閉環(huán)。

什么時(shí)候數(shù)據(jù)飛輪開始轉(zhuǎn)起來?梅濤說,第一個(gè)是跨境電商短視頻營(yíng)銷。智象未來有一個(gè) agent 專門分析電商平臺(tái)上的爆款視頻,把它拆解、重構(gòu)成想要的視頻生成模板,然后復(fù)刻這個(gè)模板提供給跨境電商平臺(tái)商家使用,每天更新。生成視頻之后,根據(jù)用戶的觀看量反饋去決定是復(fù)刻還是放棄。這個(gè)完整鏈路今天已經(jīng)跑起來——一天能支持商家產(chǎn)出做將近50條短視頻廣告。


智象未來生成的廣告圖 圖片由智象未來提供

第二個(gè)是專業(yè)級(jí)C 端的創(chuàng)作工具。在不同國(guó)家流行不同的模版——在巴西做球星相關(guān)短視頻,在印度做舞蹈動(dòng)作控制模板。如果不通過用戶反饋,根本不知道這個(gè)國(guó)家的喜好。現(xiàn)在智象未來面向?qū)I(yè)級(jí)C 端的APP 每個(gè)月有超過千萬的新增下載量。

第二種模式叫做RaaS(Results as a Service,按結(jié)果付費(fèi)服務(wù)),則展現(xiàn)了AI顛覆傳統(tǒng)商業(yè)模式的巨大潛力。梅濤說,所謂RaaS,就是他們?cè)诮o客戶提供AI生成服務(wù)的同時(shí),直接為客戶的商業(yè)結(jié)果負(fù)責(zé),客戶愿意按最終的轉(zhuǎn)化結(jié)果來付費(fèi)、甚至是返傭。

這件事聽起來簡(jiǎn)單,但智象未來跑了有一年半的時(shí)間?!爸钡?024年的七八月份,我們才真正感覺自己活下來。”梅濤回憶,在最初的一年多里,公司內(nèi)部也在搖擺,最初他們?cè)噲D將AI能力打包成標(biāo)準(zhǔn)的SaaS軟件賣給企業(yè)客戶,但很快發(fā)現(xiàn),當(dāng)時(shí)的視頻生成工具使用門檻依然很高,不同悟性的使用者,用同樣的軟件生成出來的效果天差地別,“既然效果無法標(biāo)準(zhǔn)化,你就很難給這個(gè)軟件制定一個(gè)公允的價(jià)格,客戶也不愿意買單?!?/p>

轉(zhuǎn)折點(diǎn)在2024年夏天悄然降臨。借著Sora發(fā)布后的市場(chǎng)東風(fēng),他們?cè)诋?dāng)年5月底推出了一款類似架構(gòu)的商業(yè)化產(chǎn)品。這款產(chǎn)品上線當(dāng)月便斬獲了兩三百萬的月活躍用戶。如今,其付費(fèi)用戶的留存率已穩(wěn)定在50%以上。

2025年年底,隨著應(yīng)用的爆發(fā),多模態(tài)的token消耗量極大,加之Seedance的發(fā)布,視頻模型領(lǐng)域迎來了類似GPT3.5的智能涌現(xiàn)時(shí)刻,梅濤發(fā)現(xiàn)公司的估值也出現(xiàn)了明顯的增長(zhǎng)。


進(jìn)入智能體的世界

智象未來的Agent戰(zhàn)略,本質(zhì)上是在為兩個(gè)世界搭建橋梁:一個(gè)是人類創(chuàng)作者的世界,一個(gè)是智能體的世界。在人類創(chuàng)作者的世界里,Agent是co-creator,是幫助人類更好地表達(dá)創(chuàng)意的伙伴;在智能體的世界里,Agent是能力提供者,是讓機(jī)器人理解和生成視覺內(nèi)容的基礎(chǔ)設(shè)施。

作為智象未來的CTO,姚霆最近思考最多的事情就是智能體,如何通過智能體放大智象未來的能力?如何為智能體設(shè)計(jì)交互?

2026年初,OpenClaw出現(xiàn),這個(gè)被稱為"龍蝦"的智能體,定義了一個(gè)新概念——co-worker(共同工作伙伴)。 “但我們要在此基礎(chǔ)上升級(jí)成co-creator(共同創(chuàng)作者)?!币f。

姚霆對(duì)Agent的理解,來自一個(gè)更底層的架構(gòu)思考。他用一個(gè)公式描述了未來智能化應(yīng)用的范式,未來所有的智能化APP等于Harness(在AI 智能體的世界里,它就是那個(gè)讓智能體既能夠發(fā)揮能力,又不會(huì)失控的"安全腳手架")乘以一些skills,底層就是OS。

比如在影視創(chuàng)作場(chǎng)景中,一個(gè)“分鏡生成”的skill,不僅要能根據(jù)劇本生成畫面,還要理解鏡頭語言、敘事節(jié)奏、情緒表達(dá),甚至要知道不同類型的作品(短劇、廣告、紀(jì)錄片)對(duì)分鏡的要求有什么差異。這種深度的行業(yè)理解,不是調(diào)用幾個(gè)API就能實(shí)現(xiàn)的。

這也是為什么智象未來要自己承接影視作品、自己做短劇、自己服務(wù)營(yíng)銷客戶,是為了在真實(shí)場(chǎng)景中沉淀出不可復(fù)制的能力。姚霆說,未來的skill會(huì)像互聯(lián)網(wǎng)時(shí)代的網(wǎng)頁一樣多,會(huì)有大量的工作需要做——評(píng)估、篩選、推薦、組合。姚霆把這些能力分成四層。

第一層是基礎(chǔ)模型能力,以API的形式提供給開發(fā)者,這是智象未來的底座,也是和大廠競(jìng)爭(zhēng)的基礎(chǔ)。但這一層的競(jìng)爭(zhēng)會(huì)越來越激烈,價(jià)格會(huì)越來越低,利潤(rùn)會(huì)越來越薄。

第二層是標(biāo)準(zhǔn)化的skill,比如"文生視頻"、"圖生視頻"、"視頻延長(zhǎng)",這些是通用的功能模塊,可以被集成到各種應(yīng)用中。這一層的價(jià)值在于穩(wěn)定性和易用性,但差異化空間有限。

第三層是行業(yè)定制的skill,比如"短劇分鏡生成"、"產(chǎn)品廣告視頻制作"、"紀(jì)錄片素材生成"。

第四層是完整的工作流,比如"從劇本到成片的短劇生產(chǎn)線"、"從產(chǎn)品圖到投放視頻的營(yíng)銷自動(dòng)化",這些工作流串聯(lián)了多個(gè)skill,形成了端到端的解決方案。這些skill深度融合了行業(yè)know-how,是智象未來真正的護(hù)城河。

“我們和大廠做通用基礎(chǔ)設(shè)施的路線形成明顯的差異化競(jìng)爭(zhēng)優(yōu)勢(shì)?!币f,這個(gè)差異化,就體現(xiàn)在第三層和第四層——那些深度綁定行業(yè)、不可輕易復(fù)制的高價(jià)值能力。

另一個(gè)讓姚霆更關(guān)注的事情就是交互,這能夠決定產(chǎn)品是否能夠吸引足夠多的用戶。"是用命令行、圖形界面,還是聊天加畫布的形式,甚至是多模態(tài)的聯(lián)動(dòng)交互。"姚霆說,只要在交互這一個(gè)點(diǎn)上實(shí)現(xiàn)突破,就能吸引很多用戶。

姚霆和梅濤對(duì)視頻模型領(lǐng)域的“Aha moment”有一個(gè)共同的判斷:用戶提供一個(gè)劇本,系統(tǒng)就能直接生成符合需求的長(zhǎng)視頻故事。至于現(xiàn)在,這個(gè)“Aha moment”還沒有到。

以下為虎嗅整理的部分訪談?wù)?/strong>

虎嗅:你們做跨境營(yíng)銷、影視、具身智能……一直在做加法,有沒有做過減法?

梅濤:也做了減法。我們一開始想做游戲,后來發(fā)現(xiàn)游戲這個(gè)生意比較難做。大游戲公司想自己建體系;小游戲公司成本要求嚴(yán)格,而且很難把數(shù)據(jù)放到體外,只能私有化部署,很難規(guī)?;?,所以果斷放一放。

還有一個(gè)慘痛的經(jīng)驗(yàn)教訓(xùn)——我們做了線下打印店的素材管理,后來發(fā)現(xiàn)打印店本身就是夕陽產(chǎn)業(yè),這些人自己也不確定將來是否還會(huì)在這個(gè)行業(yè)做下去,學(xué)習(xí)速度也慢。所以我們確實(shí)踩了一些坑。

經(jīng)過第四年的探索,基本形成了可以規(guī)模化的三個(gè) ToB 模式:第一是線上線下商業(yè)體的短視頻營(yíng)銷和服務(wù),軟硬件一體;第二是短劇多人協(xié)作平臺(tái);第三是給全球用戶做的媒體創(chuàng)作工具和平臺(tái)。在一段時(shí)間內(nèi),我們會(huì)在這三個(gè)方向上不斷深耕。

虎嗅:現(xiàn)在視頻模型領(lǐng)域還是以Scaling Law為主,對(duì)于資源有限的創(chuàng)業(yè)公司,要怎么堆資源和大廠競(jìng)爭(zhēng),是靠不斷融資嗎?

姚霆:融資肯定是需要的,但創(chuàng)業(yè)公司的融資體量和大廠相比依然有很大差距,要和大廠競(jìng)爭(zhēng)主要要做好三點(diǎn):第一是認(rèn)知要快,對(duì)模型架構(gòu)、下一代模型的技術(shù)走向和選型判斷要精準(zhǔn),認(rèn)知比大廠超前半個(gè)身位甚至3個(gè)月就有很大機(jī)會(huì);第二是落地速度快,確定方向后能快速迭代出模型,同步推進(jìn)產(chǎn)品化和商業(yè)化,形成產(chǎn)品或者用戶壁壘;第三是組織架構(gòu)調(diào)整快,創(chuàng)業(yè)公司相比大廠的優(yōu)勢(shì)就是靈活性高,組織架構(gòu)扁平、轉(zhuǎn)身快才能應(yīng)對(duì)各類產(chǎn)品變化,發(fā)揮自身優(yōu)勢(shì)。

虎嗅:如果有一天智象失敗了,你覺得可能是什么原因?

梅濤:可能是認(rèn)知停止迭代了。當(dāng)然這件事我覺得也不太可能發(fā)生,因?yàn)槊刻於荚诖罅拷佑|新的東西。

虎嗅:怎么定義“認(rèn)知”?

梅濤:認(rèn)知包括對(duì)技術(shù)的認(rèn)知、對(duì)商業(yè)化的認(rèn)知、對(duì)競(jìng)爭(zhēng)態(tài)勢(shì)的認(rèn)知,這包含了各個(gè)方面。今天的創(chuàng)業(yè)對(duì)創(chuàng)始人要求很高,你要懂技術(shù),有技術(shù)路線的判斷力和前瞻性,還要有商業(yè)化的認(rèn)知、團(tuán)隊(duì)健康度的認(rèn)知、資本化的認(rèn)知,基本上要求你是一個(gè)六邊形的戰(zhàn)士,不能有短板。

虎嗅:那你現(xiàn)在每天最焦慮的是什么?是融錢的問題嗎?

梅濤:不是錢的問題,也不是人的問題,而是認(rèn)知的問題。我最擔(dān)心的一點(diǎn),是我自己的認(rèn)知迭代不夠快,趕不上行業(yè)的迭代速度;以及團(tuán)隊(duì)核心的那些人,認(rèn)知迭代不夠快,甚至不如我快——那就有問題了。創(chuàng)業(yè),你只能掙到自己認(rèn)知范圍之內(nèi)的錢,認(rèn)知范圍之外是一個(gè)巨大的陷阱,把我們這幫青蛙陷在井里。我希望大家在認(rèn)知層面上一定要卷起來。

虎嗅:在過去這幾年里,你自己認(rèn)知最大的一次迭代是什么?或者直接推翻過去的認(rèn)知。

梅濤:我覺得我每天都在迭代。Sora這件事對(duì)我在技術(shù)認(rèn)知上是一次反省。很簡(jiǎn)單,如果相信某一條技術(shù)路線,就應(yīng)該堅(jiān)持,而不是東試西試。我當(dāng)時(shí)其實(shí)覺得 DiT 這個(gè)方向很好,但沒有下定決心,因?yàn)閯?chuàng)業(yè)資金和資源有限,沒法多條線試錯(cuò)。Sora 出來后,我們就堅(jiān)定走 DiT 的路線。

虎嗅:但你們不是又轉(zhuǎn)向新的UiT架構(gòu)嗎?

梅濤:因?yàn)槿绻馄磾?shù)據(jù)、光拼算力,這不是創(chuàng)業(yè)公司該干的事,要想用更少的成本、更高效的框架達(dá)到下一個(gè)階段的效果,創(chuàng)業(yè)公司就必須從架構(gòu)層面重新思考。

這也是我們開始做 UiT 的原因。UiT 不是簡(jiǎn)單換一套模型,而是希望從底層把文本、圖像和控制條件統(tǒng)一到同一個(gè)模型空間里,讓模型更早、更直接地完成理解、對(duì)齊和生成。我們認(rèn)為,這種原生統(tǒng)一的架構(gòu),才是圖像生成繼續(xù)走向視頻生成、乃至世界模型的重要基礎(chǔ)。

虎嗅:那你對(duì)于公司未來的發(fā)展最擔(dān)心什么?

梅濤:我最擔(dān)心的地方就是:第一,我的方向不對(duì),沒有前瞻性;第二,我的認(rèn)知成為公司天花板。我有時(shí)候會(huì)擔(dān)心船員發(fā)現(xiàn)方向不對(duì)但不告訴我。我希望每個(gè)人都有自己認(rèn)知迭代的角度,哪怕跟我不一樣也要告訴我,讓我有更多觸角去感知方向是否正確。

虎嗅:現(xiàn)在AI領(lǐng)域人才薪酬很高,你們擔(dān)心團(tuán)隊(duì)核心成員被“挖角”流失的問題嗎?

姚霆:多少會(huì)有壓力,我和團(tuán)隊(duì)也說過,大家聚在一起做這件事不是為了錢,如果只看薪資大家都應(yīng)該去大廠。我們的團(tuán)隊(duì)成員尤其是模型團(tuán)隊(duì)的人,對(duì)模型研發(fā)都很癡迷,大家的共識(shí)是想在這個(gè)領(lǐng)域做出能被記住的成果,比如以后墓志銘能留下自己參與研發(fā)的知名模型的名字。

虎嗅:你自己希望以后世界以什么記住你?

姚霆:我肯定希望能留下因?yàn)槲叶嬖诘哪P偷拿?,比如后續(xù)我們推出的出色的、被行業(yè)廣泛認(rèn)可的模型,大家提到的時(shí)候知道是我參與做的,對(duì)我來說就足夠了。


本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4858842.html?f=wyxwapp

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
招投標(biāo)開始查公積金了!

招投標(biāo)開始查公積金了!

新浪財(cái)經(jīng)
2026-05-17 03:47:31
謝科、王星昊一輪游!第11屆爛柯杯中國(guó)冠軍賽32強(qiáng)賽!

謝科、王星昊一輪游!第11屆爛柯杯中國(guó)冠軍賽32強(qiáng)賽!

老牛體育解說
2026-05-17 18:20:33
又一個(gè)網(wǎng)紅獨(dú)角獸破產(chǎn)!曾一年狂攬9.58億,網(wǎng)友:這下不“嗨”了

又一個(gè)網(wǎng)紅獨(dú)角獸破產(chǎn)!曾一年狂攬9.58億,網(wǎng)友:這下不“嗨”了

財(cái)經(jīng)八卦
2026-05-16 17:13:11
從大疆離職,被雷軍投24億,哈工大女教授造出百億獨(dú)角獸

從大疆離職,被雷軍投24億,哈工大女教授造出百億獨(dú)角獸

趣文說娛
2026-05-14 21:25:42
西域丟了900年,清朝能奪回,越南丟了400年,明朝收回20年就放棄

西域丟了900年,清朝能奪回,越南丟了400年,明朝收回20年就放棄

環(huán)球情報(bào)員
2026-05-16 19:00:03
李湘現(xiàn)身湖南大學(xué),一襲泡泡袖紅色長(zhǎng)裙,一直還是暴發(fā)戶的審美

李湘現(xiàn)身湖南大學(xué),一襲泡泡袖紅色長(zhǎng)裙,一直還是暴發(fā)戶的審美

小徐講八卦
2026-05-17 08:59:43
表面是藝人,實(shí)際上家世顯赫的4位上海明星,背景強(qiáng)大令人想不到

表面是藝人,實(shí)際上家世顯赫的4位上海明星,背景強(qiáng)大令人想不到

阿廢冷眼觀察所
2026-05-17 16:37:48
十四屆全國(guó)政協(xié)常委、農(nóng)業(yè)和農(nóng)村委員會(huì)副主任王曉東被查

十四屆全國(guó)政協(xié)常委、農(nóng)業(yè)和農(nóng)村委員會(huì)副主任王曉東被查

新京報(bào)
2026-05-17 17:34:54
大反轉(zhuǎn)!日本要被氣吐血,在東京舉辦博覽會(huì),結(jié)果現(xiàn)場(chǎng)被中企席卷

大反轉(zhuǎn)!日本要被氣吐血,在東京舉辦博覽會(huì),結(jié)果現(xiàn)場(chǎng)被中企席卷

泠泠說史
2026-05-15 21:09:54
人大代表建議機(jī)關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天,小周休2天”

人大代表建議機(jī)關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天,小周休2天”

細(xì)說職場(chǎng)
2026-05-10 10:34:41
新縣長(zhǎng)私訪被村霸打傷,他沒報(bào)警,直接打了個(gè)電話,全村都慌了

新縣長(zhǎng)私訪被村霸打傷,他沒報(bào)警,直接打了個(gè)電話,全村都慌了

霧島夜話
2026-05-15 12:47:18
血脂越低越安全?近50萬人研究揭秘:低密度脂蛋白低于1.8,腦出血風(fēng)險(xiǎn)反升!最佳值竟是3.36

血脂越低越安全?近50萬人研究揭秘:低密度脂蛋白低于1.8,腦出血風(fēng)險(xiǎn)反升!最佳值竟是3.36

新浪財(cái)經(jīng)
2026-05-16 20:26:12
豐田蘭德酷路澤FJ日本上市 約合19萬人民幣

豐田蘭德酷路澤FJ日本上市 約合19萬人民幣

車質(zhì)網(wǎng)
2026-05-15 09:09:13
網(wǎng)傳“考駕照難度大增”不實(shí) 駕培新國(guó)標(biāo)到底改了啥

網(wǎng)傳“考駕照難度大增”不實(shí) 駕培新國(guó)標(biāo)到底改了啥

極目新聞
2026-05-17 15:37:12
民進(jìn)黨全員缺席,賴清德犯下“十二宗罪”,國(guó)臺(tái)辦給兩岸統(tǒng)一定調(diào)

民進(jìn)黨全員缺席,賴清德犯下“十二宗罪”,國(guó)臺(tái)辦給兩岸統(tǒng)一定調(diào)

閱微札記
2026-05-16 09:38:40
國(guó)常會(huì):落實(shí)隨遷子女在常住地平等接受基礎(chǔ)教育政策

國(guó)常會(huì):落實(shí)隨遷子女在常住地平等接受基礎(chǔ)教育政策

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-05-16 17:31:07
國(guó)產(chǎn)HEV扎堆發(fā)布,這次是“致敬”日系還是彎道超車?

國(guó)產(chǎn)HEV扎堆發(fā)布,這次是“致敬”日系還是彎道超車?

吳佩頻道
2026-05-15 17:32:58
姑姑養(yǎng)大侄女卻扣下16萬彩禮,侄女婚后索要彩禮被拒;法院:考慮姑姑置辦嫁妝等開支及養(yǎng)育之恩,返還11萬

姑姑養(yǎng)大侄女卻扣下16萬彩禮,侄女婚后索要彩禮被拒;法院:考慮姑姑置辦嫁妝等開支及養(yǎng)育之恩,返還11萬

三湘都市報(bào)
2026-05-16 19:10:31
大喜之日,伴娘在婚床上被強(qiáng)奸,且看當(dāng)年這樁丑陋的大案始末

大喜之日,伴娘在婚床上被強(qiáng)奸,且看當(dāng)年這樁丑陋的大案始末

長(zhǎng)安一孤客
2026-05-15 19:26:59
太提氣了!走出人民大會(huì)堂的那一刻,他的手勢(shì)說明一切

太提氣了!走出人民大會(huì)堂的那一刻,他的手勢(shì)說明一切

小娛樂悠悠
2026-05-15 09:20:09
2026-05-17 20:03:00
虎嗅APP incentive-icons
虎嗅APP
個(gè)性化商業(yè)資訊與觀點(diǎn)交流平臺(tái)
26312文章數(shù) 687734關(guān)注度
往期回顧 全部

科技要聞

三大運(yùn)營(yíng)商即將免月租?多方回應(yīng)

頭條要聞

俄媒:中美關(guān)系發(fā)生質(zhì)變 至少在經(jīng)濟(jì)層面已然勢(shì)均力敵

頭條要聞

俄媒:中美關(guān)系發(fā)生質(zhì)變 至少在經(jīng)濟(jì)層面已然勢(shì)均力敵

體育要聞

生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

娛樂要聞

盧昱曉道歉:認(rèn)識(shí)到問題嚴(yán)重性!

財(cái)經(jīng)要聞

OpenAI和蘋果的“聯(lián)盟”即將破裂

汽車要聞

大五座SUV卷王!樂道L80上市 租電15.68萬元起

態(tài)度原創(chuàng)

本地
教育
健康
游戲
公開課

本地新聞

用蘇繡的方式,打開江西婺源

教育要聞

官宣!兩所頂尖大學(xué)擬于2027年合并

專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

100cm就算巨乳!日本游戲不分男女 胸圍達(dá)標(biāo)統(tǒng)統(tǒng)標(biāo)記

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版