无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

擼貓擼出SOTA!3個00后2個月,造出史上最快流式音視頻社交模型

0
分享至

鷺羽 發自 凹非寺量子位 | 公眾號 QbitAI

一覺醒來,AI的新潮流變成了養貓

火速圍觀一下,剛剛全球流式音視頻模型賽道闖進了一匹黑馬,能力SOTA級,模型名字就叫緬因貓(MaineCoon)

養過緬因貓的朋友都知道,這個品種有個外號叫「貓狗」,意思是幾乎你走到哪兒,它就跟到哪兒,相當粘人,互動感MAX。

而模型MaineCoon和它幾乎是如出一轍,不會一股腦生成完就跑,而是一直陪著你、follow你的狀態,實時地往下走。

比如這樣:

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

給它一段文字,它直接邊生成邊播放,還能做到音畫同出,效果就像是在和真人主播1V1視頻對話,而且永遠不會卡頓。

時長可達30分鐘以上,這也是業界首次實現這個長度。

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

此外,MaineCoon的推理速度也很突出——

22B參數的大小,卻能在單張H100上跑出47.5 FPS,同賽道速度位居業界第一;即使是在只有H100一半成本的推理卡RTX Pro 6000上,也能穩定保持30 FPS以上的實時運行速度。

具體什么概念呢?

假設我手里有一張GPU,用MaineCoon生成一條10秒的短視頻,?幀將在3s以內出現,隨后開始流式輸出,新增prompt與實時輸出無縫銜接,全程過渡絲滑自然。

成本直接被打下來,每秒成本控制在0.001美元以內。

如果在GPU占滿的狀態下,每秒推理更是僅需0.00025美元,是Veo 3的1/2000、Seedance的1/560。



而這些,來自一家base中國的10人初創團隊,名叫Catnip(貓薄荷)

幾天前,他們剛剛在上發布了技術報告,就迅速收獲多方關注,其中LTX官?也注意到了這家新面孔,并主動尋求合作。

話不多說,來看具體效果。

效果show time

其實MaineCoon和一般的音視頻生成模型還不太一樣,它首次將場景垂直落地在社交交互中。

何為社交?就是活人感

且看各家現有的生成模型卷到飛起,Benchmark表現一個賽一個亮眼,但依舊有硬傷:

要么速度太慢,要等完整生成后才能看到效果,根本沒法實時,對創作者并不友好;要么做得了視頻,卻顧不上音頻,音畫永遠分開走。

這類通用音視頻模型更擅長模擬物理規律和場景敘事,天空中的云怎么飄、水面的光怎么反射,它們拿捏得很準,但一到人物表現上就屢屢翻車。

于是判斷AI視頻與否,大家總結出一條心照不宣的經驗——看臉

要做社交距離也不露怯的視頻,關鍵在于人物細節是不是夠自然,比如眼神的變化、嘴角的抽搐、說話的節奏等等,還要音畫高度同步、生成過程中隨時可切換指令。

難度系數拉滿了,但這些細節才是決定活人感的關鍵。

所以MaineCoon瞄準的,正是這個被整個行業忽視掉的缺口。

具體來說,它做到了三件此前沒有模型能同時做到的事。

音視頻流式生成

先科普一下,什么是流式生成

這并非新鮮概念,最早ChatGPT一個字一個字往外蹦,就是流式輸出。簡單來說,就是讓模型能夠邊看邊生,推理到哪兒,就生成到哪兒。

但視頻的一幀涉及到成千上萬個像素,還要和音頻在時間軸上精準對齊,和單純文字流式生成的難度完全不在同一個量級上。

而且生成片段越小,就意味著每一幀能依賴的歷史上下文越短,模型就更容易露餡。

MaineCoon則把這個單元極致壓縮到了亞秒級,指令輸出后1秒內就出首幀,低延遲和高質量兩手抓。不止快了一點,更是生成方式的徹底改變。

比如下面模擬人物對話,初始Prompt要求人物語氣平靜且深思熟慮,結果無論是角色的面部肌肉走向,還是語氣停頓,都精準遵循指令。

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

中間實時輸入新的指令,模型也能及時調整:

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

讓角色做大幅度表情,也同樣表現優秀:

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

也可以隨時提出問題讓角色解答:

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

不得不說,相比過去AI一句指令就出一堆回復的生硬別扭,MaineCoon的最大差異在于給予用戶真人聊天的即視感,會接用戶的話,也會給用戶情緒。

這大概就是養貓人常說的——你以為你在擼貓,其實貓也在擼你。

業界最快的推理速度

速度更不必多說,親測體驗下來,同類流式音視頻模型的速度普遍在6-7 FPS,MaineCoon快了整整7倍



即使是持續生成一整天,成本也都能維持在一個合理范疇內。模型雖然有22B,但單卡就能部署(最高47.5 FPS)

相比1.3B的輕量流式視頻模型(19.1FPS)也要快2倍以上,輕松滿足實時播放需求。

更關鍵的是,這樣的速度不僅沒有犧牲質量,反而情感表達更豐富,動作也更連貫穩定

比如我們把場景搬到室外,日落時分的光影結合角色隨風飄揚的發絲,說是真人博主在隨意記錄自己的City Walk也不為過。

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

無限時長生成

根據官方介紹,MaineCoon還能做到連續生成10分鐘以上的音視頻內容,期間保持畫質、一致性、音畫同步都不崩。

毫不夸張地說,MaineCoon的架構甚至完全可以無限生成。

這里以一個長達2分鐘的MaineCoon視頻為例,直到最后,人物都沒有出現明顯bug。

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

即使是動畫風格的Minecraft小人,長時序也能穩穩接住。

【此處無法插入視頻,遺憾……可到量子位公眾號查看~】

Catnip還同步自建了首個社交短視頻專用基準測試SocialVideo Bench,以直觀展示MaineCoon的表現。

SocialVideo Bench涵蓋密集演講、雙人互動、音樂演唱、情緒表演、舞蹈、創意挑戰、社交梗七大場景,九項指標全面考核視覺質量、運動質量、音質、音畫對齊。

其中,MaineCoon均超越主流的7款音視頻生成模型,綜合得分0.934,遠超最優基線SoulX-FlashTalk(0.895),刷新SOTA



問題是——MaineCoon是如何做到的?

三層訓練,三層推理

先說訓練側

MaineCoon的訓練框架主要分三個階段,層層遞進:



Step 1:自重采樣(Self-Resampling)

這一步解決的是推訓之間的鴻溝問題。傳統訓練中會用干凈的歷史幀做上下文,但真實推理時模型只能用自己生成的幀,二者之間存在偏差,而且時間一久,越生成越跑偏。

自重采樣能夠讓模型在訓練時就接觸到降質版的歷史幀,從一開始就學會在帶有輕微漂移、噪聲的不完美條件下保持穩定。

Step 2:流式表征對齊(Representation Alignment)

音畫聯合訓練實際上是很慢的,為了加快收斂速度,MaineCoon會引入凍結預訓練V-JEPA 2視覺編碼器做蒸餾監督。

于是模型能夠更快學到跨模態的語義結構,大幅提升訓練效率,也可以簡單將其理解為一個訓練加速器和穩定器。

Step 3:域感知偏好優化(DPO)+強化在線策略蒸餾(ROPD)

這是模型的后訓練核心,針對不同社交場景,比如舞蹈看重動態、對話看重唇同步、遠景看重人體結構,分別訓練專門的偏好專家模型,再通過強化蒸餾統一成一個可部署的流式策略。

這樣既精準,又輕量。



然后在此基礎之上,要讓模型在有限的算力資源上真正跑起來,團隊還精心設計了一套基礎設施工程

畢竟22B模型的參數量太大,不處理,一張卡根本裝不下。

具體來說,64張H100分攤參數,長序列切開并行處理,精度和優化器狀態則能壓則壓。

最關鍵的一步是把視頻編碼、文本嵌入、教師特征全部提前算好存進磁盤,訓練時直接讀取,而GPU只做最核心的那一步,不做任何多余的搬磚工作。

結果就是,22B的模型,在10k GPU小時內就訓練完成,數據一共不到100萬條

推理側同樣有一套創新的Agentic推理框架,該框架由三個獨立的智能控制器構成,分別是DirectorCache ManagerBuffer Controller



首先是Director,這也是整個系統的認知核心,專門負責敘事與糾錯。

Director先通過規劃器逐節拍生成結構化提示詞(畫面描述+臺詞+環境音),以維持人物人設、避免敘事重復。

然后觀測器持續監測生成內容是否出現質量漂移,一旦發現問題就啟動前向修復,不中斷、不重置,直接在下一幀開始糾偏。

這樣做是為了緩解流式長視頻最容易出現的問題之一:畸變

生成時間越長,誤差累積就越嚴重,因為模型在生成當前chunk時,參考的是前一個chunk,但殊不知前一個chunk已經相對第1個chunk偏移了。之后每一步的微小偏差疊加起來,人物就會嚴重畸變。

所以MaineCoon從推理的第一步起,就試圖將偏差遏制在搖籃中。

隨后觀測器會將觀測結果返回給Director,主導記憶的緩存管理器通過拿到Director的輸出,開始執行管理KV緩存的保留與清除策略,它會將角色外觀、場景建立幀、關鍵對話幀作為長期記憶錨點保留,同時定期用統計錨點修正全局外觀漂移。

同時因為MaineCoon生成速度快于播放速度,會自然積累起一段已生成但未播放的緩沖內容。



為了平衡實時性與交互響應,前瞻緩沖區控制器會負責把這段超前量控制在合理窗口內,既保證播放不卡頓,又保證用戶的交互指令能在合理延遲內生效。

簡單來說,這部分就是一個寫劇本、一個管記憶、一個控節奏——三者分工明確、互不干擾,共同支撐起了無限續流。

但這還不是全部。

下一步是社交世界模型

MaineCoon甚至還只是Catnip的起點。

他們真正的野心,藏在MaineCoon的定位上——社交世界模型

這個概念由Catnip獨家首次提出,旨在彌補一段行業內長期視而不見的空白:

現有的視頻世界模型,無論做得多么精密,本質都還是在模擬物理世界。它們重視蘋果如何垂直落地,車輛如何克服摩擦力運動,而人在其中扮演的角色更像是一種會動的物體,輔助場景完成畫面。

社交世界模型要做的恰恰相反。

它直接把人當作坐標系的中心,主動觀察用戶的情緒狀態,以人為原點模擬社交行為的走向,然后利用實時音視頻的方式做出合理反應。

團隊認為其包含三個層面:感知層(讀懂用戶情緒)→ 模擬層(預測社交行為)→ 渲染層(實時生成音視頻)。MaineCoon正是第三層的突破。

選擇渲染這一層作為首要切入點,一方面是因為渲染層是最難,但也是整個系統的最終出口,如果沒有實時生成能力,前兩層再強也沒有用武之地。

另一方面,業界始終缺乏一個推理快、成本低、質量高的流式音視頻模型,先做這個,也是從商業角度考慮的最優解。

再往后看,下一步就是擺脫傳統AI對話的半雙工輪流交互模式,實現人類式連續、交錯、多模態的實時雙向交互。

也就是AI能一邊持續生成,一邊感知用戶的實時反饋(包括文本、語音、視頻),像真人對話一樣即時調整。

而當這一層被徹底打通,模型和應用層之間的閉環才真正形成。Catnip也在積極推進將其落地為一個可交互的內容平臺,支持海量用戶實時感應、實時生成。



至于為什么Catnip能率先意識到這一點,我們可以從這支團隊入手。

有趣的是,緬因貓這個品種一開始也是工作貓起家,專職捕鼠、保糧倉,基因里自帶實用主義。

這與Catnip給人的印象不謀而合——

成立大半年,沒有任何公開露面,相當低調,日常就是專注埋頭干活,唯一對外的動作就是這次把技術報告掛上arxiv。

不鳴則已,一鳴驚人。

但即便在水下,這支團隊也已經被最具洞察的投資人搶著押注。

開年這幾個月,就連續收獲了紅杉、明勢等頭部VC的天使輪+融資,不僅因為團隊是一群00后青春風暴,還罕見擁有一線實戰經驗,既懂技術又懂商業

創始人楊姝瑞雖然很年輕,但曾在TikTok和PixVerse做產品,推動過多款爆款模版特效從0-1落地。除此之外,楊姝瑞也是連續創業者,第?段創業合伙創辦海外社媒營銷agency VANZO MEDIA,實現了千萬年度營收。

主導算法研發的是?席科學家、?港科技?學(?州)助理教授謝澤柯,擁有中科?本科、東京?學博?教育背景,曾在百度研究院參與?模型的前沿研究,并?期擔任NeurIPS、ICLR、ICML等AI頂級會議的領域主席。

另外,團隊還有一群02/03年的應屆生小伙伴,在極具創造力地工作。

且看MaineCoon的研發過程,據官方介紹,項目正式啟動是從今年3月開始,3名核心研究員,只用了2個月時間就完成了模型訓練、訓練架構、數據基建、推理系統的全棧交付。

方法也很激進,直接全程使用AI Native:人定框架和思路,AI執行具體計劃;人搭數據infra,AI跑流水線。

但正是這樣的打法,最終效果驚艷,成果說話——MaineCoon火了。

其實用團隊的話來說,MaineCoon更像是一只時刻感知用戶內心狀態的真正的貓

當生成式AI正在從被動內容工具走向社交主動參與者,作為能感知、回應和記住用戶的AI存在,它承載著人類共同的情感交互需求。

MaineCoon是這個方向上踏出的第一步,而且更重要的是它映射出的信號:

下一代社交平臺的底層引擎,已經被按下了開始。

論文鏈接:https://arxiv.org/abs/2606.17800
官網鏈接:https://mainecoon.tech/
模型Blog: https://mainecoon.tech/blogs

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1940年,43歲于鳳至胸前潰爛流膿,一老外卻抱著她親:你終于到了

1940年,43歲于鳳至胸前潰爛流膿,一老外卻抱著她親:你終于到了

青途歷史
2026-06-19 08:59:36
比加息更致命!美日同步擰緊水龍頭:你的存款和房子,還保得住嗎

比加息更致命!美日同步擰緊水龍頭:你的存款和房子,還保得住嗎

小陸搞笑日常
2026-06-20 13:47:10
越來越多的人患癌癥!醫生含淚苦勸:冰箱久置的6物,別再吃了!

越來越多的人患癌癥!醫生含淚苦勸:冰箱久置的6物,別再吃了!

岐黃傳人孫大夫
2026-06-20 22:45:03
蛇的壽命有多長?為何我們很少看到蛇的尸體呢?

蛇的壽命有多長?為何我們很少看到蛇的尸體呢?

農夫也瘋狂
2026-06-19 11:33:34
非媒:塞內加爾隊獎金沒發,住宿惡劣球員靠點外賣,主教練打白工

非媒:塞內加爾隊獎金沒發,住宿惡劣球員靠點外賣,主教練打白工

畫夕
2026-06-20 05:54:02
必須紅牌!阿爾及利亞正式向國際足聯投訴梅西

必須紅牌!阿爾及利亞正式向國際足聯投訴梅西

本澤體育
2026-06-20 16:21:28
特朗普突然宣布要再次訪華,高市政府天塌了:中美正在聯手做局!

特朗普突然宣布要再次訪華,高市政府天塌了:中美正在聯手做局!

共工之錨
2026-06-20 19:47:09
蘋果6 款新品上架,6月20日,官網已正式開售

蘋果6 款新品上架,6月20日,官網已正式開售

科技堡壘
2026-06-20 11:49:08
震驚!曹德旺要福耀大學自負盈虧,網友:這是真正意義上的好大學

震驚!曹德旺要福耀大學自負盈虧,網友:這是真正意義上的好大學

火山詩話
2026-06-19 07:57:26
中國女排無緣回歸亞洲第一!世界排名-2.36分,落后日本3.87分

中國女排無緣回歸亞洲第一!世界排名-2.36分,落后日本3.87分

乒燒泳球
2026-06-20 23:00:03
贅婿和富婆切磋船上技術!小黃鴨演話劇被退票!

贅婿和富婆切磋船上技術!小黃鴨演話劇被退票!

八卦瘋叔
2026-06-20 16:59:54
讀懂江蘇“處改科”背后的職級規范

讀懂江蘇“處改科”背后的職級規范

稿得輕松
2026-06-20 21:26:50
21歲土耳其女排新星Duru Türkan,高挑貌美盡顯運動員風采

21歲土耳其女排新星Duru Türkan,高挑貌美盡顯運動員風采

娛你同歡
2026-06-19 19:32:24
太慘了!福建海參廠老板被同學拉去賭球,輸了2200萬,燒炭自殺

太慘了!福建海參廠老板被同學拉去賭球,輸了2200萬,燒炭自殺

水晶的視界
2024-12-05 06:00:12
3分鐘起效,時長提升近6倍,國內首款PE噴霧上市,硬剛達泊西汀

3分鐘起效,時長提升近6倍,國內首款PE噴霧上市,硬剛達泊西汀

思思夜話
2026-06-19 14:16:27
特朗普突然宣布要再次訪華,高市政府天塌了:中美正在聯手做局!

特朗普突然宣布要再次訪華,高市政府天塌了:中美正在聯手做局!

快樂彼岸
2026-06-20 23:36:50
烏克蘭連續第二天、本周第三次襲擊俄國首都,莫斯科人悲觀失望!

烏克蘭連續第二天、本周第三次襲擊俄國首都,莫斯科人悲觀失望!

火星宏觀
2026-06-20 11:39:49
2026年,“618”徹底熄火了

2026年,“618”徹底熄火了

新商業派
2026-06-18 15:41:55
太無恥!具俊曄韓國節目又爆大S生前隱私,他的丑惡終于不藏了

太無恥!具俊曄韓國節目又爆大S生前隱私,他的丑惡終于不藏了

電影爛番茄
2026-06-20 21:23:50
帶隊2連敗出局!意媒:52歲蒙特拉將下課 但在土耳其仍有欣賞者

帶隊2連敗出局!意媒:52歲蒙特拉將下課 但在土耳其仍有欣賞者

狍子歪解體壇
2026-06-20 21:39:39
2026-06-21 01:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12824文章數 176501關注度
往期回顧 全部

科技要聞

DeepSeek上線識圖模式,看誰都像梁文鋒

頭條要聞

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

頭條要聞

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

體育要聞

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

娛樂要聞

張凱麗被罵到關評!

財經要聞

金飾克價年內大跌近450元 跌幅最高達26%

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

本地
游戲
教育
親子
公開課

本地新聞

龍騰資江 韻動邵陽

T1分部官宣人員變動,韓網炸鍋黑歷史被扒!粉絲炮轟:這種人也要

教育要聞

偏心的父母和愛占便宜的孩子,其實是一伙的!

親子要聞

有智慧的家庭教育,從來不強行改造孩子,而是尊重人性規律

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版