大家好,我是冷逸。
剛剛,阿里發布了新一代全模態模型:Qwen3.5-Omni。
![]()
從bench成績單來看,它的整體性能已經超過了當前頂級模型Gemini-3.1-Pro,拿下215項SOTA。尤其是在音視頻理解、推理、識別、翻譯和對話這些核心能力上,表現相當突出。
![]()
更有意思的是,這次Qwen3.5-Omni還把API分成了兩種形態:離線版 + 實時版。
這個設計,看似簡單,其實非常關鍵。
對于動輒幾個小時的長視頻場景,如果全部用實時API處理,Token成本會非常夸張。而離線API的出現,本質上是把這類“重處理任務”的成本打了下來。
比如:
視頻/直播審核
自動分鏡拆解
視頻caption生成
視頻監控分析
以及基于視頻數據構建的行業應用
過去這些,要么貴,要么慢,要么效果不穩定。而現在,終于有一個相對完整的國產全模態模型,把這塊補上了。
我們也第一時間做了一些實測,直接上案例。
![]()
一手實測
場景1:看視頻做網頁
這個月初,來自深圳坪山的一家民營企業,發明了一種新的電池技術:無論多大電池,無論何種車型,10%-70%充滿電只用5分鐘,10%-97%充飽電只用9分鐘。
我把他們的電池技術介紹視頻,直接丟給Qwen3.5-Omni,讓它一邊理解視頻內容,一邊Vibe Coding一個技術展示網頁。
整體體驗是:流暢、順滑,而且“基本能用”。
它對畫面和臺詞的理解是到位的,生成的網頁結構也比較合理。不過有一個小問題——當人聲和背景音同時出現時,它還不太擅長做精確區分。
但好在一點:可以隨時打斷。
在交互過程中,我可以實時插入新的指令,它會立刻調整意圖理解方向,延遲大概在1-2 秒左右,這個響應速度在行業里算是比較領先的了。
來看下它最終寫的網頁。
![]()
![]()
![]()
還不錯,因為模型原生具備WebSearch能力的,它可以邊搜索、邊理解、邊生成,最終把外部信息融合進交付結果里。
場景2:聽音樂做網頁
既然能看視頻Vibe Coding,那我就試了一個更抽象的任務:聽音樂設計網頁。
我給它放了一段《黑神話:悟空》的配樂,讓它生成一個「西游·小西天」主題網站,要求風格完全貼合音樂氛圍。
結果有點驚喜。
它準確抓住了音樂里的史詩感、壓迫感和宗教氛圍,整體設計走的是“暗黑新中式”風格:深墨黑 + 暗金 + 朱砂紅。
而且不是簡單堆顏色,而是有意識地“壓金提黑”,做出了一種被侵蝕的莊嚴感,有點“邪佛”的意味。確實非常適合黃眉老怪那種“假作真時真亦假”的詭譎氛圍。
這種審美理解,其實已經不只是“識別”,而是帶一點“創作參與”了。
我又讓它做了一個更完整的Case:聽一首歌,生成一個MV網頁。
選的是謝霆鋒的《香水》。
結果是:完成度很高,而且氛圍感很準。
整體視覺是深黑背景 + 柔金點綴,帶一點高級、克制的情緒。交互上還做了蝴蝶粒子效果,呼應歌曲中“慢慢散去漸漸消失不見”的意境。
這種設計,不是單純“好看”,而是和歌曲的主題「記憶、逝去、氣味」是對齊的。
屬于那種,你真的會想停下來聽一會兒的作品。
場景3:看視頻寫小紅書
接下來是更“接地氣”的場景。
我把《蜘蛛俠4》的預告片丟給它,讓它做一份觀影前科普。
![]()
它會逐幀拆解視頻,再結合 WebSearch,把劇情信息補全。整體邏輯是通的,準確率也不錯。
(可上下滑動,查看全圖)
順手,我還讓它寫了一段小紅書文案,質量也在線——這塊本來就是Qwen3.5的強項。
![]()
場景4:視頻深度拆解
最后,我直接拉高難度,讓它一次性輸出三件東西:劇情概要、人物關系圖譜、分鏡說明。
![]()
結果是:能交付,而且還挺細。
這是劇情概述。
![]()
這是人物關系圖譜。
![]()
甚至,我還讓它直接整了個更直觀的網頁版。
![]()
這是分鏡說明,非常詳細。
(可上下滑動,查看全圖)
5)更多場景
根據官方信息,這個模型最長支持:
10小時音頻
1小時視頻
113種語言
256K上下文
同時支持113種語種識別、36種語種生成,方言也覆蓋。
并且原生支持WebSearch 和復雜Function Call,使得它可以勝任各種多模態任務。
比如視頻創作、分鏡生成、直播審核以及基于video生成數據等。
這些原本需要大量人工參與的環節,現在都有機會被重構。
![]()
整個體驗下來,我的感受是:
Qwen3.5-Omni,不只是“更強”,而是開始變得“更有用”。
它在音視頻理解上的能力,已經從“能看懂”,逐漸走向“能參與”。
無論是長視頻內容拆解、實時語音交互,還是跨語言的信息提取,它都能比較穩定地給出結構化、可用的結果。這種能力,一旦接入到真實業務流程里,價值會被迅速放大。
多語言這一點也很關鍵。過去很多多模態模型,本質上還是“英語優先”,其他語言多少有點“兼容”。但Qwen3.5-Omni的表現更像是“原生多語種”,這意味著它天然適合做跨地區、跨文化的產品,無論是內容理解、客服系統,還是全球化分發,門檻都在被拉低。
更值得一提的是,這次還提供了離線和實時兩套API,本質上是在給開發者更多“成本-性能”的選擇權:能離線處理的任務,就用更低成本批量跑;需要即時響應的場景,再調用實時能力。
這樣一來,很多原本算不過賬的場景,突然就能成立了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.