林俊旸離職了,但 Qwen 不能停。最近 Qwen3.5-Omni 發布,一個原生全模態大模型,文本、圖片、音頻、視頻的理解與生成,集于一身。
![]()
這不是第一個試圖「什么都做」的模型。過去兩年,多模態是所有大模型公司都在講的故事。大多數方案的本質是拼接:語音進來先轉文字,文字處理完再轉語音,圖片走一條獨立通道,視頻又是另一條。模塊之間的信息在翻譯中不斷損耗。
Qwen3.5-Omni 走了另一條路。它的 Thinker-Talker 架構讓所有模態在同一個模型內原生處理——Thinker 負責跨模態的深度推理,Talker 負責實時語音輸出,兩者共享同一套表征空間。
![]()
結果是:在音頻、視頻、推理和交互任務上拿下 215 項子任務的 SOTA 成績,音頻理解/推理/識別/翻譯/對話全面超越 Gemini-3.1 Pro,同時視覺和文本能力保持同尺寸 Qwen3.5 的水平,沒有退化。
比數字更值得看的,是 Qwen 團隊在發布頁上放出的那批演示視頻,不是做題,也不是跑分,而是在展示「和 AI 互動」這件事可以是什么樣。
看見你看見的
Qwen3.5-Omni 處理視頻素材是多管齊下:自動切片,標注時間戳,識別畫面中的人物、動作與空間關系,同時分析音軌中的背景音效和對話內容。模型真正在做的,對時間線上視聽信息的同步解析。像下面的視頻片段來自《舌尖上的中國》,3.5-Omni 能生成的是結構化的細粒度描述。
![]()
更復雜的場景里,模型處理的是電影片段:多人、多鏡頭、復雜音效疊加。它能區分不同角色的對話,識別背景音樂的情緒色彩,描述鏡頭調度和場景切換。
![]()
這些能力可以用在什么場景下呢?一個偏向應用的演示是內容合規審查:給模型一段游戲視頻,它自動按時間段輸出違規類型、風險等級和具體描述,生成完整的合規預警摘要表。傳統方案需要人工逐幀審核,這里模型直接給出結構化結果。
![]()
聽懂你說的
如果說上面的演示展示的是模型「看」的能力,下面這組則展示了它「進入場景」的能力。
博客上的一個演示是多輪對話與智能打斷:用戶舉著手機和模型共讀一篇論文,隨時插話提問。模型基于 Omni 架構原生支持語義打斷,區分用戶的有意打斷和無意義的背景音,不會在你清嗓子的時候停下來。這依賴于模型對 turn-taking 意圖的實時識別,而不是簡單的音量閾值檢測。
![]()
另一個令人印象深刻的演示是歌詞字幕生成:一首糅合了多種方言的 rap 被送入模型,輸出是帶精確時間戳的逐句歌詞。并且沒有「翻譯」的調整,比如在識別粵語歌詞時,返送的就是粵語行文,沒有自作主張轉換成普通話。Qwen3.5-Omni 支持 113 種語言的語音識別和 36 種方言的語音生成,這個覆蓋面本身就是一個值得注意的信號。
模型在海量文本、視覺以及超過1億小時的音視頻數據上進行原生多模態預訓練。相比上一代 Qwen3-Omni,多語言能力大幅增強:語音識別從此前的版本躍升至 113 種語言,語音生成覆蓋 36種方言。
從「看視頻」到「寫代碼」
最出人意料的一組演示來自 Qwen 團隊稱為「Audio-Visual Vibe Coding」的能力。
第一個案例:用戶展示一段音樂游戲的視頻,模型觀察游戲畫面和音效后,直接生成可運行的游戲代碼。不是描述游戲邏輯,而是寫出代碼。
![]()
第二個案例更接近實際產品開發:用戶展示一個產品原型的演示視頻,模型將視覺設計和交互邏輯轉化為前端代碼。
![]()
Qwen 團隊在技術報告中指出,這種「看視頻寫代碼」的能力并不在模型的訓練目標中——它是原生多模態 Scaling 過程中涌現出來的。當視覺、聽覺和語言的表征被聯合訓練到足夠深度時,模型自發地學會了在模態之間建立因果關系,而不僅僅是相關性。
支撐這些能力的,是 Qwen3.5-Omni 的 Hybrid-Attention MoE 架構,在同一潛空間內聯合訓練所有模態的 token。這意味著模型在「思考」時,文字、圖像、聲音是同一種東西,不存在模態間的翻譯損耗。
以往的語音大模型要么思考慢但回答深,要么響應快但內容淺。但今天 Qwen 發布的這些演示視頻,比任何 benchmark 數字都更能說明,全模態 AI 在 2026 年能做到什么。
![]()
我們正在招募伙伴
簡歷投遞郵箱 hr@ifanr.com
?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.