網易首頁 > 網易號 > 正文 申請入駐

Qwen3.5 還有高手,全模態大模型來了,實測很強

0
分享至

兄弟們,Qwen3.5 系列我寫過十幾篇了,涉及簡介、測評、本地部署、微調等等


本來以為可以收手了,沒想到還有高手!

它就是全面超越 Gemini 3.1 Pro 的全模態大模型——Qwen3.5-Omni

簡介

Qwen3.5-Omni 是 Qwen3-Omni 的全面進化版,真正把“看、聽、說、想”放進同一套開源底座里的模型,在海量文本、視覺,以及超過 1 億小時的音視頻數據上進行原生多模態預訓練,支持文本、圖片、音頻、音視 頻全模態理解與生成。

幾個關鍵數字:

  • 256k 超長上下文 ,可支持超過 10 小時 的音頻理解

  • 支持超過 400 秒的 720P 音視頻 對話

  • 113 種語種和方言 語音識別, 36 種語種和方言 語音生成

  • 音頻/音視頻的理解、推理和交互任務上取得了 215 項 子任務 / Benchmark 的 SOTA

根據官方披露的數據,Qwen3.5-Omni-Plus 在通用音頻理解、推理、識別、翻譯、對話能力上全面超越了 Gemini 3.1 Pro,在多語言語音識別/生成上也顯著優于 Gemini 3.1 Pro,215 項音頻/音視頻子任務達到 SOTA 成績。


這次 Qwen3.5-Omni 分 Plus / Flash / Light 三檔:

版本

定位

Plus

旗艦,音頻/音視頻理解 215 項 SOTA,對標頂級商業模型

Flash

平衡,速度與能力折中

Light

輕量,適合資源受限或高并發場景

API 接入分兩種:離線 API(文件級批量處理)和實時 API(流式語音對話、實時交互),根據場景選就行。

實測 1、音頻理解

輸入音頻讓其轉錄成字幕,實測有些錯別字,這點是任何模型都不可避免的,比如這個老張/老章。


我之前用剪映做字幕,那是相當難受,先語音識別,再導出字幕文件用本地編輯器打開(剪映自帶的操作太難受了),逐個修改錯別字。

有了 Qwen 3.5-Omni-Plus 我感覺完全可以這樣:先用它錄音轉錄成字幕,然后把口播稿給它,修復其中所有錯別字,識別錯誤之處,然后給出的就是完美字幕文件了。

2、超長音頻轉錄

Qwen 3.5-Omni-Plus超過 10 小時的音頻輸入,這有點太誘人了,又臭又長的會議錄音有救了。但是網頁端處理不了,好在阿里云百煉平臺提供了 API,調用方式與之前一致。

我拿最近特別火的張小珺 7 小時馬拉松對話做測試


用我的 B 站音、視頻下載 skills 將其下載,抽取 MP3 音頻


我寫了一個腳本,用 Qwen3.5-Omni-Plus 將其完整,一口氣把這個將近 7 個小時的 MP3 轉成文字稿


# 代碼太長了,僅展示一下提示詞

PROMPT = (
"請將這段音頻完整逐字轉錄為文字稿。要求:\n"
"1. 保留所有對話內容,不要遺漏或概括\n"
"2. 標注不同說話人(如 說話人A、說話人B)\n"
"3. 保留口語化表達、語氣詞\n"
"4. 如果有明顯的話題轉換,用空行分隔"
)

結果如下,整整 14 萬字,如果加上一些提示詞會更好,比如人名:


3、聯網搜索+工具調用+可變音色音頻輸出

看簡介,Qwen 3.5-Omni-Plus 支持端到端語音控制,模型可以像人一樣遵循指令來對聲音的大小/語速/情緒等自由調節;還支持音色克隆,可以上傳自己的聲音,定制 AI 的專屬音色。這個我很有興趣,大家看我的視頻配音,其實用的就是我的音色克隆,本地跑有點慢,不太穩定,后面決定試試 Omni-Plus。

但是,我更加感興趣的是它的原生聯網搜索支持與工具調用能力,加上輸出音頻的音色支持,完全可以復刻出一個大模型支持的智能音箱了(Qwen 3.5-Omni 有實時版本,也支持聯網搜索),事實上,我正在做這個,把我那臺要退休的 M1 Macmini 改造成支持語音喚醒的智能音響,大家靜待佳音。

實際測試,它真的相當可以


大家感受一下

而且還可以切換音色

4、語義打斷,視頻通話

傳統語音助手有個經典問題:你還沒說完,它就搶話了;或者背景有點噪音,它以為你在叫它。Qwen3.5-Omni 支持語義打斷,自動識別turn-talking意圖,模型可以精準判斷什么時候該接話,什么只是用戶無意識的附和、停頓或背景聲音。


也支持視頻通話,我的 macmini 沒有攝像頭,所以沒有測試


5、視頻理解

整個活兒,雞湯來了的視頻,它是真實看懂了的,幾個問題它都能精準找到答案


我確認了一下,看左下角時間軸,分秒不差


我還給了它我最近的一個視頻讓其總結


它對關鍵幀畫面的理解很不錯,而且對整理風格和內容也有總結:


6、圖像理解

這個題目之前我測試過幾個號稱支持圖像輸入的旗艦大模型,都失敗了。

Qwen3.5-Omni-Plus 表現的確實像真實看過的樣子


意外發現,它自帶 OCR 能力也相當可以,比如我常需要的 latex 公式識別


它可以自動識別,并渲染


然后它的 OCR 能力不輸專業 OCR 大模型,比如我這張測試專用圖片


核心內容完成 get 到了,右下角那個表格也準確識別


7、圖片生成

這沒什么好說的,應該是全模態大模型的基本功了,我試了一個之前 Gemini 中用過的提示詞,Qwen3.5-Omni-Plus 表現也非常不錯,細節很多,人物也很自然。

生圖之后還支持局部修改,這種精準 PS 級別的操作,確實可以


8、文檔解析

提示詞:把這個 PDF 完整解析成結構清晰的 markdown 文檔,翻譯成中文,doublecheck 翻譯質量,不要總結,不要遺漏

意外的是,它出奇的快,幾乎是我按下 Enter 之后立即便開始輸出了


對比了原文,質量也沒問題


如何體驗 Qwen3.5-Omni

官方提供兩個正式渠道:

  1. 阿里云百煉 :API 調用,離線 API 和實時 API 分別適合批量處理和流式交互場景

    ● 非實時:https://help.aliyun.com/zh/model-studio/qwen-omni

    ● 實時:https://help.aliyun.com/zh/model-studio/realtime

  2. Qwen Chat :網頁/App 端直接對話,上手最快 https://chat.qwen.ai/

總結

Qwen3.5-Omni 給我的整體感覺是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、圖像、音頻、視頻、實時語音回復放進了同一個統一框架里,把多模態從"能看圖"推進到了"能聽音頻、看視頻、還能直接說話",解決統一底座問題,工程上更省拼裝成本。

大模型世界很缺"圖像理解+音視頻理解 + 語音輸出"一體化底座,很多團隊只能自己拼ASR、VLM、TTS、Agent;人機交互也正在從鍵盤窗口走向攝像頭、麥克風、耳機、車機、眼鏡,一個統一模型把交互層、理解層、生成層接起來,產品形態會快很多。

一旦跑順,能做的事情太多了:私有化會議助手、本地視頻問答、播客整理、素材打標、語音Agent、OCR + 多模態知識庫……這類能力對播客摘要、音頻檢索、會議記錄增強都有直接價值,很多人現在都盯著視頻理解和實時助手,我反而覺得 audio caption這條線后面很可能會跑出不少特別實用的場景。

我判斷,未來一兩年 Omni 模型會成為很多設備助手和企業助手的默認底座,路線也很明確,后面會繼續往低延遲、更輕量推進。真正爆發的場景大概率在車載、教育、客服、內容生產、個人知識管理這幾類持續聽、持續看、持續說的產品里。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

西樓知趣雜談
2026-04-23 10:50:03
拍《風云》時,導演為省錢給江祖平戴了條繩,竟撐起一個時代審美

拍《風云》時,導演為省錢給江祖平戴了條繩,竟撐起一個時代審美

蕭狡科普解說
2026-04-23 06:09:07
《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
從“恐俄”到“祛魅”:俄烏戰爭如何終結了歐洲的百年心魔

從“恐俄”到“祛魅”:俄烏戰爭如何終結了歐洲的百年心魔

民間胡扯老哥
2026-04-22 04:47:09
數學的本質到底是什么?看完這篇文章你會愛上數學

數學的本質到底是什么?看完這篇文章你會愛上數學

真相Truth
2026-04-06 06:30:12
女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

孤獨的獨角獸影視
2026-04-23 09:20:10
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

阿握聊事
2026-04-24 00:23:37
錢是有靈性的,記住以下六點,你會越來越有錢

錢是有靈性的,記住以下六點,你會越來越有錢

金沛的國學筆記
2026-04-21 18:53:07
記者:湖人調整里夫斯出戰情況,球員有望G3復出

記者:湖人調整里夫斯出戰情況,球員有望G3復出

懂球帝
2026-04-24 07:30:36
警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

田先生籃球
2026-04-23 10:07:58
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

極目新聞
2026-04-23 15:05:28
用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

快科技
2026-04-23 19:07:05
穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

大運河時空
2026-04-21 16:30:03
兒子回國當晚國安上門,說他指紋虹膜全不對,這人是誰?

兒子回國當晚國安上門,說他指紋虹膜全不對,這人是誰?

曉艾故事匯
2026-01-07 10:14:33
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

墨印齋
2026-04-23 12:35:16
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
最新民調出爐!蔣萬安奪冠,鄭麗文墊底,國民黨又要變天了?

最新民調出爐!蔣萬安奪冠,鄭麗文墊底,國民黨又要變天了?

天仙無味小仙女
2026-04-24 02:23:37
一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

半解智士
2026-04-23 10:04:34
金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

小徐講八卦
2026-04-24 06:06:44
2026-04-24 09:20:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

房產
本地
藝術
健康
親子

房產要聞

三亞安居房,突然官宣!

本地新聞

SAGA GIRLS 2026女團選秀

藝術要聞

江青對聯驚艷眾人,書法與寫字的界限究竟在哪?

干細胞如何讓燒燙傷皮膚"再生"?

親子要聞

法國寶媽在網上偷偷賣自己的奶!暗訪“母乳黑市”:細菌、乙肝……這能放心喝?

無障礙瀏覽 進入關懷版