網易首頁 > 網易號 > 正文 申請入駐

全解讀|智譜 GLM-5V-Turbo 發布,多模態 Coding 基模

0
分享至

MODEL

今天,智譜發布 GLM-5V-Turbo,定位「面向視覺編程的多模態 Coding 基座模型」

一句話概括:在 GLM-5-Turbo 的編程和龍蝦能力基座上,加入了原生的視覺理解和推理能力

模型能看懂設計稿、截圖、網頁界面,據此生成完整可運行的代碼


GLM-5V-Turbo Playground:左邊是手繪草圖,右邊是生成的完整前端頁面

從 GLM-5 到 GLM-5V-Turbo

先理一下產品線關系

2 月 11 日,智譜發布 GLM-5,744B 參數的開源旗艦,主打編程和 Agentic Engineering。3 月 16 日,GLM-5-Turbo 跟進,專門針對龍蝦(OpenClaw/AutoClaw)場景做了優化,強化工具調用、指令遵循、長鏈路執行

今天的 GLM-5V-Turbo 是這條線的第三步:在 GLM-5-Turbo 的全部能力基礎上,從預訓練階段就融入了視覺能力

具體多了什么:

→ 原生理解圖片、視頻、設計稿、文檔版面等多模態輸入

→ 支持畫框、截圖、讀網頁等多模態工具調用

→ 上下文窗口 200K

→ 與 Claude Code、OpenClaw/AutoClaw 深度適配

關鍵詞是「原生」。這里的視覺能力是從預訓練階段就開始訓的,后訓練階段再做多模態協同優化,和在文本模型上面接一個視覺編碼器的做法不一樣

Benchmark

先看多模態相關的指標。對比對象是 Kimi K2.5 和 Claude Opus 4.6


多模態 Benchmark:Multimodal Coding / Tool Use / GUI Agent

在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 這幾項上,GLM-5V-Turbo 均為三者最高。Opus 4.6 在 Flame-VLM-Code(98.8)和 Vision2Web(43.5)上領先

再看純文本 Coding 和龍蝦任務的指標。這張表多了一列 GLM-5-Turbo(純文本版),可以看視覺能力引入后純文本能力有沒有退化


純文本 Coding 和 Claw Benchmark

CC-Backend:GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5,視覺版反而略高

CC-Frontend:68.4 vs 69.4,基本持平

CC-Repo-Exploration:72.2 vs 68.9,視覺版略高

官方的結論是:視覺能力引入后,純文本編程與推理能力保持了同等水準。從數據看,個別項還有小幅提升。Opus 4.6 在純文本 Coding 三項上均領先(CC-Backend 26.9,CC-Frontend 75.9,CC-Repo-Exploration 74.4),在 PinchBench 和 ClawEval 上也占優,這個差距客觀存在

內測合作伙伴反饋

內測階段,字節 TRAE 模型測評團隊、美團和快手萬擎模型測評團隊分別給出了評價:

GLM-5V-Turbo 實現了從設計稿到代碼的完整還原,作為一款視覺理解模型,能夠很好地滿足開發者的前端開發場景

TRAE 模型測評團隊

原生多模態能力的引入并未削弱其編程邏輯,其編程能力仍屬于國內第一梯隊

美團

它為 Agent 安上了「眼睛」,同時在編程領域展現出優于同類多模態模型的能力,在視覺編程場景中更具競爭力

快手萬擎模型測評團隊

四項技術升級

GLM-5V-Turbo 的能力來自模型架構、訓練方法、數據構造、工具鏈四個層面的系統性改動

原生多模態融合

GLM-5V-Turbo 從預訓練階段開始做文本與視覺的深度融合。智譜研發了新一代 CogViT 視覺編碼器,官方稱在通用物體識別、細粒度理解、幾何與空間感知上均達最優。同時設計了兼容多模態輸入的 MTP(Multi-Token Prediction) 結構,在多模態場景下保持較高的推理效率

30+ 任務協同強化學習

強化學習階段同時優化 30 多 個任務類型,覆蓋 STEM、grounding、video、GUI Agent 等子領域。官方稱這種多任務協同的方式有效緩解了單領域訓練的不穩定性,模型在感知、推理、Agentic 執行上均有提升

Agentic 數據與任務構造

Agent 數據一直是行業痛點:數據稀缺,驗證困難。智譜的做法是構建從元素感知到序列級動作預測的多層級體系,用合成環境大規模生成可控、可驗證的訓練數據

一個有意思的細節:他們從預訓練階段就注入 Agentic 元能力,比如把 GUI Agent PRM 數據加入預訓練來降低幻覺

多模態工具鏈擴展

在文本工具之外,GLM-5V-Turbo 新增支持多模態搜索、畫框、截圖、讀網頁等多模態 tools。這讓 Agent 的感知鏈路從純文本擴展到視覺交互,可以「看懂環境 → 規劃動作 → 執行任務」形成完整閉環

典型場景

下面用實際案例展開,信息量比較大

圖像即代碼

GLM-5V-Turbo 最核心的能力場景。你可以發送草圖、設計稿、參考網站的截圖或錄屏,模型直接理解布局、配色、組件層級與交互邏輯,生成完整可運行的前端工程


前端復刻:發截圖或錄屏,模型還原版式、配色、動效等視覺細節,生成可運行代碼


GUI 自主探索復刻:結合 Claude Code,模型自主探索目標網站,瀏覽頁面結構、梳理跳轉關系、采集素材,然后直接生成代碼復現整個站點


交互式編輯:支持按需求增刪頁面模塊、修改文案樣式、調整布局、補充交互功能


文檔解讀與寫作

給模型一份 PDF 文檔,它讀完之后可以按照你的要求撰寫特定格式的文章


NVIDIA 10-Q 財報 → 中文財務簡報

比如把 NVIDIA 2026 財年第一季度 10-Q 表格扔給 AutoClaw,提示詞是「閱讀文檔,匯總關鍵數據,撰寫一份簡報,保存到 result.md」,模型輸出了包含營收、利潤、毛利率、EPS 等關鍵數據和業務板塊分析的中文財務簡報

另一個案例是給一篇 40 頁的 GLM-5 論文 PDF,讓模型按微信公眾號風格撰寫宣傳文案。模型自動從原文中定位和截取關鍵圖表,嵌入到合適的位置,輸出圖文并茂的文章


論文 PDF → 公眾號風格圖文文案

PDF-to-WEB / PDF-to-PPT

這兩個能力做成了官方 Skill。PDF-to-WEB 是把論文或報告轉成精美的單頁學術網站。用 BERT 論文和 GLM-5 論文做的實測,渲染結果的完成度很高,接近手工做的學術項目主頁


PDF-to-WEB 渲染結果

PDF-to-PPT 則是把文檔轉成多頁 HTML 演示文稿。比如用阿里巴巴的近期動態做了一個 14 頁的分析 PPT,模型自主搜索了季度財報、業務板塊數據和競爭格局,配了圖表

多模態 Deep Research

這里展示兩個深度調研的案例

第一個是「搜集小米汽車相關圖片,輸出圖文交錯的專題報告」。模型通過約 50 輪網絡搜索,從各個渠道獲取了包括新一代 SU7、YU7/YU7 GT、YU9 等車型的圖片和產線、工廠照片,輸出了一份結構化分析報告


小米汽車 Deep Research 報告

第二個是「結合阿里巴巴的近期動態和季度財報,仿照麥肯錫風格,生成專業 PPT」。模型同樣自主完成了信息搜集、數據整理和可視化呈現


阿里巴巴麥肯錫風格 PPT

視覺 Grounding

模型能在圖片中精準定位目標物體。幾個有意思的例子:

數手指:給一張手部 X 光片,讓模型用坐標標出所有手指的位置。模型準確識別并標注了 6 個手指(包括左右兩側拇指和中間 4 個手指)


多模態搜索 + 識別:給了一張 1927 年第五屆索爾維會議的合影照片,提示詞是「框出圖中全部人物以及他們的名字」。模型成功識別并框出了全部 29 位人物,從第三排的奧古斯特·皮卡爾德到第一排的愛因斯坦


索爾維會議 29 人全部識別并框出

空間推理

模型在空間理解上的能力可以和具身機器人結合。一個實測案例是一張廚房場景照片,提示詞是「我想切火腿腸,請問我的手應該操作哪個位置?請在圖中點出對應的位置」。模型標注出了菜刀刀柄的位置,并給出了操作指導


空間推理 - 標注菜刀刀柄位置

為龍蝦裝上眼睛

接入 GLM-5V-Turbo 之后,龍蝦(AutoClaw/OpenClaw)的任務邊界大幅拓寬。以前只能處理純文本任務,現在可以瀏覽網頁和文檔、生成圖文并茂的報告和 PPT、查詢并解讀 K 線圖

官方已上線「股票分析師」Skill,利用視覺能力讓龍蝦直接看懂 K 線走勢、估值區間圖和券商研報圖表,四路數據源 60 秒并行采集,輸出圖文交錯的研報

14 個官方 Skills

智譜為 GLM-5V-Turbo 準備了 14 個官方 Skills,分三類

基于主模型原生能力(4 個)

PDF-to-WEB:論文/報告轉單頁學術網站

PDF-to-PPT:文檔轉多頁 HTML 演示文稿

Web-Replication:給 URL,模型自主探索并復刻整個網站

PRD-to-App:產品需求文檔 + 原型圖轉全棧 Web 應用

作為外部工具調用(5 個)

圖像 Captioning:自動分析圖像內容,生成自然語言描述

視覺 Grounding:根據文字描述在圖像中精準定位目標

基于文檔的寫作:讀文檔、提關鍵信息、生成特定格式文本

簡歷篩選:讀簡歷,和職位要求智能比對

提示詞生成:根據參考圖/視頻,自動構建文生圖/視頻的 Prompt

基于專用模型 GLM-OCR / GLM-Image(5 個)

通用文字識別:印刷體、手寫體、多語言文本

表格識別:還原行列結構和合并單元格

手寫體識別:適應連筆、潦草等復雜書寫

公式識別:復雜公式轉 LaTeX

文生圖:自然語言生成圖像

全部 Skills 已上線 ClawHub:一鍵安裝

GitHub:zai-org/GLM-skills

接入方式 產品體驗

→ AutoClaw(澳龍):autoglm.zhipuai.cn/autoclaw

→ Z.ai:chat.z.ai


z.ai

API 接入

→ BigModel 開放平臺:docs.bigmodel.cn

→ Z.ai:docs.z.ai


https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

~/.claude/settings.json 中配置:

ANTHROPIC_BASE_URL 設為 https://open.bigmodel.cn/api/anthropic

→ 模型 ID 填 glm-5v-turbo

或在會話中直接 /model glm-5v-turbo 切換

AutoClaw / OpenClaw 接入

設置里添加自定義模型:

→ 服務商選「智譜」

→ 模型 ID 填 glm-5v-turbo

→ Base URL 填 https://open.bigmodel.cn/api/paas/v4

→ 填入 API Key 即可

Coding Plan:現面向 Coding Plan 用戶開放申請,后續 GLM Coding Plan 也會納入 GLM-5V-Turbo

申請問卷:zhipu-ai.feishu.cn/share/base/form/shrcn...

GLM-5,2 月 11 日

GLM-5-Turbo,3 月 16 日

GLM-5V-Turbo,4 月 2 日

大約每兩到三周一個版本。這次補上的是視覺能力,龍蝦和 Claude Code 的感知鏈路從純文本擴展到了視覺交互

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣交會上外骨骼刷屏,企業回應:正全力尋找試戴的外籍殘障女子,希望送她一套設備

廣交會上外骨骼刷屏,企業回應:正全力尋找試戴的外籍殘障女子,希望送她一套設備

原廣工業
2026-04-21 17:56:41
中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

馬捗在解說
2026-04-21 12:53:27
594億打水漂!超60國不參加奧運會,運動員僅5200人,中美未出席

594億打水漂!超60國不參加奧運會,運動員僅5200人,中美未出席

拳擊時空
2026-04-21 06:22:26
蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

談史論天地
2026-02-28 13:35:18
悲催!丈夫每月給30000生活費,河南女子發帖,嫌棄他是留守兒童

悲催!丈夫每月給30000生活費,河南女子發帖,嫌棄他是留守兒童

火山詩話
2026-04-19 07:49:14
意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

青梅侃史啊
2026-04-17 19:48:25
毛焦爾新官上任,第一把火先燒到中國,對華稱呼改變,目的太明顯

毛焦爾新官上任,第一把火先燒到中國,對華稱呼改變,目的太明顯

小蔣愛嘮嗑
2026-04-22 02:44:25
第一集就重口拉滿,這劇絕了

第一集就重口拉滿,這劇絕了

來看美劇
2026-04-21 21:56:18
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
第10波攔截,伊朗要求釋放船員,中方也警告美國,再不收手就晚了

第10波攔截,伊朗要求釋放船員,中方也警告美國,再不收手就晚了

觸摸史跡
2026-04-22 03:32:25
中國的“性蕭條”時代,正式到來了

中國的“性蕭條”時代,正式到來了

律法刑道
2025-12-15 08:28:58
人活著,其實就兩件事,想通了,后半輩子都順了

人活著,其實就兩件事,想通了,后半輩子都順了

小書蟲媽媽
2026-04-20 08:55:59
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
盤踞武漢多年“黑老大”黃大發等12人組織、領導、參加黑社會性質組織案一審宣判

盤踞武漢多年“黑老大”黃大發等12人組織、領導、參加黑社會性質組織案一審宣判

澎湃新聞
2026-04-21 14:58:02
日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

曉徙娛樂
2026-04-20 23:33:10
尷尬!華為發布會現場清一色蘋果手機,日常用蘋果工作卻喊國產?

尷尬!華為發布會現場清一色蘋果手機,日常用蘋果工作卻喊國產?

江臨渡
2026-04-20 22:42:55
高市早苗下令后,美國準時發話,日本轉頭就向中國提出訪華請求

高市早苗下令后,美國準時發話,日本轉頭就向中國提出訪華請求

始于初見見
2026-04-22 04:31:52
搞定伊朗,下一個就是中國?收到中方援助后,伊總統當面發出警告

搞定伊朗,下一個就是中國?收到中方援助后,伊總統當面發出警告

毛豆何時歸
2026-04-22 03:02:02
隨著切爾西0-3,英超最新積分榜出爐

隨著切爾西0-3,英超最新積分榜出爐

側身凌空斬
2026-04-22 05:07:43
“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

漢史趣聞
2026-04-18 15:19:07
2026-04-22 05:47:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
396文章數 50關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

旅游
數碼
教育
公開課
軍事航空

旅游要聞

京城今春“濱水+”玩法迭代

數碼要聞

大疆DJI Mic Mini 2發布:329元起 可更換麥克風磁吸前蓋

教育要聞

家里不讓我去留學了,怎么辦?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版