![]()
智東西
作者 江宇
編輯 漠影
智東西4月2日?qǐng)?bào)道,今日,“國(guó)產(chǎn)大模型第一股”智譜發(fā)布了其首個(gè)多模態(tài)Coding基座模型GLM-5V-Turbo,將AI大模型的感知邊界從純文本推到視覺世界。這是繼GLM-5-Turbo之后,智譜短時(shí)間內(nèi)在Coding基座模型上的又一次快速迭代。
據(jù)官方新聞稿介紹,GLM-5V-Turbo不僅能讀懂代碼,還能“看懂畫面再寫代碼”。給定一張?jiān)O(shè)計(jì)稿截圖,它能直接生成完整可運(yùn)行的前端工程;在接入OpenClaw、AutoClaw等龍蝦Agent之后,它也能看懂屏幕、讀懂K線圖、瀏覽各類網(wǎng)頁(yè),然后自主完成一整套長(zhǎng)程任務(wù)。
得益于出色的視覺編程性能,GLM-5V-Turbo在海外引發(fā)了廣泛的關(guān)注,截至發(fā)稿前,其官方推文已經(jīng)獲得了130萬(wàn)+的瀏覽量,海外開發(fā)者甚至夸張地打趣道:“對(duì)Anthropic來說,現(xiàn)在游戲結(jié)束了。”
![]()
X網(wǎng)友@Zaid表示,“Anthropic現(xiàn)在的處境岌岌可危。”
![]()
如今,放眼整個(gè)行業(yè)來看,GLM-5V-Turbo推出的意義正變得越來越清晰:當(dāng)Coding模型開始進(jìn)入真實(shí)生產(chǎn)環(huán)境,光靠文本確實(shí)已經(jīng)不夠用了,而剛剛發(fā)布的GLM-5V-Turbo,將為「視覺編程」新范式提供一個(gè)全新的啟示。
一、上手實(shí)測(cè):看見即復(fù)刻,圖像即代碼
說再多不如直接上手。我們用三個(gè)實(shí)測(cè)案例,看看GLM-5V-Turbo在不同輸入方式下的前端復(fù)刻能力。
案例一:畫個(gè)草圖,也能復(fù)刻?
先從最離譜的場(chǎng)景開始,我們只給GLM-5V-Turbo畫幾個(gè)框框,讓它做個(gè)酷炫的音樂播放器。結(jié)果模型還真搞得像模像樣,布局合理、配色協(xié)調(diào)、連播放控件都安排得明明白白,讓它改個(gè)配色也是言出法隨。建議各位產(chǎn)品經(jīng)理抓緊體驗(yàn),以后改需求再也不用看前端的臉色了。
案例二:輸入網(wǎng)址,直接復(fù)刻
這是GLM-5V-Turbo的主打功能之一。因?yàn)槟P陀袕?qiáng)大的GUI Agent能力,只要給它一個(gè)目標(biāo)網(wǎng)站URL,它就能自主瀏覽頁(yè)面,梳理布局結(jié)構(gòu)、采集視覺素材與交互細(xì)節(jié),然后直接生成完整可運(yùn)行的前端工程。不需要手動(dòng)截圖、不需要描述需求,一個(gè)鏈接就夠了。
例如,我們讓GLM-5V-Turbo復(fù)刻這個(gè)頗具設(shè)計(jì)感的網(wǎng)站:https://niore.webflow.io/
![]()
這是復(fù)刻效果,可以看到,不論是布局、字體,甚至是插圖都非常相似。
案例三:輸入錄屏,還原動(dòng)效
將一段網(wǎng)頁(yè)操作錄屏發(fā)給模型,GLM-5V-Turbo能從視頻中理解頁(yè)面的動(dòng)態(tài)交互邏輯——滾動(dòng)效果、彈窗切換、表單聯(lián)動(dòng)、按鈕反饋等,然后將這些交互細(xì)節(jié)還原為可運(yùn)行的代碼。不只是”還原長(zhǎng)什么樣”,而是”還原怎么動(dòng)”。
我們把這個(gè)美食網(wǎng)站的錄屏發(fā)給GLM-5V-Turbo,讓它復(fù)刻一下。
▲錄屏
可以看到,網(wǎng)站的布局、照片、字體都比較還原,浮現(xiàn)動(dòng)效和字體特效這類動(dòng)態(tài)細(xì)節(jié)也基本復(fù)刻到位。
▲結(jié)果
二、技術(shù)探索:不是簡(jiǎn)單“加了個(gè)視覺模塊”
與以往傳統(tǒng)方法不同,GLM-5V-Turbo不是在一個(gè)純文本Coding模型上“外掛”了一個(gè)視覺理解模塊,而是從預(yù)訓(xùn)練階段就開始進(jìn)行文本與視覺能力的深度融合,解決了“視覺能力與純文本編程和推理能力無(wú)法兼得”的問題。
具體來說,智譜團(tuán)隊(duì)研發(fā)了新一代CogViT視覺編碼器,在通用物體識(shí)別、細(xì)粒度理解、幾何與空間感知上均做到了領(lǐng)先水平,同時(shí)設(shè)計(jì)了一套兼容多模態(tài)輸入且推理友好的MTP結(jié)構(gòu),在多模態(tài)場(chǎng)景下實(shí)現(xiàn)了較高的推理效率。
更關(guān)鍵的是,在強(qiáng)化學(xué)習(xí)階段,智譜團(tuán)隊(duì)采用了30+任務(wù)類型的協(xié)同優(yōu)化策略,覆蓋STEM推理、視覺grounding、視頻理解、GUI Agent等多個(gè)子領(lǐng)域。這種多任務(wù)協(xié)同強(qiáng)化學(xué)習(xí)的好處在于,它有效緩解了單領(lǐng)域訓(xùn)練容易出現(xiàn)的不穩(wěn)定性,也就是說,不會(huì)因?yàn)槟骋豁?xiàng)能力的提升而犧牲其他能力。
而且從評(píng)測(cè)數(shù)據(jù)來看,這套方案確實(shí)跑通了。
在多模態(tài)Coding維度,GLM-5V-Turbo在設(shè)計(jì)稿還原、視覺代碼生成、多模態(tài)檢索與問答、視覺探查等基準(zhǔn)上均取得領(lǐng)先表現(xiàn);在衡量真實(shí)GUI環(huán)境操控能力的AndroidWorld、WebVoyager等基準(zhǔn)上同樣表現(xiàn)突出。
![]()
而在純文本Coding維度,GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三項(xiàng)核心測(cè)試中保持了穩(wěn)定表現(xiàn)——也就是說,視覺能力的引入并沒有拖累純文本編程能力。
![]()
用一句話總結(jié):GLM-5V-Turbo不是在“看圖”和“寫代碼”之間做取舍,而是“全都要”。
結(jié)語(yǔ):Coding基座模型的下一步,是“看見世界”
從GLM-5-Turbo到GLM-5V-Turbo,智譜在Coding基座模型上的迭代邏輯非常清晰:先讓模型在文本世界里把任務(wù)跑通,再讓它“看見”視覺世界,從而進(jìn)入更廣闊的應(yīng)用空間。
這背后的判斷是:Agent時(shí)代,模型能力不只由智能水平定義,還由它能處理的context容量定義。一個(gè)只能處理純文本的模型,哪怕推理能力再?gòu)?qiáng),在真實(shí)世界里的應(yīng)用邊界也是有限的。因?yàn)檎鎸?shí)世界的信息,絕大多數(shù)以圖片、視頻、界面等視覺形式存在。
從這個(gè)角度來看,GLM-5V-Turbo不只是智譜的一次產(chǎn)品更新,更像是一個(gè)行業(yè)信號(hào):Coding模型的競(jìng)爭(zhēng),正在從“誰(shuí)的代碼寫得好”升級(jí)到“誰(shuí)能看懂世界并寫出代碼”。
而隨著越來越多的Coding模型開始進(jìn)入真實(shí)生產(chǎn)環(huán)境,“看得懂、寫得出、跑得通”這三項(xiàng)能力的整合程度,將成為區(qū)分模型之間差距的關(guān)鍵維度。
這場(chǎng)競(jìng)賽,才剛剛進(jìn)入深水區(qū)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.