AGI很遠,但貼張圖能不能被看懂,很近。
這幾天,AI圈最魔幻的一幕發生了。
一個清華教授,沒發新模型,沒開發布會,就在網上隨口問了一句話。
![]()
結果瀏覽量啪的一下,干到了40萬+。
這哥們叫唐杰,智譜的靈魂人物。他問的也簡單——
各位!下個版本的GLM,你想要啥?
就這么一句,評論區瞬間炸了。
一、為啥大家這么上頭
說實話,剛看到的時候我也愣了。
不就是征集個意見嗎?至于嗎?
至于。。。
因為這事兒是有"前科"的。
去年GLM-4.6開源那會兒,唐杰也這么問過一回。當時網友們一條條熱情支招,結果你猜怎么著——那些需求后來真就一個個在新版本里實現了。
真·有求必應·阿拉丁。
![]()
所以這次他一張口,懂行的人立馬就團建去了。有人列愿望清單,有人@智譜員工,還有人直接跪求:
求你了GLM!做一個類似Codex的桌面應用!!
但刷得最多、最齊刷刷的,是同一個字——
視覺。
二、一個"偏科學霸"的痛
要理解這個字背后的分量,得先看看GLM現在有多猛。
兩周前,智譜剛開源了GLM-5.2。
強到什么程度?在全球百萬開發者盲測的Code Arena上,它拿了1595分,可用模型里排全球第一,只輸給一個還沒對外開放的神話級模型Fable-5。
![]()
百萬Token無損上下文、深度邏輯推理、復雜系統工程……樣樣能打。
但偏偏,它有個致命的缺。
它看不見。
![]()
一個純文本模型,能吞下整個項目的幾十萬行代碼,卻看不懂你隨手貼的一張設計稿,更別提截個圖讓它幫你改界面了。
于是GLM用戶集體流下了羨慕的淚水:人家Fable-5是原生多模態,看圖、造圖、讀網頁樣樣行,我咋就只能干瞪眼?
最扎心的是——
這事兒壓根不是智譜做不出來。
恰恰相反。早在今年4月,智譜就發過GLM-5V-Turbo,能看懂截圖直接吐代碼。再往前,那個大名鼎鼎的CogVLM視覺編碼器,就是他們做的。唐杰本人寫的視覺論文,更是一抓一大把。
所以問題不是"能不能",而是——他沒把視覺,放進那個最強的旗艦里。
三、科學家和你,看的不是一個東西
為啥不放?
唐杰自己其實早就給過答案。
在他眼里,多模態當然是未來。但他補了一刀:
當下的多模態,對提升AGI的智能上界,幫助有限。最有效的方式,可能還是分開發展。
你品,你細品。
這就是科學家和普通用戶之間,那道微妙的拉扯。
唐杰這種沖在一線的人,盯著的是模型到底聰不聰明這件事——視覺能讓模型更好用,但讓它更聰明的,是復雜推理那套硬功夫。
可對我們普通人來說,AGI太遠了。
我們要的特別樸素:眼下貼張圖,你能不能接住?截個屏,你能不能看懂?
一邊是科學家望著智能的天花板,覺得視覺只是錦上添花;一邊是全世界的開發者,齊刷刷地喊著同一個字。
這事兒,誰也沒錯。
只是站的地方,不一樣。
四、這一次,可能真的躲不過了
不過這回,留給"分開發展"的時間,恐怕不多了。
因為對手們,全都端著多模態殺過來了。
Kimi K2.5早在1月就原生多模態了,Qwen3.5-Omni三月份直接把文本、圖像、音頻、視頻全塞進一個模型,更別提國際上Gemini 3那種文圖音視頻一把抓的狠角色。
旗艦補視覺,幾乎是迫在眉睫。
而唐杰那句"你想要啥",與其說是征集,不如說是一次心照不宣的預告。
GLM-5.3,可能就快端上桌了。
其實我挺喜歡這個場面的。
一個頂尖科學家,愿意放下身段,在公開場合問一句"你們想要啥",然后真的去做。
這背后藏著一個特別樸素的邏輯——
最好的產品,從來不是關起門來拍腦袋想出來的,而是聽出來的。
科學家追的是星辰大海,用戶要的是腳下的路。
而一個偉大的東西,往往就誕生在這兩者的交匯處。
GLM-5.3會不會有視覺,我不知道。
但我知道,當40萬人喊著同一個字的時候,有人在認真聽。
這就夠了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.