網易首頁 > 網易號 > 正文 申請入駐

從"氛圍編程"到"工程智能體":GLM-5想改變什么

0
分享至

深夜兩點,你對著聊天框描述需求:"做個記錄喝水的小應用。"模型秒回五十行代碼,看起來專業,運行就崩。你把報錯貼回去,又收到五十行。循環往復,你不再是在寫軟件,而是在玩一場"鬧鬼的電話游戲"——系統不斷自信地遞來壞掉的工具,然后轉身離開。

AI圈給這種體驗起了個名字:氛圍編程(vibe coding)。你描述氛圍,模型生成片段,你打補丁。嚴格來說,沒人真的在做工程。這更像是在街頭畫家那里定制速寫——快,偶爾驚艷,但絕對承重不了什么。


中國研究團隊Z.ai發布的GLM-5,一份標題為《從氛圍編程到智能體工程》的論文,宣告這個時代該結束了。他們的賭注不是"生成更好的代碼片段",而是打造一個能真正扮演初級工程師的模型:讀工單、做規劃、跨文件編輯、跑測試、修bug、持續數小時不跑偏。

這比"我們刷榜了"難證明得多。值得放慢速度,看看他們到底改了什么,每項改動又在解決什么問題。

兩種五金店請求

想象你去五金店的兩種方式。

第一種:"我要大概這么長的木板。"店員遞一塊,你回家切壞了,再來,再拿一塊。這就是氛圍編程。每次交互很短,每份輸出很小,每個錯誤都讓你再跑一趟。

第二種:"我要在后院搭個露臺。這是院子照片,你能搞定嗎?"承包商現場勘查、辦許可、預約混凝土、訂木材、監督施工、欄桿裂了修欄桿,兩周后交鑰匙。這是智能體工程(agentic engineering):不是單次輸出,而是持續數小時的規劃、執行、觀察、自我修正,目標需要數百個小決策才能達成。

今天大多數聊天式AI,哪怕是最頂尖的,本質上還是那個遞木板的店員。GLM-5團隊的核心賭注是:能當承包商的AI——能在長項目中守住目標的AI——是 genuinely 不同的工具類別,需要的改動遠不止把模型做大。

什么在崩壞

理解GLM-5的架構,先得看清舊方案哪里斷裂。

現代語言模型的工作方式,粗略說是讀取上下文窗口里的每個詞,計算每個詞與其他每個詞的關系。這叫注意力機制(attention),最容易想象的方式是:模型在讀一句話時,每個詞都"回頭"看所有前面的詞,也"前瞻"所有后面的詞,形成一張巨大的關系網。

問題是,這張網的計算成本隨長度平方增長。上下文窗口從4K token擴展到128K,注意力計算量不是32倍,而是約1000倍。這讓長文本處理成為工程噩夢。

更隱蔽的問題是注意力稀釋。當上下文塞滿數萬token,模型對每個具體位置的關注被攤薄。就像同時盯著二十個監控畫面,每個畫面的細節都在流失。代碼庫級別的工程任務——理解模塊依賴、追蹤變量跨文件流動、記住三小時前寫的測試用例——在這種架構下天然吃力。

現有解決方案是"檢索增強生成"(RAG):把長文檔切成塊,需要時檢索相關片段喂給模型。但這像讓工程師每次查資料都重新讀一遍手冊,而非真正記住項目結構。氛圍編程的碎片化交互,部分正是這套架構的宿命。

GLM-5的三處手術

論文披露了三個關鍵改動,每處都針對上述斷裂。

第一,混合專家架構的重新設計。 GLM-5采用MoE(Mixture of Experts),但每次前向傳播只激活部分參數。關鍵是"路由"機制:模型學會把不同類型的推理任務分配給不同的專家子網絡。代碼生成、數學證明、長文本摘要——各找各的專家,而非一個巨型網絡硬撐所有任務。這讓總參數量膨脹的同時,推理成本可控。

第二,遞歸摘要與分層記憶。 模型不再平等對待所有上下文,而是建立層次化的記憶結構:近期對話保持高分辨率細節,遠期內容壓縮為語義摘要,關鍵決策節點標記為"錨點"。這模仿了人類工程師的工作記憶——手頭代碼清晰,上周的架構決策記得結論但遺忘細節,三個月前的技術選型只留印象。

第三,工具使用與執行反饋的內嵌。 GLM-5的訓練數據不僅包含"問題→答案"對,更包含"問題→行動→觀察→修正"的完整軌跡。模型學會調用代碼解釋器、運行測試、讀取報錯、自主迭代。這不是事后拼接的插件能力,而是基礎架構層面的行為模式。

三處改動的共同指向:讓模型從"生成器"變成"執行者"。

正方:為什么這次可能不同

支持GLM-5路線的論據,在論文和社區討論中逐漸清晰。

工程任務的天然結構被低估了。 軟件工程不是連續創作,而是離散決策的鏈條:理解需求、選擇方案、編寫實現、驗證行為、修復偏差。每個環節都有可驗證的反饋信號——編譯錯誤、測試失敗、運行時崩潰。這種"行動-觀察-修正"的循環,比開放域對話更適合強化學習優化。GLM-5把訓練目標從"預測下一個token"擴展到"完成多步任務",理論上更貼合實際工程場景。

長上下文的技術瓶頸正在被擊穿。 混合專家架構降低了長序列推理的成本,分層記憶緩解了注意力稀釋。論文披露的基準測試顯示,在代碼倉庫級別的任務上(跨文件重構、遺留代碼理解、大規模測試套件維護),GLM-5相比同規?;€有顯著優勢。這些任務恰恰是氛圍編程的盲區——它們需要持續數小時的專注,而非片段化的交互。

開源權重的戰略價值。 Z.ai選擇開放模型權重,意味著企業可以在私有代碼庫上微調,讓模型習得內部技術棧、編碼規范、遺留系統的怪癖。這比調用通用API更可能產生"懂我們代碼"的工程師智能體。論文提到某金融科技公司的早期測試:微調后的GLM-5在處理內部框架的bug時,首次嘗試成功率從基線的23%提升到61%。

反方:舊劇本的幽靈

質疑的聲音同樣具體,且多有先例。

"智能體"承諾的兌現記錄不佳。 從AutoGPT到Devin,每次"AI工程師"的演示都引發轟動,隨后是漫長的沉默。共同模式是:demo場景精心挑選,真實代碼庫充滿意外。GLM-5論文中的基準測試——SWE-bench、HumanEval——是標準化問題集,與生產環境的混亂相距甚遠。一位參與早期測試的工程師在社區評論:「它在我們的單體代碼庫上表現不錯,直到遇到那個2017年的Perl腳本,然后徹底迷失?!?/p>

規劃能力的硬邊界未明。 智能體工程的核心是"制定計劃并堅持執行",但語言模型的規劃能力來源仍存爭議。是 genuine 的因果推理,還是訓練數據中類似模式的插值?GLM-5的分層記憶架構幫助"記住"目標,但遇到計劃外的障礙時——依賴庫突然棄用、需求中途變更、測試環境與生產環境不一致——模型能否靈活調整,還是陷入循環?論文對此著墨不多。

成本與延遲的現實約束。 數小時的自主執行意味著數百次模型調用、代碼執行、環境交互。即使單次推理成本下降,總費用仍可能遠超人工工程師。更關鍵的是時間:人類初級工程師數小時能完成的調試,智能體若需同等時長,價值何在?若需更久,商業模型是否成立?Z.ai尚未公布定價,但技術報告中的效率數據——"相比基線降低40%的token消耗"——暗示這仍是昂貴的基礎設施。

我的判斷:工具鏈的重構比單點突破更重要

GLM-5的技術改動是真實的,但其價值不會單獨兌現。

氛圍編程的困境,根源不在模型能力,而在交互范式。聊天框是糟糕的工程界面:線性、易失、缺乏結構。你把需求扔進去,得到代碼扔回來,上下文在每次粘貼中磨損。GLM-5試圖用"智能體"突破這個界面,但智能體本身需要新的容器——不是聊天框,而是與IDE、版本控制、CI/CD管道深度集成的運行時環境。

論文暗示了這個方向:模型被訓練調用工具、讀取反饋、持續迭代。但工具鏈的另一半——環境如何向模型暴露狀態、人類如何介入監督、錯誤如何回滾——尚未標準化。這是Devin、Cursor、以及無數內部工具的混戰領域。GLM-5的開源權重提供了基礎模型,但真正的產品形態仍在演化。

更深層的問題是責任歸屬。當智能體工程師提交代碼,誰為生產事故負責?模型、微調它的企業、還是監督它的人類?法律框架滯后于技術,而企業采購決策對模糊責任高度敏感。GLM-5的技術報告回避了這個問題,但任何實際部署都必須面對。

所以GLM-5的重要性,不在于它"解決了"AI工程,而在于它把競爭焦點從"生成質量"轉向"執行可靠性"。這是正確的方向。氛圍編程的天花板已經可見——更好的4K上下文模型,仍是更好的木板店員。真正的差異化來自誰能把數小時的自主執行做得穩定、可審計、可干預。

Z.ai的賭注是:中國團隊可以在開源權重的基礎上,圍繞工程場景構建完整的技術棧。這與閉源巨頭的路線形成對照。后者擁有更強的基礎模型,但工程智能體的迭代速度受限于內部產品節奏。開源生態的碎片化是劣勢,也是優勢——更多實驗,更快試錯,更可能涌現意外的集成方案。

對25-40歲的科技從業者,GLM-5的實用指向是具體的:如果你管理技術團隊,關注智能體工具鏈的集成成本,比關注模型參數更重要;如果你是工程師,理解"如何與AI協作"正在成為核心技能,而這項技能的形態尚未固定;如果你在評估技術投資,區分"能跑demo"和"能跑季度"仍是關鍵判斷力。

氛圍編程不會消失??焖僭?、個人項目、探索性代碼——這些場景仍需要那個遞木板的店員。但GLM-5試圖證明的是:在需要承重的場景里,我們可以有別的選擇。這不是終點,而是新一輪工具鏈重構的起點。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
董璇北京探店提車,素凈打扮卻藏不住滿眼嬌羞,狀態是真回春了

董璇北京探店提車,素凈打扮卻藏不住滿眼嬌羞,狀態是真回春了

一個小豹子
2026-05-01 21:50:18
紅軍長征時,有一支部隊在川西走錯方向,最遠走到了英屬緬甸境內

紅軍長征時,有一支部隊在川西走錯方向,最遠走到了英屬緬甸境內

史之銘
2026-04-16 02:05:10
在中國地盤上,日本前首相萌生大膽想法:中日應聯合起來“抗美”

在中國地盤上,日本前首相萌生大膽想法:中日應聯合起來“抗美”

滄海一書客
2026-05-03 12:22:05
北京掙錢臺北花,馬筱梅一句臺北治牙,好容易抬頭的路人緣又崩了

北京掙錢臺北花,馬筱梅一句臺北治牙,好容易抬頭的路人緣又崩了

天馬幸福的人生
2026-05-03 10:53:16
六國聯合聲明剛發完,巴拿馬卻不敢署名:誰才是真正的霸凌者?

六國聯合聲明剛發完,巴拿馬卻不敢署名:誰才是真正的霸凌者?

探史
2026-05-03 09:01:52
俄烏戰爭主動權易手!烏軍無人機炸穿俄本土,俄被逼到全民防空

俄烏戰爭主動權易手!烏軍無人機炸穿俄本土,俄被逼到全民防空

知兵
2026-05-02 16:12:36
為什么整個亞洲只有中國有山姆超市?

為什么整個亞洲只有中國有山姆超市?

流蘇晚晴
2026-04-30 18:50:00
一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

傲傲講歷史
2026-03-09 10:19:52
隊記:掘金預計不會解雇阿德爾曼 約基奇出局主動攬責不怪主帥

隊記:掘金預計不會解雇阿德爾曼 約基奇出局主動攬責不怪主帥

醉臥浮生
2026-05-03 09:34:17
悲哀!福建女生哭訴因28.8萬彩禮歸屬談崩,網友:這個男孩還行

悲哀!福建女生哭訴因28.8萬彩禮歸屬談崩,網友:這個男孩還行

火山詩話
2026-05-03 07:31:14
上海金融機構的最大掌控者,浮出水面

上海金融機構的最大掌控者,浮出水面

投行風云
2026-05-02 20:21:13
國民黨內對軍購預算意見不同,洪秀柱挺黨版:不能讓美國予取予求

國民黨內對軍購預算意見不同,洪秀柱挺黨版:不能讓美國予取予求

海峽導報社
2026-05-03 16:00:03
“5月1日起全國高速不用ETC”?官方回應

“5月1日起全國高速不用ETC”?官方回應

華商網
2026-05-03 14:36:30
中國臺北隊教練投訴,稱世乒賽安檢時遭安保人員不當肢體接觸,國際乒聯回應:運動員的安全與尊嚴不容妥協,相關方正在全面審查

中國臺北隊教練投訴,稱世乒賽安檢時遭安保人員不當肢體接觸,國際乒聯回應:運動員的安全與尊嚴不容妥協,相關方正在全面審查

極目新聞
2026-05-03 07:13:23
1993年,21歲的朱令在上海黃浦江邊留影,災難一年后就降臨了

1993年,21歲的朱令在上海黃浦江邊留影,災難一年后就降臨了

奇思妙想生活家
2026-05-03 14:25:41
300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生20萬私生子

300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生20萬私生子

小雪的運動之心
2026-05-03 13:26:32
孫楊風波再發酵!家境被扒底朝天,父母身份曝光,馬頔的話沒說錯

孫楊風波再發酵!家境被扒底朝天,父母身份曝光,馬頔的話沒說錯

一盅情懷
2026-05-01 16:20:21
賽后謝場環節,浙江死忠球迷區打出橫幅:拒絕外行指導內行

賽后謝場環節,浙江死忠球迷區打出橫幅:拒絕外行指導內行

懂球帝
2026-05-02 22:44:16
農村黨員要大整頓!2026年起,縣鄉村誰負責啥?一次性說明白

農村黨員要大整頓!2026年起,縣鄉村誰負責啥?一次性說明白

三農雷哥
2026-05-02 17:14:59
終于出手了!汪小菲被曝對具俊曄下重手,隱忍多年不再退讓粉絲如愿

終于出手了!汪小菲被曝對具俊曄下重手,隱忍多年不再退讓粉絲如愿

八卦王者
2026-05-03 11:09:06
2026-05-03 16:40:49
字節漫游指南
字節漫游指南
有態度網友ytd
3133文章數 35關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

巴菲特正式“退役”伯克希爾新掌門阿貝爾股東會首秀

頭條要聞

巴菲特正式“退役”伯克希爾新掌門阿貝爾股東會首秀

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

游戲
本地
旅游
數碼
公開課

《紅色沙漠》1.05.01補丁 修復寵物召喚問題

本地新聞

用青花瓷的方式,打開西溪濕地

旅游要聞

入夢臺城 · 穿越古今|臺兒莊古城偶遇花神、鏢師、說書人,游客直呼“演上了”

數碼要聞

華為5A最新支持設備清單公布,含Pura X Max、暢享90系列等

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版