網易首頁 > 網易號 > 正文申請入駐

從"氛圍編程"到"工程智能體"：GLM-5想改變什么

2026-05-01 23:12:55　來源: 字節漫游指南

北京舉報

分享至

深夜兩點，你對著聊天框描述需求："做個記錄喝水的小應用。"模型秒回五十行代碼，看起來專業，運行就崩。你把報錯貼回去，又收到五十行。循環往復，你不再是在寫軟件，而是在玩一場"鬧鬼的電話游戲"——系統不斷自信地遞來壞掉的工具，然后轉身離開。

AI圈給這種體驗起了個名字：氛圍編程（vibe coding）。你描述氛圍，模型生成片段，你打補丁。嚴格來說，沒人真的在做工程。這更像是在街頭畫家那里定制速寫——快，偶爾驚艷，但絕對承重不了什么。

中國研究團隊Z.ai發布的GLM-5，一份標題為《從氛圍編程到智能體工程》的論文，宣告這個時代該結束了。他們的賭注不是"生成更好的代碼片段"，而是打造一個能真正扮演初級工程師的模型：讀工單、做規劃、跨文件編輯、跑測試、修bug、持續數小時不跑偏。

這比"我們刷榜了"難證明得多。值得放慢速度，看看他們到底改了什么，每項改動又在解決什么問題。

兩種五金店請求

想象你去五金店的兩種方式。

第一種："我要大概這么長的木板。"店員遞一塊，你回家切壞了，再來，再拿一塊。這就是氛圍編程。每次交互很短，每份輸出很小，每個錯誤都讓你再跑一趟。

第二種："我要在后院搭個露臺。這是院子照片，你能搞定嗎？"承包商現場勘查、辦許可、預約混凝土、訂木材、監督施工、欄桿裂了修欄桿，兩周后交鑰匙。這是智能體工程（agentic engineering）：不是單次輸出，而是持續數小時的規劃、執行、觀察、自我修正，目標需要數百個小決策才能達成。

今天大多數聊天式AI，哪怕是最頂尖的，本質上還是那個遞木板的店員。GLM-5團隊的核心賭注是：能當承包商的AI——能在長項目中守住目標的AI——是 genuinely 不同的工具類別，需要的改動遠不止把模型做大。

什么在崩壞

理解GLM-5的架構，先得看清舊方案哪里斷裂。

現代語言模型的工作方式，粗略說是讀取上下文窗口里的每個詞，計算每個詞與其他每個詞的關系。這叫注意力機制（attention），最容易想象的方式是：模型在讀一句話時，每個詞都"回頭"看所有前面的詞，也"前瞻"所有后面的詞，形成一張巨大的關系網。

問題是，這張網的計算成本隨長度平方增長。上下文窗口從4K token擴展到128K，注意力計算量不是32倍，而是約1000倍。這讓長文本處理成為工程噩夢。

更隱蔽的問題是注意力稀釋。當上下文塞滿數萬token，模型對每個具體位置的關注被攤薄。就像同時盯著二十個監控畫面，每個畫面的細節都在流失。代碼庫級別的工程任務——理解模塊依賴、追蹤變量跨文件流動、記住三小時前寫的測試用例——在這種架構下天然吃力。

現有解決方案是"檢索增強生成"（RAG）：把長文檔切成塊，需要時檢索相關片段喂給模型。但這像讓工程師每次查資料都重新讀一遍手冊，而非真正記住項目結構。氛圍編程的碎片化交互，部分正是這套架構的宿命。

GLM-5的三處手術

論文披露了三個關鍵改動，每處都針對上述斷裂。

第一，混合專家架構的重新設計。 GLM-5采用MoE（Mixture of Experts），但每次前向傳播只激活部分參數。關鍵是"路由"機制：模型學會把不同類型的推理任務分配給不同的專家子網絡。代碼生成、數學證明、長文本摘要——各找各的專家，而非一個巨型網絡硬撐所有任務。這讓總參數量膨脹的同時，推理成本可控。

第二，遞歸摘要與分層記憶。 模型不再平等對待所有上下文，而是建立層次化的記憶結構：近期對話保持高分辨率細節，遠期內容壓縮為語義摘要，關鍵決策節點標記為"錨點"。這模仿了人類工程師的工作記憶——手頭代碼清晰，上周的架構決策記得結論但遺忘細節，三個月前的技術選型只留印象。

第三，工具使用與執行反饋的內嵌。 GLM-5的訓練數據不僅包含"問題→答案"對，更包含"問題→行動→觀察→修正"的完整軌跡。模型學會調用代碼解釋器、運行測試、讀取報錯、自主迭代。這不是事后拼接的插件能力，而是基礎架構層面的行為模式。

三處改動的共同指向：讓模型從"生成器"變成"執行者"。

正方：為什么這次可能不同

支持GLM-5路線的論據，在論文和社區討論中逐漸清晰。

工程任務的天然結構被低估了。 軟件工程不是連續創作，而是離散決策的鏈條：理解需求、選擇方案、編寫實現、驗證行為、修復偏差。每個環節都有可驗證的反饋信號——編譯錯誤、測試失敗、運行時崩潰。這種"行動-觀察-修正"的循環，比開放域對話更適合強化學習優化。GLM-5把訓練目標從"預測下一個token"擴展到"完成多步任務"，理論上更貼合實際工程場景。

長上下文的技術瓶頸正在被擊穿。 混合專家架構降低了長序列推理的成本，分層記憶緩解了注意力稀釋。論文披露的基準測試顯示，在代碼倉庫級別的任務上（跨文件重構、遺留代碼理解、大規模測試套件維護），GLM-5相比同規?；€有顯著優勢。這些任務恰恰是氛圍編程的盲區——它們需要持續數小時的專注，而非片段化的交互。

開源權重的戰略價值。 Z.ai選擇開放模型權重，意味著企業可以在私有代碼庫上微調，讓模型習得內部技術棧、編碼規范、遺留系統的怪癖。這比調用通用API更可能產生"懂我們代碼"的工程師智能體。論文提到某金融科技公司的早期測試：微調后的GLM-5在處理內部框架的bug時，首次嘗試成功率從基線的23%提升到61%。

反方：舊劇本的幽靈

質疑的聲音同樣具體，且多有先例。

"智能體"承諾的兌現記錄不佳。 從AutoGPT到Devin，每次"AI工程師"的演示都引發轟動，隨后是漫長的沉默。共同模式是：demo場景精心挑選，真實代碼庫充滿意外。GLM-5論文中的基準測試——SWE-bench、HumanEval——是標準化問題集，與生產環境的混亂相距甚遠。一位參與早期測試的工程師在社區評論：「它在我們的單體代碼庫上表現不錯，直到遇到那個2017年的Perl腳本，然后徹底迷失?！?/p>

規劃能力的硬邊界未明。 智能體工程的核心是"制定計劃并堅持執行"，但語言模型的規劃能力來源仍存爭議。是 genuine 的因果推理，還是訓練數據中類似模式的插值？GLM-5的分層記憶架構幫助"記住"目標，但遇到計劃外的障礙時——依賴庫突然棄用、需求中途變更、測試環境與生產環境不一致——模型能否靈活調整，還是陷入循環？論文對此著墨不多。

成本與延遲的現實約束。 數小時的自主執行意味著數百次模型調用、代碼執行、環境交互。即使單次推理成本下降，總費用仍可能遠超人工工程師。更關鍵的是時間：人類初級工程師數小時能完成的調試，智能體若需同等時長，價值何在？若需更久，商業模型是否成立？Z.ai尚未公布定價，但技術報告中的效率數據——"相比基線降低40%的token消耗"——暗示這仍是昂貴的基礎設施。

我的判斷：工具鏈的重構比單點突破更重要

GLM-5的技術改動是真實的，但其價值不會單獨兌現。

氛圍編程的困境，根源不在模型能力，而在交互范式。聊天框是糟糕的工程界面：線性、易失、缺乏結構。你把需求扔進去，得到代碼扔回來，上下文在每次粘貼中磨損。GLM-5試圖用"智能體"突破這個界面，但智能體本身需要新的容器——不是聊天框，而是與IDE、版本控制、CI/CD管道深度集成的運行時環境。

論文暗示了這個方向：模型被訓練調用工具、讀取反饋、持續迭代。但工具鏈的另一半——環境如何向模型暴露狀態、人類如何介入監督、錯誤如何回滾——尚未標準化。這是Devin、Cursor、以及無數內部工具的混戰領域。GLM-5的開源權重提供了基礎模型，但真正的產品形態仍在演化。

更深層的問題是責任歸屬。當智能體工程師提交代碼，誰為生產事故負責？模型、微調它的企業、還是監督它的人類？法律框架滯后于技術，而企業采購決策對模糊責任高度敏感。GLM-5的技術報告回避了這個問題，但任何實際部署都必須面對。

所以GLM-5的重要性，不在于它"解決了"AI工程，而在于它把競爭焦點從"生成質量"轉向"執行可靠性"。這是正確的方向。氛圍編程的天花板已經可見——更好的4K上下文模型，仍是更好的木板店員。真正的差異化來自誰能把數小時的自主執行做得穩定、可審計、可干預。

Z.ai的賭注是：中國團隊可以在開源權重的基礎上，圍繞工程場景構建完整的技術棧。這與閉源巨頭的路線形成對照。后者擁有更強的基礎模型，但工程智能體的迭代速度受限于內部產品節奏。開源生態的碎片化是劣勢，也是優勢——更多實驗，更快試錯，更可能涌現意外的集成方案。

對25-40歲的科技從業者，GLM-5的實用指向是具體的：如果你管理技術團隊，關注智能體工具鏈的集成成本，比關注模型參數更重要；如果你是工程師，理解"如何與AI協作"正在成為核心技能，而這項技能的形態尚未固定；如果你在評估技術投資，區分"能跑demo"和"能跑季度"仍是關鍵判斷力。

氛圍編程不會消失?？焖僭?、個人項目、探索性代碼——這些場景仍需要那個遞木板的店員。但GLM-5試圖證明的是：在需要承重的場景里，我們可以有別的選擇。這不是終點，而是新一輪工具鏈重構的起點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.