无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<table id="jfjg8"></table>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

唐杰深夜發文，AI從工具到勞動力只差這一步

2026-05-14 15:03:00　來源: 字母榜

北京舉報

0

分享至

隨著黃仁勛踏上前往特朗普的空軍一號，智譜股價暴漲36.9%，收報1150港元，創下歷史新高。

從1月8日上市時的116.20港元發行價算起，智譜的股價在短短四個多月內增長了900%。

而就在暴漲之前不到24小時里，智譜創始人唐杰深夜在X上發布了一條推文，大談了自己對整個AI產業的思考。

整條推文的核心是“長周期任務”。

請注意，英文原文是“Long-Horizon Tasks”，直譯過來應該是長視野。但是在AI語境中，它是指一個任務需要跨越較長時間、較多步驟、較多中間狀態才能完成。

他認為，2026年最可能的突破點不在于模型變得更聰明，而在于模型能夠持續完成復雜、多步驟的任務。

在唐杰看來，一旦模型能持續規劃、試錯、判斷和交付，它沖擊的就不只是程序員效率，而是整套人類執行層。

以前AI替人寫幾句話，大家還能說它只是工具。一旦AI能連續幾天自己干活、自己判斷、自己交付結果，它要替代的就不只是某個崗位了，它可能會徹底替代某一個行業。

01

長周期任務是什么？

過去兩年，我們評價一個大模型的好壞，主要看它在單次對話中的表現?；卮鹗欠駵蚀_、邏輯是否清晰、語言是否流暢。

這本質上是在測試智力。但長周期任務需要的不是智力，是執行力。

目標明確但路徑不確定，需要持續數個小時、數天甚至數周的長期推進。

唐杰在推文中用黑客作為例子。

他說，漏洞挖掘是典型的長周期任務。需要閱讀大量代碼、理解系統架構、搭建測試環境、構造攻擊輸入、驗證漏洞有效性，最后撰寫技術報告。

這個過程充滿試錯，因為沒有標準答案，只能依賴經驗和直覺。

你不能只讀一遍代碼就找到漏洞，你要反復去嘗試不同的攻擊向量，在每次失敗后調整思路，在每次成功后驗證可靠性。

如果AI能在這種對抗性、經驗化的領域站穩腳跟，那么它對普通程序員、數據分析師、法務助理等職業的沖擊只會來得更猛烈。

因為這些職業的任務雖然也很復雜，但對抗性更弱，經驗依賴度更低，更容易被系統化的流程覆蓋。

唐杰認為，衡量AI的方式，正在從看對話、答案，變成看“長周期”任務完成能力。

一個模型可能在單次對話中表現完美，但在需要持續工作8小時的任務中頻繁出錯、丟失上下文、重復無效操作。

另一個模型可能單次回答不夠精彩，但能穩定地推進任務，記住每一步的結果，在遇到障礙時自動換路徑。

那么后者在長周期任務中的價值，就高于前者。

騰訊的姚順雨曾提出一個概念，今天模型太依賴預訓練里的“參數化知識”，真實世界更需要能從當前Context里學習并應用的模型。

當模型真正開始跑任務的時候，它需要查文檔、跑代碼、測接口、讀日志、調參數。

一個能熟練調用這些工具的模型，比一個記住了所有API文檔但不會實際操作的模型有用得多。

此外，以前的模型過于被動，它得等待人類發出指令后才能執行，而且每發出一次指令，只能執行一步。

但在長周期任務里，給定目標后，模型需要自主規劃和執行。

被動響應只需要理解當前問題，主動推進需要理解整個任務的結構、當前所處的階段、下一步應該做什么、如果失敗了該如何調整。

這需要模型具備某種“任務感”，知道自己在做什么，為什么這樣做，做到哪一步了。

當有了這一切后，AI就開始進入“結果交付”階段。

企業和個人不再滿足于“AI幫我寫了一段代碼”，而是期待“AI幫我完成了整個功能模塊的開發、測試和部署”。

這是從助手到承包商的跨越。助手需要你告訴它每一步做什么，承包商只需要你告訴它最終要什么結果。

長周期任務的概念并不新鮮。學術界早就在研究強化學習、任務規劃、多步推理。

唐杰認為，正是因為如下幾個關鍵技術突破，長周期任務在今年變得可以實現。

第一個就是記憶。

百萬級上下文窗口和RAG技術的成熟，讓模型能夠在長時間任務中保持對項目背景、歷史嘗試和用戶偏好的記憶。

Claude Opus 4.7支持1M token上下文窗口，GLM-5.1支持200K token。這意味著模型可以在一個會話中記住數十萬字的代碼、文檔、對話歷史。

它不會因為任務太長而忘記最初的目標，不會重復已經嘗試過的失敗方案，不會丟失中間步驟的關鍵信息。

第二個是持續學習。

雖然真正的持續學習仍然困難，但模型更新周期正在急劇縮短。全球領先模型已經做到月度更新，國內模型緊隨其后。如果明年能做到周更新，事實上就接近了持續學習的效果。

模型不需要在訓練時就學會所有知識，它只需要能快速吸收新工具、新API、新業務規則。當更新周期足夠短，模型就能跟上現實世界的變化速度。

第三個是自我判斷、自我進化。

唐杰推測，Claude可能已經實現了基礎的自訓練能力。

模型自己寫代碼、清洗數據、生成合成數據，然后用這些數據訓練自己。GPT-5.5就在用模型生成的代碼和測試用例來改進自己的編程能力。

它開始知道自己的答案是否靠譜，知道什么時候該重試、求證或回滾。

這種能力在長周期任務中至關重要。因為沒有人會在旁邊監督每一步，模型必須自己判斷當前方案是否可行，是否需要調整，是否已經達到目標。

但這條路徑也充滿風險。

自我進化意味著人類對模型訓練過程的控制力在下降。當模型開始自己生成訓練數據、自己評估訓練效果時，我們如何確保它不會偏離人類的價值觀？我們對于AI的價值又是什么？

唐杰的判斷是，這些能力通過精巧的工程“tricks”實現。這意味著進展速度會比學術界預期的快得多，因為工程化的迭代周期遠短于學術和技術上的創新周期。

你只需要在現有架構上做更好的prompt工程、更精細的強化學習、更可靠的工具集成。

智譜的GLM-5.1在SWE-Bench Pro上達到58.4%，超過GPT-5.4的57.7%和Claude Opus 4.6的57.3%，就是這種工程化迭代的結果。

02

智譜：在長周期任務賽道上的戰略押注

作為智譜的創始人兼首席科學家，唐杰發這條X顯然不只是技術觀察，還多了一層戰略宣言。

智譜在國內大模型陣營中的特點是技術底子扎實，但商業化節奏相對謹慎。

它不像Kimi那樣靠C端爆款產品快速起量，也不像阿里、百度那樣有龐大的生態和流量入口。

智譜的路線一直是“模型能力先行，應用場景跟進”。先把基座模型做到足夠強，再通過API、私有化部署、行業解決方案變現。

長周期任務這個方向，無論是國內還是國外，參與的玩家都很少，沒有明確的領跑者，大家都在探索階段。

OpenAI的GPT-5.5，定位就是“自主任務執行”，強調的是agent能力和多步驟工作流，Opus 4.7也是類似。

然而二者在長周期這件事上，都還差點意思。

兩家公司并沒有展現出壓倒性優勢，市場格局也還遠未定型。

雖然在純模型能力上追趕GPT和Claude很難，不過在長周期任務這個新方向上，大家都站在同一條起跑線上。

唐杰進一步提到了NPC這個概念。他認為長周期能力會推進從OPC到NPC的轉變。一人公司的邏輯是“人加AI工具”，無人公司的邏輯則是“AI系統加人類監督”。

前者是增強，后者是替代。

不過無人公司并不是真的沒有人，而是人的定位發生了改變，從執行者變成了目標設定者、資源配置者和責任承擔者。

真正被替代的是中間執行層，比如那些負責推進任務和協調資源的崗位。在NPC里，人只需要設定目標和審核結果。

落到智譜身上，唐杰的觀點預示著智譜接下來的發展方向。

智譜GLM-5.1的技術白皮書中提到，GLM-5.1能持續獨立作業8個小時，單次任務可穩定執行1200-1700步操作，無需人工監控與干預。

不過這只是一張成績單，要真正讓企業放心，還得看它換到更多場景后會不會掉鏈子，遇到沒見過的問題時能不能靠自己的手段解決。

長周期任務不是一個通用產品，它需要針對不同行業、不同場景做深度定制。

軟件開發需要的是代碼理解和測試執行，法律行業需要的是文檔檢索和合規檢查，金融行業需要的是數據分析和風險評估。

不是說把模型賣給企業就完了，智譜還要把模型打包成能直接上手的agent工具箱，客戶不必從零開發，也能快速搭出自己的長周期任務系統。

長周期任務系統不是智譜一家能做出來的，它需要開發者貢獻工具和插件，需要企業客戶提供真實場景和反饋，還需要監管機構制定安全和合規標準。

智譜的開源策略就是在構建這個生態。

從市值來看，智譜是國產AI的中流砥柱，唐杰的每一個判斷都會對國內AI產生很大的影響。

就以唐杰提到的自我進化來說，智譜是會追求自我進化？還是會選擇更保守的策略？

從GLM-5.1來看，智譜在走一條中間路線。

一方面，GLM-5.1的訓練已經大量使用模型生成的合成數據，這是自我進化的雛形。

可另一方面，智譜強調“可解釋的、可監管的”系統，這意味著它不會完全放棄人類控制。

這種平衡很難，但可能是最現實的路徑。

長周期任務是企業的核心痛點，它能直接替代人力成本，能直接提高業務效率，企業愿意為此支付更高的價格。

如果智譜能拿下長周期任務，那么它的業務會進一步增長，市值也會更高。

03

AI吞噬世界

基于對長周期任務的判斷，唐杰給出了一個預言，未來我們可能會跨越APP的概念，直接進入LLM OS時代。

什么是LLM OS？應用按需生成，用戶不再管理文件、窗口和按鈕，用戶只管理任務、權限和結果。

然而我想說，這個判斷觸及了現代計算機的根本邏輯。

APP的本質是把功能固化在界面里，用戶通過點擊按鈕來觸發預設的功能。

你要是想發郵件，你就打開郵件APP，點擊寫郵件按鈕，填寫收件人、主題、正文，點擊發送。每一步都是預先設計好的，你只能在設計者規定的路徑上操作。

agent的本質則是把目標交給系統，讓系統臨時組合工具、數據和界面來達成目標。

你告訴系統“給張三發一封郵件，告訴他項目進度”，系統會自己決定用哪個郵件服務、怎么措辭、什么時候發送。你不需要知道郵件APP在哪里，不需要知道怎么操作，你只需要表達意圖，系統負責執行。

如果唐杰說的這個趨勢成立，軟件的中心將從“打開哪個APP”變成“告訴系統我要什么結果”。這將會顛覆現有的一切。

它挑戰的是80年來的馮諾依曼架構，挑戰的是整個計算機科學的產業基礎。

現在的操作系統，無論是Windows、macOS還是Linux，本質上都是文件管理器加進程調度器。

它們管理的是數據在哪里、程序怎么運行、資源如何分配。用戶需要知道文件存在哪個文件夾，需要知道用什么程序打開，需要知道怎么在不同程序之間復制粘貼數據。

LLM OS的邏輯完全不同。

它管理的不是文件和進程，而是任務和權限。你不需要知道數據存在哪里，系統自己能找到需要的數據。你不需要知道用什么程序，系統會自己調用合適的工具。

你只需要告訴系統你要做什么，然后等待結果就可以了。

聽起來不錯，可是實現起來極其困難。

用戶說“我要做什么”，系統能準確理解嗎？

自然語言是模糊的、多義的、依賴上下文的。同樣一句話，在不同場景下可能有完全不同的含義。

所以模型不僅需要具備強大的語義理解能力，還需要結合上下文、用戶歷史、當前狀態來推斷意圖。

理解用戶的意圖以后，接下來就到了執行任務。

一個高層目標需要分解成多少個子任務，每個子任務用什么工具完成，任務之間有什么依賴關系。

“給張三發郵件”這個簡單任務，實際上包含了查找張三的郵箱地址、生成郵件內容、選擇發送時間、處理發送失敗等多個子任務。

再往底層看就是工具調用。

郵件是工具、寫字用的輸入法是工具、網頁也是工具。系統需要能調用成千上萬個不同的工具和服務，每個工具有不同的API、不同的參數、不同的錯誤處理方式。

唐杰在結尾提到了監管問題。

他承認這個不可逆的進程已經開始，但同時呼吁認真思考如何監管。長周期任務和自主agent帶來的監管挑戰是前所未有的。

當AI獨立完成一個任務并造成損失，責任應該由誰承擔。開發者、使用者，還是AI本身？如果一個AI系統在執行長周期任務時做出了錯誤決策，導致企業損失數百萬，誰來負責？

2026年4月，PocketOS就遭遇過一次典型事故。

一個基于Claude的Cursor編程agent，在處理環境問題時誤刪了公司的生產數據庫和備份，整個過程只用了幾秒鐘。

現有的法律框架還沒有準備好回答這個問題。

除此以外，當大量執行層崗位被AI替代，那么隨之而來的就是失業潮。

但失業只是最容易被看見的結果，更深層的變化，是社會分工本身被重新改寫。

過去，技術替代的往往是某個環節、某個工具、某種重復勞動；長周期agent要替代的，是“把事情推進到結果”的整套執行能力。

它一旦成立，AI就不再只是嵌在工作流里的輔助按鈕，而會變成工作流本身的一部分。

唐杰認為，長周期任務不是AGI的全部，但它可能是AGI第一次真正進入現實世界、真正開始重構人類社會的方式。當AI不再只是回答問題，而是開始承包結果，我們就站在了一個歷史性的轉折點上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

媒體：29分大逆轉+補籃絕殺尼克斯隊的"劇本"太神奇

北青網-北京青年報 2026-06-11 13:19:02
1646 跟貼 1646
杜越華兼任上海外國語大學附屬徐匯實驗中學校長

澎湃新聞 2026-06-11 12:16:30
142 跟貼 142

美國五角大樓被封鎖

新華社 2026-06-11 23:08:02
1162 跟貼 1162

“初級班”近萬“督導班”28萬白領高管沉醉的心理課：痛哭、尖叫、下跪……療愈還是“洗腦”？丨紅星深潛

紅星新聞 2026-06-11 11:28:53
2710 跟貼 2710
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
788 跟貼 788

“換血抗衰”，誰在豪賭？

中國新聞周刊 2026-06-11 07:22:08
752 跟貼 752

12秒75！美國新星薩普打破塵封14年110米欄世界紀錄

北青網-北京青年報 2026-06-11 12:27:30
402 跟貼 402
小伙發視頻稱自家水果不打農藥，桃子上趴著蟲，網友留言求購蟲子

星視頻 2026-06-11 15:03:06
299 跟貼 299

市委常委會舉行會議：堅決擁護黨中央決定，堅定不移推動全面從嚴治黨向縱深發展

上海發布 2026-06-11 14:10:30
11 跟貼 11
張雪空降阿里總部，稱沒少找馬云借錢，最高一筆超22萬元！張雪談上市計劃

大風新聞 2026-06-11 22:03:06
193 跟貼 193
上海道路停車收費優化方案公開征求意見：15分鐘內免費，每自然日享受2次

澎湃新聞 2026-06-11 11:52:30
492 跟貼 492
浙江楊梅紅了！800元一斤，水晶楊梅為啥這么貴？

極目新聞 2026-06-11 18:42:13
152 跟貼 152
女生高考考一半發現填錯答案，僅剩25分鐘換答題卡，當事人回應

星視頻 2026-06-11 16:48:33
76 跟貼 76
8億用戶的釘釘，只有1000人在扛

澎湃新聞 2026-06-11 08:00:27
512 跟貼 512
柬埔寨旅游發展與國際合作局：希望2026年到訪的中國游客數量至少增加20%—30%

北京商報 2026-06-07 12:37:05
1574 跟貼 1574
曾經落地近90萬的神車！路虎攬勝極光L跌至17.98萬

中國能源網 2026-06-11 10:58:56
694 跟貼 694
涉1200畝土地權屬，前副縣長簽字蓋印稱“屬實”的《決定》，鎮政府“查無存檔”｜紅星調查

紅星新聞 2026-06-11 17:54:21
76 跟貼 76
5個月神話破滅！Donut Lab固態電池被實錘造假背后：從未實際生產過電池電芯，固態電池產業化仍需五到十年

每日經濟新聞 2026-06-11 16:39:10
80 跟貼 80
大批印度學生，高考考卷被“調包”

中國新聞周刊 2026-06-11 11:20:28
67 跟貼 67
房產稅成地方稅最大稅種

第一財經資訊 2026-06-11 21:09:32
100 跟貼 100
豐巢回應“取件得先看廣告”

南方都市報 2026-06-11 09:35:31
233 跟貼 233
成品油零售將全面推廣“交易即開票”

央視新聞客戶端 2026-06-11 21:57:55
199 跟貼 199
“好吃到不對勁！”消費者因餅干太好吃而引發懷疑，配料表完全對不上！當地市監局介入

極目新聞 2026-06-12 06:54:56
1 跟貼 1
“孤女遭親舅舅阻止高考”系“劇本式”造謠（2026·06·11）

今日辟謠 2026-06-11 18:29:11
51 跟貼 51
泄露超3千萬用戶數據，韓國電商巨頭酷澎被罰4億美元

澎湃新聞 2026-06-11 20:06:27
65 跟貼 65
中學生深夜看色情網站上千部隱晦內容已吸引上億次觀看！

閃電新聞 2026-06-12 07:10:35
0 跟貼 0

伊朗公布最新海上損失情況

新華社

2026-06-10 21:30:08

路虎攬勝極光L價格跌至17.98萬元，有銷售顧問：主要是因為已經停產，現處于清庫存階段

路虎攬勝極光L價格跌至17.98萬元，有銷售顧問：主要是因為已經停產，現處于清庫存階段

紅星資本局

2026-06-11 17:44:03

世界杯首紅！鐵腰開場送禮+下半場被罰下 5.1分提前鎖定全場最差

世界杯首紅！鐵腰開場送禮+下半場被罰下 5.1分提前鎖定全場最差

狍子歪解體壇

2026-06-12 04:35:26

番禺萬博被掏空?虎牙、歡聚集體集體搬遷佛山

番禺萬博被掏空?虎牙、歡聚集體集體搬遷佛山

樓市滅霸

2026-06-11 19:35:55

法國海軍：在南海遭遇40艘中國軍艦，法軍的龐大力量使中國冷靜

法國海軍：在南海遭遇40艘中國軍艦，法軍的龐大力量使中國冷靜

一曲一場談

2026-06-10 23:03:21

看熱鬧的網友尷尬了！李佳琦直播賣奔馳：上架40臺秒售罄

看熱鬧的網友尷尬了！李佳琦直播賣奔馳：上架40臺秒售罄

快科技

2026-06-11 08:48:07

全皇馬松了口氣！穆里尼奧完美拿捏姆巴佩，伯納烏危機徹底解除

全皇馬松了口氣！穆里尼奧完美拿捏姆巴佩，伯納烏危機徹底解除

奶蓋熊本熊

2026-06-12 00:26:19

28歲巔峰退出國家隊？趙繼偉克星宣布退役：男籃反倒成最大受益者

28歲巔峰退出國家隊？趙繼偉克星宣布退役：男籃反倒成最大受益者

籃球快餐車

2026-06-12 05:36:36

上海洋山海關的一位科長拿著一顆牛油果來京出席中外記者見面會

上海洋山海關的一位科長拿著一顆牛油果來京出席中外記者見面會

北青網-北京青年報

2026-06-11 16:51:02

杭州重大發現！蕭山林區多次拍到"隱世國寶"，工作人員：實在少見

杭州重大發現！蕭山林區多次拍到"隱世國寶"，工作人員：實在少見

萬象硬核本尊

2026-06-11 16:05:11

何云偉的相聲專場，票價賣到480一張，你猜臺下坐了多少人？

何云偉的相聲專場，票價賣到480一張，你猜臺下坐了多少人？

手工制作阿殲

2026-06-11 19:43:28

6死7傷！鄉政府大樓被炸震驚中央，四川涼山州6.26特大爆炸案始末

6死7傷！鄉政府大樓被炸震驚中央，四川涼山州6.26特大爆炸案始末

易玄

2024-09-11 10:52:41

金與正去哪兒了？

天氣觀察站

2026-06-11 13:52:57

菲律賓大地震中國一毛沒給！馬科斯剛罵完中國，現世報就來了

菲律賓大地震中國一毛沒給！馬科斯剛罵完中國，現世報就來了

共工之錨

2026-06-12 00:28:11

想3打1？東沙爆發沖突，海巡署3艦一齊圍攻海警船，對峙34小時

想3打1？東沙爆發沖突，海巡署3艦一齊圍攻海警船，對峙34小時

鐵錘簡科

2026-06-09 14:06:02

廣西興安爆炸致7死17傷后續，2聲巨響沒有誰想看熱鬧

廣西興安爆炸致7死17傷后續，2聲巨響沒有誰想看熱鬧

九方魚論

2026-06-12 05:31:38

老婆出軌初戀后，我半年沒碰她，她質問我原因，我說：我嫌臟

老婆出軌初戀后，我半年沒碰她，她質問我原因，我說：我嫌臟

千秋文化

2026-06-06 20:06:18

中國腦梗發病率世界第一！醫生：罪魁禍首已揪出，4種蔬菜要少吃

中國腦梗發病率世界第一！醫生：罪魁禍首已揪出，4種蔬菜要少吃

芹姐說生活

2026-06-11 15:36:46

歐文點評穆帥即將回歸皇馬

體壇周報

2026-06-11 19:32:10

根據中央編辦、省委編辦批復，寧波成立新機構

根據中央編辦、省委編辦批復，寧波成立新機構

政知新媒體

2026-06-11 22:00:39

讓未來不止于大。

2534文章數 8065關注度

往期回顧全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

特朗普突然取消對伊朗"猛烈打擊"：美伊達成重大協議

頭條要聞

特朗普突然取消對伊朗"猛烈打擊"：美伊達成重大協議

體育要聞

比起總冠軍，更大的懸念成了FMVP？

娛樂要聞

《花少8》陣容大揭秘！秒殺前一季

財經要聞

干細胞生意：17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架方程豹方程S系列信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

時尚

親子

房產

手機

藝術要聞

華國鋒的“華氏顏體”為何被公認為書法珍品？

薄荷綠色的單品打造夏日清透感，視覺上清爽又治愈，溫柔減齡

親子要聞

歷經兩年治療，無精子癥患者家庭在滬迎健康寶寶

房產要聞

科城·美林學筑5月領跑崖州灣：成交價、銷售套數、轉化率三項第一

手機要聞

iOS 26泄密案迎來轉折？蘋果與爆料人普羅瑟共同申請撤銷缺席判決

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<ruby id="uxhts"></ruby>

<option id="uxhts"><table id="uxhts"><optgroup id="uxhts"></optgroup></table></option>