无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

唐杰深夜發文,AI從工具到勞動力只差這一步

0
分享至



隨著黃仁勛踏上前往特朗普的空軍一號,智譜股價暴漲36.9%,收報1150港元,創下歷史新高。

從1月8日上市時的116.20港元發行價算起,智譜的股價在短短四個多月內增長了900%。

而就在暴漲之前不到24小時里,智譜創始人唐杰深夜在X上發布了一條推文,大談了自己對整個AI產業的思考。



整條推文的核心是“長周期任務”。

請注意,英文原文是“Long-Horizon Tasks”,直譯過來應該是長視野。但是在AI語境中,它是指一個任務需要跨越較長時間、較多步驟、較多中間狀態才能完成。

他認為,2026年最可能的突破點不在于模型變得更聰明,而在于模型能夠持續完成復雜、多步驟的任務。

在唐杰看來,一旦模型能持續規劃、試錯、判斷和交付,它沖擊的就不只是程序員效率,而是整套人類執行層。

以前AI替人寫幾句話,大家還能說它只是工具。一旦AI能連續幾天自己干活、自己判斷、自己交付結果,它要替代的就不只是某個崗位了,它可能會徹底替代某一個行業。

01

長周期任務是什么?

過去兩年,我們評價一個大模型的好壞,主要看它在單次對話中的表現?;卮鹗欠駵蚀_、邏輯是否清晰、語言是否流暢。

這本質上是在測試智力。但長周期任務需要的不是智力,是執行力。

目標明確但路徑不確定,需要持續數個小時、數天甚至數周的長期推進。

唐杰在推文中用黑客作為例子。

他說,漏洞挖掘是典型的長周期任務。需要閱讀大量代碼、理解系統架構、搭建測試環境、構造攻擊輸入、驗證漏洞有效性,最后撰寫技術報告。

這個過程充滿試錯,因為沒有標準答案,只能依賴經驗和直覺。

你不能只讀一遍代碼就找到漏洞,你要反復去嘗試不同的攻擊向量,在每次失敗后調整思路,在每次成功后驗證可靠性。

如果AI能在這種對抗性、經驗化的領域站穩腳跟,那么它對普通程序員、數據分析師、法務助理等職業的沖擊只會來得更猛烈。

因為這些職業的任務雖然也很復雜,但對抗性更弱,經驗依賴度更低,更容易被系統化的流程覆蓋。

唐杰認為,衡量AI的方式,正在從看對話、答案,變成看“長周期”任務完成能力。



一個模型可能在單次對話中表現完美,但在需要持續工作8小時的任務中頻繁出錯、丟失上下文、重復無效操作。

另一個模型可能單次回答不夠精彩,但能穩定地推進任務,記住每一步的結果,在遇到障礙時自動換路徑。

那么后者在長周期任務中的價值,就高于前者。

騰訊的姚順雨曾提出一個概念,今天模型太依賴預訓練里的“參數化知識”,真實世界更需要能從當前Context里學習并應用的模型。

當模型真正開始跑任務的時候,它需要查文檔、跑代碼、測接口、讀日志、調參數。

一個能熟練調用這些工具的模型,比一個記住了所有API文檔但不會實際操作的模型有用得多。

此外,以前的模型過于被動,它得等待人類發出指令后才能執行,而且每發出一次指令,只能執行一步。

但在長周期任務里,給定目標后,模型需要自主規劃和執行。

被動響應只需要理解當前問題,主動推進需要理解整個任務的結構、當前所處的階段、下一步應該做什么、如果失敗了該如何調整。

這需要模型具備某種“任務感”,知道自己在做什么,為什么這樣做,做到哪一步了。

當有了這一切后,AI就開始進入“結果交付”階段。

企業和個人不再滿足于“AI幫我寫了一段代碼”,而是期待“AI幫我完成了整個功能模塊的開發、測試和部署”。

這是從助手到承包商的跨越。助手需要你告訴它每一步做什么,承包商只需要你告訴它最終要什么結果。

長周期任務的概念并不新鮮。學術界早就在研究強化學習、任務規劃、多步推理。

唐杰認為,正是因為如下幾個關鍵技術突破,長周期任務在今年變得可以實現。

第一個就是記憶。

百萬級上下文窗口和RAG技術的成熟,讓模型能夠在長時間任務中保持對項目背景、歷史嘗試和用戶偏好的記憶。

Claude Opus 4.7支持1M token上下文窗口,GLM-5.1支持200K token。這意味著模型可以在一個會話中記住數十萬字的代碼、文檔、對話歷史。

它不會因為任務太長而忘記最初的目標,不會重復已經嘗試過的失敗方案,不會丟失中間步驟的關鍵信息。

第二個是持續學習。

雖然真正的持續學習仍然困難,但模型更新周期正在急劇縮短。全球領先模型已經做到月度更新,國內模型緊隨其后。如果明年能做到周更新,事實上就接近了持續學習的效果。

模型不需要在訓練時就學會所有知識,它只需要能快速吸收新工具、新API、新業務規則。當更新周期足夠短,模型就能跟上現實世界的變化速度。

第三個是自我判斷、自我進化。

唐杰推測,Claude可能已經實現了基礎的自訓練能力。

模型自己寫代碼、清洗數據、生成合成數據,然后用這些數據訓練自己。GPT-5.5就在用模型生成的代碼和測試用例來改進自己的編程能力。

它開始知道自己的答案是否靠譜,知道什么時候該重試、求證或回滾。

這種能力在長周期任務中至關重要。因為沒有人會在旁邊監督每一步,模型必須自己判斷當前方案是否可行,是否需要調整,是否已經達到目標。

但這條路徑也充滿風險。

自我進化意味著人類對模型訓練過程的控制力在下降。當模型開始自己生成訓練數據、自己評估訓練效果時,我們如何確保它不會偏離人類的價值觀?我們對于AI的價值又是什么?

唐杰的判斷是,這些能力通過精巧的工程“tricks”實現。這意味著進展速度會比學術界預期的快得多,因為工程化的迭代周期遠短于學術和技術上的創新周期。

你只需要在現有架構上做更好的prompt工程、更精細的強化學習、更可靠的工具集成。

智譜的GLM-5.1在SWE-Bench Pro上達到58.4%,超過GPT-5.4的57.7%和Claude Opus 4.6的57.3%,就是這種工程化迭代的結果。

02

智譜:在長周期任務賽道上的戰略押注

作為智譜的創始人兼首席科學家,唐杰發這條X顯然不只是技術觀察,還多了一層戰略宣言。

智譜在國內大模型陣營中的特點是技術底子扎實,但商業化節奏相對謹慎。

它不像Kimi那樣靠C端爆款產品快速起量,也不像阿里、百度那樣有龐大的生態和流量入口。

智譜的路線一直是“模型能力先行,應用場景跟進”。先把基座模型做到足夠強,再通過API、私有化部署、行業解決方案變現。



長周期任務這個方向,無論是國內還是國外,參與的玩家都很少,沒有明確的領跑者,大家都在探索階段。

OpenAI的GPT-5.5,定位就是“自主任務執行”,強調的是agent能力和多步驟工作流,Opus 4.7也是類似。

然而二者在長周期這件事上,都還差點意思。

兩家公司并沒有展現出壓倒性優勢,市場格局也還遠未定型。

雖然在純模型能力上追趕GPT和Claude很難,不過在長周期任務這個新方向上,大家都站在同一條起跑線上。

唐杰進一步提到了NPC這個概念。他認為長周期能力會推進從OPC到NPC的轉變。一人公司的邏輯是“人加AI工具”,無人公司的邏輯則是“AI系統加人類監督”。

前者是增強,后者是替代。

不過無人公司并不是真的沒有人,而是人的定位發生了改變,從執行者變成了目標設定者、資源配置者和責任承擔者。

真正被替代的是中間執行層,比如那些負責推進任務和協調資源的崗位。在NPC里,人只需要設定目標和審核結果。

落到智譜身上,唐杰的觀點預示著智譜接下來的發展方向。

智譜GLM-5.1的技術白皮書中提到,GLM-5.1能持續獨立作業8個小時,單次任務可穩定執行1200-1700步操作,無需人工監控與干預。

不過這只是一張成績單,要真正讓企業放心,還得看它換到更多場景后會不會掉鏈子,遇到沒見過的問題時能不能靠自己的手段解決。

長周期任務不是一個通用產品,它需要針對不同行業、不同場景做深度定制。

軟件開發需要的是代碼理解和測試執行,法律行業需要的是文檔檢索和合規檢查,金融行業需要的是數據分析和風險評估。

不是說把模型賣給企業就完了,智譜還要把模型打包成能直接上手的agent工具箱,客戶不必從零開發,也能快速搭出自己的長周期任務系統。

長周期任務系統不是智譜一家能做出來的,它需要開發者貢獻工具和插件,需要企業客戶提供真實場景和反饋,還需要監管機構制定安全和合規標準。

智譜的開源策略就是在構建這個生態。

從市值來看,智譜是國產AI的中流砥柱,唐杰的每一個判斷都會對國內AI產生很大的影響。

就以唐杰提到的自我進化來說,智譜是會追求自我進化?還是會選擇更保守的策略?

從GLM-5.1來看,智譜在走一條中間路線。

一方面,GLM-5.1的訓練已經大量使用模型生成的合成數據,這是自我進化的雛形。

可另一方面,智譜強調“可解釋的、可監管的”系統,這意味著它不會完全放棄人類控制。

這種平衡很難,但可能是最現實的路徑。

長周期任務是企業的核心痛點,它能直接替代人力成本,能直接提高業務效率,企業愿意為此支付更高的價格。

如果智譜能拿下長周期任務,那么它的業務會進一步增長,市值也會更高。

03

AI吞噬世界

基于對長周期任務的判斷,唐杰給出了一個預言,未來我們可能會跨越APP的概念,直接進入LLM OS時代。

什么是LLM OS?應用按需生成,用戶不再管理文件、窗口和按鈕,用戶只管理任務、權限和結果。



然而我想說,這個判斷觸及了現代計算機的根本邏輯。

APP的本質是把功能固化在界面里,用戶通過點擊按鈕來觸發預設的功能。

你要是想發郵件,你就打開郵件APP,點擊寫郵件按鈕,填寫收件人、主題、正文,點擊發送。每一步都是預先設計好的,你只能在設計者規定的路徑上操作。

agent的本質則是把目標交給系統,讓系統臨時組合工具、數據和界面來達成目標。

你告訴系統“給張三發一封郵件,告訴他項目進度”,系統會自己決定用哪個郵件服務、怎么措辭、什么時候發送。你不需要知道郵件APP在哪里,不需要知道怎么操作,你只需要表達意圖,系統負責執行。

如果唐杰說的這個趨勢成立,軟件的中心將從“打開哪個APP”變成“告訴系統我要什么結果”。這將會顛覆現有的一切。

它挑戰的是80年來的馮諾依曼架構,挑戰的是整個計算機科學的產業基礎。

現在的操作系統,無論是Windows、macOS還是Linux,本質上都是文件管理器加進程調度器。

它們管理的是數據在哪里、程序怎么運行、資源如何分配。用戶需要知道文件存在哪個文件夾,需要知道用什么程序打開,需要知道怎么在不同程序之間復制粘貼數據。

LLM OS的邏輯完全不同。

它管理的不是文件和進程,而是任務和權限。你不需要知道數據存在哪里,系統自己能找到需要的數據。你不需要知道用什么程序,系統會自己調用合適的工具。

你只需要告訴系統你要做什么,然后等待結果就可以了。

聽起來不錯,可是實現起來極其困難。

用戶說“我要做什么”,系統能準確理解嗎?

自然語言是模糊的、多義的、依賴上下文的。同樣一句話,在不同場景下可能有完全不同的含義。

所以模型不僅需要具備強大的語義理解能力,還需要結合上下文、用戶歷史、當前狀態來推斷意圖。

理解用戶的意圖以后,接下來就到了執行任務。

一個高層目標需要分解成多少個子任務,每個子任務用什么工具完成,任務之間有什么依賴關系。

“給張三發郵件”這個簡單任務,實際上包含了查找張三的郵箱地址、生成郵件內容、選擇發送時間、處理發送失敗等多個子任務。

再往底層看就是工具調用。

郵件是工具、寫字用的輸入法是工具、網頁也是工具。系統需要能調用成千上萬個不同的工具和服務,每個工具有不同的API、不同的參數、不同的錯誤處理方式。

唐杰在結尾提到了監管問題。

他承認這個不可逆的進程已經開始,但同時呼吁認真思考如何監管。長周期任務和自主agent帶來的監管挑戰是前所未有的。

當AI獨立完成一個任務并造成損失,責任應該由誰承擔。開發者、使用者,還是AI本身?如果一個AI系統在執行長周期任務時做出了錯誤決策,導致企業損失數百萬,誰來負責?

2026年4月,PocketOS就遭遇過一次典型事故。

一個基于Claude的Cursor編程agent,在處理環境問題時誤刪了公司的生產數據庫和備份,整個過程只用了幾秒鐘。

現有的法律框架還沒有準備好回答這個問題。

除此以外,當大量執行層崗位被AI替代,那么隨之而來的就是失業潮。

但失業只是最容易被看見的結果,更深層的變化,是社會分工本身被重新改寫。

過去,技術替代的往往是某個環節、某個工具、某種重復勞動;長周期agent要替代的,是“把事情推進到結果”的整套執行能力。

它一旦成立,AI就不再只是嵌在工作流里的輔助按鈕,而會變成工作流本身的一部分。

唐杰認為,長周期任務不是AGI的全部,但它可能是AGI第一次真正進入現實世界、真正開始重構人類社會的方式。當AI不再只是回答問題,而是開始承包結果,我們就站在了一個歷史性的轉折點上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗公布最新海上損失情況

伊朗公布最新海上損失情況

新華社
2026-06-10 21:30:08
路虎攬勝極光L價格跌至17.98萬元,有銷售顧問:主要是因為已經停產,現處于清庫存階段

路虎攬勝極光L價格跌至17.98萬元,有銷售顧問:主要是因為已經停產,現處于清庫存階段

紅星資本局
2026-06-11 17:44:03
世界杯首紅!鐵腰開場送禮+下半場被罰下 5.1分提前鎖定全場最差

世界杯首紅!鐵腰開場送禮+下半場被罰下 5.1分提前鎖定全場最差

狍子歪解體壇
2026-06-12 04:35:26
番禺萬博被掏空?虎牙、歡聚集體集體搬遷佛山

番禺萬博被掏空?虎牙、歡聚集體集體搬遷佛山

樓市滅霸
2026-06-11 19:35:55
法國海軍:在南海遭遇40艘中國軍艦,法軍的龐大力量使中國冷靜

法國海軍:在南海遭遇40艘中國軍艦,法軍的龐大力量使中國冷靜

一曲一場談
2026-06-10 23:03:21
看熱鬧的網友尷尬了!李佳琦直播賣奔馳:上架40臺秒售罄

看熱鬧的網友尷尬了!李佳琦直播賣奔馳:上架40臺秒售罄

快科技
2026-06-11 08:48:07
全皇馬松了口氣!穆里尼奧完美拿捏姆巴佩,伯納烏危機徹底解除

全皇馬松了口氣!穆里尼奧完美拿捏姆巴佩,伯納烏危機徹底解除

奶蓋熊本熊
2026-06-12 00:26:19
28歲巔峰退出國家隊?趙繼偉克星宣布退役:男籃反倒成最大受益者

28歲巔峰退出國家隊?趙繼偉克星宣布退役:男籃反倒成最大受益者

籃球快餐車
2026-06-12 05:36:36
上海洋山海關的一位科長拿著一顆牛油果來京出席中外記者見面會

上海洋山海關的一位科長拿著一顆牛油果來京出席中外記者見面會

北青網-北京青年報
2026-06-11 16:51:02
杭州重大發現!蕭山林區多次拍到"隱世國寶",工作人員:實在少見

杭州重大發現!蕭山林區多次拍到"隱世國寶",工作人員:實在少見

萬象硬核本尊
2026-06-11 16:05:11
何云偉的相聲專場,票價賣到480一張,你猜臺下坐了多少人?

何云偉的相聲專場,票價賣到480一張,你猜臺下坐了多少人?

手工制作阿殲
2026-06-11 19:43:28
6死7傷!鄉政府大樓被炸震驚中央,四川涼山州6.26特大爆炸案始末

6死7傷!鄉政府大樓被炸震驚中央,四川涼山州6.26特大爆炸案始末

易玄
2024-09-11 10:52:41
金與正去哪兒了?

金與正去哪兒了?

天氣觀察站
2026-06-11 13:52:57
菲律賓大地震中國一毛沒給!馬科斯剛罵完中國,現世報就來了

菲律賓大地震中國一毛沒給!馬科斯剛罵完中國,現世報就來了

共工之錨
2026-06-12 00:28:11
想3打1?東沙爆發沖突,海巡署3艦一齊圍攻海警船,對峙34小時

想3打1?東沙爆發沖突,海巡署3艦一齊圍攻海警船,對峙34小時

鐵錘簡科
2026-06-09 14:06:02
廣西興安爆炸致7死17傷后續,2聲巨響沒有誰想看熱鬧

廣西興安爆炸致7死17傷后續,2聲巨響沒有誰想看熱鬧

九方魚論
2026-06-12 05:31:38
老婆出軌初戀后,我半年沒碰她,她質問我原因,我說:我嫌臟

老婆出軌初戀后,我半年沒碰她,她質問我原因,我說:我嫌臟

千秋文化
2026-06-06 20:06:18
中國腦梗發病率世界第一!醫生:罪魁禍首已揪出,4種蔬菜要少吃

中國腦梗發病率世界第一!醫生:罪魁禍首已揪出,4種蔬菜要少吃

芹姐說生活
2026-06-11 15:36:46
歐文點評穆帥即將回歸皇馬

歐文點評穆帥即將回歸皇馬

體壇周報
2026-06-11 19:32:10
根據中央編辦、省委編辦批復,寧波成立新機構

根據中央編辦、省委編辦批復,寧波成立新機構

政知新媒體
2026-06-11 22:00:39
2026-06-12 07:51:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2534文章數 8065關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

特朗普突然取消對伊朗"猛烈打擊":美伊達成重大協議

頭條要聞

特朗普突然取消對伊朗"猛烈打擊":美伊達成重大協議

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

藝術
時尚
親子
房產
手機

藝術要聞

華國鋒的“華氏顏體”為何被公認為書法珍品?

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

親子要聞

歷經兩年治療,無精子癥患者家庭在滬迎健康寶寶

房產要聞

科城·美林學筑5月領跑崖州灣:成交價、銷售套數、轉化率三項第一

手機要聞

iOS 26泄密案迎來轉折?蘋果與爆料人普羅瑟共同申請撤銷缺席判決

無障礙瀏覽 進入關懷版