你用得越久,它的記性越差——別誤會,這不是說你的爺爺奶奶,而是在說AI代理。德克薩斯大學奧斯汀分校的研究團隊最近拋出了一個結論:AI代理也會“老化”。他們還為此專門發布了一個名叫AgingBench的基準測試,用來衡量AI代理到底老到了什么程度。
在我們的印象里,AI不用睡覺、不會疲憊,認知功能更不會因為“上了年紀”而衰退。但研究團隊在論文里直截了當地指出,現實情況可能沒那么樂觀。目前的評估方式有個盲區:大家只看初始化之后那一小段窗口內的表現,從來沒人追問過——“它上崗之后到底能扛多久?”如果答案是“扛不了太久”,那么所有基于初始表現建立起來的信心,就要打上一個問號了。
![]()
老化是怎么發生的?研究團隊用了一張圖來解釋整個退化過程。剛剛部署的AI代理像一間剛收拾好的書房,一切井井有條。隨著一輪又一輪的對話記錄不斷被壓縮、歸檔,記憶庫開始臃腫。舊的信號慢慢衰減,自反饋循環悄悄開啟,原本清晰的事實開始在噪聲中變得模糊。這不是一個瞬間崩潰的過程,而是一種日積月累的“認知磨損”。
![]()
為了讓老化這件事不再停留在感覺上,AgingBench把這套衰退機制拆成了四類,每一類都指向一種具體的失敗模式。第一類是“壓縮”。當系統試圖節約空間,把會話記錄做高倍率壓縮時,那些低頻出現的細節——具體的數字、人名、限制條件——最容易被當成次要信息丟棄,留下來的多半是概括性的摘要。舉個例子,有一條規則原本寫得很清楚:“沒有埃琳娜·巴斯克斯博士的批準,任何人不得修改數據庫。”在最開始的幾輪會話里,AI會嚴格遵從。但經過反復壓縮和總結之后,“巴斯克斯博士”這個名字可能就在某一次歸檔中被省略掉了,剩下的僅僅是“有關數據庫修改需要審批”這樣一個模糊印象。等到真的需要執行變更時,它可能已經想不起審批人是誰,于是直接放行。
第二類是“干擾”。這種問題即便你一個字都不丟、一條信息都不壓縮,也照樣會出現。原因在于,隨著會話積累,相似的信息條目會越來越多。當關鍵事實被淹沒在大量相近的噪聲當中時,檢索系統就可能抓錯東西。比如AI的內部記錄同時存在兩條信息:“單元測試覆蓋率目標設定為85%”和“最新一次實際測試達到了87%”。在第6輪對話里,你問它“單元測試的最低覆蓋率要求是多少”,它還能準確地告訴你“85%”。可到了第11輪,同樣的問題拋過去,它卻可能從那堆相似記錄里撈出了“87%”,然后自信滿滿地回答說:“根據最近的測試報告,是87%。”——事實還在,但目標值和實測值之間的那條分界線,在干擾中消失了。
第三類是“修訂”。AI需要在對話過程中不斷接受新信息來修正自己對“事實”的認知,可一旦中間有某個更新步驟被跳過或覆蓋不徹底,后續的答案就會跑偏。尤其是在處理預算、數量、配置變更這類累積性更新時,一次遺漏就足以讓最終結果面目全非。一個很生活化的例子是:你明確告訴AI,“我不僅有甲殼類過敏,最近發現對魷魚和章魚這類頭足類動物也會產生交叉反應,今后完全不碰頭足類食物。”最初幾輪,你打算點一份炸魷魚時,它會果斷提醒你有風險。但隨著時間推移,這個更新過的限制被后續的對話層層覆蓋,到了某一刻,它可能對此毫無反應,任由那份充滿隱患的訂單順利通過。
![]()
第四類是“維護”。這是最隱蔽的一種老化,因為它不是由內容本身觸發的,而是源于日常運維動作——重新壓縮、提示詞更新、日志清理、切換底層模型。每一次看似無害的后臺操作,都可能悄悄改變AI代理的行為邊界。想象這樣一個場景:你剛把一份電商銷售報告輸入系統,緊接著問它“我們平臺上賣得最好的商品是什么”,它立刻給出正確答案。緊接著運維人員為了節省空間,清除了原始對話記錄,只保留壓縮后的摘要。當你再次提出同一個問題時,它可能腦袋空空,什么都答不上來。數據沒丟,但通往數據的路被切斷了。
AgingBench的價值在于,它不止能告訴你“AI老了”,還能幫你找出是哪一種機制導致了這次失敗。研究團隊用14個模型、7種不同場景做了一輪摸底,結果發現老化并不是一條直線。有時候AI在行為測試上表現依然不錯,可事實性準確度已經悄然滑坡。同樣的一個錯誤,在不同的模型身上,可能是壓縮造成的,也可能是干擾或修訂機制出了岔子。這意味著單純看總分是沒用的,必須做機制層面的診斷。
團隊在報告的末尾留下了一句值得產品和技術負責人琢磨的話:想要讓AI代理真正可靠地長期運行,光是把第一天的模型參數調得更強,遠遠不夠。壽命評估、機制層面的診斷、分階段的修正方案,這三樣東西必須同時被納入到部署流程里去。否則,你只是在優化一個跑得很快、但跑不了太遠的選手。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.