亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI前員工自曝:AI agent迭代7次后,我們被迫手動拔電源

0
分享至


一個AI agent連續(xù)迭代了7輪還沒收斂,團隊最后只能手動終止進程——這不是段子,是某頭部AI公司工程師上周在Hacker News上的真實吐槽。

大語言模型(LLM)能寫詩能寫代碼,但讓它自主干活時,最大的敵人是它自己。幻覺、跑題、輸出格式錯亂,這些問題不會因為你用了GPT-4就消失。工程師們現(xiàn)在的解法很樸素:給AI的輸出加驗證層,不通過就打回去重寫,直到合格為止。

迭代循環(huán)的死亡陷阱

這套"驗證-反饋-再生成"的機制聽起來合理,實操起來全是坑。某金融公司的客服agent曾陷入無限循環(huán):用戶問"我的退款到哪了",AI查了訂單→發(fā)現(xiàn)異常→建議聯(lián)系人工→用戶堅持要AI解決→AI再查訂單……驗證層每次都說"邏輯通順",但業(yè)務上這是死胡同。

核心矛盾在于:驗證層能檢查語法和格式,卻判斷不了"這個回答是否真正解決了用戶問題"。工程師們被迫在代碼里硬編碼兜底策略——超過5輪強制退出,取歷史輸出中置信度最高的那個。這本質(zhì)上是用確定性規(guī)則給概率模型擦屁股。

三種止損策略的殘酷對比

業(yè)內(nèi)目前有三種主流方案,各有利弊。

固定次數(shù)截斷最簡單:設(shè)個上限比如5次,到點拉閘。代價是可能錯過第6次才出現(xiàn)的優(yōu)質(zhì)輸出,也可能在第3次就浪費算力。某電商公司的測試數(shù)據(jù)顯示,固定5輪的方案有12%的任務本可在第6輪達標。

動態(tài)閾值判斷更精細:當連續(xù)兩輪輸出的相似度超過90%,或驗證分數(shù)提升小于0.05時停止。這需要額外的評估模型,而評估模型本身也可能出錯。有團隊反饋,動態(tài)閾值在簡單任務上省算力,復雜任務上反而拖得更久。

人機協(xié)作兜底最保險:第3輪還沒過就彈窗給人類審核。但這違背了自動化的初衷,且人類審核員的響應時間直接把agent的"實時性"優(yōu)勢抹掉。

沒有銀彈,只有場景適配

醫(yī)療診斷agent和電商客服agent的迭代策略不可能相同。前者容錯率極低,寧可多跑幾輪也要確保準確;后者用戶耐心有限,3輪沒結(jié)果直接流失。某自動駕駛公司的規(guī)控agent甚至采用了分層策略:感知層固定3輪,決策層動態(tài)閾值,執(zhí)行層人機兜底。

一個反直覺的發(fā)現(xiàn)是:驗證層的設(shè)計比生成層更難。生成可以靠堆數(shù)據(jù)和算力,驗證需要領(lǐng)域知識沉淀。某法律AI團隊花了8個月打磨合同審查的驗證規(guī)則,而基座模型只換了2次。

那位在Hacker News吐槽的工程師最后更新說,他們現(xiàn)在的做法是"讓agent自己決定要不要繼續(xù)"——給模型注入一段系統(tǒng)提示,讓它評估當前輸出是否足夠好。這聽起來像甩鍋,但實測下來,GPT-4的自我評估準確率比固定規(guī)則高了23%。

問題是,如果agent判斷錯了呢?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普暗示對伊朗的打擊行動將持續(xù)

特朗普暗示對伊朗的打擊行動將持續(xù)

每日經(jīng)濟新聞
2026-04-15 23:46:58
外國人扎堆來中國看?。鹤≡?天賬單4萬美元,被歐美醫(yī)療逼瘋了!

外國人扎堆來中國看病:住院3天賬單4萬美元,被歐美醫(yī)療逼瘋了!

古事尋蹤記
2026-04-15 07:21:44
40歲女教師因糖尿病離世,生前不吃甜食,醫(yī)生:2物或是元兇

40歲女教師因糖尿病離世,生前不吃甜食,醫(yī)生:2物或是元兇

醫(yī)學原創(chuàng)故事會
2026-04-15 23:44:02
鄭麗文書法爭議:她的字真的不是自己寫的嗎?

鄭麗文書法爭議:她的字真的不是自己寫的嗎?

書畫相約
2026-04-08 08:19:04
王敏德細佬突然內(nèi)地爆紅,曾演「法國賭神」爆紅後來退圈衰老極快

王敏德細佬突然內(nèi)地爆紅,曾演「法國賭神」爆紅後來退圈衰老極快

粵睇先生
2026-04-15 21:57:36
比賴清德更狂的人出現(xiàn)了,只要她當上臺灣領(lǐng)導人,我軍必定收臺

比賴清德更狂的人出現(xiàn)了,只要她當上臺灣領(lǐng)導人,我軍必定收臺

徐慍解說
2026-03-28 16:34:33
美國將退還超1萬億元關(guān)稅

美國將退還超1萬億元關(guān)稅

界面新聞
2026-04-15 15:57:31
做好泡沫破滅的心理準備!

做好泡沫破滅的心理準備!

金牛遠望號
2026-04-15 20:35:59
研究表明:性生活越頻繁,射精和勃起問題越少!

研究表明:性生活越頻繁,射精和勃起問題越少!

黯泉
2026-04-05 20:40:12
澀爆了!王阿姨性感蕾絲火力全開 里昂直接被放倒

澀爆了!王阿姨性感蕾絲火力全開 里昂直接被放倒

游民星空
2026-04-15 18:04:41
雍正王朝穿幫鏡頭:康熙戴勞力士忍了,喬引娣穿球鞋真忍不了

雍正王朝穿幫鏡頭:康熙戴勞力士忍了,喬引娣穿球鞋真忍不了

杰絲聊古今
2026-03-29 07:16:55
女子高空拋撒百萬港幣后續(xù):正面照曝光,原因公開,親屬曝出內(nèi)情

女子高空拋撒百萬港幣后續(xù):正面照曝光,原因公開,親屬曝出內(nèi)情

解鎖世界風云
2026-04-15 20:34:10
忠告子女:父母年過80,無論孝與不孝,做好這八件事別留終身遺憾

忠告子女:父母年過80,無論孝與不孝,做好這八件事別留終身遺憾

游戲收藏指南
2026-04-13 06:45:12
互聯(lián)網(wǎng)大廠開始清退組內(nèi)的印度人!

互聯(lián)網(wǎng)大廠開始清退組內(nèi)的印度人!

黯泉
2026-04-15 20:34:55
香港老戲骨江圖去世,無兒無女留千萬遺產(chǎn),托付古天樂操辦后事

香港老戲骨江圖去世,無兒無女留千萬遺產(chǎn),托付古天樂操辦后事

手工制作阿殲
2026-04-16 00:51:07
中方奉陪到底,準時下通牒!美國15艘軍艦全離港,真主黨反抗到底

中方奉陪到底,準時下通牒!美國15艘軍艦全離港,真主黨反抗到底

杰絲聊古今
2026-04-16 00:33:10
年報重磅出爐!藍色光標十倍成長空間已開啟

年報重磅出爐!藍色光標十倍成長空間已開啟

風風順
2026-04-16 01:20:03
曝俄羅斯竟向赫爾松的部隊分配土地?烏克蘭空襲俄指揮部

曝俄羅斯竟向赫爾松的部隊分配土地?烏克蘭空襲俄指揮部

項鵬飛
2026-04-13 16:32:51
巴基斯坦也沒有想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

巴基斯坦也沒有想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

豬小艷吖
2026-04-13 22:30:24
美軍封鎖禁令剛下,4艘中方巨輪直沖霍爾木茲,我國054A軍艦護送

美軍封鎖禁令剛下,4艘中方巨輪直沖霍爾木茲,我國054A軍艦護送

漫步獨行俠
2026-04-15 08:30:07
2026-04-16 04:03:00
閃存獵手
閃存獵手
全網(wǎng)蹲好價的野生捕手,算力與羊毛都不可辜負。
1398文章數(shù) 9關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國全票通過 “將不義之財歸還中國”

頭條要聞

法國全票通過 “將不義之財歸還中國”

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

健康
教育
本地
房產(chǎn)
公開課

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

黃岡小升初招生題,求面積,方法思路太絕了

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學用地!寶龍城這把穩(wěn)了?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版