DoorDash的客服團(tuán)隊(duì)盯著屏幕,又一次看到機(jī)器人給出了不存在的退款政策。不是那種憑空捏造對(duì)話的戲劇性幻覺,而是更隱蔽、更難捕捉的一種——機(jī)器人瞥了一眼顧客的歷史訂單,瞅見一個(gè)配送狀態(tài)字段,讀岔了,然后就自信滿滿地建議了一個(gè)從未存在過的退款規(guī)則。問題的根源并不在數(shù)據(jù)缺失,那些原始信息就躺在聊天機(jī)器人的上下文窗口里,那個(gè)大語言模型用來生成回復(fù)的臨時(shí)記憶區(qū)里。恰恰是信息太多,反而讓事情變得更糟。
作為美國最大的外賣和本地商務(wù)平臺(tái)之一,DoorDash每天處理數(shù)十萬次的顧客、商家和騎手的支持請(qǐng)求。自動(dòng)化客服不是錦上添花,而是生存必需。面對(duì)如此龐大的規(guī)模,任何一次微小的模型偏差都可能被放大成系統(tǒng)性的問題。團(tuán)隊(duì)很清楚癥結(jié)所在,但修復(fù)起來卻是另一回事。他們陷入了一個(gè)兩難境地:為了減少某種場(chǎng)景下的幻覺而對(duì)提示詞做出改動(dòng),幾乎總會(huì)在另一個(gè)場(chǎng)景里引發(fā)新的問題。要么硬著頭皮把改動(dòng)推上生產(chǎn)環(huán)境,祈禱最好結(jié)果,這意味著拿真實(shí)的顧客體驗(yàn)來冒險(xiǎn);要么為每一次提示詞修改手動(dòng)測(cè)試幾十種對(duì)話情形,那可能要花上幾周時(shí)間,并且仍舊可能漏掉不少場(chǎng)景。
![]()
這種張力并非DoorDash獨(dú)有。這是任何人從傳統(tǒng)的確定性軟件轉(zhuǎn)向基于大語言模型的系統(tǒng)時(shí),都會(huì)碰到的根本性挑戰(zhàn)。以前,DoorDash的客服系統(tǒng)跑在手工構(gòu)建的決策樹上,每項(xiàng)改動(dòng)帶來的影響都是可預(yù)測(cè)、可追溯的。大語言模型用靈活性、更自然的對(duì)話取代了這種確定性,但也引入了非確定性——同一個(gè)輸入,可能每次產(chǎn)生不同的輸出。這不是一個(gè)單純的精度問題,而是一場(chǎng)開發(fā)范式的轉(zhuǎn)換。
正方的聲音很響亮:LLM讓自動(dòng)化客服變得像真人一樣,能夠理解模糊的請(qǐng)求,處理邊界情況,而不需要窮舉所有分支。它能讀懂上下文,能共情,能在瞬間切換多種角色。但反方同樣有理有據(jù):這種靈活性的代價(jià)是不可控。一個(gè)決策樹你可以測(cè)試所有的路徑;一個(gè)神經(jīng)網(wǎng)絡(luò)你卻無法窮舉所有可能的輸出。每次看似微小的提示工程調(diào)整,都像是在一個(gè)復(fù)雜的系統(tǒng)里調(diào)動(dòng)一個(gè)變量,可能在不經(jīng)意間打破另一個(gè)角落的平衡。DoorDash團(tuán)隊(duì)的困境恰恰印證了這一點(diǎn):每一次“改進(jìn)”,都伴隨著新的不可預(yù)見的故障模式。
那么,到底該信哪邊?DoorDash給出的答案,并不是造一個(gè)更好的聊天機(jī)器人,而是構(gòu)建了一套更好的改進(jìn)機(jī)器人的系統(tǒng)。他們把它叫作“仿真與評(píng)估飛輪”。這個(gè)名字本身就透露出一層冷靜的判斷:與其在幻覺和呆板之間反復(fù)橫跳,不如讓評(píng)估本身成為持續(xù)運(yùn)轉(zhuǎn)的引擎。根據(jù)DoorDash工程團(tuán)隊(duì)公開分享的細(xì)節(jié),這個(gè)飛輪包含兩個(gè)相互關(guān)聯(lián)的部分。具體運(yùn)作機(jī)制尚未完全披露,但這個(gè)方向本身就已經(jīng)點(diǎn)明了一個(gè)行業(yè)共識(shí):當(dāng)模型變得不可預(yù)測(cè)時(shí),投入的重點(diǎn)應(yīng)該從模型本身轉(zhuǎn)向圍繞模型的測(cè)試和反饋體系。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.