網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI Agent顛覆了端到端了嗎？

2025-08-03 21:10:57　來(lái)源: 新浪汽車(chē)出品

北京舉報(bào)

分享至

這幾個(gè)月，已經(jīng)有些科技企業(yè)和主機(jī)廠試圖用AI Agent（智能體）做自動(dòng)駕駛，聲稱能規(guī)避端到端的弊端。當(dāng)然，這些做法也沒(méi)大聲嚷嚷。一個(gè)是監(jiān)管因素，另一個(gè)可能是AI Agent才剛剛起步。

端到端的長(zhǎng)尾能力，為什么不行

經(jīng)過(guò)一年多的商業(yè)化落地，端到端+VLM（視覺(jué)語(yǔ)言大模型）在長(zhǎng)尾場(chǎng)景中表現(xiàn)不如期待，背后的原因是決策短視。在中我們?cè)?jīng)討論過(guò)，端到端往往以單幀畫(huà)面、單步動(dòng)向作為決策依據(jù)，缺乏對(duì)未來(lái)數(shù)秒內(nèi)連貫的規(guī)劃能力，沒(méi)有形成“策略序列”。這一點(diǎn)上不如人類(lèi)。其實(shí)無(wú)須長(zhǎng)尾，就一個(gè)簡(jiǎn)單的左轉(zhuǎn)，端到端也是只考慮下一秒動(dòng)作，沒(méi)有完整的通過(guò)路口的規(guī)劃。之所以實(shí)際動(dòng)作看上去還算連貫，是由多個(gè)“下一秒動(dòng)作”串起來(lái)。一旦中間出岔子，需要改變計(jì)劃的時(shí)候，系統(tǒng)就缺乏應(yīng)變能力。

背后還有一個(gè)原因，就是端到端的感知是被動(dòng)的。模型訓(xùn)練階段就固定接收低維度文本指令（如速度、導(dǎo)航信息）和完整視覺(jué)信息。對(duì)圖像的關(guān)鍵細(xì)節(jié)缺乏關(guān)注，形成視覺(jué)忽視。到底什么才被認(rèn)定為“關(guān)鍵細(xì)節(jié)”，是人類(lèi)駕駛的核心技能。

比如等待左轉(zhuǎn)的經(jīng)典場(chǎng)景：左轉(zhuǎn)燈剛亮，右側(cè)人行橫道遠(yuǎn)端晃過(guò)一團(tuán)影子。電光火石間，人馬上就察覺(jué)到存在兩個(gè)不合理之處：一個(gè)是人行橫道方向正處于紅燈，另一個(gè)即便在人行道上，這個(gè)速度也絕對(duì)不是行人。只有注意到“異常”，才會(huì)及時(shí)剎車(chē)。多半是外賣(mài)電動(dòng)車(chē)順人行橫道闖紅燈搶行。

如果只注重信號(hào)燈、交通規(guī)則和前一秒的畫(huà)面，就不會(huì)有制動(dòng)決策。端到端的無(wú)依托左轉(zhuǎn)向來(lái)有問(wèn)題，就是因?yàn)樘幚聿涣诉@種復(fù)雜場(chǎng)景。

對(duì)于不確定又很關(guān)鍵的視覺(jué)信息，人類(lèi)司機(jī)的處理方式，通常都是“再看一眼”或“湊近點(diǎn)看”。如果情況緊急則采取保守策略。

顯然，人類(lèi)應(yīng)對(duì)長(zhǎng)尾的行為，包含了策略序列和主動(dòng)感知兩個(gè)重要能力。

世界模型的合成數(shù)據(jù)，兩種大模型訓(xùn)練效果不同

有些企業(yè)就想用AI Agent的方式來(lái)解決解決長(zhǎng)尾問(wèn)題。在線互動(dòng)上，智能體已經(jīng)獲得廣泛應(yīng)用。想想打銀行客服電話，對(duì)面是誰(shuí)接起電話。智能體不止能當(dāng)客服和電子助手，在線教學(xué)、客戶專(zhuān)業(yè)支持、數(shù)據(jù)庫(kù)助手……看上去智能體似乎更勝任與人類(lèi)互動(dòng)。在車(chē)端，智能體也首先用于座艙互動(dòng)。

將其作為聊天助手，其引擎通常就是LLM（大語(yǔ)言模型）。如果搭建VLA（語(yǔ)言-視覺(jué)-行為大模型），即從思考范式上成為一個(gè)駕駛智能體（模擬司機(jī)），是不是能夠更好地解決長(zhǎng)尾問(wèn)題，讓智駕具備L3能力呢。

兩者都需要大模型訓(xùn)練、蒸餾和車(chē)端轉(zhuǎn)移小模型。不過(guò)，兩者區(qū)別幾乎體現(xiàn)在所有環(huán)節(jié)。端到端為了應(yīng)對(duì)長(zhǎng)尾，需要大量實(shí)車(chē)數(shù)據(jù)。世界模型生成的合成數(shù)據(jù)，用于端到端訓(xùn)練效果不好。

簡(jiǎn)單說(shuō)，合成數(shù)據(jù)可以擴(kuò)充樣本，但是沒(méi)辦法解決“零樣本泛化”的問(wèn)題。比如我們用各種“鬼探頭”合成數(shù)據(jù)訓(xùn)練端到端大模型，感覺(jué)練得也挺好的，結(jié)果一上路，碰到一輛驢車(chē)，又懵了。長(zhǎng)尾是無(wú)窮無(wú)盡的，非結(jié)構(gòu)性場(chǎng)景最好由認(rèn)知推動(dòng)，由數(shù)據(jù)推動(dòng)的端到端訓(xùn)練效果不理想。模擬考經(jīng)常得高分，一上正式考場(chǎng)就考砸。

Agent可以玩命用世界模型訓(xùn)練。合成環(huán)境對(duì)現(xiàn)實(shí)物理模擬很粗糙，但Agent可以通過(guò)視覺(jué)軌跡獎(jiǎng)勵(lì)，優(yōu)化決策。與端到端的被動(dòng)視覺(jué)不同，Agent通過(guò)多次主動(dòng)視覺(jué)-動(dòng)作的反饋，探索合理策略。這和人思維模式很像了，面對(duì)陌生場(chǎng)景，用保守方法（低速跟前車(chē)，隨時(shí)改變策略）試錯(cuò)。而不是像端到端那樣的內(nèi)部黑箱。

看和聽(tīng)的能力

主動(dòng)視覺(jué)有兩個(gè)特征，一個(gè)是“對(duì)齊”，另一個(gè)是自動(dòng)調(diào)整權(quán)重。調(diào)權(quán)重很容易理解，在雨雪霧天氣里面，激光雷達(dá)和攝像頭都會(huì)受到強(qiáng)干擾，而且這些干擾很難用濾波手段去除。這個(gè)時(shí)候，如果降低攝像頭感知權(quán)重，提升毫米波雷達(dá)權(quán)重，將減少誤判。人也是如此，黑暗的環(huán)境下，人雖然不能像蝙蝠那樣發(fā)出超聲波探路，但不由自主“豎起耳朵”專(zhuān)注于聲音，同時(shí)降低視覺(jué)敏感度。

而“對(duì)齊”也是人類(lèi)的核心技能。面對(duì)一幅畫(huà)面或者動(dòng)態(tài)圖，如果有人說(shuō)，找找畫(huà)面里面的“半個(gè)蘋(píng)果”，你還會(huì)關(guān)注每個(gè)細(xì)節(jié)嗎？顯然不，你只會(huì)快速掃描整幅圖，去找那個(gè)符合語(yǔ)言特征的玩意。順便說(shuō)一句，駕駛當(dāng)中，交通標(biāo)志標(biāo)線、各種畫(huà)面、人類(lèi)口語(yǔ)，都是“大語(yǔ)言”。

這就是語(yǔ)言和圖像的“對(duì)齊”。一句話一般只與畫(huà)面中特定細(xì)節(jié)對(duì)應(yīng)。如果提供一個(gè)長(zhǎng)文本，任何受過(guò)基礎(chǔ)教育的人，也是迅速找到與圖畫(huà)描述有關(guān)的詞句。然后和畫(huà)面特定位置建立映射。Agent也具有這個(gè)能力，即建立了跨模態(tài)語(yǔ)義匹配與融合能力。

一輛車(chē)如果由AI Agent駕駛，人可以隨時(shí)發(fā)號(hào)施令：“跟住前面第二輛紅車(chē)，別管眼前這輛白的”。系統(tǒng)自己會(huì)選擇“一組”合理策略執(zhí)行這道模糊的命令。

想做到這一點(diǎn)，需要完成視覺(jué)語(yǔ)言的基座訓(xùn)練（主要練“對(duì)齊”），思維-動(dòng)作后訓(xùn)練（其中關(guān)鍵是擴(kuò)散模型，持續(xù)預(yù)測(cè)軌跡和環(huán)境，以便調(diào)整），強(qiáng)化訓(xùn)練（包含剛才說(shuō)的獎(jiǎng)勵(lì)模型）。這些訓(xùn)練完成之后，能在車(chē)端運(yùn)行的AI Agent也就有了。

內(nèi)化規(guī)則

和端到端需要另加規(guī)則兜底不同，AI Agent可以內(nèi)化規(guī)則，就通過(guò)獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)的方式。比如讓行救護(hù)車(chē)、消防車(chē)等，Agent計(jì)算“讓行代價(jià)=延誤時(shí)間×急迫系數(shù)”、“不讓行風(fēng)險(xiǎn)=事故概率×傷亡可能性”等量化規(guī)則，而非依賴一堆條件語(yǔ)句。

AI Agent的核心突破在于，分層推理將數(shù)據(jù)轉(zhuǎn)化為可交互的知識(shí)，其訓(xùn)練過(guò)程更接近人類(lèi)駕駛員的經(jīng)驗(yàn)積累模式——在理解規(guī)則的基礎(chǔ)上通過(guò)實(shí)踐優(yōu)化策略。也因?yàn)橥瑯釉颍丝梢耘cAI Agent互動(dòng)，參與駕駛。這是“人機(jī)共駕”的高級(jí)階段，不是通過(guò)控制權(quán)交接，而是用語(yǔ)言就能互動(dòng)和干預(yù)。

語(yǔ)言映射和決策-行為多次反饋機(jī)制，與人開(kāi)車(chē)的方式也很類(lèi)似。與端到端相比，強(qiáng)學(xué)習(xí)的AI Agent更像人，其推理結(jié)果和行為模式都可以驗(yàn)證和反推，與端到端不同。

兩者暫時(shí)各擅勝場(chǎng)

說(shuō)了這么多AI Agent的優(yōu)點(diǎn)，是不是說(shuō)它可以一腳將端到端踢開(kāi)，成為智駕主流？AI Agent有個(gè)很大的缺點(diǎn)——決策時(shí)間長(zhǎng)，都是秒級(jí)的。對(duì)于一些緊急情況，顯然不行。因此有些企業(yè)試圖讓端到端主導(dǎo)99%的L2場(chǎng)景，即輕量化思考；只有1%左右的長(zhǎng)尾場(chǎng)景，由AI Agent來(lái)完成復(fù)雜博弈。后者的思維鏈也不能太長(zhǎng)，最多三四層。再長(zhǎng)的話人受不了，就像臨門(mén)一腳思考人生一樣詭異。

當(dāng)然這是實(shí)驗(yàn)性質(zhì)的。兩種架構(gòu)融合在一起，才有商業(yè)化部署的價(jià)值（比如云端協(xié)同）。如果能為世界模型開(kāi)發(fā)出高保真物理引擎，強(qiáng)化學(xué)習(xí)可能訓(xùn)練出同時(shí)具備精準(zhǔn)控制和復(fù)雜博弈能力的時(shí)敏型駕駛模型。

這需要解決三個(gè)問(wèn)題：邏輯鏈的實(shí)時(shí)性瓶頸、神經(jīng)符號(hào)系統(tǒng)保障決策的可解釋性、跨場(chǎng)景認(rèn)知遷移機(jī)制。

當(dāng)前條件下，端到端方案仍是L2量產(chǎn)的最優(yōu)解。雖然沒(méi)摸到其能力邊界，但有能力登上L3高臺(tái)階的，大概率是AI Agent，只要解決其思考時(shí)長(zhǎng)問(wèn)題。而復(fù)雜泊車(chē)等非時(shí)敏型場(chǎng)景，現(xiàn)在AI Agent就已經(jīng)解決得很好。

自動(dòng)駕駛的核心矛盾，一直都是無(wú)限場(chǎng)景空間與有限訓(xùn)練資源的對(duì)抗。端到端方案更傾向于通過(guò)實(shí)車(chē)數(shù)據(jù)提升數(shù)據(jù)利用效率，AI Agent則通過(guò)決策范式以降低數(shù)據(jù)依賴。兩者關(guān)系如同內(nèi)燃機(jī)與電動(dòng)機(jī)——短期并存滿足不同場(chǎng)景需求，長(zhǎng)期催生融合新架構(gòu)。或者還有一種可能，就是其中一種解決自身瓶頸，從而取代對(duì)方。看長(zhǎng)期的話，AI Agent更有希望做到這一點(diǎn)。

注：圖片部分來(lái)源網(wǎng)絡(luò)，如有侵權(quán)，聯(lián)系刪除。

“消失的前車(chē)”透露了智駕哪方面缺陷？

克服AI幻覺(jué)？也許在開(kāi)智駕倒車(chē)

2025過(guò)半，整車(chē)市場(chǎng)終局的端倪

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.