這幾個(gè)月,已經(jīng)有些科技企業(yè)和主機(jī)廠試圖用AI Agent(智能體)做自動(dòng)駕駛,聲稱能規(guī)避端到端的弊端。當(dāng)然,這些做法也沒(méi)大聲嚷嚷。一個(gè)是監(jiān)管因素,另一個(gè)可能是AI Agent才剛剛起步。
端到端的長(zhǎng)尾能力,為什么不行
經(jīng)過(guò)一年多的商業(yè)化落地,端到端+VLM(視覺(jué)語(yǔ)言大模型)在長(zhǎng)尾場(chǎng)景中表現(xiàn)不如期待,背后的原因是決策短視。在中我們?cè)?jīng)討論過(guò),端到端往往以單幀畫(huà)面、單步動(dòng)向作為決策依據(jù),缺乏對(duì)未來(lái)數(shù)秒內(nèi)連貫的規(guī)劃能力,沒(méi)有形成“策略序列”。這一點(diǎn)上不如人類(lèi)。其實(shí)無(wú)須長(zhǎng)尾,就一個(gè)簡(jiǎn)單的左轉(zhuǎn),端到端也是只考慮下一秒動(dòng)作,沒(méi)有完整的通過(guò)路口的規(guī)劃。之所以實(shí)際動(dòng)作看上去還算連貫,是由多個(gè)“下一秒動(dòng)作”串起來(lái)。一旦中間出岔子,需要改變計(jì)劃的時(shí)候,系統(tǒng)就缺乏應(yīng)變能力。
背后還有一個(gè)原因,就是端到端的感知是被動(dòng)的。模型訓(xùn)練階段就固定接收低維度文本指令(如速度、導(dǎo)航信息)和完整視覺(jué)信息。對(duì)圖像的關(guān)鍵細(xì)節(jié)缺乏關(guān)注,形成視覺(jué)忽視。到底什么才被認(rèn)定為“關(guān)鍵細(xì)節(jié)”,是人類(lèi)駕駛的核心技能。
比如等待左轉(zhuǎn)的經(jīng)典場(chǎng)景:左轉(zhuǎn)燈剛亮,右側(cè)人行橫道遠(yuǎn)端晃過(guò)一團(tuán)影子。電光火石間,人馬上就察覺(jué)到存在兩個(gè)不合理之處:一個(gè)是人行橫道方向正處于紅燈,另一個(gè)即便在人行道上,這個(gè)速度也絕對(duì)不是行人。只有注意到“異常”,才會(huì)及時(shí)剎車(chē)。多半是外賣(mài)電動(dòng)車(chē)順人行橫道闖紅燈搶行。
如果只注重信號(hào)燈、交通規(guī)則和前一秒的畫(huà)面,就不會(huì)有制動(dòng)決策。端到端的無(wú)依托左轉(zhuǎn)向來(lái)有問(wèn)題,就是因?yàn)樘幚聿涣诉@種復(fù)雜場(chǎng)景。
對(duì)于不確定又很關(guān)鍵的視覺(jué)信息,人類(lèi)司機(jī)的處理方式,通常都是“再看一眼”或“湊近點(diǎn)看”。如果情況緊急則采取保守策略。
顯然,人類(lèi)應(yīng)對(duì)長(zhǎng)尾的行為,包含了策略序列和主動(dòng)感知兩個(gè)重要能力。
世界模型的合成數(shù)據(jù),兩種大模型訓(xùn)練效果不同
有些企業(yè)就想用AI Agent的方式來(lái)解決解決長(zhǎng)尾問(wèn)題。在線互動(dòng)上,智能體已經(jīng)獲得廣泛應(yīng)用。想想打銀行客服電話,對(duì)面是誰(shuí)接起電話。智能體不止能當(dāng)客服和電子助手,在線教學(xué)、客戶專(zhuān)業(yè)支持、數(shù)據(jù)庫(kù)助手……看上去智能體似乎更勝任與人類(lèi)互動(dòng)。在車(chē)端,智能體也首先用于座艙互動(dòng)。
將其作為聊天助手,其引擎通常就是LLM(大語(yǔ)言模型)。如果搭建VLA(語(yǔ)言-視覺(jué)-行為大模型),即從思考范式上成為一個(gè)駕駛智能體(模擬司機(jī)),是不是能夠更好地解決長(zhǎng)尾問(wèn)題,讓智駕具備L3能力呢。
兩者都需要大模型訓(xùn)練、蒸餾和車(chē)端轉(zhuǎn)移小模型。不過(guò),兩者區(qū)別幾乎體現(xiàn)在所有環(huán)節(jié)。端到端為了應(yīng)對(duì)長(zhǎng)尾,需要大量實(shí)車(chē)數(shù)據(jù)。世界模型生成的合成數(shù)據(jù),用于端到端訓(xùn)練效果不好。
簡(jiǎn)單說(shuō),合成數(shù)據(jù)可以擴(kuò)充樣本,但是沒(méi)辦法解決“零樣本泛化”的問(wèn)題。比如我們用各種“鬼探頭”合成數(shù)據(jù)訓(xùn)練端到端大模型,感覺(jué)練得也挺好的,結(jié)果一上路,碰到一輛驢車(chē),又懵了。長(zhǎng)尾是無(wú)窮無(wú)盡的,非結(jié)構(gòu)性場(chǎng)景最好由認(rèn)知推動(dòng),由數(shù)據(jù)推動(dòng)的端到端訓(xùn)練效果不理想。模擬考經(jīng)常得高分,一上正式考場(chǎng)就考砸。
Agent可以玩命用世界模型訓(xùn)練。合成環(huán)境對(duì)現(xiàn)實(shí)物理模擬很粗糙,但Agent可以通過(guò)視覺(jué)軌跡獎(jiǎng)勵(lì),優(yōu)化決策。與端到端的被動(dòng)視覺(jué)不同,Agent通過(guò)多次主動(dòng)視覺(jué)-動(dòng)作的反饋,探索合理策略。這和人思維模式很像了,面對(duì)陌生場(chǎng)景,用保守方法(低速跟前車(chē),隨時(shí)改變策略)試錯(cuò)。而不是像端到端那樣的內(nèi)部黑箱。
看和聽(tīng)的能力
主動(dòng)視覺(jué)有兩個(gè)特征,一個(gè)是“對(duì)齊”,另一個(gè)是自動(dòng)調(diào)整權(quán)重。調(diào)權(quán)重很容易理解,在雨雪霧天氣里面,激光雷達(dá)和攝像頭都會(huì)受到強(qiáng)干擾,而且這些干擾很難用濾波手段去除。這個(gè)時(shí)候,如果降低攝像頭感知權(quán)重,提升毫米波雷達(dá)權(quán)重,將減少誤判。人也是如此,黑暗的環(huán)境下,人雖然不能像蝙蝠那樣發(fā)出超聲波探路,但不由自主“豎起耳朵”專(zhuān)注于聲音,同時(shí)降低視覺(jué)敏感度。
而“對(duì)齊”也是人類(lèi)的核心技能。面對(duì)一幅畫(huà)面或者動(dòng)態(tài)圖,如果有人說(shuō),找找畫(huà)面里面的“半個(gè)蘋(píng)果”,你還會(huì)關(guān)注每個(gè)細(xì)節(jié)嗎?顯然不,你只會(huì)快速掃描整幅圖,去找那個(gè)符合語(yǔ)言特征的玩意。順便說(shuō)一句,駕駛當(dāng)中,交通標(biāo)志標(biāo)線、各種畫(huà)面、人類(lèi)口語(yǔ),都是“大語(yǔ)言”。
這就是語(yǔ)言和圖像的“對(duì)齊”。一句話一般只與畫(huà)面中特定細(xì)節(jié)對(duì)應(yīng)。如果提供一個(gè)長(zhǎng)文本,任何受過(guò)基礎(chǔ)教育的人,也是迅速找到與圖畫(huà)描述有關(guān)的詞句。然后和畫(huà)面特定位置建立映射。Agent也具有這個(gè)能力,即建立了跨模態(tài)語(yǔ)義匹配與融合能力。
一輛車(chē)如果由AI Agent駕駛,人可以隨時(shí)發(fā)號(hào)施令:“跟住前面第二輛紅車(chē),別管眼前這輛白的”。系統(tǒng)自己會(huì)選擇“一組”合理策略執(zhí)行這道模糊的命令。
想做到這一點(diǎn),需要完成視覺(jué)語(yǔ)言的基座訓(xùn)練(主要練“對(duì)齊”),思維-動(dòng)作后訓(xùn)練(其中關(guān)鍵是擴(kuò)散模型,持續(xù)預(yù)測(cè)軌跡和環(huán)境,以便調(diào)整),強(qiáng)化訓(xùn)練(包含剛才說(shuō)的獎(jiǎng)勵(lì)模型)。這些訓(xùn)練完成之后,能在車(chē)端運(yùn)行的AI Agent也就有了。
內(nèi)化規(guī)則
和端到端需要另加規(guī)則兜底不同,AI Agent可以內(nèi)化規(guī)則,就通過(guò)獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)的方式。比如讓行救護(hù)車(chē)、消防車(chē)等,Agent計(jì)算“讓行代價(jià)=延誤時(shí)間×急迫系數(shù)”、“不讓行風(fēng)險(xiǎn)=事故概率×傷亡可能性”等量化規(guī)則,而非依賴一堆條件語(yǔ)句。
AI Agent的核心突破在于,分層推理將數(shù)據(jù)轉(zhuǎn)化為可交互的知識(shí),其訓(xùn)練過(guò)程更接近人類(lèi)駕駛員的經(jīng)驗(yàn)積累模式——在理解規(guī)則的基礎(chǔ)上通過(guò)實(shí)踐優(yōu)化策略。也因?yàn)橥瑯釉颍丝梢耘cAI Agent互動(dòng),參與駕駛。這是“人機(jī)共駕”的高級(jí)階段,不是通過(guò)控制權(quán)交接,而是用語(yǔ)言就能互動(dòng)和干預(yù)。
語(yǔ)言映射和決策-行為多次反饋機(jī)制,與人開(kāi)車(chē)的方式也很類(lèi)似。與端到端相比,強(qiáng)學(xué)習(xí)的AI Agent更像人,其推理結(jié)果和行為模式都可以驗(yàn)證和反推,與端到端不同。
兩者暫時(shí)各擅勝場(chǎng)
說(shuō)了這么多AI Agent的優(yōu)點(diǎn),是不是說(shuō)它可以一腳將端到端踢開(kāi),成為智駕主流?AI Agent有個(gè)很大的缺點(diǎn)——決策時(shí)間長(zhǎng),都是秒級(jí)的。對(duì)于一些緊急情況,顯然不行。因此有些企業(yè)試圖讓端到端主導(dǎo)99%的L2場(chǎng)景,即輕量化思考;只有1%左右的長(zhǎng)尾場(chǎng)景,由AI Agent來(lái)完成復(fù)雜博弈。后者的思維鏈也不能太長(zhǎng),最多三四層。再長(zhǎng)的話人受不了,就像臨門(mén)一腳思考人生一樣詭異。
當(dāng)然這是實(shí)驗(yàn)性質(zhì)的。兩種架構(gòu)融合在一起,才有商業(yè)化部署的價(jià)值(比如云端協(xié)同)。如果能為世界模型開(kāi)發(fā)出高保真物理引擎,強(qiáng)化學(xué)習(xí)可能訓(xùn)練出同時(shí)具備精準(zhǔn)控制和復(fù)雜博弈能力的時(shí)敏型駕駛模型。
這需要解決三個(gè)問(wèn)題:邏輯鏈的實(shí)時(shí)性瓶頸、神經(jīng)符號(hào)系統(tǒng)保障決策的可解釋性、跨場(chǎng)景認(rèn)知遷移機(jī)制。
當(dāng)前條件下,端到端方案仍是L2量產(chǎn)的最優(yōu)解。雖然沒(méi)摸到其能力邊界,但有能力登上L3高臺(tái)階的,大概率是AI Agent,只要解決其思考時(shí)長(zhǎng)問(wèn)題。而復(fù)雜泊車(chē)等非時(shí)敏型場(chǎng)景,現(xiàn)在AI Agent就已經(jīng)解決得很好。
自動(dòng)駕駛的核心矛盾,一直都是無(wú)限場(chǎng)景空間與有限訓(xùn)練資源的對(duì)抗。端到端方案更傾向于通過(guò)實(shí)車(chē)數(shù)據(jù)提升數(shù)據(jù)利用效率,AI Agent則通過(guò)決策范式以降低數(shù)據(jù)依賴。兩者關(guān)系如同內(nèi)燃機(jī)與電動(dòng)機(jī)——短期并存滿足不同場(chǎng)景需求,長(zhǎng)期催生融合新架構(gòu)。或者還有一種可能,就是其中一種解決自身瓶頸,從而取代對(duì)方。看長(zhǎng)期的話,AI Agent更有希望做到這一點(diǎn)。
注:圖片部分來(lái)源網(wǎng)絡(luò),如有侵權(quán),聯(lián)系刪除。
“消失的前車(chē)”透露了智駕哪方面缺陷?
克服AI幻覺(jué)?也許在開(kāi)智駕倒車(chē)
2025過(guò)半,整車(chē)市場(chǎng)終局的端倪
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.