來源:市場資訊
(來源:電車通)
監制:羅超
![]()
北京車展首日,卓馭科技正式推出了行業首個原生多模態基礎模型,圍繞“移動物理AI”,讓智能駕駛將不再局限于乘用車領域,商用重卡、物流車、Robotaxi,甚至是車載無人機,都能用上這一套移動物理AI。
雷科技/電車通收到卓馭的體驗邀請,能在北京車展展館外搶先感受搭載這套原生多模態基礎模型的紅旗HS6,在北京市區路段的真實表現。
![]()
圖源:電車通攝制
據官方介紹,這個模型在底層完成對物理世界通用規律的預訓練,支持視頻、文本、動作、語音、地圖等多模態信息統一輸入。由于所有模態均在統一框架下完成訓練,語義翻譯帶來的延遲與信息損耗被消除,其最終目標是做到跨垂類開箱即用、全球零泛化或少泛化。
以下是電車通的體驗分享。
上車后的第一段路,是展館外圍的主干道。路面寬闊、標線清晰,車流雖然密集但秩序良好。這套搭載11V1L1R感知方案(含激目2.0)和Thor-U芯片的系統,在這一簡單場景下顯得游刃有余,跟車距離控制得恰到好處,加減速線性自然。
![]()
圖源:電車通攝制
真正讓人提起精神的,是第二段路——展館背后的狹窄小路。
這樣的路況尤為真實,雙向單車道窄路兩側停滿了車,對向不時有來車需要錯位通行,電動車和外賣騎手在車縫中靈巧穿梭,偶爾還有行人從路邊停靠的車輛縫隙中突然探出。面對這些場景,許多智駕系統早已束手無策。
面對一條被違停車輛壓縮到僅剩一車寬的窄道,系統以一個干脆的超車動作繞行前車,并沒有像許多系統那樣猶豫不決地原地“思考”幾秒,整個過程從減速、觀察、轉向到加速一氣呵成,電車通(ID:dianchetong233)坐在后排幾乎感受不到任何頓挫或者遲疑。
![]()
圖源:電車通攝制
這樣的流暢表現,其實已經呈現出原生多模態基礎模型和常規VLA路線的本質區別。
VLA模型本質是各種技術拼接后的結果,視覺先看懂,翻譯給語言,語言想明白,再轉譯成動作,有點像人類思考問題的過程,我看到前面有障礙物,思考這是什么,然后做出怎樣的決策。
原生多模態基礎模型則不同,視覺、語言、動作在底層就完成了聯合預訓練,消除了語義翻譯帶來的延遲與信息損耗,從而直接就能做出反應。
![]()
圖源:電車通攝制
有一點讓電車通印象深刻,就是車輛準備右轉時,此時有一輛電動車從車輛右側直行超過,要是以往的智駕系統,很可能會急剎車,但卓馭這套大模型,只是微微降低車速,算準時機就通過,從容得像十年駕齡的老司機。
要是在幾年前,智駕系統考慮到安全性,在這種情況下肯定會突然急制動。如今這個表現,已經與老司機的駕駛習慣基本一致。
![]()
圖源:電車通攝制
稍顯遺憾的是,雖然此次體驗已經特地選擇了展館附近比較窄的道路,但旅途沒有遇到太多復雜路段,沒辦法將系統的大部分能力展現出來。
試駕結束之后,電車通與現場的技術人員交流后了解到,這套原生多模態基礎模型通過量化蒸餾技術,可以適配從高通SA8650到地平線J6M等中高算力平臺,從而支持乘用車、商用車、物流車等多垂類部署。據規劃,這套系統將在今年8月達到量產狀態。
對于智駕系統應用在商用車和物流車上,電車通(ID:dianchetong233)十分期待。
![]()
圖源:電車通攝制
一方面,為了多掙碎銀幾兩,貨車司機常常需要長時間駕駛,智駕系統能有效減輕他們的駕駛負擔,降低疲勞駕駛的風險,提高運輸效率。另一方面,物流車的配送任務繁重,智駕系統可以實現更精準的路線規劃和調度,減少配送時間和成本。
由此看來,卓馭原生多模態基礎模型的長遠價值得以充分體現。
(封面圖源:電車通攝制)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.