實時AI有個死結:視覺模型按毫秒跑,語言模型按秒算。強行同步,視頻卡成PPT,賬單能嚇死人。
Eric Maddox在KOS-MOS項目里解了這個題。他用YOLOv8n做視覺(6.2MB,純CPU跑),用Gemini 2.5 Flash做推理,兩者完全異步——視覺環永不停歇鎖60幀,語言環只在觸發時啟動。沒有GPU,沒有原始視頻幀喂給大模型,單用戶月成本不到0.5美元。
![]()
核心設計叫"異步流解耦"(Asynchronous Stream Decoupling)。視覺和語言兩條管道物理隔離,通過結構化上下文注入交換信息,而非互相等待。Maddox的測試數據:傳統同步架構會把60 FPS拖垮到0.2 FPS,KOS-MOS保持視覺流無損。
這套方案瞄準的是"環境計算"(ambient computing)——AI持續感知環境,同時深度思考,兩者互不阻塞。不是堆算力,是用架構換效率。
技術細節里有個反直覺點:YOLOv8n的COCO類泛化能力足夠支撐通用場景識別,不需要為精度換更大模型。Gemini 2.5 Flash的上下文窗口和API穩定性被選中,而非追求最新版本。每個選型都在為"可部署性"讓路。
開源實現已放出。對想落地多模態產品的團隊,這提供了一條避開GPU軍備競賽的路徑——前提是你的場景能接受"事件驅動"而非"流式連續"的交互模式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.