網易首頁 > 網易號 > 正文申請入駐

VideoDB突破：AI模型思考過程實現透明化揭示能力提升

2026-04-23 21:20:46　來源: 科技行者

北京舉報

分享至

這項由VideoDB工程團隊完成的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.11177，感興趣的讀者可通過該編號查閱完整論文。

當你問一個人"2加2等于幾"，他可能脫口而出"4"。但如果你問"請解釋一下為什么黑洞會扭曲時空"，他大概需要先在腦海里轉幾圈，整理思路，再開口作答。現代AI大模型其實也有類似的機制——在給出最終答案之前，它會先進行一段"內心獨白"，把自己的推理過程一步步寫下來，然后再把這些思考濃縮成最終的回答。

這段內心獨白，研究團隊稱之為"思維流"（Thought Stream）。問題來了：這段獨白真的有用嗎？它里面都是真正有價值的分析，還是大量的廢話和自言自語？模型最終的回答，忠實反映了它的思考過程嗎？還是說，它思考了一堆，最后輸出的卻是另一套？

VideoDB的工程師們決定認真研究這個問題。他們拿來了谷歌最新的Gemini 2.5系列模型，讓這些模型處理從100小時視頻中提取的海量場景，然后一幀一幀地"解剖"模型的思維流，看看里面究竟藏著什么。

一、偵探的筆記本：什么是"思維流"，為什么要研究它

把AI模型比作一位偵探來破案，是理解這項研究最直觀的方式。這位偵探接到任務后，會先在自己的筆記本上記錄觀察到的線索、推斷的邏輯、排除的可能性，最后整理出一份正式的案情報告交給委托人。

"思維流"就是這本筆記，而模型最終輸出的結構化JSON數據（包含場景中的人物、動作、場景、情緒等標簽）就是那份正式報告。

研究團隊關注的核心問題有三個。第一，筆記本里的內容有多少是真正有用的線索，有多少是偵探在自言自語、反復絮叨"我現在要開始分析了，我需要仔細思考一下"這類廢話？第二，筆記本里記錄的線索，有多少最終出現在了正式報告里？有沒有偵探在筆記里寫了很多，但報告里卻完全沒提到的情況？第三，報告里提到的內容，是否都能在筆記本里找到對應的來源？還是說偵探在寫報告時憑空捏造了一些從未調查過的"證據"？

這三個問題對應了研究團隊設計的三個核心評估指標，后面會詳細展開。

二、偵探團隊與調查現場：實驗設計

這次調查的規模相當可觀。研究團隊使用VideoDB平臺，將約100小時的視頻切割成一個個獨立的場景片段，涵蓋了37種不同的視覺風格——從2D/3D動畫、電影級敘事片段、紀錄片，到游戲直播、現場演唱會、運動賽事錄像、監控畫面、社交媒體短視頻、Vlog，乃至復古膠片風格，幾乎涵蓋了當今主流內容生產的全部類型。內容領域橫跨38個不同類別，包括娛樂、體育、新聞、教育、美食烹飪、音樂表演、戲劇、喜劇、真人秀、游戲、企業宣傳、旅行Vlog和兒童內容等。從畫面質量分布來看，約64%屬于高質量專業制作內容，34%為中等質量，僅有約2%為低質量。

每個場景以每秒1幀的速度抽取畫面，最多保留10幀。模型在處理每個場景時，完全獨立運作，不會參考其他場景的信息。

調查任務交給了四個版本的Gemini 2.5模型，可以把它們理解為同一家偵探事務所旗下的四位偵探，能力層次和工作風格各有不同。Flash版是事務所的資深偵探，而Flash Lite是經驗稍淺的助理偵探。更關鍵的區別在于給每位偵探分配的"思考時間"，也就是允許他們在筆記本上寫多少字的推理過程。Flash-128版本只有105個思考詞的平均預算，相當于讓偵探在極度緊張的時間壓力下速戰速決；Flash-Dynamic版本沒有限制，可以想多久寫多久，平均用了1021個思考詞；Lite-512版本給了助理偵探約366個思考詞的空間；Lite-1024版本則給了約718個思考詞的余地。

四位偵探處理所有場景后，總共產生了超過9.3萬份場景級分析結果，為這次研究提供了極其豐富的數據基礎。

三、拆解筆記本：三把衡量"思維流"質量的尺子

研究團隊設計了三個評估指標，像三把不同用途的工具，從不同角度度量思維流的質量。

第一把工具叫"內容豐富度"（Contentfulness），專門測量筆記本里有多少是真正有價值的場景描述，有多少是無意義的自言自語。具體操作方式是：先用一組規則把所有"元評論"句子過濾掉——所謂元評論，就是"我現在要分析這段視頻"、"讓我一步一步思考"、"我需要考慮JSON格式"這類話，它們描述的是偵探自己的工作流程，而不是案發現場的任何實際信息。過濾完之后，再用自然語言處理工具（NLTK詞性標注）統計剩余文字里有多少是真正的名詞和動詞——也就是"女人"、"木質桌子"、"打字"、"筆記本電腦"、"辦公室"這樣的實質性內容詞匯。最終得出的比值就是內容豐富度分數，越高說明筆記本里的干貨越多，廢話越少。

舉個具體的例子：假如偵探的筆記本里有一句"讓我仔細分析這個場景"，以及一句"一位年輕女性坐在木質書桌前，在明亮的辦公室里用一臺銀色筆記本電腦打字"。第一句是廢話，直接刪掉。第二句里，"女性"、"書桌"、"辦公室"、"筆記本電腦"是名詞，"坐"、"打字"是動詞，這些才是真正有價值的內容詞。如果整段筆記共有20個詞，其中6個是內容詞，內容豐富度就是0.30分。

第二把工具叫"思維-最終輸出覆蓋度"（Thought-Final Coverage），分為兩個子指標，共同衡量筆記本和正式報告之間的吻合程度。

"思維覆蓋率"（Thought Coverage）回答的是：偵探在筆記里記錄的所有線索，最終有多少進入了正式報告？如果筆記里寫了六條線索，報告里只提到了五條，思維覆蓋率就是5/6。這個指標低，意味著偵探調查了很多，但很多發現被丟在了筆記本里，沒有轉化為最終結論。

"輸出扎根度"（Output Grounding）回答的是：正式報告里提到的每一條信息，有多少能在筆記本里找到來源？如果報告里寫了六條信息，其中五條在筆記里有據可查，第六條完全是憑空出現的，輸出扎根度就是5/6。這個指標低，意味著偵探在寫報告時"發揮"了——把從未調查過的內容寫進了報告，這就是研究團隊所定義的"壓縮步驟幻覺"（Compression-Step Hallucination）。

這兩個指標合并后會計算一個F1綜合分數，可以把它理解為筆記本和報告之間的"契合度總分"。整個評分過程由GPT-5擔任獨立裁判，通過多層次的模糊匹配算法（先精確匹配，再考慮詞序不同但詞匯相同的情況，最后考慮部分包含關系）來判斷筆記中的某條內容是否對應報告中的某條內容。

第三把工具叫"主導實體分析"（Dominant Entity Analysis），追蹤每個場景中最突出的主體（是誰）、動作（在做什么）和場景（在哪里）。這個工具專門用來發現一個有趣的現象：當偵探時間不夠用時，他是否會用"有人"這個模糊表述來敷衍了事，而不是具體說出"是一位廚師"還是"是一名游戲主播"？

四、揭秘調查結果：四位偵探的表現對比

調查結果出來后，最直接的總結是：給偵探足夠的思考時間，他就能寫出更忠實、更準確的報告；但這種改善存在明顯的邊際遞減效應——時間從極度緊張變為充裕之后，質量飛速提升，但時間從充裕變為更充裕之后，提升幅度就越來越小了。

Flash-128版本（平均僅105個思考詞）表現最差，F1綜合分數只有0.83。更糟糕的是，它的輸出扎根度只有0.767，換句話說，在它最終報告里出現的內容中，大約有四分之一是從未在筆記本中出現過的——它在寫報告時"臨場發揮"了相當多的內容，這正是"壓縮步驟幻覺"最典型的表現。

Flash-Dynamic版本（無限制，平均1021個思考詞）表現優秀，F1達到0.957，輸出扎根度提升到0.964，說明幾乎所有報告內容都能在筆記本中找到來源。

Lite-512版本（平均366個思考詞）的表現令人驚喜，F1達到0.942，遠超預期，思維覆蓋率和輸出扎根度分別達到0.940和0.948，已經非常接近高配版本的水準。

Lite-1024版本（平均718個思考詞）則摘得綜合最優桂冠，F1 0.959，輸出扎根度0.966，完美得分率（F1滿分場景比例）達到64.3%，低分率（F1低于0.5的場景比例）僅有0.2%。更重要的是，它實現這一切只用了約2918個總token，而Flash-Dynamic需要約3258個，相當于用更少的資源達到了同等甚至更好的效果。

穩定性方面，Flash-128的表現極不穩定，變異系數（衡量穩定性的指標，數值越低越穩定）高達0.282，意味著同樣的模型在不同場景下的表現差異很大。相比之下，Lite-1024的變異系數只有0.082，表現極為穩定可預期，是生產環境中最值得信賴的選擇。

五、質量提升的"邊際遞減"：多思考未必等比收益

把四種配置按照思考詞數從少到多排列，可以看到一條很有意思的曲線。從Flash-128（105詞）跳到Lite-512（366詞），F1從0.83驟升至0.942，這是一個相當顯著的提升，花了約261個額外思考詞換來了超過11個百分點的質量改善。

然而，從Lite-512（366詞）跳到Lite-1024（718詞），幾乎翻倍的思考詞預算，換來的F1提升僅有約0.017。而Flash-Dynamic（1021詞）雖然比Lite-1024多用了約40%的思考詞，最終F1反而略低于Lite-1024（0.957對比0.959）。

這個"思考越多，邊際收益越低"的現象在實踐中有重要啟示意義：對于大量視頻內容的工業化處理，一味追求最高思考預算并非最優策略，找到質量與成本的最佳平衡點才是關鍵。研究團隊明確指出，超過約700個思考詞之后，額外思考帶來的收益在他們的數據集上已經相當微薄。

內容豐富度的表現則截然不同，它隨著思考詞數增加幾乎呈線性增長。從Flash-128的0.323一路提升至Flash-Dynamic的0.594。這說明更多的思考時間確實讓模型寫出了更多實質性的場景描述，但這種"質量提升"并不完全等同于最終輸出質量的提升——多寫并不總是意味著最終報告更好。

六、最出乎意料的發現：兩個級別的偵探，寫出了幾乎一模一樣的筆記

研究中最令人意外的發現，或許是Flash和Flash Lite這兩個"不同級別"的模型，它們寫出的思維流內容驚人地相似。

研究團隊設計了一項專門的相似度測試：讓GPT-5逐場景對比不同模型的思維流內容，打出0到1的相似度分數。結果顯示，Flash Dynamic與Lite 1024之間的思維流相似度為0.887，Flash 128與Lite 1024的相似度也有0.885。而同一個模型的兩個不同預算版本之間（比如Lite 1024與Lite 512），相似度也只有0.905，與跨級別對比的差距非常小。

換句話說，資深偵探和助理偵探在各自的筆記本上記錄的，幾乎是同樣的線索。兩者"想的東西"高度一致。

不過，這兩位偵探的筆記風格有明顯差異。Flash（資深偵探）喜歡在筆記里大量寫下自己的工作思路，比如"我需要先識別畫面中的主要人物，然后分析他們的動作，再判斷場景類型……"。而Flash Lite（助理偵探）則更直接，跳過這些工作流程的描述，直接寫下場景內容："畫面中有一位中年男性，身穿白色廚師服，正在切菜，背景是一間現代化廚房。"

這種風格差異正好解釋了為什么在相同的思考詞預算下，Lite版本的內容豐富度更高——它把同樣的"筆記紙"用來記錄了更多實際有用的內容，而不是記錄自己的工作流程。這也是為什么Lite版本能以更少的token達到相當甚至更好的輸出質量。

研究團隊還特別做了一個"重跑測試"：把同一批視頻用Flash Dynamic跑兩遍，看兩次的思維流相似度。結果是0.893，與跨級別對比的相似度（0.887）幾乎相差無幾。這個發現頗為有趣：不同級別模型之間的差異，甚至不比同一個模型兩次運行之間的差異大多少。在兩次重跑中保持穩定的內容，主要是品牌名稱、Logo、文字識別和物體識別；而容易發生變化的，則是情緒判斷和地點描述。

七、當筆記太簡短：壓縮步驟幻覺與主體識別偏差

Flash-128的低輸出扎根度揭示了一個值得深入討論的現象。當模型被強迫在極短的思考空間里完成分析，筆記本里的內容太少，不足以支撐一份完整的結構化報告時，它在"把筆記整理成報告"的壓縮步驟中，會憑空填入一些從未在筆記里出現過的內容。

這并不意味著這些內容一定是錯誤的——也許模型在"筆記本之外"還有某種更深層的認知，只是沒有顯式地寫在思維流里。但從用戶和系統設計者的角度來看，這種行為是危險的：思維流作為可追溯的"推理依據"失去了可信度，輸出內容中有相當比例無法在推理過程中找到來源，給審核和修正帶來很大困難。

隨著思考預算的增加，這個問題顯著改善。給模型足夠的思考空間，讓它建立一份詳盡的筆記，在最終整理報告時就不需要"填空"了，輸出內容和推理過程的對應關系變得清晰而可靠。

另一個與思考預算相關的現象是主體識別的精確度。Flash-128版本在約15%的場景中，把畫面中最突出的人物標注為"person"（人）這個極其模糊的標簽，而Flash-Dynamic版本這個比例只有約8%。Lite系列也有類似規律：Lite-512約有13%的場景用"person"標注主體，Lite-1024則降至約11%。

這說明當思考空間充裕時，模型更有可能識別出具體的角色身份——它會告訴你畫面里的是"游戲主播"、"廚師"、"貓"，而不是敷衍地說"有個人"。在視頻內容的實際應用場景中，這種具體性的差異對于搜索、推薦、內容標簽等下游任務有直接影響。

八、研究的邊界與未竟之事

研究團隊對自己工作的局限性有著清醒認識。整套評估體系衡量的是思維流與最終輸出之間的內部一致性，而非與真實世界的符合程度。換句話說，一個偵探可以寫出前后完全一致、邏輯自洽的筆記和報告，但這份報告對案件的描述完全是錯誤的——高度的內部一致性并不等于高度的準確性。

此外，評分裁判GPT-5本身也可能存在系統性偏差，目前還沒有用多個不同的裁判模型進行交叉驗證。數據集方面，所有場景都以每秒1幀、最多10幀的方式處理，這對于分析時間跨度較長的連續動作、多場景敘事結構或長篇影視的情節發展來說明顯不夠。

研究團隊列出了不少值得繼續探索的方向：引入人工標注的真實標準，把內部一致性與外部準確性分開測量；擴展到OpenAI、Anthropic以及各類開源模型，看看這些規律是否普遍適用；進行更細粒度的預算掃描（從64到2048 token），繪制更精確的質量-成本曲線；加入延遲和實際費用的分析；針對醫療、體育、安防等特定領域進行專項評估；以及更大規模的確定性測試，深入了解哪類信息是模型的"穩定認知"，哪類是容易飄忽的"不確定判斷"。

說到底，這項研究告訴我們，AI模型的"內心獨白"確實有價值，但這個價值是有門檻的——思考太少，報告就會摻入從未思考過的內容；思考足夠多，質量就能快速達到不錯的水平；但瘋狂追加思考預算，收益的增幅會越來越小。對于大規模視頻處理這樣的實際應用場景，Lite 1024是目前最佳的性價比選擇：最低的錯誤率、最高的完美場景比例、最穩定的表現，同時比頂配版本便宜約10%。

歸根結底，Flash和Flash Lite的思維流內容如此相似這一發現，或許是整篇研究中最耐人尋味的一點——模型的"級別"決定的不是它思考什么，而是它如何表達自己的思考過程。這對于AI開發和部署來說是一個很有價值的參考信號。對這一課題有進一步研究興趣的讀者，可通過arXiv編號2604.11177查閱完整論文，代碼也已在GitHub的video-db/gemini-reasoning-eval倉庫開源。

Q&A

Q1：什么是"壓縮步驟幻覺"，它在視頻理解中會造成什么問題？

A：壓縮步驟幻覺是指AI模型在將內部思考過程整理成最終輸出報告時，報告里出現了思考過程中從未提到過的內容。Flash-128配置下大約每四條輸出信息中就有一條屬于這種情況。在視頻內容管理場景中，這會導致元數據標簽無法溯源，給內容審核和質量控制帶來困難，因為用戶無法判斷這些無法追溯的內容是真實識別到的還是模型自行填充的。

Q2：Gemini Flash和Flash Lite的思維流為什么會如此相似？

A：根據這項研究，兩者的思維流內容相似度約為0.88，與同一模型兩次運行之間的相似度（0.893）相差無幾。研究推測這是因為兩個模型層級共享相近的底層推理模式，真正的差別在于表達風格——Flash更傾向于描述自己的推理步驟，Lite更傾向于直接描述場景內容，這也解釋了為何Lite在相同token預算下能產出更多有效內容。

Q3：Gemini 2.5視頻場景理解中，思考token數量超過多少之后收益就開始明顯下降？

A：根據這項研究的數據，大約在700個思考token左右，質量提升開始明顯放緩。從105個token（Flash-128）跳到366個token（Lite-512）帶來了超過11個百分點的F1提升，但從366個token增加到718個token（Lite-1024）只帶來了約1.7個百分點的提升，而從718個繼續增加到1021個token（Flash-Dynamic）的F1反而略低于Lite-1024。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.