True Trading與Inc4.net聯(lián)合提出的記憶治理新方案

2026-06-11 17:10:10　來源: 科技行者

北京舉報

分享至

這項由True Trading與Inc4.net聯(lián)合完成的研究，以預(yù)印本形式發(fā)布于2026年6月1日，論文編號為arXiv:2606.01886，有興趣深入了解的讀者可通過該編號在arXiv平臺查閱完整論文。

**故事從一個令人沮喪的場景開始**

假設(shè)你每天都要跟同一位金融顧問打交道，但每次見面，他都完全不記得你上次說了什么。你昨天剛告訴他你不喜歡高風(fēng)險投資，今天他又給你推薦了一堆高波動性的加密貨幣。你上周花了半小時解釋自己的投資邏輯，今天還得從頭再來一遍。更糟糕的是，市場早就發(fā)生了變化，他手里拿著的還是三個月前的舊分析報告，卻渾然不覺地把這些過期信息當(dāng)作建議的依據(jù)。

這不是夸張的比喻，而是當(dāng)下大多數(shù)AI金融助手的真實寫照。現(xiàn)有的金融AI系統(tǒng)基本上都是"一問一答"模式：你問，它回答，然后這次對話的內(nèi)容就悄悄消失了。下次你再來，一切又回到原點。研究團隊把這種現(xiàn)象稱為"金融認知摩擦"——用戶不得不一遍又一遍地把同樣的背景信息、風(fēng)險偏好、歷史判斷重新喂給系統(tǒng)，系統(tǒng)才能給出勉強貼近實際情況的回答。

正是為了解決這個問題，來自True Trading和Inc4.net的研究團隊提出了一套名為"交互原生知識挽具"（Interaction-Native Knowledge Harness，簡稱InKH）的全新AI架構(gòu)。這套架構(gòu)的核心理念只有一句話：**復(fù)雜性應(yīng)該被系統(tǒng)吸收，而不是轉(zhuǎn)嫁給用戶。**

一、為什么現(xiàn)有的AI金融助手總是"患了健忘癥"

要理解這項研究的價值，得先搞清楚現(xiàn)有系統(tǒng)究竟哪里出了問題。

現(xiàn)有的大多數(shù)金融AI系統(tǒng)，工作方式就像一個沒有長期記憶的接線員。每當(dāng)你打來電話（發(fā)起對話），它會認真傾聽、查找資料、給出回答，然后掛掉電話，所有內(nèi)容清零。下次你再打來，它又是一張白紙。即便有些系統(tǒng)號稱有"記憶功能"，也往往是靠著一個粗糙的文檔庫來完成的——你得明確告訴它"去查一下我之前說過什么"，它才會笨拙地翻一遍檔案，耗時費力，而且翻出來的東西還可能是三個月前已經(jīng)過時的內(nèi)容。

更麻煩的是金融市場本身的特性。市場是不斷變化的，昨天成立的判斷今天可能已經(jīng)完全作廢。比如某個加密貨幣項目昨天還運行穩(wěn)定，今天突然出了一個重大協(xié)議漏洞，整個市場對它的風(fēng)險評估就該徹底改變。但那些沒有"知識更新機制"的AI系統(tǒng)，依然會把舊的、過期的認知當(dāng)作有效信息來使用，這就是所謂的"陳舊記憶"問題。

研究團隊通過實驗發(fā)現(xiàn)，在引入"沖擊事件"（比如市場機制突變）之后，那些沒有主動更新機制的系統(tǒng)，其陳舊知識使用率會急劇攀升，直接導(dǎo)致輸出質(zhì)量下滑。而且這種下滑很隱蔽，因為系統(tǒng)給出的答案聽起來依然"有模有樣"，用戶很難察覺背后引用的其實是已經(jīng)失效的信息。

二、InKH是什么：一套讓AI真正"持續(xù)思考"的記憶架構(gòu)

InKH的設(shè)計思路可以用一個"專業(yè)金融分析師的大腦"來理解。一個優(yōu)秀的人類分析師不會每次開會都忘記上次討論的內(nèi)容，他會在腦子里持續(xù)維護一張動態(tài)的知識圖譜：哪些資產(chǎn)存在哪些風(fēng)險，客戶的偏好是什么，上周哪個判斷被市場數(shù)據(jù)證偽了，應(yīng)該相應(yīng)調(diào)整。他的認知是連續(xù)的、累積的、有時效性判斷的。

InKH試圖給AI系統(tǒng)建立類似的機制，整套架構(gòu)由五個相互協(xié)作的部分構(gòu)成。

第一個部分是"事件流視角"。系統(tǒng)把所有輸入——無論是用戶說的話、市場價格變動、工具調(diào)用的結(jié)果、還是內(nèi)部風(fēng)險信號——都統(tǒng)一看作一個連續(xù)的"事件流"，而不是一次次孤立的對話請求。這就好比分析師不是每次開會才開始工作，而是全天候地關(guān)注著信息流入。

第二個部分是"有界工作上下文緩沖區(qū)"。每當(dāng)系統(tǒng)需要處理一個新任務(wù)時，它不是讓AI模型自己去翻檔案、搜記憶，而是由系統(tǒng)在幕后自動把最相關(guān)的知識片段提前準(zhǔn)備好，打包成一個精簡的"工作文件夾"（控制在300到600個Token的范圍內(nèi)），然后直接交給AI模型。這個過程稱為"被動注入"——系統(tǒng)主動送上門，而不是讓模型費力去尋找。

第三個部分是"時序知識圖譜"。這是整套架構(gòu)的記憶核心。所有提取出來的知識——比如"BTC在高波動市場下會出現(xiàn)滑點上升"——都以結(jié)構(gòu)化的形式存儲在一張圖譜里，每個知識條目都帶有創(chuàng)建時間、最后驗證時間、是否已被推翻等屬性。當(dāng)新知識和舊知識發(fā)生矛盾時，系統(tǒng)會在"寫入時"（而非"查詢時"）就把舊知識標(biāo)記為失效，確保下次取用時不會拿到過期內(nèi)容。

第四個部分是"Wiki審計界面"。這是給人類看的部分。所有知識被整理成可讀的維基頁面，包括資產(chǎn)頁面、交易者頁面、策略筆記、風(fēng)險備注和維護日志。這讓監(jiān)管人員或用戶可以隨時查看AI的"思考依據(jù)"，確保透明可查。

第五個部分是"后臺提取、成熟度跟蹤、衰減與失效機制"。每完成一個任務(wù)，系統(tǒng)會在后臺自動從對話記錄里提取有價值的知識點，更新到圖譜中。同時，每個知識條目都有一個"成熟度"屬性——新提取的信息是"初始"狀態(tài)，經(jīng)過多次復(fù)用和驗證后才會晉升為"已驗證"或"已證明"狀態(tài)。高風(fēng)險操作只允許使用成熟度足夠高的知識來支撐決策。此外，知識還會隨時間自然"衰減"——距離上次驗證越久、與當(dāng)前市場狀態(tài)越不符，其有效置信度就越低。

這五個部分共同構(gòu)成了一個閉環(huán)：實時吸收→結(jié)構(gòu)化存儲→智能注入→后臺提煉→治理把關(guān)。

三、背后的數(shù)學(xué)邏輯：為什么被動注入比主動搜索更合理

研究團隊為這套架構(gòu)提供了嚴格的數(shù)學(xué)形式化描述，其中有三個核心命題值得關(guān)注，即便不懂?dāng)?shù)學(xué)，直覺上也不難理解。

第一個命題討論的是"被動注入"和"主動搜索"哪個更經(jīng)濟。結(jié)論是：只要主動搜索帶來的額外規(guī)劃開銷（AI模型需要額外花精力去想"我應(yīng)該查什么"）超過被動注入引入的少量無關(guān)信息噪音，被動注入就更劃算。直覺上很好理解——與其讓一個天才分析師每次開會前自己翻遍所有文件，不如提前讓助手幫他準(zhǔn)備好最相關(guān)的那一疊文件。

第二個命題討論的是"治理機制如何防止錯誤記憶擴散"。研究證明，只要治理機制能在每次復(fù)用前過濾掉足夠比例的噪音知識，錯誤信息就不會像病毒一樣在系統(tǒng)內(nèi)越傳越多，而是維持在一個有界的水平。這就像免疫系統(tǒng)——不是要消滅所有外來信息，而是要確保有害信息不能無限繁殖。

第三個命題討論的是"成熟度門檻為什么應(yīng)該隨風(fēng)險級別提高"。對于低風(fēng)險的信息查詢，使用初步提取的知識就夠了；但對于涉及實際交易的高風(fēng)險操作，必須要求知識經(jīng)過多輪驗證、成熟度足夠高，才能被用來支撐決策。這就像醫(yī)院手術(shù)前需要多方會診確認，而不是依賴一個剛?cè)肼毜膶嵙?xí)醫(yī)生的單方判斷。

四、實驗怎么做的：一場精心設(shè)計的"壓力測試"

為了驗證InKH的實際效果，研究團隊設(shè)計了一套嚴格的受控基準(zhǔn)測試，規(guī)模相當(dāng)可觀：24個隨機種子、4輪測試、每輪80個任務(wù)場景，每個基線系統(tǒng)跑完整實驗需要7680個完整工作流程，六個基線系統(tǒng)合計產(chǎn)生了46080次評估。

四類任務(wù)場景覆蓋了金融AI的核心使用場景：市場分析、投資組合評審、跟單交易評估和交易準(zhǔn)備。四輪測試的設(shè)計也頗具匠心。第一輪是"冷啟動"，系統(tǒng)從零開始，沒有任何積累的知識；第二輪引入用戶偏好信號，測試系統(tǒng)是否能記住并利用這些信息；第三輪注入"機制沖擊"，比如突然出現(xiàn)的市場規(guī)則變化或協(xié)議漏洞，測試系統(tǒng)面對過期知識時的應(yīng)對能力；第四輪測量沖擊后系統(tǒng)的知識復(fù)用質(zhì)量，驗證它是否真的從歷史中"學(xué)到了東西"。

與InKH對比的六個系統(tǒng)，從簡單到復(fù)雜依次是：只有基礎(chǔ)模型沒有任何記憶的"純模型系統(tǒng)"、加了工具調(diào)用的"工具代理"、有簡單持久化記憶的"簡單記憶"、有人工維護Wiki并由AI主動搜索的"Wiki漫游"、有時序圖譜但缺少失效機制的"KH-無失效"，以及完整的InKH。

五、實驗結(jié)果：數(shù)字背后的故事

實驗結(jié)果用一個直觀的坐標(biāo)圖來理解最清楚：橫軸是響應(yīng)延遲，縱軸是任務(wù)質(zhì)量。理想的系統(tǒng)應(yīng)該占據(jù)左上角——質(zhì)量高、速度快。InKH在所有有持久記憶的系統(tǒng)中，確實占據(jù)了這個最理想的位置。

在具體數(shù)字上，完整的InKH達到了0.815的平均任務(wù)質(zhì)量，平均響應(yīng)延遲為900毫秒，陳舊知識使用率低至0.9%，決策可追溯性接近滿分（0.999）。

與表現(xiàn)最接近的"Wiki漫游"系統(tǒng)相比，InKH的延遲下降了82.95%（從5281毫秒降至900毫秒），Token用量減少了82.29%，任務(wù)質(zhì)量提升了0.108，陳舊知識使用率下降了96.58%，決策可追溯性提升了0.461。延遲從5秒多降到不到1秒，對于實時金融決策場景來說，這種差異在實用層面幾乎是天壤之別。

與最接近InKH但缺少失效機制的"KH-無失效"系統(tǒng)相比，InKH的任務(wù)質(zhì)量提升了0.050，而陳舊知識使用率同樣下降了96.58%，兩者的Token用量幾乎相同。這組對比非常關(guān)鍵，因為它證明了質(zhì)量提升的來源不是"記憶更多"，而是"治理更嚴格"。

最能說明問題的是第三輪沖擊測試的結(jié)果。當(dāng)市場機制突變被引入后，Wiki漫游、簡單記憶和KH-無失效三個系統(tǒng)的陳舊知識使用率全都出現(xiàn)了明顯跳升；唯獨完整的InKH基本保持不變，因為它在沖擊發(fā)生時就已經(jīng)在寫入階段把舊知識標(biāo)記為失效。

按任務(wù)類型拆分來看，InKH在跟單交易評估和交易準(zhǔn)備這兩類風(fēng)險最高的任務(wù)上，質(zhì)量優(yōu)勢最為明顯——這正好是成熟度門檻機制發(fā)揮作用的場合。

研究團隊還特別做了一個關(guān)鍵對照實驗，把InKH和KH-無失效的"知識庫存量"拿出來比較。結(jié)果顯示，兩者累積的知識條目數(shù)量完全相同（平均13.96條），新增知識數(shù)量相同（平均5.96條），驗證過的和已證明的知識數(shù)量也完全一樣。唯一的區(qū)別是：InKH平均失效了2.96條過期知識，而KH-無失效一條都沒有失效。換句話說，兩個系統(tǒng)記的東西一樣多，但一個定期清理過期信息，另一個任由過期信息堆積。這直接導(dǎo)致了兩者在面對沖擊時的截然不同表現(xiàn)。

六、這項研究的局限性：研究團隊自己說了什么

研究團隊相當(dāng)坦誠地指出了這項工作的四個主要限制。

第一，整個評測是基于受控合成數(shù)據(jù)集，而非真實的歷史市場數(shù)據(jù)。雖然這樣做的好處是可以精確控制變量、隔離架構(gòu)效果，但它并不能直接證明InKH在真實市場中能帶來更好的交易收益。

第二，任務(wù)質(zhì)量的評分是由模擬器定義的"黃金標(biāo)準(zhǔn)"來衡量的，而非真人標(biāo)注。這意味著質(zhì)量分數(shù)衡量的是"系統(tǒng)行為是否符合模擬器設(shè)定的預(yù)期"，而不是"人類專家是否認可這個答案"。

第三，當(dāng)前的實現(xiàn)是對圖譜檢索和服務(wù)行為的抽象模擬，而非真正部署在生產(chǎn)級圖數(shù)據(jù)庫上的完整實現(xiàn)。

第四，用真實公開數(shù)據(jù)（包括美聯(lián)儲經(jīng)濟數(shù)據(jù)庫FRED、美國證監(jiān)會EDGAR系統(tǒng)和幣安公開市場數(shù)據(jù)）進行的歷史回放測試，在論文中只是規(guī)劃出來了，并沒有實際執(zhí)行和報告結(jié)果。

七、這套架構(gòu)與其他相關(guān)工作的關(guān)系

理解InKH在整個研究生態(tài)中的位置，需要把它放在幾個相關(guān)工作的背景下來看。

Graphiti是Zep團隊提出的一套時序知識圖譜架構(gòu)，專注于存儲層的時效窗口管理和關(guān)系感知檢索。InKH和它的關(guān)系是"互補而非替代"——Graphiti可以作為InKH時序圖譜的底層存儲基礎(chǔ)設(shè)施，而InKH在其上增加了編排層：被動注入、治理門控和寫入時失效。一個關(guān)注"存什么、怎么存"，另一個關(guān)注"什么時候取、取什么、誰有資格用"。

Mem0是另一個強調(diào)生產(chǎn)就緒的長期記憶系統(tǒng)，報告了相對于全上下文基線的顯著延遲和Token改善。InKH與Mem0的思路類似，但額外強調(diào)了金融場景特有的治理約束——特別是基于成熟度和風(fēng)險等級的知識使用門檻。

MemGPT把多層記憶管理類比為操作系統(tǒng)的內(nèi)存管理，InKH則進一步把"知識的時效性治理"提升為核心設(shè)計目標(biāo)，而不僅僅是容量管理。

此外，研究團隊還特別提到了同一研究方向上的兩篇執(zhí)行層安全論文——一篇討論加密貨幣交易中的執(zhí)行層攻擊面，另一篇討論跨市場交易的合規(guī)執(zhí)行。這三篇論文共同構(gòu)成了一個完整的金融AI安全體系：InKH負責(zé)上游的認知層（知道什么、記住什么、相信什么），執(zhí)行層安全論文負責(zé)下游的動作層（做什么、怎么做、有沒有越權(quán)）。

說到底，InKH這項研究想說清楚的事情并不復(fù)雜：一個金融AI系統(tǒng)如果真的要被人信任和采用，它不能只是一個聰明的"一次性助手"，而必須是一個能持續(xù)積累、能辨別真?zhèn)巍⒛茉谑袌鲎兓瘯r主動更新認知的"長期協(xié)作伙伴"。研究團隊給出的答案是：把復(fù)雜性留給系統(tǒng)，把簡潔留給用戶。

這種思路當(dāng)然還有很長的路要走——合成測試和真實市場之間的鴻溝依然存在，系統(tǒng)質(zhì)量的最終判斷也還需要真人評估來佐證。但這套架構(gòu)所展示的方向，無論是被動知識注入替代主動Wiki搜索、寫入時失效替代查詢時篩選，還是成熟度門控與風(fēng)險級別掛鉤，都是非常具有工程說服力的設(shè)計選擇。

歸根結(jié)底，金融AI的核心挑戰(zhàn)從來不只是"夠不夠聰明"，而是"記得夠不夠準(zhǔn)、更新夠不夠快、決策夠不夠負責(zé)"。InKH在這三個維度上，都給出了比現(xiàn)有系統(tǒng)更清晰的工程答案。對金融科技、AI Agent設(shè)計、或者知識管理系統(tǒng)感興趣的讀者，完全可以通過arXiv:2606.01886查閱完整論文，里面包含所有算法偽代碼、數(shù)學(xué)形式化推導(dǎo)和實驗復(fù)現(xiàn)腳本，公開透明度相當(dāng)高。

Q&A

Q1：InKH的"被動知識注入"和普通RAG檢索有什么區(qū)別？

A：普通RAG（檢索增強生成）是由AI模型在推理時主動發(fā)起檢索請求，相當(dāng)于讓模型自己去圖書館找書。InKH的被動注入則是系統(tǒng)在模型開始推理之前，就自動把最相關(guān)的知識打包好送到模型面前，模型不需要發(fā)起任何檢索動作。這種差異帶來的最直接好處是延遲大幅降低——InKH相比Wiki漫游式的主動檢索減少了82.95%的響應(yīng)時間，同時Token消耗也下降了82.29%。

Q2：InKH的"寫入時失效"和"查詢時過濾"有什么本質(zhì)區(qū)別？

A：查詢時過濾是每次取用知識時才判斷"這條信息是否過期"，相當(dāng)于每次吃飯前才檢查食材是否變質(zhì)；寫入時失效是在新知識被寫入時就立刻把與之矛盾的舊知識標(biāo)記為無效，相當(dāng)于超市一上架新貨就立刻把同品類的過期貨下架。寫入時失效的優(yōu)勢是陳舊知識根本不會進入檢索候選池，而不是在取用時才被篩掉——這在市場機制突變后表現(xiàn)出了96.58%的陳舊知識使用率下降。

Q3：InKH的成熟度門控機制在高風(fēng)險金融操作中如何起作用？

A：InKH為每個知識條目設(shè)置了成熟度狀態(tài)，從初始提取到經(jīng)過多次復(fù)用驗證的"已證明"狀態(tài)是一個逐步晉升的過程。對于低風(fēng)險的信息查詢，初始狀態(tài)的知識就可以被使用；但對于跟單交易評估或?qū)嶋H交易準(zhǔn)備這類高風(fēng)險操作，系統(tǒng)會要求只有成熟度達到更高級別的知識才能被納入決策依據(jù)。實驗數(shù)據(jù)顯示，在僅統(tǒng)計高風(fēng)險工作流的情況下，InKH的陳舊知識使用率為0.018，而同樣有圖譜但缺少成熟度門控的對比系統(tǒng)達到了0.336，差距約19倍。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.