![]()
這項由True Trading與Inc4.net聯(lián)合完成的研究,以預(yù)印本形式發(fā)布于2026年6月1日,論文編號為arXiv:2606.01886,有興趣深入了解的讀者可通過該編號在arXiv平臺查閱完整論文。
**故事從一個令人沮喪的場景開始**
假設(shè)你每天都要跟同一位金融顧問打交道,但每次見面,他都完全不記得你上次說了什么。你昨天剛告訴他你不喜歡高風(fēng)險投資,今天他又給你推薦了一堆高波動性的加密貨幣。你上周花了半小時解釋自己的投資邏輯,今天還得從頭再來一遍。更糟糕的是,市場早就發(fā)生了變化,他手里拿著的還是三個月前的舊分析報告,卻渾然不覺地把這些過期信息當(dāng)作建議的依據(jù)。
這不是夸張的比喻,而是當(dāng)下大多數(shù)AI金融助手的真實寫照。現(xiàn)有的金融AI系統(tǒng)基本上都是"一問一答"模式:你問,它回答,然后這次對話的內(nèi)容就悄悄消失了。下次你再來,一切又回到原點。研究團隊把這種現(xiàn)象稱為"金融認知摩擦"——用戶不得不一遍又一遍地把同樣的背景信息、風(fēng)險偏好、歷史判斷重新喂給系統(tǒng),系統(tǒng)才能給出勉強貼近實際情況的回答。
正是為了解決這個問題,來自True Trading和Inc4.net的研究團隊提出了一套名為"交互原生知識挽具"(Interaction-Native Knowledge Harness,簡稱InKH)的全新AI架構(gòu)。這套架構(gòu)的核心理念只有一句話:**復(fù)雜性應(yīng)該被系統(tǒng)吸收,而不是轉(zhuǎn)嫁給用戶。**
一、為什么現(xiàn)有的AI金融助手總是"患了健忘癥"
要理解這項研究的價值,得先搞清楚現(xiàn)有系統(tǒng)究竟哪里出了問題。
現(xiàn)有的大多數(shù)金融AI系統(tǒng),工作方式就像一個沒有長期記憶的接線員。每當(dāng)你打來電話(發(fā)起對話),它會認真傾聽、查找資料、給出回答,然后掛掉電話,所有內(nèi)容清零。下次你再打來,它又是一張白紙。即便有些系統(tǒng)號稱有"記憶功能",也往往是靠著一個粗糙的文檔庫來完成的——你得明確告訴它"去查一下我之前說過什么",它才會笨拙地翻一遍檔案,耗時費力,而且翻出來的東西還可能是三個月前已經(jīng)過時的內(nèi)容。
更麻煩的是金融市場本身的特性。市場是不斷變化的,昨天成立的判斷今天可能已經(jīng)完全作廢。比如某個加密貨幣項目昨天還運行穩(wěn)定,今天突然出了一個重大協(xié)議漏洞,整個市場對它的風(fēng)險評估就該徹底改變。但那些沒有"知識更新機制"的AI系統(tǒng),依然會把舊的、過期的認知當(dāng)作有效信息來使用,這就是所謂的"陳舊記憶"問題。
研究團隊通過實驗發(fā)現(xiàn),在引入"沖擊事件"(比如市場機制突變)之后,那些沒有主動更新機制的系統(tǒng),其陳舊知識使用率會急劇攀升,直接導(dǎo)致輸出質(zhì)量下滑。而且這種下滑很隱蔽,因為系統(tǒng)給出的答案聽起來依然"有模有樣",用戶很難察覺背后引用的其實是已經(jīng)失效的信息。
二、InKH是什么:一套讓AI真正"持續(xù)思考"的記憶架構(gòu)
InKH的設(shè)計思路可以用一個"專業(yè)金融分析師的大腦"來理解。一個優(yōu)秀的人類分析師不會每次開會都忘記上次討論的內(nèi)容,他會在腦子里持續(xù)維護一張動態(tài)的知識圖譜:哪些資產(chǎn)存在哪些風(fēng)險,客戶的偏好是什么,上周哪個判斷被市場數(shù)據(jù)證偽了,應(yīng)該相應(yīng)調(diào)整。他的認知是連續(xù)的、累積的、有時效性判斷的。
InKH試圖給AI系統(tǒng)建立類似的機制,整套架構(gòu)由五個相互協(xié)作的部分構(gòu)成。
第一個部分是"事件流視角"。系統(tǒng)把所有輸入——無論是用戶說的話、市場價格變動、工具調(diào)用的結(jié)果、還是內(nèi)部風(fēng)險信號——都統(tǒng)一看作一個連續(xù)的"事件流",而不是一次次孤立的對話請求。這就好比分析師不是每次開會才開始工作,而是全天候地關(guān)注著信息流入。
第二個部分是"有界工作上下文緩沖區(qū)"。每當(dāng)系統(tǒng)需要處理一個新任務(wù)時,它不是讓AI模型自己去翻檔案、搜記憶,而是由系統(tǒng)在幕后自動把最相關(guān)的知識片段提前準(zhǔn)備好,打包成一個精簡的"工作文件夾"(控制在300到600個Token的范圍內(nèi)),然后直接交給AI模型。這個過程稱為"被動注入"——系統(tǒng)主動送上門,而不是讓模型費力去尋找。
第三個部分是"時序知識圖譜"。這是整套架構(gòu)的記憶核心。所有提取出來的知識——比如"BTC在高波動市場下會出現(xiàn)滑點上升"——都以結(jié)構(gòu)化的形式存儲在一張圖譜里,每個知識條目都帶有創(chuàng)建時間、最后驗證時間、是否已被推翻等屬性。當(dāng)新知識和舊知識發(fā)生矛盾時,系統(tǒng)會在"寫入時"(而非"查詢時")就把舊知識標(biāo)記為失效,確保下次取用時不會拿到過期內(nèi)容。
第四個部分是"Wiki審計界面"。這是給人類看的部分。所有知識被整理成可讀的維基頁面,包括資產(chǎn)頁面、交易者頁面、策略筆記、風(fēng)險備注和維護日志。這讓監(jiān)管人員或用戶可以隨時查看AI的"思考依據(jù)",確保透明可查。
第五個部分是"后臺提取、成熟度跟蹤、衰減與失效機制"。每完成一個任務(wù),系統(tǒng)會在后臺自動從對話記錄里提取有價值的知識點,更新到圖譜中。同時,每個知識條目都有一個"成熟度"屬性——新提取的信息是"初始"狀態(tài),經(jīng)過多次復(fù)用和驗證后才會晉升為"已驗證"或"已證明"狀態(tài)。高風(fēng)險操作只允許使用成熟度足夠高的知識來支撐決策。此外,知識還會隨時間自然"衰減"——距離上次驗證越久、與當(dāng)前市場狀態(tài)越不符,其有效置信度就越低。
這五個部分共同構(gòu)成了一個閉環(huán):實時吸收→結(jié)構(gòu)化存儲→智能注入→后臺提煉→治理把關(guān)。
三、背后的數(shù)學(xué)邏輯:為什么被動注入比主動搜索更合理
研究團隊為這套架構(gòu)提供了嚴格的數(shù)學(xué)形式化描述,其中有三個核心命題值得關(guān)注,即便不懂?dāng)?shù)學(xué),直覺上也不難理解。
第一個命題討論的是"被動注入"和"主動搜索"哪個更經(jīng)濟。結(jié)論是:只要主動搜索帶來的額外規(guī)劃開銷(AI模型需要額外花精力去想"我應(yīng)該查什么")超過被動注入引入的少量無關(guān)信息噪音,被動注入就更劃算。直覺上很好理解——與其讓一個天才分析師每次開會前自己翻遍所有文件,不如提前讓助手幫他準(zhǔn)備好最相關(guān)的那一疊文件。
第二個命題討論的是"治理機制如何防止錯誤記憶擴散"。研究證明,只要治理機制能在每次復(fù)用前過濾掉足夠比例的噪音知識,錯誤信息就不會像病毒一樣在系統(tǒng)內(nèi)越傳越多,而是維持在一個有界的水平。這就像免疫系統(tǒng)——不是要消滅所有外來信息,而是要確保有害信息不能無限繁殖。
第三個命題討論的是"成熟度門檻為什么應(yīng)該隨風(fēng)險級別提高"。對于低風(fēng)險的信息查詢,使用初步提取的知識就夠了;但對于涉及實際交易的高風(fēng)險操作,必須要求知識經(jīng)過多輪驗證、成熟度足夠高,才能被用來支撐決策。這就像醫(yī)院手術(shù)前需要多方會診確認,而不是依賴一個剛?cè)肼毜膶嵙?xí)醫(yī)生的單方判斷。
四、實驗怎么做的:一場精心設(shè)計的"壓力測試"
為了驗證InKH的實際效果,研究團隊設(shè)計了一套嚴格的受控基準(zhǔn)測試,規(guī)模相當(dāng)可觀:24個隨機種子、4輪測試、每輪80個任務(wù)場景,每個基線系統(tǒng)跑完整實驗需要7680個完整工作流程,六個基線系統(tǒng)合計產(chǎn)生了46080次評估。
四類任務(wù)場景覆蓋了金融AI的核心使用場景:市場分析、投資組合評審、跟單交易評估和交易準(zhǔn)備。四輪測試的設(shè)計也頗具匠心。第一輪是"冷啟動",系統(tǒng)從零開始,沒有任何積累的知識;第二輪引入用戶偏好信號,測試系統(tǒng)是否能記住并利用這些信息;第三輪注入"機制沖擊",比如突然出現(xiàn)的市場規(guī)則變化或協(xié)議漏洞,測試系統(tǒng)面對過期知識時的應(yīng)對能力;第四輪測量沖擊后系統(tǒng)的知識復(fù)用質(zhì)量,驗證它是否真的從歷史中"學(xué)到了東西"。
與InKH對比的六個系統(tǒng),從簡單到復(fù)雜依次是:只有基礎(chǔ)模型沒有任何記憶的"純模型系統(tǒng)"、加了工具調(diào)用的"工具代理"、有簡單持久化記憶的"簡單記憶"、有人工維護Wiki并由AI主動搜索的"Wiki漫游"、有時序圖譜但缺少失效機制的"KH-無失效",以及完整的InKH。
五、實驗結(jié)果:數(shù)字背后的故事
實驗結(jié)果用一個直觀的坐標(biāo)圖來理解最清楚:橫軸是響應(yīng)延遲,縱軸是任務(wù)質(zhì)量。理想的系統(tǒng)應(yīng)該占據(jù)左上角——質(zhì)量高、速度快。InKH在所有有持久記憶的系統(tǒng)中,確實占據(jù)了這個最理想的位置。
在具體數(shù)字上,完整的InKH達到了0.815的平均任務(wù)質(zhì)量,平均響應(yīng)延遲為900毫秒,陳舊知識使用率低至0.9%,決策可追溯性接近滿分(0.999)。
與表現(xiàn)最接近的"Wiki漫游"系統(tǒng)相比,InKH的延遲下降了82.95%(從5281毫秒降至900毫秒),Token用量減少了82.29%,任務(wù)質(zhì)量提升了0.108,陳舊知識使用率下降了96.58%,決策可追溯性提升了0.461。延遲從5秒多降到不到1秒,對于實時金融決策場景來說,這種差異在實用層面幾乎是天壤之別。
與最接近InKH但缺少失效機制的"KH-無失效"系統(tǒng)相比,InKH的任務(wù)質(zhì)量提升了0.050,而陳舊知識使用率同樣下降了96.58%,兩者的Token用量幾乎相同。這組對比非常關(guān)鍵,因為它證明了質(zhì)量提升的來源不是"記憶更多",而是"治理更嚴格"。
最能說明問題的是第三輪沖擊測試的結(jié)果。當(dāng)市場機制突變被引入后,Wiki漫游、簡單記憶和KH-無失效三個系統(tǒng)的陳舊知識使用率全都出現(xiàn)了明顯跳升;唯獨完整的InKH基本保持不變,因為它在沖擊發(fā)生時就已經(jīng)在寫入階段把舊知識標(biāo)記為失效。
按任務(wù)類型拆分來看,InKH在跟單交易評估和交易準(zhǔn)備這兩類風(fēng)險最高的任務(wù)上,質(zhì)量優(yōu)勢最為明顯——這正好是成熟度門檻機制發(fā)揮作用的場合。
研究團隊還特別做了一個關(guān)鍵對照實驗,把InKH和KH-無失效的"知識庫存量"拿出來比較。結(jié)果顯示,兩者累積的知識條目數(shù)量完全相同(平均13.96條),新增知識數(shù)量相同(平均5.96條),驗證過的和已證明的知識數(shù)量也完全一樣。唯一的區(qū)別是:InKH平均失效了2.96條過期知識,而KH-無失效一條都沒有失效。換句話說,兩個系統(tǒng)記的東西一樣多,但一個定期清理過期信息,另一個任由過期信息堆積。這直接導(dǎo)致了兩者在面對沖擊時的截然不同表現(xiàn)。
六、這項研究的局限性:研究團隊自己說了什么
研究團隊相當(dāng)坦誠地指出了這項工作的四個主要限制。
第一,整個評測是基于受控合成數(shù)據(jù)集,而非真實的歷史市場數(shù)據(jù)。雖然這樣做的好處是可以精確控制變量、隔離架構(gòu)效果,但它并不能直接證明InKH在真實市場中能帶來更好的交易收益。
第二,任務(wù)質(zhì)量的評分是由模擬器定義的"黃金標(biāo)準(zhǔn)"來衡量的,而非真人標(biāo)注。這意味著質(zhì)量分數(shù)衡量的是"系統(tǒng)行為是否符合模擬器設(shè)定的預(yù)期",而不是"人類專家是否認可這個答案"。
第三,當(dāng)前的實現(xiàn)是對圖譜檢索和服務(wù)行為的抽象模擬,而非真正部署在生產(chǎn)級圖數(shù)據(jù)庫上的完整實現(xiàn)。
第四,用真實公開數(shù)據(jù)(包括美聯(lián)儲經(jīng)濟數(shù)據(jù)庫FRED、美國證監(jiān)會EDGAR系統(tǒng)和幣安公開市場數(shù)據(jù))進行的歷史回放測試,在論文中只是規(guī)劃出來了,并沒有實際執(zhí)行和報告結(jié)果。
七、這套架構(gòu)與其他相關(guān)工作的關(guān)系
理解InKH在整個研究生態(tài)中的位置,需要把它放在幾個相關(guān)工作的背景下來看。
Graphiti是Zep團隊提出的一套時序知識圖譜架構(gòu),專注于存儲層的時效窗口管理和關(guān)系感知檢索。InKH和它的關(guān)系是"互補而非替代"——Graphiti可以作為InKH時序圖譜的底層存儲基礎(chǔ)設(shè)施,而InKH在其上增加了編排層:被動注入、治理門控和寫入時失效。一個關(guān)注"存什么、怎么存",另一個關(guān)注"什么時候取、取什么、誰有資格用"。
Mem0是另一個強調(diào)生產(chǎn)就緒的長期記憶系統(tǒng),報告了相對于全上下文基線的顯著延遲和Token改善。InKH與Mem0的思路類似,但額外強調(diào)了金融場景特有的治理約束——特別是基于成熟度和風(fēng)險等級的知識使用門檻。
MemGPT把多層記憶管理類比為操作系統(tǒng)的內(nèi)存管理,InKH則進一步把"知識的時效性治理"提升為核心設(shè)計目標(biāo),而不僅僅是容量管理。
此外,研究團隊還特別提到了同一研究方向上的兩篇執(zhí)行層安全論文——一篇討論加密貨幣交易中的執(zhí)行層攻擊面,另一篇討論跨市場交易的合規(guī)執(zhí)行。這三篇論文共同構(gòu)成了一個完整的金融AI安全體系:InKH負責(zé)上游的認知層(知道什么、記住什么、相信什么),執(zhí)行層安全論文負責(zé)下游的動作層(做什么、怎么做、有沒有越權(quán))。
說到底,InKH這項研究想說清楚的事情并不復(fù)雜:一個金融AI系統(tǒng)如果真的要被人信任和采用,它不能只是一個聰明的"一次性助手",而必須是一個能持續(xù)積累、能辨別真?zhèn)巍⒛茉谑袌鲎兓瘯r主動更新認知的"長期協(xié)作伙伴"。研究團隊給出的答案是:把復(fù)雜性留給系統(tǒng),把簡潔留給用戶。
這種思路當(dāng)然還有很長的路要走——合成測試和真實市場之間的鴻溝依然存在,系統(tǒng)質(zhì)量的最終判斷也還需要真人評估來佐證。但這套架構(gòu)所展示的方向,無論是被動知識注入替代主動Wiki搜索、寫入時失效替代查詢時篩選,還是成熟度門控與風(fēng)險級別掛鉤,都是非常具有工程說服力的設(shè)計選擇。
歸根結(jié)底,金融AI的核心挑戰(zhàn)從來不只是"夠不夠聰明",而是"記得夠不夠準(zhǔn)、更新夠不夠快、決策夠不夠負責(zé)"。InKH在這三個維度上,都給出了比現(xiàn)有系統(tǒng)更清晰的工程答案。對金融科技、AI Agent設(shè)計、或者知識管理系統(tǒng)感興趣的讀者,完全可以通過arXiv:2606.01886查閱完整論文,里面包含所有算法偽代碼、數(shù)學(xué)形式化推導(dǎo)和實驗復(fù)現(xiàn)腳本,公開透明度相當(dāng)高。
Q&A
Q1:InKH的"被動知識注入"和普通RAG檢索有什么區(qū)別?
A:普通RAG(檢索增強生成)是由AI模型在推理時主動發(fā)起檢索請求,相當(dāng)于讓模型自己去圖書館找書。InKH的被動注入則是系統(tǒng)在模型開始推理之前,就自動把最相關(guān)的知識打包好送到模型面前,模型不需要發(fā)起任何檢索動作。這種差異帶來的最直接好處是延遲大幅降低——InKH相比Wiki漫游式的主動檢索減少了82.95%的響應(yīng)時間,同時Token消耗也下降了82.29%。
Q2:InKH的"寫入時失效"和"查詢時過濾"有什么本質(zhì)區(qū)別?
A:查詢時過濾是每次取用知識時才判斷"這條信息是否過期",相當(dāng)于每次吃飯前才檢查食材是否變質(zhì);寫入時失效是在新知識被寫入時就立刻把與之矛盾的舊知識標(biāo)記為無效,相當(dāng)于超市一上架新貨就立刻把同品類的過期貨下架。寫入時失效的優(yōu)勢是陳舊知識根本不會進入檢索候選池,而不是在取用時才被篩掉——這在市場機制突變后表現(xiàn)出了96.58%的陳舊知識使用率下降。
Q3:InKH的成熟度門控機制在高風(fēng)險金融操作中如何起作用?
A:InKH為每個知識條目設(shè)置了成熟度狀態(tài),從初始提取到經(jīng)過多次復(fù)用驗證的"已證明"狀態(tài)是一個逐步晉升的過程。對于低風(fēng)險的信息查詢,初始狀態(tài)的知識就可以被使用;但對于跟單交易評估或?qū)嶋H交易準(zhǔn)備這類高風(fēng)險操作,系統(tǒng)會要求只有成熟度達到更高級別的知識才能被納入決策依據(jù)。實驗數(shù)據(jù)顯示,在僅統(tǒng)計高風(fēng)險工作流的情況下,InKH的陳舊知識使用率為0.018,而同樣有圖譜但缺少成熟度門控的對比系統(tǒng)達到了0.336,差距約19倍。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.