文 | 字母AI
DeepSeek那張萌萌噠的招聘海報,相信你也看到了。
藍色背景,卡通虎鯨,配上“Agent Harness研發工程師”幾個大字,看起來像是哪個二次元公司在招實習生。但如果你真這么想,就錯過了一個關鍵信號。
現在做Harness的公司很多,比如Anthropic的Claude Code,以及OpenAI的Codex。
這兩個產品有個共同特點,領導者都是產品出身。
前者的創始人是鮑里斯·切爾尼(Boris Cherny),典型的產品經理,曾在Facebook做過工程和產品領導。
Codex這邊是亞歷山大·安布利克斯(Alexander Embiricos),Dropbox的產品經理。
但是DeepSeek不一樣,這邊Harness的負責人并不是什么產品經理,而是一個在Jane Street干了9年、后來聯創量化基金TSY Capital的交易系統專家——崔添翼。
這個選擇很反常識。一般公司無論做怎樣的產品,找的都是懂用戶體驗、會畫原型圖、能協調需求的PM。
DeepSeek倒好,找了個會賺錢的量化高手。
但我卻覺得DeepSeek反而做對了。
為什么?
因為量化交易和AI Agent的底層邏輯是一樣的。
光有聰明的策略不賺錢,真正把策略變成錢的,是執行系統,是風控系統。
光有強模型也不夠,真正把模型變成生產力的,是工具,是上下文。
DeepSeek不需要產品包裝,也不需要向上管理,公司內部敞開天窗說亮話。
他們唯一需要的,就是跳過中間商,直接找個會賺錢的人,帶著大家一起賺錢。
崔添翼其人
2008年,河南安陽一中的崔添翼憑借全國青少年信息學奧林匹克競賽銅牌,被保送進入浙江大學計算機學院。那一年,梁文鋒還在浙大信息與通信工程專業讀研究生。
崔添翼在浙大的四年,幾乎是在ACM競賽的訓練和比賽中度過的。他代表浙江大學參加ACM國際大學生程序設計競賽亞洲區域賽,6次拿下金牌。
在那個年代,ACM競賽圈里流傳著一份講義《背包九講》,作者正是崔添翼。這份講義系統拆解了動態規劃中的背包問題,從01背包到完全背包、多重背包、分組背包、依賴背包,一直到泛化物品。至今仍在GitHub上更新。
![]()
2013年畢業后,崔添翼被Jane Street Capital香港分部聘為助理量化研究員,當時他的年薪就超過了百萬人民幣。
Jane Street是全球頂尖的量化交易公司,技術門檻高,面試流程嚴苛。
崔添翼在Jane Street一待就是9年,從事股票和固定收益領域的軟件開發與研究。這9年里,他接觸的不是單純的算法題,還有真實的交易系統、風控系統、回測系統、交易管道和異常處理。
大家都說量化交易就是策略,你有了策略就能賺錢,但其實不是,光有策略是不能賺錢的。
一個策略在回測里表現再好,如果不能被穩定執行,價值接近于零。
真正把策略變成錢的,是執行系統。
策略寫出來以后,一般不會立刻上真金白銀,而是先放進歷史行情里跑一遍,看它在過去那些漲跌里會怎么交易、最后賺不賺錢。這叫回測。但回測只是事后模擬,跑得漂亮不等于實盤也能賺錢。
系統得先看見價格怎么動,再判斷要不要出手,接著把買賣指令送出去,還得盯著交易所回來的結果。“成交了嗎?”、“成交價是多少?”
市場會突然暴漲暴跌,接口會延遲,數據會出錯,策略也可能連續虧損。這時候系統必須知道什么時候停手,什么時候報警,什么時候把交易切斷。
市場沒人等你,延遲哪怕只有幾毫秒,錢就沒了。
這些東西不性感,也不會出現在學術論文里,但它們才是量化交易的核心競爭力。
2022年,崔添翼離開Jane Street,聯合創辦了量化交易機構TSY Capital,專注于全球股票市場的系統化量化交易策略。
從此以后,他就從打工人變成了創業者,他不僅要懂技術,還要從零搭建整套交易系統、組建團隊、管理風險、對接市場。
TSY Capital的團隊成員同樣來自各大名校,但創業的現實比在大公司打工要殘酷得多。2026年2月,有消息傳出崔添翼離開了TSY Capital。
過了一段時間,他在LinkedIn上更新了自己的職位,加入DeepSeek Harness團隊。
“又一個天才加入DeepSeek”這個事已經沒啥新鮮的了,因為DeepSeek壓根就不缺天才。
DeepSeek找來崔添翼,本身也不是讓他過來訓練模型的,而是為了讓他搭建Harness。
對DeepSeek來說,其實Harness就是他們的交易系統。AI Agent的底層邏輯和量化交易是一樣的。
光有強模型不夠,真正把模型變成生產力的,是上下文管理、工具調用、終端執行、測試反饋、權限控制、失敗回滾。
在量化里,不能被穩定執行的策略價值就是0。在AI里,不能安全操作文件、命令、代碼的模型,也只是一個聊天框罷了。
崔添翼加入DeepSeek Harness團隊的真正信號,是DeepSeek終于開始補那套把“聰明”變成“執行”的系統。
這是DeepSeek下半場的開局。
從模型效率到工作流入口
DeepSeek上半場的敘事,是模型效率。
V3、R1、開源、低成本、推理能力……
DeepSeek證明了一件事,中國團隊就算沒有那么多卡,也能做出全球級模型。打破了“只有美國大廠才能做強模型”的固有認知。
但是對于用戶來說,永遠都是誰出了什么新模型,我就跑過去用誰的模型。豆包超過DeepSeek的下載量,就是最好的例子。
模型爆紅可以帶來巨大的第一波流量,長期用戶規模要靠產品、場景、運營和生態入口留住。字節的優勢就在這里。
豆包有抖音、剪映、有SeeDance。DeepSeek雖說在模型社區里有聲望,但在大眾產品層面,它并沒有形成豆包那種持續分發和高頻使用能力。
當下半場模型能力趨同時,真正的競爭會從“誰的模型更聰明”,轉向“誰離用戶的工作流更近”。
雖然咱們習慣了ChatBot,可是對開發者來說,聊天框并不是入口,編輯器、終端、代碼庫、CI、文檔、任務系統,這些玩意才是。
Claude Code和Codex這類的產品,也不只是“幫你寫代碼”,而是把模型嵌進開發者的日常操作路徑。
誰占住這個入口,誰就拿到了付費場景。
很多人以為Harness的本質是模型性能,性能越強越好。實際上截然相反,Harness是讓便宜token變得有用的系統。
Agent燒token是事實。
幾年前,語言模型處理的還是很輕的任務,給它一段評論,讓它判斷情緒,幾十個token,幾乎瞬間返回。現在的編程Agent面對的是另一類任務,看完整個代碼庫,找到bug,寫補丁,跑測試,再驗證結果。
一次任務可能消耗上千萬token、持續幾十分鐘,甚至幾個小時,背后還得調用工具好幾百次。
現在的GPT和Claude,本質上是Agent開著豪車送外賣,能跑通,但成本太高了。
便宜確實不是終點,問題是你至少得讓我買得起,我才能舍得用吧?
而且哪怕是同一個模型,換一套Harness,結果就會完全不同。
X上有位叫做Sayash Kapoor的博主做了一個測試。
以Claude Opus 4.5為例,放進Claude Code的Harness,在CORE-Bench Hard上能達到95%。換成一個樸素的Hugging Face配置,成績只剩42%。
同樣的權重、同樣的智能水平,單是Harness就拉開了53個百分點,這個差距還是挺明顯的。
大家拼的已經不是模型了,而是誰的Harness更好。一個更小、更便宜的模型,只要配上優秀設計的Harness,也可能打敗一個大模型加粗糙Harness。
這就是2026年所有頭部大廠都在追求Harness的原因。你模型終究是要使用的。多買幾張卡、多花點時間去訓練模型,提升很小很小。但寫好一個Harness,那簡直是煥然一新。
AI編程已經過了“模型會不會寫代碼”的階段,現在哪還有不會寫代碼的模型?
真正拉開差距的地方,就是模型能不能在真實的代碼庫里穩定干活。
Harness負責組織代碼庫、項目規則、上下文摘要,控制迭代次數、重試策略,把模型的決策轉成shell命令、文件編輯和測試執行,再把測試失敗、日志輸出、瀏覽器截圖重新喂回模型。
AI Agent是一個“思考、行動、反饋、修正”的長循環。這個循環能不能跑穩,靠的就是Harness。
API價格越低,單純賣token賺的錢越少,這是無可爭議的事實。
所以才要有Harness,去把低價的模型包裝進高價值場景。
同樣100萬token,用在聊天里只是問答,用在代碼Agent里可能完成一個bug修復、一次重構、一個功能原型。后者的付費意愿高得多。
DeepSeek需要從賣模型調用,轉向賣工作流結果。這是下半場的核心邏輯。
DeepSeek的短板
DeepSeek網頁端很火,APP下載量也很高,但關于模型調用這塊,它是沒有收集渠道的。別人用它的模型跑agent,反饋信息不回梁文鋒那里。
這不是技術問題,這是機制問題,網頁端和APP都是ChatBot,并不能真正去跑工作流。
要想去做Harness產品,你得有一個收集反饋的通道。用戶在哪里卡住了?哪些工具調用失敗率最高?哪些場景下模型表現不穩定?
這就像一家量化公司把策略發出去了,但交易日志、成交回報、風控記錄都在別人手里。你知道策略有人用,卻不知道它到底怎么賺錢、怎么虧錢。
收集不到這些信息,產品就是閉門造車。
Harness最值錢的地方,恰恰就在失敗日志上面。
它改錯了哪一行?跑測試時掛在哪個報錯?終端命令為什么失敗?它有沒有重復讀同一個文件?有沒有在上下文快滿時開始忘事?
拿到更多真實失敗日志,誰就能更快知道Agent到底差在哪里。
Claude Code為什么能在短時間內占到GitHub公開提交量的4%?因為Anthropic不只是做了一個工具,而是建立了一個完整的反饋循環。
它把用戶的每一次失敗和重試,都會變成產品迭代的數據。尤其是那些集中錯誤,直接變成了Claude Code的新Harness。
DeepSeek現在要補的,不只是Harness本身,還有這套收集反饋、快速迭代的機制。
量化里有個詞叫滑點。你以為自己能在這個價格成交,結果真下單的時候,價格已經變了,中間差出來的就是滑點。
Agent里也有滑點。模型以為自己理解了項目結構,結果讀錯文件;以為一條命令能跑通,結果環境變量沒配;以為補丁改好了,結果測試掛了。
這些差距,就是模型從“想明白”到“做成事”之間的滑點。Harness的價值,就是把這些滑點一點點壓低。
還有一點,現在Agent有一個特別讓人頭疼的問題就是“管不住”。
2026年4月,汽車租賃SaaS公司PocketOS,讓一個運行在Cursor里的Claude Opus 4.6編碼Agent,通過Railway調用一次API,結果這個Agent在9秒內刪除了公司的生產數據庫和同卷備份,公司最后只能從三個月前的備份恢復。
在量化公司,最怕的不是策略不賺錢,而是策略失控。虧錢可以復盤,失控會把公司拖死。所以交易系統一定要有風控:虧到什么程度要停,出現異常報價要停,接口延遲太高要停。
Agent也一樣。它能讀文件、改代碼、跑命令,能力越大,風險越大。什么命令不能執行,哪些目錄不能碰,什么時候必須問人,改壞了怎么回滾。
崔添翼值錢的地方在于,他知道什么時候該把模型摁住。
以前在產品體驗這件事上,DeepSeek是不太需要操心的。模型夠強,開源夠快,社區自然會來。
現在不一樣了。開發者對編程工具的容忍度是極低的,因為他們有些人會同時準備很多個編程工具,A工具不行就馬上換B工具。
Ivern AI在2026年4月開發者調查中提到,73%的開發者經常使用2個以上AI編碼工具,只有27%只用一個工具。
除了產品體驗以外,工具生態也是一個大問題。
Claude Code背后有MCP協議、有插件系統,還有各類的Skills。這些東西不是一天建成的,是在無數次的真實使用場景里長出來的。
穩定性是另一個痛點。DeepSeek爆紅之后,服務器壓力暴增,就比如5月28日,DeepSeek就又崩了。
對聊天用戶來說,等幾秒鐘還能接受。但對編程Agent來說,穩定性就是生命線。任務跑到一半,你突然告訴我說API超時了,那所有工作都前功盡棄了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.