无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

S-Researcher讓智能體自主設計實驗、模擬被試、撰寫報告

0
分享至



作者 | 論文團隊

編輯丨ScienceAI

Karpathy 3 月初開源 AutoResearch,630 行代碼、一塊 GPU、睡一覺跑 100 個實驗,GitHub 星標直沖 6 萬。緊接著,AutoResearchClaw 把這套「睡覺自動科研」的范式拓展到了 23 個階段的完整論文生成流水線,連 LabClaw 也開始幫生物醫學研究者自動跑實驗、寫記錄。

一個自然的問題浮出水面:AI 自動科研在自然科學和 ML 領域已經跑起來了,社會科學呢?

社會科學的難點跟 ML 調參完全不同。你沒有一個 loss 函數可以優化,被試是有主觀意識的人,實驗設計空間極大,而且招 100 個真人做實驗就要花幾個月。傳統的 AutoML 式循環在這里根本不適用。

來自中國人民大學高瓴人工智能學院的團隊給出了他們的方案:S-Researcher。不同于 AutoResearch 讓 Agent 反復修改訓練代碼來壓低 validation loss,S-Researcher 讓 LLM Agent 同時扮演「研究助手」和「模擬被試」兩個角色,覆蓋社會科學研究從實驗設計到報告撰寫的全流程。底層是一個支持 10 萬并發 Agent 的社會模擬引擎YuLan-OneSim。在最硬核的驗證中,LLM Agent 自主發現的合作機制被 120 人真人實驗獨立證實。



論文鏈接:http://arxiv.org/abs/2604.01520

GitHub:https://github.com/RUC-GSAI/YuLan-OneSim

在線平臺:https://www.yulan-onesim.cn/



S-Researcher 整體流程:用戶輸入研究課題后,系統自動完成場景構建、模擬執行和報告生成,研究者可在每個環節介入。

先造一個能「跑」任何社會實驗的模擬器

AutoResearch 的成功有一個前提:訓練代碼只有 630 行,整個系統自包含,Agent 能一次讀完全部代碼。社會模擬沒有這個便利。你需要一個平臺,能把千變萬化的社會實驗場景轉化為可執行代碼,還得支持成千上萬個 Agent 同時交互。

團隊開發的 YuLan-OneSim 圍繞三個核心能力進行設計。

通用性:讓 AI 理解五花八門的社會實驗。用戶只需要用自然語言描述實驗場景,系統就會按照 ODD(Overview, Design Concepts, Details)協議將其結構化,然后自動生成行為圖和可執行的模擬代碼。團隊在 8 個社科領域的 50 個場景上測了一圈,專家給行為圖打了接近滿分的 5.0,生成代碼拿了 4.2 分。考慮到這些代碼幾分鐘就能出來,而手寫可能要好幾個小時,這個分數相當能打。

消融實驗揭示了一個重要結論:行為圖是整個流程的靈魂。去掉它,代碼質量直接掉了 35.8%,比去掉任何其他模塊的影響都大。給 Agent 一個結構化的中間表示,比讓它直接從自然語言生成代碼要靠譜得多。

可擴展性:讓幾萬、十幾萬個 Agent 同時跑。YuLan-OneSim 用了一套事件驅動的異步架構,配合 Master-Worker 分布式設計。實測下來,從 1k 到 100k 個 Agent 都能平滑擴展。10 萬 Agent 跑一輪大約需要 3538 秒;在萬級規模時,分布式部署比單機快了 3-4 倍。

可靠性:讓通用 LLM 輸出可信的模擬行為。直接拿通用 LLM 來模擬社會行為,效果確實不穩定。為此團隊設計了 VR2T 反饋框架(Verifier-Reasoner-Refiner-Tuner),先讓驗證者打分,推理者分析錯因,修復者糾正輸出,最后用這些數據微調骨干模型。在 Qwen2.5-1.5B 上用 DPO 迭代 4 輪后,可靠性提升了27.4%。這個思路和 AutoResearch 的 ratchet 機制異曲同工:跑一輪,評估,保留改進,丟棄退化,反復迭代。

目前 YuLan-OneSim 已經作為在線平臺運行(yulan-onesim.cn),吸引了 80 多家機構的 100 多位注冊用戶。



YuLan-OneSim 平臺能力驗證:(a)專家評分,(b)錯誤類型分布,(e)規模擴展性測試,(g)反饋微調效果。

S-Researcher:一個研究問題進去,一份研究報告出來

S-Researcher 把研究工作流組織成三種經典推理模式:歸納(從數據中發現規律)、演繹(檢驗競爭假說)、溯因(追溯因果機制)。整個 pipeline 包含實驗設計、模擬執行、結果分析和報告生成四個模塊。

但與全自動路線不同,S-Researcher 從設計之初就把人機協作作為核心原則。研究者可以在每個階段介入:修改系統自動生成的實驗設計、上傳自定義的 Agent 畫像數據、調整模擬參數,甚至只使用其中某個模塊 —— 比如你手上已有實驗數據,可以跳過模擬階段,直接用結果分析和報告生成模塊。

團隊用三個案例驗證了這套系統。

歸納:給定研究問題,AI 自己復現了經典結論



研究問題很簡單:當人們更愿意和文化相似的鄰居互動時,整個社會的文化格局會怎樣演變?

S-Researcher 自主設計了完整實驗:在 10×10 網格上放 100 個 LLM Agent,每人 5 個文化特征維度(音樂、飲食、時尚、政治、休閑),跑 100 輪。

系統發現了一個有趣的悖論:鄰居之間越來越像(平均相似度 + 21%),但全局并沒有走向統一,而是穩定在大約 65 個文化「小島」上 —— 形成「組內趨同、組間分化」模式。這恰好是 Axelrod 文化傳播模型的核心預測,而動態完全來自 LLMAgent 的自主交互涌現。

演繹:三個假說同時 PK,5525 個學生 Agent 模擬中國課堂



第二個案例瞄準教育公平領域的核心問題:到底是什么決定了老師把注意力分給誰?

S-Researcher 自動提出三個競爭假說:表達假說(課堂發言活躍度主導)、成績假說(學習成績主導)、精英假說(家庭背景主導),然后啟動三組平行模擬。

規模:221 個模擬課堂、5525 個學生 Agent,每個學生的畫像直接來自中國教育追蹤調查(CEPS)的真實數據。

結果:表達假說完勝。與 CEPS 實際數據的 Spearman 相關系數,表達假說(ρ = 0.152)顯著高于成績假說(0.122)和精英假說(0.113)。獨立驗證中,CEPS 回歸分析顯示溝通能力對教師注意力的解釋力(β = 0.349,R2 = 12.1%)約是學業成績的20 倍(β = 0.034),與模擬結論完全一致。

更重要的是,模擬給出了回歸分析給不了的東西:表達能力強的學生是如何一輪輪積累起注意力優勢的 —— 這種過程層面的解釋力,正是模擬研究相比統計分析的獨特價值。

溯因:AI 發現新機制,120 人真人實驗獨立驗證



這是整篇論文最有看點的部分。

研究問題:在公共品博弈中,領導者的貢獻金額和背后的意圖(自愿還是被迫),如何影響追隨者的合作意愿?

S-Researcher 自動設計了一個 2×3 被試間實驗:決策機制(自愿 / 強制)× 貢獻水平(低 2 / 中 5 / 高 8 token),每個條件 100 個 Agent 追隨者。

模擬揭示了兩個發現。第一,追隨者的合作主要被貢獻金額「錨定」(β = 0.794),這不意外。第二,出人意料的是,強制條件下追隨者反而貢獻更多(β = 0.104)。Agent 似乎對自愿做出低貢獻的領導者進行了「意圖懲罰」:你本來可以多給但選擇不給,那我也減少合作。

為了驗證,團隊同步開展了平行人類實驗(N = 120,3 輪),實驗設置完全相同。結果令人振奮:人類同樣表現出「強制 > 自愿」的模式,6 個條件下人機均值的 Pearson 相關系數達到r = 0.915。不過差異也存在:人類對意圖的敏感度明顯更高(β_human = 0.251 vs. β_agent = 0.104),LLM Agent 則更依賴金額本身。

AI 自動科研的社會科學路線

當研究對象是「人」的時候,沒有簡潔的目標函數可以優化。文化怎么傳播、老師怎么分配注意力、人們為什么合作 —— 這些問題需要的是理論發現和機制解釋,而非指標優化。S-Researcher 的做法是讓 LLM Agent 本身成為研究對象,用模擬來替代或預篩選昂貴的真人實驗。

當然,這條路也有邊界。LLM Agent 的行為異質性比真人低,對意圖等高階線索的敏感度不足,仍然離不開真人被試。

正因如此,S-Researcher 從一開始就把人機協作作為核心設計。AI 負責快速探索方案空間,人負責在關鍵節點做判斷和干預。一旦涉及理論判斷、倫理審查、領域知識這些「軟」要素,人的參與不是可選項,而是必選項 —— 而這,恰恰揭示了當下 AI 科研工具必須正視的核心邊界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

每日經濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

懂球帝
2026-05-21 15:41:08
三大元兇引發跳水 后期策略

三大元兇引發跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

藝術
教育
手機
數碼
房產

藝術要聞

崔雪冬 2026年油畫新作

教育要聞

嶺大AI學科躋身軟科2025全球前200!三大碩士課程招生中!

手機要聞

蘋果史詩級大改!20周年iPhone測試四曲面屏:告別直屏時代

數碼要聞

AMD攜手多家中國臺灣地區OSAT企業推進新一代EFB技術研發

房產要聞

順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

無障礙瀏覽 進入關懷版