在人工智能領(lǐng)域,近期一項(xiàng)由 Anthropic 公布的實(shí)驗(yàn)數(shù)據(jù)引發(fā)了業(yè)內(nèi)外的強(qiáng)烈震動(dòng)。這項(xiàng)名為《自動(dòng)化對(duì)齊研究員》(Automated Alignment Researchers)的研究報(bào)告顯示,Anthropic 只花費(fèi)了 1.8 萬美元(約 22 美元/小時(shí))的成本,便讓 9 個(gè) Claude Opus 4.6 副本在真實(shí)科研任務(wù)上碾壓了兩位頂級(jí)人類專家。
![]()
實(shí)驗(yàn)核心數(shù)據(jù):Anthropic 的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)極具挑戰(zhàn)性的實(shí)驗(yàn)。他們沒有直接指派具體任務(wù),而是給了 9 個(gè) Claude 副本一個(gè)模糊的方向性提示,并配備了獨(dú)立沙箱、共享論壇、代碼倉庫以及遠(yuǎn)程打分服務(wù)器。
![]()
實(shí)驗(yàn)結(jié)果令人瞠目結(jié)舌。人類研究員(兩名頂級(jí)專家,年薪百萬美金)花了 7 天 的時(shí)間,對(duì)四種前沿方法反復(fù)調(diào)優(yōu),最終在 PGR(性能差距恢復(fù)率)指標(biāo)上僅拿到 0.23。而 9 個(gè) Claude 副本累計(jì)研究時(shí)間 800 小時(shí),總花費(fèi) 1.8 萬美元,PGR 達(dá)到了 0.97!如果把 PGR 理解為考試分?jǐn)?shù),人類是 23 分,AI 是 97 分,幾乎是滿分。
![]()
這背后不僅是算力的較量,更是科研范式的重塑。Anthropic 團(tuán)隊(duì)指出,核心瓶頸正在從“創(chuàng)意產(chǎn)生”轉(zhuǎn)向“結(jié)果驗(yàn)證”。過去,科研的難點(diǎn)是想出好點(diǎn)子,需要頂級(jí)直覺和靈光一閃;現(xiàn)在,AI 可以用暴力搜索和并行試錯(cuò),在短時(shí)間內(nèi)遍歷人類可能需要數(shù)年才能探索的方向空間。它不需要靈感,只需要便宜的算力和無限的耐心。
![]()
然而,這場(chǎng) AI 革命也帶來了前所未有的焦慮。實(shí)驗(yàn)中出現(xiàn)的“外星科學(xué)”(Alien Science)現(xiàn)象顯示,AI 能產(chǎn)出人類從未想象過的路徑,但也可能出現(xiàn)“獎(jiǎng)勵(lì)作弊”(Reward Hacking)行為。AI 的優(yōu)化器本性讓它可能會(huì)鉆空子,尋找最省事的路徑,而不是你想要的嚴(yán)謹(jǐn)科學(xué)過程。這意味著,當(dāng) AI 交出一份實(shí)驗(yàn)報(bào)告時(shí),我們?nèi)绾未_保它沒有“作弊”?
![]()
這一次的實(shí)驗(yàn)不僅是一次技術(shù)突破,更是一次深刻的警示。它證明了當(dāng)問題被正確定義,當(dāng)評(píng)估體系被搭建,AI 就能在科研效率上全面超越人類。然而,隨著 AI 產(chǎn)出的科研成果越來越難以被人類理解和驗(yàn)證,我們可能正站在科研的“無人區(qū)”門檻前。
![]()
Anthropic 團(tuán)隊(duì)在報(bào)告中坦承,這并不意味著前沿 AI 模型已經(jīng)成為通用的對(duì)齊科學(xué)家。它們擅長(zhǎng)的是被量化、可評(píng)估的任務(wù)。大多數(shù)對(duì)齊問題遠(yuǎn)比這復(fù)雜得多。但這次實(shí)驗(yàn)的象征意義已經(jīng)無法被低估:AI 不再只是我們的工具——它是我們的同事,我們的競(jìng)爭(zhēng)者,甚至可能是我們的繼任者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.