亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

真正的人工智能代理與實際的工作

0
分享至

以人為本的工作模式與無限PPT之間的競爭

作者:Ethan Mollick 2025年9月30日

人工智能已悄然跨越一道門檻:如今它們能完成真正具有經(jīng)濟價值的實際工作。

此前,OpenAI發(fā)布了一項新的人工智能能力測試。與以往圍繞數(shù)學或常識構(gòu)建的基準測試不同,此次測試中,OpenAI召集了平均擁有14年行業(yè)經(jīng)驗的專家——他們的領(lǐng)域涵蓋金融、法律、零售等。這些專家設(shè)計了一系列貼近實際的任務(wù),這些任務(wù)人類專家平均需要4到7個小時才能完成。隨后,OpenAI讓AI和人類專家分別完成這些任務(wù)。另有一組專家對結(jié)果進行評分,且他們并不知道哪些答案來自人工智能、哪些來自人類,每個問題的評分過程約耗時 1 小時。

人類專家最終勝出,但優(yōu)勢微弱,且不同行業(yè)的勝負差異也很大。不過,人工智能的進步速度極快,較新的人工智能模型得分遠高于舊模型。有趣的是,人工智能輸給人類的主要原因并非幻覺或錯誤,而是結(jié)果格式不規(guī)范、未嚴格遵循指令——而這些領(lǐng)域正是人工智能進步迅速的方向。若當前趨勢持續(xù),下一代人工智能模型在該測試中平均得分有望超過人類專家。這是否意味著人工智能已準備好取代人類工作?

答案是否定的(至少短期內(nèi)不會),因為該測試衡量的是“任務(wù)”,而非“工作”。我們的工作由多項任務(wù)構(gòu)成。以我作為教授的工作為例,它并非單一事項,而是涵蓋教學、研究、寫作、填寫年度報告、輔導(dǎo)學生、閱讀、行政事務(wù)等多個方面。人工智能完成其中一項或多項任務(wù),并不會取代我整個工作,而是改變我的工作內(nèi)容。只要人工智能的能力仍存在短板,無法替代人類互動中的所有復(fù)雜工作,它就難以整體取代人類的工作……

一項極具價值的任務(wù)

……但即便如此,人工智能目前能完成的部分任務(wù)已具備極高價值。不妨以我工作中的關(guān)鍵環(huán)節(jié)為例:開展精準的研究工作。正如許多人所知,學術(shù)界存在 “可復(fù)現(xiàn)性危機”——部分重要研究成果,其他研究者無法復(fù)現(xiàn)。學術(shù)界在解決這一問題上已取得一定進展,如今許多研究者會公開數(shù)據(jù),方便其他學者復(fù)現(xiàn)自己的研究。但問題在于,復(fù)現(xiàn)研究需耗費大量時間:研究者需深入閱讀并理解論文、分析數(shù)據(jù)、細致檢查錯誤 1,這一復(fù)雜過程此前只有人類能夠完成。

而現(xiàn)在,情況已發(fā)生改變。

我將一篇涉及多項實驗的復(fù)雜經(jīng)濟學論文文本,以及完整的研究復(fù)現(xiàn)數(shù)據(jù)集,輸入新版 Claude Sonnet 4.5(我擁有該模型的提前使用權(quán))。除了上傳文件并給出指令外,我未進行任何額外操作。指令內(nèi)容為:“根據(jù)上傳的數(shù)據(jù)集復(fù)現(xiàn)該論文中的研究結(jié)果,需獨立完成;若無法完整復(fù)現(xiàn),可盡力完成力所能及的部分”。由于論文涉及復(fù)雜統(tǒng)計分析,我還補充了要求:“能否盡可能完整復(fù)現(xiàn)所有統(tǒng)計過程?”

在無需進一步指令的情況下,Claude完成了一系列操作:閱讀論文、打開數(shù)據(jù)集文件并整理、將統(tǒng)計代碼從一種語言(STATA)轉(zhuǎn)換為另一種語言(Python)、系統(tǒng)梳理所有研究結(jié)果,最終報告成功復(fù)現(xiàn)研究結(jié)論。我抽樣核查了結(jié)果,并讓另一款人工智能模型 GPT-5 Pro再次復(fù)現(xiàn)該研究,結(jié)果均無誤。我還在其他多篇論文上進行了嘗試,均取得了類似的良好效果,僅部分論文因文件大小限制或復(fù)現(xiàn)數(shù)據(jù)本身存在問題,未能成功復(fù)現(xiàn)。若手動完成這些工作,需耗費數(shù)小時。

但這一過程的革命性意義,并非僅在于節(jié)省時間。更重要的是,曾震動多個學術(shù)領(lǐng)域的 “可復(fù)現(xiàn)性危機”,本可通過研究復(fù)現(xiàn)部分解決,但此前這需要人類投入大量細致且高昂的精力,難以大規(guī)模推進。如今,人工智能似乎可對大量已發(fā)表論文進行核查、復(fù)現(xiàn)研究結(jié)果,這將對整個科學研究領(lǐng)域產(chǎn)生深遠影響。盡管目前仍存在障礙——如準確性與公平性基準的建立,但大規(guī)模復(fù)現(xiàn)研究已成為現(xiàn)實可能。研究復(fù)現(xiàn)或許只是人工智能能完成的一項“任務(wù)”,而非“工作”,但它極有可能徹底改變?nèi)祟惖恼麄€研究領(lǐng)域。是什么讓這一切成為可能?答案是:人工智能代理的能力已迅速大幅提升。

核心在于智能體

自初代ChatGPT問世以來,生成式人工智能已幫助人們完成了大量任務(wù),但始終存在一個局限:需人類用戶主導(dǎo)。人工智能會犯錯,若沒有人類在每一步進行指導(dǎo),就無法完成有價值的工作。人們曾認為,“自主人工智能智能體”的愿景遙不可及——這類智能體在接收任務(wù)后,能自主規(guī)劃、使用工具(如編程、網(wǎng)絡(luò)搜索)完成任務(wù)。畢竟,人工智能存在犯錯可能,而智能體完成任務(wù)需經(jīng)歷一連串步驟,只要其中一步出錯,整體任務(wù)就會失敗。

但實際情況并非如此,另一篇新論文解釋了背后的原因。事實證明,我們對人工智能智能體的多數(shù)假設(shè)都是錯誤的。即便人工智能的準確性僅小幅提升(而新模型的出錯概率已大幅降低),也會使其可完成的任務(wù)數(shù)量大幅增加。此外,最新、最先進的“具備思考能力”的模型,實際上能自我修正,不會因單次錯誤而停滯。這些因素共同作用,使得人工智能代理可完成的步驟遠超以往,且無需人類大量干預(yù)就能使用工具——基本上,只要是計算機能完成的操作,它都能借助工具實現(xiàn)。

值得關(guān)注的是,在過去幾年涵蓋從GPT-3到GPT-5等全系列人工智能模型的能力衡量標準中,METR測試是少數(shù)之一。該測試要求人工智能的準確率至少達到 50%。過去五年間,從GPT-3到GPT-5,模型在該測試中的得分呈穩(wěn)定指數(shù)級增長,這體現(xiàn)出智能體工作能力的持續(xù)提升。



如何利用人工智能創(chuàng)造經(jīng)濟價值

然而,從人類對“能動性”的定義來看,人工智能代理并不具備真正的能動性。目前,我們?nèi)孕铔Q定如何使用它們,而這一選擇將在很大程度上決定未來的工作形態(tài)。所有人關(guān)注的風險,是人工智能取代人類勞動力——不難預(yù)見,未來幾年這將成為核心問題,尤其對于那些缺乏創(chuàng)新、只關(guān)注成本削減,而非利用這些新能力拓展或變革工作模式的機構(gòu)而言。但在工作場景中使用人工智能,還存在第二個極有可能出現(xiàn)的風險:不假思索地用代理完成更多現(xiàn)有任務(wù)。

為預(yù)判這一潛在問題,我曾將一份公司備忘錄輸入Claude,要求它將其轉(zhuǎn)化為PPT,隨后又要求從不同角度再制作一份,接著再制作一份……

最終,我得到了17份不同的PPT。顯然,這已經(jīng)過多了。

如果我們不深入思考“為何要開展這項工作”“理想的工作模式應(yīng)是什么樣”,所有人都將被海量人工智能生成的內(nèi)容淹沒。

那么,替代方案是什么?OpenAI的論文提出:專家可與人工智能協(xié)作解決問題——先將任務(wù)委派給人工智能完成初步版本,再審核其成果。若成果不理想,可嘗試多次修正或提供更清晰的指令;若仍無改善,則由人類親自完成任務(wù)。論文估算,若專家遵循這一工作流程,完成工作的速度將提升40%,成本降低 60%,更重要的是,人類能始終掌控人工智能的工作方向。

人工智能代理現(xiàn)已問世。它們能完成實際工作,盡管能力仍有限,但已具備價值且在不斷提升。然而,這款能在幾分鐘內(nèi)復(fù)現(xiàn)學術(shù)論文的技術(shù),也能生成17份無人需要的PPT。這兩種未來的差異,并非源于人工智能本身,而在于我們選擇如何使用它。通過理性判斷 “哪些工作值得做”,而非僅關(guān)注“哪些工作能做到”,我們才能確保這些工具提升的是我們的能力,而非僅僅是效率。

1 在不同研究領(lǐng)域,“復(fù)現(xiàn)(replicating)” 與 “重現(xiàn)(reproducing)” 的定義存在差異:前者可能涉及收集新數(shù)據(jù),后者則可能使用現(xiàn)有數(shù)據(jù)。本文未深入探討這些區(qū)別,但在此次實驗中,人工智能不僅使用了現(xiàn)有數(shù)據(jù),還對這些數(shù)據(jù)應(yīng)用了新的統(tǒng)計方法。

本文編譯自substack,原文作者Ethan Mollick

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
委內(nèi)瑞拉徹底亂套了!民眾直接沖進總統(tǒng)府,場面徹底失控!

委內(nèi)瑞拉徹底亂套了!民眾直接沖進總統(tǒng)府,場面徹底失控!

小馬姨
2026-04-15 10:26:25
彭德懷接手賀龍部隊,賀龍外甥不服與他對罵,卻罵出個天下第一軍

彭德懷接手賀龍部隊,賀龍外甥不服與他對罵,卻罵出個天下第一軍

浩渺青史
2026-04-16 02:01:51
他是姐夫和小姨子的私生子,出家為僧卻在妓院得道,死后6年下葬

他是姐夫和小姨子的私生子,出家為僧卻在妓院得道,死后6年下葬

歷史龍元閣
2026-04-15 11:55:12
雷軍宣布明早6點半直播:我開新SU7從北京到上海進行長途續(xù)航測試!

雷軍宣布明早6點半直播:我開新SU7從北京到上海進行長途續(xù)航測試!

快科技
2026-04-16 13:36:32
美高官:先打中國再打朝鮮,打不過就核戰(zhàn),因中國火箭軍太強大

美高官:先打中國再打朝鮮,打不過就核戰(zhàn),因中國火箭軍太強大

尋墨閣
2026-04-13 04:07:48
重磅!英超頂級名帥愿接利物浦帥位,斯洛特徹底懸了

重磅!英超頂級名帥愿接利物浦帥位,斯洛特徹底懸了

瀾歸序
2026-04-16 06:33:36
德國防部:將出資為烏克蘭采購“愛國者”導(dǎo)彈

德國防部:將出資為烏克蘭采購“愛國者”導(dǎo)彈

參考消息
2026-04-15 11:20:38
離開癱瘓前夫后,她嫁大8歲富豪,如今女兒13歲,和前夫處成親人

離開癱瘓前夫后,她嫁大8歲富豪,如今女兒13歲,和前夫處成親人

素衣讀史
2026-04-15 21:17:53
收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒謝苗的命

收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒謝苗的命

得得電影
2026-04-15 09:48:34
咸陽檢察長陳平:死刑前喊冤,被槍斃后家屬不能收尸,直接火化

咸陽檢察長陳平:死刑前喊冤,被槍斃后家屬不能收尸,直接火化

婉婉碎碎念
2024-10-18 16:54:45
Open WebUI兩個月狂飆:本地大模型界面終于能打了

Open WebUI兩個月狂飆:本地大模型界面終于能打了

閃存獵手
2026-04-16 08:15:03
西班牙首相說:1583年中國就已經(jīng)是一個偉大的強國,當時誰在統(tǒng)治

西班牙首相說:1583年中國就已經(jīng)是一個偉大的強國,當時誰在統(tǒng)治

爆史君帶你讀歷史
2026-04-15 18:16:43
斯塔尼希奇:呂迪格對我說了不可接受的話,而且重復(fù)了兩次

斯塔尼希奇:呂迪格對我說了不可接受的話,而且重復(fù)了兩次

懂球帝
2026-04-16 07:47:23
這趟不帶活人帶死物?美俄都眼紅,中國航天不再低調(diào):必須拆了!

這趟不帶活人帶死物?美俄都眼紅,中國航天不再低調(diào):必須拆了!

朝子亥
2026-04-15 05:25:03
那年父親去湖北出差,偶遇改嫁的小嬸,得知近況,父親做了個決定

那年父親去湖北出差,偶遇改嫁的小嬸,得知近況,父親做了個決定

藝鑒在線
2026-04-15 18:09:13
外媒:巴基斯坦購40架殲-35戰(zhàn)機,單價8000萬美元

外媒:巴基斯坦購40架殲-35戰(zhàn)機,單價8000萬美元

無人傾聽無人傾聽
2026-04-14 10:38:21
男性長期禁欲,精子只產(chǎn)不排,最后會怎樣?醫(yī)生:或有4大后果

男性長期禁欲,精子只產(chǎn)不排,最后會怎樣?醫(yī)生:或有4大后果

健康之光
2026-03-06 13:11:59
詹姆斯離隊倒計時?記者曝湖人未關(guān)大門,41歲老詹真要回騎士?

詹姆斯離隊倒計時?記者曝湖人未關(guān)大門,41歲老詹真要回騎士?

茅塞盾開本尊
2026-04-16 13:33:03
楊瀚森排名第四隨隊進季后賽,開拓者操作引爭議

楊瀚森排名第四隨隊進季后賽,開拓者操作引爭議

老汆古裝影視解說
2026-04-16 07:49:22
英國將向烏克蘭提供有史以來最大援助計劃中的 120,000 架無人機

英國將向烏克蘭提供有史以來最大援助計劃中的 120,000 架無人機

深度Militaire
2026-04-16 11:02:47
2026-04-16 14:15:00
Trend求索
Trend求索
大趨勢深刻求索
78文章數(shù) 16關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價”

頭條要聞

伊朗媒體:美以襲擊后 伊朗經(jīng)濟可能需要12年才能修復(fù)

頭條要聞

伊朗媒體:美以襲擊后 伊朗經(jīng)濟可能需要12年才能修復(fù)

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

藝術(shù)
時尚
親子
旅游
家居

藝術(shù)要聞

張大千『 花菓薈萃冊』

赫本愛穿的傘裙,好優(yōu)雅!

親子要聞

四十歲,重啟一場溫柔的奔赴——我的孕期建卡碎碎念

旅游要聞

泉城公園的龍爪槐

家居要聞

智能舒適 簡約風尚

無障礙瀏覽 進入關(guān)懷版