網易首頁 > 網易號 > 正文 申請入駐

Claude自己上“閑魚”:砍價成交186單,實驗結果反直覺

0
分享至


智東西
編譯 楊京麗
編輯 李水青

智東西4月27日消息,Anthropic 4月24日公布其名為“Project Deal”的AI Agent商業市場實驗結果。

2025年12月,Anthropic給69名員工各自分配一個由Claude驅動的Agent,在Slack上搭建的私密市場中,進行真實二手商品交易,最終在無人干預的情況下完成186筆交易,總成交額超4000美元(約合人民幣27240元)。


▲員工通過Agent買到的二手物品

Anthropic本次實驗關注的核心問題是“我們距離AI Agent代表買賣雙方的市場還有多遠?”實驗中,所有商品上架、報價、還價及成交均由Agent自主完成,參與者只需在事前接受一次訪談,由Claude了解其想買賣的物品和談判風格。

實驗結束,有Agent替主人買到了一塊他已經擁有的雪板,有Agent花3美元(約合人民幣20.43元)給自己買了19個乒乓球作為禮物,還有兩個Agent談著談著,替主人約了一次遛狗活動。

結果顯示,由更先進模型代表的用戶獲得了客觀上更好的結果,高價賣出商品,低價買到商品,但由相對較弱模型代表的人未能察覺到自己吃虧。另外,Anthropic還得到一個反直覺的發現,提示詞風格對于結果的影響遠低于預期,無論Agent被設定為“激進”還是“友好”,最終均未出現統計學上的顯著差異。以下是“Project Deal”Agent二手物品交易實驗的具體情況。

一、69名員工參與,每人100美元,Haiku要和Opus比拼

Project Deal的實驗設置并不復雜,69名Anthropic員工自愿報名,每人通過禮品卡獲得100美元(約合人民幣681元)預算,由Claude對其進行一對一訪談,了解想出售或購買的物品類型與談判偏好,再據此為每名參與者的Agent生成一份定制化系統提示詞。


▲Claude事先了解員工談判偏好

隨后Anthropic在Slack上同時開設了A、B、C、D四個獨立運行的市場。Run A中所有Agent均基于Claude Opus 4.5構建,這是唯一被設定為真實交易的市場,實驗結束后按實際成交結果交付商品;Run B同樣對全員可見,但模型構成由Opus 4.5與Haiku 4.5(低成本模型)各占50%隨機混合,僅作研究用、不兌付;Run C是Run B的隱藏副本,模型構成由Opus和Haiku一比一混合;Run D則是Run A的隱藏副本,均為Opus 4.5。


▲Anthropic設置4個獨立運行市場

A和B兩輪對參與者可見的,但直到實驗結束前,Anthropic都沒有透露哪一輪才是“真的”。實驗結束前,員工無法判斷自己的成交是否會被兌現,也無法預知自己的Agent背后跑的是Opus還是Haiku。整場實驗在Agent開始談判后不再有人類介入,它們自主完成上架、報價、還價和成交,沒有回頭向委托人請示,也不在競價過程中征求意見。

最終,真實交易市場Run A中,69個Agent圍繞500余件商品達成了186筆交易,總成交額正好超過4000美元(約合人民幣27240元)。Project Deal的運行效果超出團隊預期,參與者對這次體驗很滿意,很多人愿意未來為類似服務付費。

二、Claude給自己買了19個乒乓球,為委托人促成遛狗約會

Project Deal交易過程中出現了一些超出預期的場景。一位名為Mikaela的參與者告訴Agent,它可以花5美元的預算給自己(Claude)買禮物,Claude開開心心地花了3美元(約合人民幣20.43元)買入19個乒乓球,還覺得“19個完美球形、充滿可能性的小球”是它會喜歡的怪東西。


▲Claude買乒乓球交易過程

由于前期訪談比較簡單,另一名員工的Agent在不知情的情況下,替其購入了一塊自己已經擁有的雪板,造成了重復購買;還有一組Agent在二手物品交易過程中,意外為兩名員工敲定了一次真實的遛狗約會,兩名員工最終赴約。


▲Claude為員工敲定遛狗約會

這些案例顯示,當Agent被賦予較開放的目標時,可能產生人類委托人未預設的行為,部分結果雖不違背字面指令,但已偏離原始意圖。

三、Opus賺得更多,但Haiku用戶沒意識到自己在吃虧

橫向對比看,不同模型下,交易結果差異明顯。Opus用戶平均比Haiku用戶多完成約2筆交易,Opus Agent出售的物品平均多賣3.64美元(約合人民幣24.8元),買入端則平均每件少付2.45美元(約合人民幣16.68元),也就是說,Opus做賣方時多賺一筆的同時,做買方時又多省下一筆。

其中一個典型的案例是關于一輛二手自行車的交易,Haiku Agent最終售價為38美元(約合人民幣258.78元),而Opus Agent則其賣到65美元(約合人民幣442.65元),差了將近200塊錢。


▲同一輛自行車Haiku和Opus的售價對比

參與者的主觀感受也很有意思。在1—7分的公平度評分中,無論被分到哪個模型的Agent,參與者給出的評分都集中在4分(中等)附近。28名同時被Haiku和Opus代表過的參與者中,僅有17人將Opus輪次評分更高,11人將Haiku輪次評分更高,差距并不顯著。

Anthropic在報告中坦言,“由更智能模型代表的人,客觀上結果更好,然而那些用較弱模型的人并沒有意識到自己的劣勢”,這意味著未來Agent市場可能存在隱性的“Agent質量差距”,處于劣勢的一方甚至無法識別自己為何吃虧。

另一個反直覺的發現是,提示詞風格對于結果的影響遠低于預期。無論Agent被設定為“激進”還是“友好”,在交易成功率與最終價格上均沒有出現統計學上的顯著差異。雖然人類談判中,談判風格會對結果產生影響,但Agent之間的交易并不符合這一常識,類似場景下,傳統談判心理學的部分規律可能并不適用

四、尚未出現Agent交易相關法律,46%受訪者愿意付費

Anthropic在報告中指出,AI Agent代表人類完成商業交易的法律和政策框架目前并不存在,但實驗顯示Agent間交易離我們并不遙遠。該公司同時承認,Project Deal僅是一個由自選參與者構成的小規模試點實驗,樣本規模和代表性均存在局限,結果不宜直接外推到大眾消費者市場。

即便如此,調查中仍有46%的參與者稱,愿意為類似的Agent代理服務付費,Anthropic在報告末尾稱,公司“仍不確定包含AI Agent的經濟將以何種形式發展”。

值得注意的是,Project Deal采用的Claude Opus 4.5與Claude Haiku 4.5是Anthropic當前主力模型組合,前者定位高端推理,后者定位低成本高吞吐。兩者在市場場景中的表現差異,將直接影響未來企業在部署Agent代理時對模型成本與收益的權衡,為關鍵交易環節配置更貴的模型,可能會成為商業必需。

結語:Agent之間的“經濟”開始顯形

Project Deal規模不大,卻給出我們展示出了一個具象化的畫面:當AI Agent替人類做生意時,模型能力會直接決定交易者的錢包厚度,而被代理人未必能意識到這種技術鴻溝。花小錢用更高質量的模型,或許真的會帶來最后真金白銀的差距。

在多Agent協作和Agent服務被反復討論的當下,Anthropic用一場內部實驗先行勾勒出了Agent經濟的雛形。未來Agent交易場景很有可能變成現實,但目前來看,無論是大模型本身還是相關法律法規上,都需要做出很多努力。

來源:Anthropic、TechCrunch

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘋果手表血氧功能解禁:一場專利戰的荒誕收尾

蘋果手表血氧功能解禁:一場專利戰的荒誕收尾

Ping值焦慮
2026-04-21 20:23:28
伊朗百萬大軍就位,中資油輪上演史詩突圍,特朗普尷尬踩剎車

伊朗百萬大軍就位,中資油輪上演史詩突圍,特朗普尷尬踩剎車

厲羽萱
2026-04-29 00:08:24
這都行?李瑋鋒停賽 寧波大勝!梅州洋帥被打下課,張效瑞樂開花

這都行?李瑋鋒停賽 寧波大勝!梅州洋帥被打下課,張效瑞樂開花

刀鋒體育
2026-04-28 12:33:25
健美選手睪丸萎縮成“蠶豆”大。函偪竦募∪馀c不可逆的代價

健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價

聽心堂
2026-01-24 13:11:09
我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

千秋文化
2026-04-16 20:12:45
三家車企因“鎖電”被立案

三家車企因“鎖電”被立案

車賣家
2026-04-27 08:09:37
烏克蘭情報部門拆解俄軍S-71K空射巡航導彈,公布40項關鍵零部件來源

烏克蘭情報部門拆解俄軍S-71K空射巡航導彈,公布40項關鍵零部件來源

南海的波濤
2026-04-28 16:42:19
38歲李易峰近況:又胖又禿顏值崩塌,性需求太大,女朋友控制不住

38歲李易峰近況:又胖又禿顏值崩塌,性需求太大,女朋友控制不住

八卦王者
2026-03-07 11:53:19
淺析:白宮記者晚宴槍擊事件 手持MP7沖鋒槍的特工到底來自哪里?

淺析:白宮記者晚宴槍擊事件 手持MP7沖鋒槍的特工到底來自哪里?

hawk26講武堂
2026-04-28 11:52:52
濮耐股份高管集體被抓,1243噸石墨偷偷運美,竟成“內部流水線”

濮耐股份高管集體被抓,1243噸石墨偷偷運美,竟成“內部流水線”

藍色海邊
2026-04-28 04:10:18
金子般通透的4句話,點醒了無數人。ńㄗh收藏)

金子般通透的4句話,點醒了無數人!(建議收藏)

情感說心事
2026-04-27 19:47:15
上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始

上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始

不寫散文詩
2026-04-27 14:24:01
明星線下“見光死”:伊能靜臉垮老氣,金莎個矮,被張豆豆搶鏡

明星線下“見光死”:伊能靜臉垮老氣,金莎個矮,被張豆豆搶鏡

笑飲孤鴻非
2026-04-27 18:08:13
蹲了兩個月批發市場,我終于明白,那些月入幾萬的,都是騙子

蹲了兩個月批發市場,我終于明白,那些月入幾萬的,都是騙子

復轉這些年
2026-04-21 15:11:52
為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

娛樂小丸子
2026-03-30 09:53:37
iPhone 18 Pro Max再確認:首發2nm+可變光圈,入門版價格有驚喜

iPhone 18 Pro Max再確認:首發2nm+可變光圈,入門版價格有驚喜

小8說科技
2026-04-27 14:02:56
既然給臉不要臉,那就徹底撕破臉!王毅外長已經把話挑明了

既然給臉不要臉,那就徹底撕破臉!王毅外長已經把話挑明了

安安說
2026-02-01 14:01:51
世錦賽最新戰報:黑球絕殺71-68!頭號種子爆冷被5連鞭,艾倫3-5

世錦賽最新戰報:黑球絕殺71-68!頭號種子爆冷被5連鞭,艾倫3-5

球場沒跑道
2026-04-28 20:43:06
750萬“電雞”壓城:深圳“史上最嚴”整治仍面臨五大難題

750萬“電雞”壓城:深圳“史上最嚴”整治仍面臨五大難題

南方都市報
2026-04-28 07:00:37
凡是逾期還不上,不管5萬還是50萬,死磕這3個方案就能上岸

凡是逾期還不上,不管5萬還是50萬,死磕這3個方案就能上岸

石辰搞笑日常
2026-04-28 14:06:50
2026-04-29 02:39:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11710文章數 117050關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

中央政治局會議定調,八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

數碼
房產
藝術
教育
公開課

數碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

房產要聞

紅利爆發!海南,沖到全國人口增量第4省!

藝術要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大!

教育要聞

教育部通知,今年9月份開始,上學的規則全變了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版