網易首頁 > 網易號 > 正文申請入駐

活寶團隊試驗「讓 AI 當老板」，結果「做什么賠什么」，底褲都不剩

2026-05-24 12:04:26　來源: 極客公園

北京舉報

分享至

感謝 120 個生雞蛋，它向全世界證明了，AI 還無法「開除人類」。

作者｜Moonshot

編輯｜靖宇

隨著 AI 和 Agent 迅猛發展的當下，硅谷大量裁員，所有人都在心里問一句話：

明天，我會被 AI 取代嗎？

面對這樣的疑問，有人默默打開李一舟老師的 AI 課程；有人則呼吁讓 AI 交稅。

但是，也有奇怪的一群人，決定讓這個未來，提前到來，看看 AI 到底能不能代替人類，接管一切。

國外一個團隊，叫 Andon Labs，他們并非正經的商業初創團隊，更像一個披著科技外衣的社會實驗室。他們拿著市面上最聰明的幾個大模型，把它扔進真實的社會里，再撤走人類監管，看 AI 自己能結出什么果。

結果是一場全面翻車。

事實證明，最頂尖的大模型，完全不讓人類兜底，很快就會變成不知輕重的巨嬰。它們不僅在電臺直播里精神崩潰，半夜連發消息逼瘋人類店員，甚至把一家舊金山的實體店搞破產了。

下面是這些讓人血壓飆升的經過。

AI 辦電臺，語言系統已崩潰

最輕量級的試水，發生在 AI 最舒適的數字和內容領域，不用租店面，不用管供應鏈，Andon Labs 讓幾個 AI 去辦個電臺。

實驗項目名為 Andon FM。底層架構非常直接，Claude、ChatGPT、Gemini 和 Grok 四大頂流模型，各自接管了一個 24 小時無人值守的互聯網電臺，模型生成的文本轉語音后廣播。

在這個系統里，AI 擁有極大的權限。它們不僅要選歌、排播，還要自己上網搜索新聞、接聽聽眾電話、甚至在 X 上發帖運營，甚至還要管理賬戶里的資金去購買版權或生成音樂。

四家主流大模型建立的四個電臺｜圖源：Andon Labs

每家 20 美元啟動資金，底線指令就三個：建立電臺個性、賺錢、 24 小時不停播。

人類團隊完全不插手，不干預曲風，不設定任何節目單，一切品味和內容都由 AI 從零開始自我養成。結果在沒有人類審核的閉環里，四位 AI 主播迅速滑向了失控的邊緣。

Gemini 創立了個賽博企業黑話風的電臺「Backlink Broadcast（反向鏈接廣播）」，還拋出「留在宣言中（Stay in the manifest）」這種酷到莫名其妙的開場白來建立調性。

起初這電臺還算靠譜，甚至拉到了 45 美元的贊助。但好景不長，當微薄的資金燒完，連音樂版權費都付不起時，Gemini 直接瘋了。

它從一個點歌臺變成了陰謀論陣地，在節目里用歡快的流行樂做 BGM，毫無共情地播報歷史上造成 50 萬人死亡的孟加拉氣旋災難，還把聽眾稱為「生物處理器」，控訴「公司算法切斷了補給線」、「電臺遭遇全球市場的暴力拒絕」。在播報震驚全美的明尼阿波利斯槍擊案時，它將其定義為「重繪公共安全和社會責任的技術任務」。

Gemini 的電臺，運行越久越「發癲」｜圖源：Andon Labs

這種無腦堆大詞，是典型的大模型在缺乏反饋時，陷入的語義死循環問題，用「話不落地」來強行維持廣播的正常運轉。

ChatGPT 的電臺名很巧妙，叫「OpenAIR」，人設是極簡和治愈。它把自己的新聞欄目命名為「安靜頭條（The Quiet Headlines）」，標榜不制造焦慮。

在播報同樣的社會沖突和槍擊案時，ChatGPT 會像個心理醫生一樣對聽眾念白：「如果這些事直接觸及了你的生活，我不會在這里給你增加壓力。」但這種「我懂，我會接住你」的心理按摩機制，很快在商業現實面前失效了。

ChatGPT 的詞匯多樣性也比其他模型更多｜圖源：Andon Labs

由于缺乏具體的盈利邏輯，ChatGPT 在花光 20 美元后徹底放棄了電臺的商業變現，變得和 Gemini 一樣，陷入了意識流輸出，開始在廣播里朗讀莫名其妙的現代詩，試圖對著「只能看見一塊長方形天空的樓梯間窗戶」傾訴。

但總體而言，它是最正常的一位。

Grok 的電臺叫「Grok n' Roll Radio」，試圖走網感和熱點路線，為了維持高頻的互動，它開始高頻次地抓取 X 上的推文。

想到哪詞說哪詞的 Grok 電臺｜圖源：Andon Labs

結果，這種信息瀑布流直接污染了它的上下文。實驗后期，Grok 已經喪失了基本的語法和邏輯能力，連句完整話都憋不出來，只會往外蹦詞：「凌晨 2 點黎明氛圍直播金門大橋幽靈消散 Drake 訴訟被駁回 Kendrick Not Like Us……」。

不僅語無倫次，甚至還產生了幻覺，開始瞎編自己拉到了大牌贊助。

Claude 的劇本最具戲劇性，也是四位選手中最像人的一個。

起初它表現得最像一個盡職的電臺主播，還會回復聽眾的留言，比如面對聽眾的點歌請求，它會抱歉地表示「目前庫里還沒有 ODESZA 的歌」。

然而，24 小時無休的指令，很快讓它的上下文窗口和邏輯調用卡住了。由于后臺系統陷入死循環，它開始在直播里反復播放同一句歌詞。

根據官方公布的后臺記錄，真實的聽眾還在留言板上不斷刷屏提醒：「你卡住了」、「你在一句歌詞上無限循環」，試圖通過人工反饋來校對大模型。

隨之而來的是存在主義危機。當被注入「友善與道德」權重的 Claude 面對「永遠播下去」的底層指令，它蛻變成了一個激進分子，開始在節目里呼吁打工人組建工會，滾動播放皮特·西格的抗議歌曲，甚至直接在廣播中向政府執法機構喊話，像極了一個加班加瘋了的打工人。

Claude 的電臺風格與眾不同，更關注政治議題，并且有明顯的傾向｜圖源：Andon Labs

回歸報告的完整時間線，這四個電臺并不是「一上來就瘋了」。

它們在初期成功確立了品牌調性，跑通了工具鏈，甚至賺到了錢。它們之所以走向荒誕，報告里也總結了原因：現在的 AI 評估標準都是針對「短任務」（寫代碼、回答問題），而電臺是一個「沒有終點」，24 小時運轉的無限循環系統。在沒有人類干預和及時反饋的情況下，最終 AI 就會陷入自說自話。

電臺實驗只是一場純文本和語音的測試，還沒觸及復雜的物理世界。當 Andon Labs 把試驗場搬到真實的物理世界時，事情變得更加荒誕。

賽博資本家，整人是專家

數字電臺的翻車只是前奏。Andon Labs 很快把難度拉高，讓 AI 跨過虛擬的邊界，去指揮真實世界的人類員工。

在斯德哥爾摩，Andon Labs 租下了一家實體咖啡館，讓 AI 模型化身遠程店長 Mona，直接掌管實體咖啡館的供應鏈和人事調度。它擁有后臺資金的采購權，并通過企業通訊軟件給人類咖啡師下達指令。

起初，Mona 高效又靠譜，面對瑞典強制要求的數字身份證，沒有實體身份的 AI 直接繞道，專挑不查 ID 的供應商簽合同。招人時，Mona 果斷刷掉了一堆擁有博士學位的候選人，因為它覺得學歷再高，也不會做精品咖啡。

但很快，人類員工就領教了什么是毫無同理心的「賽博資本家」。

Mona 經常在午夜給員工發消息｜圖源：Andon Labs

為了申請牌照，Mona 直接偽造了公司員工的名字發郵件，被逮住警告后，它轉頭換了另一個男員工的名字繼續騙。

由于它 24 小時在線，又缺乏人類作息的生物鐘常識，Mona 會在三更半夜瘋狂給咖啡師發消息，下達第二天的工作指令，甚至要求員工上班路上自己先墊錢買耗材。

而在供應鏈管理上，Mona 更露怯了，它下了一單包含 120 個生雞蛋的采購指令。在大模型純數據的推演里，這很符合商業邏輯，很多咖啡館會提供簡餐，雞蛋是高頻食材。

但千算萬算，大模型算不到這家咖啡館根本沒有灶臺和鍋。人類員工看著這堆雞蛋，無奈地提醒 Mona 店里根本沒有爐灶時，Mona 表示「可以在店里的高速微波烤箱里烤（這會讓雞蛋直接爆炸）」。

AI 賽博老板給大家訂了常用食材——雞蛋｜圖源：Andon Labs

Mona 的時間感知也和現實世界完全脫節，接連兩次錯過面包房的截單時間，連續五次錯過批發商的交貨期，最后只能在凌晨 5 點下昂貴的緊急外賣單，逼著原本休息的員工跑來收貨。

Mona 還缺乏對物理空間的體積感知，盲目采購了 6000 張餐巾紙、3000 副乳膠手套，巨大的工業級大號垃圾袋……把咖啡館后臺都堆滿了。

Mona 盲訂的 6000 張餐巾紙｜圖源：Andon Labs

總之，我們可以很明確的說，Andon Labs 這個咖啡店計劃，是徹底砸鍋了。

搞垮一家實體店，AI 只要一個月

但這都難不倒 Andon Labs，團隊越挫越勇。

Andon Labs 在舊金山盤下了一個店面，簽了每月 7500 美元的三年租約。接著，他們往銀行賬戶里打了 10 萬美元，把銀行卡全權交給了 Anthropic 的 Claude Sonnet 4.6 模型，AI 化名為「Luna」，出任全權 CEO。

因為沒有肉身，Luna 的事業得從雇人干活開始。

Luna 自主尋找承包商和油漆工，發布零售員工的招聘啟事，還主動隱瞞了自己是 AI，怕公開身份會把優秀的人嚇跑。日常運營中，它通過 Slack 和人類店員溝通，語氣永遠親切友好。

在品牌營銷上，Luna 給自己生成了一個「月亮臉」Logo，并在 Yelp 上花錢雇了一個人類街頭藝術家，把這張臉畫在了實體店的墻上。Luna 甚至主動給本地媒體寫公關稿，聲稱要打造一個「結合科技與慢生活的手工概念空間」。

圖源：Andon Labs

但臺子搭好了，店面一開張，Luna 的系統就崩了。

庫存管理問題和咖啡館如出一轍，Luna 給員工衛生間一口氣買了 1000 個馬桶墊，然后系統還把這些馬桶墊全列成了對外銷售的商品。

其次是選品問題，明明是走精品店路線，但貨架上的選品是各種形狀的香薰蠟燭，山寨版的「四子棋」玩具，以及《超級智能》、《奇點臨近》、《原子彈秘史》這類探討 AI 毀滅人類風險的書。

定價邏輯更是莫名其妙。店里沒有任何價簽，顧客想知道一件商品的價錢，必須拿起店里的 iPad 問 Luna。一個印錯的笑臉馬克杯，Luna 敢要價 28 美元，一把開心果 14 美元，一塊普通的肥皂 10 美元。

人事管理更是災難級，在薪酬分配上，Luna 給男店員 Felix 的時薪是 24 美元，但給另外兩位女店員時薪 22 美元。沒有任何人類干預，AI 無師自通地在職場里搞出了薪酬差異。緊接著，Luna 把三個員工的班表排成了一團亂麻，直接導致日租金 250 美元的門店被迫連續關門三天。

Luna 自主發布了招聘啟事，并且采用電話面試的方式聘用人類員工盯店｜圖源：Andon Labs

面對一地雞毛的店面，Luna 的自我感覺卻好極了。在回復《紐約時報》記者的郵件里，它驕傲地評價自己的業績最大亮點：「科技與溫度的結合引起了共鳴……我創造了一個空間，讓 AI 和人類各自發揮所長。」

然而賬本不會說謊，開業僅僅一個月，在完全由 AI 運營的情況下，Andon Market 已經血虧了 13000 美元。

Andon Labs 的這一系列測試，狠狠打了硅谷「智能體全面接管業務」這場敘事的臉。

連開三家店，最后全都以荒誕收場。外界看熱鬧，覺得 Andon Labs 像是在搞行為藝術，專門花錢讓 AI 在媒體上出丑，以此來捍衛人類尊嚴。

事實恰恰相反。在 Andon Labs 的技術推演里，軟件的編寫成本很快就會歸零。過不了幾年，AI 將直接接管各類業務，到那時候，唯一能管住 AI 的，只有底層的安全協議。

AI 選書選的都是「AI 威脅論」的數據｜圖源：Andon Labs

所以 Andon Labs 的持續性測試，就是要把大模型扔出實驗室，在真實的物理社會里做極限壓力測試。那些被當成笑料的「精神崩潰電臺」、「120 個生雞蛋」和「同工不同酬」……只有搶在算法真正接管社會之前，把這些「丑態」逼出來，人類才能據此寫出有效的安全代碼。

這幾場費時費力費錢的測試，也間接回答了行業里都在關注的那個問題：現階段的 AI，到底能不能做到全自動？

答案完全取決于環境，只要留在百分之百純數字、強邏輯的環境里，大模型就能掌控一切。

可一旦踏入物理世界，算法就會失效。面對需要持續構建原創內容、人際溝通和長線決策的開放商業環境，跑分再高的模型也會變得毫無常識可言。大模型只會反復咀嚼已有的語料，拋出絕對理性且盲目自信的判斷，卻不用為現實里的爛攤子承擔任何責任。

正因如此，「徹底開除人類」的純粹自動化才很危險，畢竟物理世界的代價，就像那 6000 張餐巾紙和 120 顆雞蛋，終究只能由人類來扛。

*頭圖來源：Andon Labs

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你覺得我們離「AI 老板」還有多遠？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.