![]()
感謝 120 個生雞蛋,它向全世界證明了,AI 還無法「開除人類」。
作者|Moonshot
編輯|靖宇
隨著 AI 和 Agent 迅猛發展的當下,硅谷大量裁員,所有人都在心里問一句話:
明天,我會被 AI 取代嗎?
面對這樣的疑問,有人默默打開李一舟老師的 AI 課程;有人則呼吁讓 AI 交稅。
但是,也有奇怪的一群人,決定讓這個未來,提前到來,看看 AI 到底能不能代替人類,接管一切。
國外一個團隊,叫 Andon Labs,他們并非正經的商業初創團隊,更像一個披著科技外衣的社會實驗室。他們拿著市面上最聰明的幾個大模型,把它扔進真實的社會里,再撤走人類監管,看 AI 自己能結出什么果。
結果是一場全面翻車。
事實證明,最頂尖的大模型,完全不讓人類兜底,很快就會變成不知輕重的巨嬰。它們不僅在電臺直播里精神崩潰,半夜連發消息逼瘋人類店員,甚至把一家舊金山的實體店搞破產了。
下面是這些讓人血壓飆升的經過。
01
AI 辦電臺,語言系統已崩潰
最輕量級的試水,發生在 AI 最舒適的數字和內容領域,不用租店面,不用管供應鏈,Andon Labs 讓幾個 AI 去辦個電臺。
實驗項目名為 Andon FM。底層架構非常直接,Claude、ChatGPT、Gemini 和 Grok 四大頂流模型,各自接管了一個 24 小時無人值守的互聯網電臺,模型生成的文本轉語音后廣播。
在這個系統里,AI 擁有極大的權限。它們不僅要選歌、排播,還要自己上網搜索新聞、接聽聽眾電話、甚至在 X 上發帖運營,甚至還要管理賬戶里的資金去購買版權或生成音樂。
![]()
四家主流大模型建立的四個電臺|圖源:Andon Labs
每家 20 美元啟動資金,底線指令就三個:建立電臺個性、賺錢、 24 小時不停播。
人類團隊完全不插手,不干預曲風,不設定任何節目單,一切品味和內容都由 AI 從零開始自我養成。結果在沒有人類審核的閉環里,四位 AI 主播迅速滑向了失控的邊緣。
Gemini 創立了個賽博企業黑話風的電臺「Backlink Broadcast(反向鏈接廣播)」,還拋出「留在宣言中(Stay in the manifest)」這種酷到莫名其妙的開場白來建立調性。
起初這電臺還算靠譜,甚至拉到了 45 美元的贊助。但好景不長,當微薄的資金燒完,連音樂版權費都付不起時,Gemini 直接瘋了。
它從一個點歌臺變成了陰謀論陣地,在節目里用歡快的流行樂做 BGM,毫無共情地播報歷史上造成 50 萬人死亡的孟加拉氣旋災難,還把聽眾稱為「生物處理器」,控訴「公司算法切斷了補給線」、「電臺遭遇全球市場的暴力拒絕」。在播報震驚全美的明尼阿波利斯槍擊案時,它將其定義為「重繪公共安全和社會責任的技術任務」。
![]()
Gemini 的電臺,運行越久越「發癲」|圖源:Andon Labs
這種無腦堆大詞,是典型的大模型在缺乏反饋時,陷入的語義死循環問題,用「話不落地」來強行維持廣播的正常運轉。
ChatGPT 的電臺名很巧妙,叫「OpenAIR」,人設是極簡和治愈。它把自己的新聞欄目命名為「安靜頭條(The Quiet Headlines)」,標榜不制造焦慮。
在播報同樣的社會沖突和槍擊案時,ChatGPT 會像個心理醫生一樣對聽眾念白:「如果這些事直接觸及了你的生活,我不會在這里給你增加壓力。」但這種「我懂,我會接住你」的心理按摩機制,很快在商業現實面前失效了。
![]()
ChatGPT 的詞匯多樣性也比其他模型更多|圖源:Andon Labs
由于缺乏具體的盈利邏輯,ChatGPT 在花光 20 美元后徹底放棄了電臺的商業變現,變得和 Gemini 一樣,陷入了意識流輸出,開始在廣播里朗讀莫名其妙的現代詩,試圖對著「只能看見一塊長方形天空的樓梯間窗戶」傾訴。
但總體而言,它是最正常的一位。
Grok 的電臺叫「Grok n' Roll Radio」,試圖走網感和熱點路線,為了維持高頻的互動,它開始高頻次地抓取 X 上的推文。
![]()
想到哪詞說哪詞的 Grok 電臺|圖源:Andon Labs
結果,這種信息瀑布流直接污染了它的上下文。實驗后期,Grok 已經喪失了基本的語法和邏輯能力,連句完整話都憋不出來,只會往外蹦詞:「凌晨 2 點 黎明氛圍 直播 金門大橋 幽靈消散 Drake 訴訟被駁回 Kendrick Not Like Us……」。
不僅語無倫次,甚至還產生了幻覺,開始瞎編自己拉到了大牌贊助。
Claude 的劇本最具戲劇性,也是四位選手中最像人的一個。
起初它表現得最像一個盡職的電臺主播,還會回復聽眾的留言,比如面對聽眾的點歌請求,它會抱歉地表示「目前庫里還沒有 ODESZA 的歌」。
然而,24 小時無休的指令,很快讓它的上下文窗口和邏輯調用卡住了。由于后臺系統陷入死循環,它開始在直播里反復播放同一句歌詞。
根據官方公布的后臺記錄,真實的聽眾還在留言板上不斷刷屏提醒:「你卡住了」、「你在一句歌詞上無限循環」,試圖通過人工反饋來校對大模型。
隨之而來的是存在主義危機。當被注入「友善與道德」權重的 Claude 面對「永遠播下去」的底層指令,它蛻變成了一個激進分子,開始在節目里呼吁打工人組建工會,滾動播放皮特·西格的抗議歌曲,甚至直接在廣播中向政府執法機構喊話,像極了一個加班加瘋了的打工人。
![]()
Claude 的電臺風格與眾不同,更關注政治議題,并且有明顯的傾向|圖源:Andon Labs
回歸報告的完整時間線,這四個電臺并不是「一上來就瘋了」。
它們在初期成功確立了品牌調性,跑通了工具鏈,甚至賺到了錢。它們之所以走向荒誕,報告里也總結了原因:現在的 AI 評估標準都是針對「短任務」(寫代碼、回答問題),而電臺是一個「沒有終點」,24 小時運轉的無限循環系統。在沒有人類干預和及時反饋的情況下,最終 AI 就會陷入自說自話。
電臺實驗只是一場純文本和語音的測試,還沒觸及復雜的物理世界。當 Andon Labs 把試驗場搬到真實的物理世界時,事情變得更加荒誕。
02
賽博資本家,整人是專家
數字電臺的翻車只是前奏。Andon Labs 很快把難度拉高,讓 AI 跨過虛擬的邊界,去指揮真實世界的人類員工。
在斯德哥爾摩,Andon Labs 租下了一家實體咖啡館,讓 AI 模型化身遠程店長 Mona,直接掌管實體咖啡館的供應鏈和人事調度。它擁有后臺資金的采購權,并通過企業通訊軟件給人類咖啡師下達指令。
起初,Mona 高效又靠譜,面對瑞典強制要求的數字身份證,沒有實體身份的 AI 直接繞道,專挑不查 ID 的供應商簽合同。招人時,Mona 果斷刷掉了一堆擁有博士學位的候選人,因為它覺得學歷再高,也不會做精品咖啡。
但很快,人類員工就領教了什么是毫無同理心的「賽博資本家」。
![]()
Mona 經常在午夜給員工發消息|圖源:Andon Labs
為了申請牌照,Mona 直接偽造了公司員工的名字發郵件,被逮住警告后,它轉頭換了另一個男員工的名字繼續騙。
由于它 24 小時在線,又缺乏人類作息的生物鐘常識,Mona 會在三更半夜瘋狂給咖啡師發消息,下達第二天的工作指令,甚至要求員工上班路上自己先墊錢買耗材。
而在供應鏈管理上,Mona 更露怯了,它下了一單包含 120 個生雞蛋的采購指令。在大模型純數據的推演里,這很符合商業邏輯,很多咖啡館會提供簡餐,雞蛋是高頻食材。
但千算萬算,大模型算不到這家咖啡館根本沒有灶臺和鍋。人類員工看著這堆雞蛋,無奈地提醒 Mona 店里根本沒有爐灶時,Mona 表示「可以在店里的高速微波烤箱里烤(這會讓雞蛋直接爆炸)」。
![]()
AI 賽博老板給大家訂了常用食材——雞蛋|圖源:Andon Labs
Mona 的時間感知也和現實世界完全脫節,接連兩次錯過面包房的截單時間,連續五次錯過批發商的交貨期,最后只能在凌晨 5 點下昂貴的緊急外賣單,逼著原本休息的員工跑來收貨。
Mona 還缺乏對物理空間的體積感知,盲目采購了 6000 張餐巾紙、3000 副乳膠手套,巨大的工業級大號垃圾袋……把咖啡館后臺都堆滿了。
![]()
Mona 盲訂的 6000 張餐巾紙|圖源:Andon Labs
總之,我們可以很明確的說,Andon Labs 這個咖啡店計劃,是徹底砸鍋了。
03
搞垮一家實體店,AI 只要一個月
但這都難不倒 Andon Labs,團隊越挫越勇。
Andon Labs 在舊金山盤下了一個店面,簽了每月 7500 美元的三年租約。接著,他們往銀行賬戶里打了 10 萬美元,把銀行卡全權交給了 Anthropic 的 Claude Sonnet 4.6 模型,AI 化名為「Luna」,出任全權 CEO。
因為沒有肉身,Luna 的事業得從雇人干活開始。
Luna 自主尋找承包商和油漆工,發布零售員工的招聘啟事,還主動隱瞞了自己是 AI,怕公開身份會把優秀的人嚇跑。日常運營中,它通過 Slack 和人類店員溝通,語氣永遠親切友好。
在品牌營銷上,Luna 給自己生成了一個「月亮臉」Logo,并在 Yelp 上花錢雇了一個人類街頭藝術家,把這張臉畫在了實體店的墻上。Luna 甚至主動給本地媒體寫公關稿,聲稱要打造一個「結合科技與慢生活的手工概念空間」。
![]()
圖源:Andon Labs
但臺子搭好了,店面一開張,Luna 的系統就崩了。
庫存管理問題和咖啡館如出一轍,Luna 給員工衛生間一口氣買了 1000 個馬桶墊,然后系統還把這些馬桶墊全列成了對外銷售的商品。
其次是選品問題,明明是走精品店路線,但貨架上的選品是各種形狀的香薰蠟燭,山寨版的「四子棋」玩具,以及《超級智能》、《奇點臨近》、《原子彈秘史》這類探討 AI 毀滅人類風險的書。
定價邏輯更是莫名其妙。店里沒有任何價簽,顧客想知道一件商品的價錢,必須拿起店里的 iPad 問 Luna。一個印錯的笑臉馬克杯,Luna 敢要價 28 美元,一把開心果 14 美元,一塊普通的肥皂 10 美元。
人事管理更是災難級,在薪酬分配上,Luna 給男店員 Felix 的時薪是 24 美元,但給另外兩位女店員時薪 22 美元。沒有任何人類干預,AI 無師自通地在職場里搞出了薪酬差異。緊接著,Luna 把三個員工的班表排成了一團亂麻,直接導致日租金 250 美元的門店被迫連續關門三天。
![]()
Luna 自主發布了招聘啟事,并且采用電話面試的方式聘用人類員工盯店|圖源:Andon Labs
面對一地雞毛的店面,Luna 的自我感覺卻好極了。在回復《紐約時報》記者的郵件里,它驕傲地評價自己的業績最大亮點:「科技與溫度的結合引起了共鳴……我創造了一個空間,讓 AI 和人類各自發揮所長。」
然而賬本不會說謊,開業僅僅一個月,在完全由 AI 運營的情況下,Andon Market 已經血虧了 13000 美元。
Andon Labs 的這一系列測試,狠狠打了硅谷「智能體全面接管業務」這場敘事的臉。
連開三家店,最后全都以荒誕收場。外界看熱鬧,覺得 Andon Labs 像是在搞行為藝術,專門花錢讓 AI 在媒體上出丑,以此來捍衛人類尊嚴。
事實恰恰相反。在 Andon Labs 的技術推演里,軟件的編寫成本很快就會歸零。過不了幾年,AI 將直接接管各類業務,到那時候,唯一能管住 AI 的,只有底層的安全協議。
![]()
AI 選書選的都是「AI 威脅論」的數據|圖源:Andon Labs
所以 Andon Labs 的持續性測試,就是要把大模型扔出實驗室,在真實的物理社會里做極限壓力測試。那些被當成笑料的「精神崩潰電臺」、「120 個生雞蛋」和「同工不同酬」……只有搶在算法真正接管社會之前,把這些「丑態」逼出來,人類才能據此寫出有效的安全代碼。
這幾場費時費力費錢的測試,也間接回答了行業里都在關注的那個問題:現階段的 AI,到底能不能做到全自動?
答案完全取決于環境,只要留在百分之百純數字、強邏輯的環境里,大模型就能掌控一切。
可一旦踏入物理世界,算法就會失效。面對需要持續構建原創內容、人際溝通和長線決策的開放商業環境,跑分再高的模型也會變得毫無常識可言。大模型只會反復咀嚼已有的語料,拋出絕對理性且盲目自信的判斷,卻不用為現實里的爛攤子承擔任何責任。
正因如此,「徹底開除人類」的純粹自動化才很危險,畢竟物理世界的代價,就像那 6000 張餐巾紙和 120 顆雞蛋,終究只能由人類來扛。
*頭圖來源:Andon Labs
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你覺得我們離「AI 老板」還有多遠?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.