![]()
▲本文圖片均來自網絡,如有侵權請聯系刪除
AI聊天式對話框正在消失
本文 首發于影子備忘錄
文 陌影笙
2025年初,OpenAI CEO Sam Altman在一則深夜推文中承認:“我們和你們一樣討厭模型選擇器。”他宣布,原本醞釀獨立發布的o3推理模型被取消,取而代之的是統一的GPT-5系統。
不到兩年后,2026年6月,OpenAI官方Release Notes宣布:o3與GPT-4.5將從ChatGPT正式退役,徹底從菜單中抹去。
兩則相隔不遠的公告,看似只是產品線的收縮與合并,實則指向一個更深刻的趨勢:以對話為核心的人機交互模式,正在喪失其核心地位。
ChatGPT問世以來,“對話框”被塑造成了AI時代的“超級入口”。但數據正在無情地擊碎這一幻覺。
據網絡流量數據監測,2025年1月ChatGPT在全球AI聊天機器人網頁流量中的占比尚高達86.7%,而到2026年4月,這一數字已驟降至57%至64%之間。市場老大地位的動搖,固然有競爭加劇的因素,但更深層的原因是:
用戶正在用腳投票,對“只會回答”的AI失去了耐心。
如果說過去十年人工智能最重要的進步是讓機器“學會了說話”,那么站在2026年這個時間點上,一個越來越清晰的共識正在形成:只會說話,已經不夠了。
2026年,不是AGI之年,但極有可能是AI第一次真正“能干活”的一年。
![]()
被“簡化”的對話入口
要理解聊天界面為何正在失去主角地位,需要回到OpenAI在產品路線上的關鍵調整。
2025年2月,Sam Altman宣布,原定作為GPT-5發布的“Orion”模型被降格為GPT-4.5發布,同時o3模型不再作為獨立產品亮相,其技術能力將被整合進GPT-5。
這一“去復雜度、求統一”的決策,本質上是OpenAI對產品哲學的徹底反思,不是做大做強獨立模型,而是讓模型在用戶面前隱去,讓智能成為“一次性集成”的體驗。
GPT-4.5于2026年4月正式發布。根據官方披露,它在理解人類意圖方面表現出增強能力,回應更加自然,在寫作和設計等創意任務上表現更優。
但與此同時,在AIME和GPQA等高級學術基準測試中,它在推理能力上落后于競爭對手,且不支持逼真的雙向語音模式。更值得關注的是其商業模式的反常:OpenAI在GPT-4.5上設定了高昂的定價,每百萬輸入token收費75美元,輸出收費150美元,而GPT-4o的定價僅為2.5美元和10美元。
如此高的定價,意味著GPT-4.5從未真正作為“大眾產品”面向C端用戶。
果然,僅在發布兩個多月后的2026年6月,OpenAI便宣布GPT-4.5將于6月27日正式下線,整個生命周期不足三個月。
同期,o3也被宣告從ChatGPT退役,不過API端仍然保留訪問權限。
官方公告使用了“從菜單上抹掉”這樣的措辭,非常直白地表明了態度:那些藏在模型選擇器里的舊選項,正在被OpenAI主動清理掉。
這背后透露的信號是:對話框作為“模型陳列柜”的形式,已經到了生命周期的末尾。
如果說GPT-4.5是最后一代“非思維鏈”的通用對話模型,那么GPT-5則將被設計成一個高度集成的生態系統:能夠結合語音、畫布、搜索和深度研究功能,讓用戶無須在不同的模型之間來回切換。
Altman以“我們希望AI能夠直接為你工作”來定義這一轉變,如果說過去的AI需要用戶來“驅動”,那么未來的AI將直接“開工”。
這一表述,已經暗含了“對話框將不再作為核心交互界面”的深層設計邏輯。
![]()
![]()
從“詢問者”到“執行者”,
Agent時代的到來了?
對話模式的局限,早在產品路線的調整之前就已經被研究者預見到了。OpenAI自身劃分的AI能力五級框架中,Level 1“聊天機器人”和Level 2“推理者”還只能回答問題或解決問題,而Level 3“智能體(Agent)”則能夠代表用戶自主執行長時間、多步驟的任務。
換句話說,對話只是智能體的一個底層功能,而絕非全部。
LangChain創始人Harrison Chase在與紅杉資本的對話中指出:當AI只能在對話框里回答問題,它只是一個高級接口;只有當AI能跨越時間、狀態和工具,圍繞同一目標持續推進、自我修正、完成閉環,它才真正開始“做事”。
他將當前的AI分為“Talkers”和“Doers”兩類:前者擅長生成漂亮答案和單輪補全,本質上是“一次性響應系統”;后者才能承擔現實世界的高價值工作,而這些工作從來不是“一問一答”,而是需要長期推進、反復試錯、頻繁調用外部工具。
OpenAI在“Agent”方向上的投入已經是非常實質性的。2025年1月,公司以“Operator”的形式推出了第一個計算機使用智能體(CUA),通過截圖感知瀏覽器環境,并用模擬鼠標和鍵盤的操作來執行任務。
2025年7月,Operator被并入ChatGPT主產品,以“Agent Mode”的形式向用戶開放。
到了2026年3月,GPT-5.4的發布標志著計算機使用能力發生了質的飛躍:該模型在OSWorld-Verified測試中達到了75.0%的成功率,超越人類基準的72.4%。
更關鍵的是,計算機使用功能被納入了通用模型,不再作為獨立的獨立技術模塊存在。
除了計算機操作,Codex系列也在Agent化。GPT-5.3-Codex被設計為代理風格的開發模型,能夠使用工具、操作計算機、端到端地完成長任務。
它在OSWorld-Verified上得分64.7%,相較前代模型的38.2%有顯著提升。安全領域同樣是一個關鍵衡量指標:
該模型成為OpenAI首個在網絡安全任務中被劃分為“高能力”級別的模型,體現了AI從“回答問題”向“執行任務”的進階。
但在Harrison Chase看來,Agent的本質不在于技術能力本身,而在于“長時程”的結構性躍遷:AI能否在更長周期內保持目標一致性、管理中間狀態,并在復雜環境中持續行動。
這決定了對話形式的AI必須讓位于執行導向的AI系統——用戶不再需要在一個對話框里“敲一下鍵盤、等一個回復”,AI將在后臺持續運行,直到任務完成。
![]()
多模態與語音界面,
對話框之外的交互
除了執行力的提升,交互方式的多元化也在瓦解“對話框”作為唯一入口的地位。
對話式的文本輸入,本質上是效率極低的交互方式,人類之間的對話尚需借助語音、眼神、手勢來傳遞信息,AI與人類之間卻長期被壓縮在冷冰冰的文字框里,這本身就是一種媒介限制。
2026年5月,OpenAI在Realtime API中推出了三款新的語音模型,方向非常明確:讓語音成為AI的“原生交互語言”。
其中GPT-Realtime-2是首個具備GPT-5級別推理能力的語音模型,能夠在實時對話中執行推理、調用工具,并處理用戶的打斷與糾正。
此前,語音模型多為單向的“聽寫—輸出”流程,而現在,語音成了可以理解復雜邏輯并進行自主行動的界面。
谷歌同月發布的Gemini Omni同樣值得關注。與其他多模態模型不同,Omni在設計之初就定位為“原生多模態”。在底層架構上統一處理文本、圖像、音頻、視頻和代碼。
這意味著用戶不需要通過打字輸入需求,而是可以直接截取UI界面讓模型生成代碼,或者通過語音進行多輪復雜指令。
2026年5月的谷歌I/O大會上,核心主題是Gemini從聊天機器人向自主智能體的演進,其中Project Astra被定位為通用AI助手的愿景,另一款名為“Remy”的“全天候”智能體甚至在用戶無需直接指令的情況下,可以跨應用執行購物和日程安排等任務。
谷歌的做法表明:用戶不應該被要求“打開一個對話框、輸入、等待”才能讓AI做事,AI應該嵌入操作系統中,以背景化的方式持續服務。
更令人信服的證據來自于物理界面層面。2026年1月,OpenAI首席全球事務官Chris Lehane對外表示,OpenAI將在2026年下半年推出首款ChatGPT驅動的硬件設備。
Axios的報告進一步披露,該設備很可能是一款無屏幕的可穿戴裝置,佩戴在耳后,形態類似于微型耳麥,能夠隨時待命。
值得關注的背景信息是,OpenAI在2025年底以65億美元的估值收購了由蘋果前設計總監Jony Ive創立的IO設計公司。
Sam Altman曾公開表示,他們與Ive已經合作設計出了一個原型,該設備將旨在過濾“數字噪音”,避免頻繁通知的打擾,提供一種屏幕外的、環境式的AI體驗。
無屏幕、無對話框、無鍵盤輸入的AI助手,是不是與現行的“聊天機器人”形態徹底斷裂?
當一個AI實體已經“長在用戶的耳朵上”,以語音對話和主動感知的方式完成任務,傳統的聊天框就徹底失去了存在的物理意義。
與此同時,更深刻的嵌入方式也在發生。根據一位業內人士的分析,Chatbot作為AI時代的“超級入口”敘事之所以失敗,根本原因在于它是一個昂貴的算力消耗者而非具有網絡效應的產品。
與傳統軟件的流量效應不同,用戶的每一次交互都需要調動云端GPU陣列,用戶增長帶來的不是邊際成本遞減,反而推高了運營支出。這決定了Chatbot不可能成為商業上可持續的“入口”模式。
真正有價值的方向,是將AI嵌入業務流程、操作系統和硬件底層,讓它成為一種“背景式”的基礎設施,而非一個需要用戶主動打開的App。
有分析指出,未來AI將如同電力滲入家家戶戶一般,滲透進軟件的功能組件和物理硬件層的耦合之中,智能眼鏡、可穿戴設備正在擺脫“打開App”的動作,直接將AI置于現實世界交互之上。
LangChain創始人Harrison Chase對此做出了一個高度簡練的判斷:“如果說過去的AI是Talkers的時代,那么2026年則是Doers的元年。”
![]()
![]()
聊天框消失后的AI世界
從OpenAI取消GPT-4.5和o3模型獨立發布,到全面轉向Agent化和嵌入式硬件;從谷歌將其AI重心從聊天機器人轉移到自主智能體,到GPT-Realtime語音模型賦予AI實時推理與行動能力,可以清晰地看到一條主線:
AI從“幫助人類回答問題”的工具,演變為“替人類完成事務”的代理系統。
這一轉變的內在驅動力是多方面的。產品層面,混亂的模型選擇器讓用戶疲憊,統一、簡化的體驗是必然選擇。
成本層面,對話式AI的邊際成本悖論讓“人人擁有一個對話框”的商業夢想難以為繼。
用戶需求層面,老板、企業主、普通消費者并不需要AI每天陪著聊天,他們需要的是AI能訂票、寫代碼、處理數據、在線購物。
因此,AI聊天的時代或許真的需要終結了。終結,不是意味著AI不再具備對話能力,恰恰相反,對話會成為一種默認定式。
就像今天我們在手機上用手指滑動一樣自然,不再需要一個專門的“聊天”界面來標識它。終結的意思是,對話框作為人類與AI之間的唯一通道,將讓位于更多元、更智能、更隱形的交互形態。
下一代人機交互的窗口,或將是佩戴在耳后的無屏幕語音助手,或將是嵌入操作系統的多模態智能體,也可能是藏在瀏覽器中的計算機使用Agent。
用戶將從一個“打字提問者”,變成一名“任務委托者”,只給出一個模糊的目標,AI便自動拆解、執行、修正,最終交付結果。
聊天框將不再是用戶打開AI的第一扇門。
真正有價值的事情,發生在門關上之后,AI在后臺默默地、持續地為用戶交付結果。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.