網易首頁 > 網易號 > 正文申請入駐

AI交互新基準！螞蟻提出MiniAppBench并入選ICML 2026 Spotlight

2026-06-10 22:27:20　來源: 機器之心Pro

河北舉報

分享至

想象一下，你問 AI 要一個飲食記錄工具，它不再是回你一段文字建議，而是直接給你一個可以點擊添加、統計熱量的完整應用。人和 AI 的交互，正在從「讀文字」走向「用應用」。

Karpathy 早在 X 上反復說過這件事：「App Store 作為一組離散應用供用戶選擇的模式，正在成為一個日益過時的概念。未來在于利用 LLM 技術將 AI 原生傳感器和執行器整合到高度定制化的、即開即用的應用程序中。」

Anthropic Claude Code 團隊的 Thariq Shihipar 更是直接宣判：「HTML is the new markdown。我已經停止為幾乎所有工作編寫 Markdown 文件，改用 Claude Code 幫我生成 HTML。」他從信息密度、可讀性、分享成本、雙向交互和趣味性五個維度論證了 HTML 對 Markdown 的全面碾壓。

這些觀點并非小圈子的自嗨，而是引發了廣泛共鳴。但當所有人都在談論 "AI 應該輸出 HTML" 的時候，一個更深層的問題被忽略了：生成一個 HTML 頁面容易，生成一個真正可交互、邏輯正確、且符合現實世界規律的 HTML 應用，難得多。大模型生成這類交互應用的真實水平到底怎樣？沒有人量過。

來自螞蟻集團靈光 App 閃應用團隊的研究者做了這件事。他們提出了MiniAppBench，首個專門評測大模型生成「交互式 HTML 應用」能力的基準，結合配套的自動化評估系統 MiniAppEval，對全球 16 個頂尖模型進行了系統性測試。

結果讓人警醒：大模型的代碼能力，遠不足以生成真正能用的交互應用，最強模型通過率也僅 45% 左右，平均只有 17%。

論文以ICML 2026 Spotlight身份被接收：ICML 2026 有效投稿量共 23918 篇，全部接受稿件共 6352 篇（26.6%），Spotlight 僅 536 篇（2.2%）。

論文標題：MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants
arXiv 地址：https://openreview.net/pdf?id=pwbLmew1aq
項目主頁：https://miniappbench.github.io/
代碼倉庫：https://github.com/MiniAppBench/miniappbench

3 個看點先讀

1.定義 AI 時代人機交互新范式：論文正式提出「MiniApp」概念，即由大模型依據用戶單條 Query 即時生成的定制化 HTML 交互應用。當 Markdown 已經無法承載越來越復雜的 AI 輸出，MiniApp 代表了從靜態文本到可交互應用的范式轉移。

2.全球最強模型集體「汗流浹背」：16 個模型評測，最高通過率僅 45.46%，平均僅 17%。在 Hard 難度任務上，幾乎所有模型通過率都跌到個位數。這不是一個飽和的 Benchmark。

3.用 AI Agent 當「人類測試員」：MiniAppEval 不靠固定腳本打分，不靠截圖比對，而是讓一個基于 LLM 的 Agent 模擬人類測試員去點擊、拖拽、輸入，從意圖、靜態、動態三個維度全方位測試，與真人打分相關性高達 0.85 以上。

01 從文本到交互：AI 人機交互的新范式

當大模型的輸出從「回答問題」變成「交付應用」，交互方式本身也在發生根本性的變化。

過去，你問模型一個問題，它回答一段文字，靜態的、一次性的，讀完就結束了。但現在，你可以對模型說「幫我做一個牛頓定律演示工具」，它就能給你一個真的能撥動質量滑塊、實時看到力學動畫的交互界面。你說「幫我記錄每周飲食」，它不是給你一個文字版的食譜建議，而是直接給你一個帶七天三餐表格、可以點擊添加、可以統計熱量的飲食記錄器。

這就是論文定義的MiniApp：由模型依據單條 Query 即時生成的定制化 HTML 交互應用。

從傳統文本輸出到 MiniApp 的范式轉移

為什么是 HTML？因為 HTML 天然具備四個特性：美觀的視覺呈現能力、豐富的交互邏輯支持、跨平臺即開即用、無需安裝部署。它不是大模型生成的中間產物，而是直接面向用戶的終端產品。

關鍵在于，MiniApp 不只是「好看的網頁」。論文明確指出，它有兩大核心屬性：

原則遵循（Principle Adherence）：模型必須捕捉并構建用戶 Query 中隱含的現實世界原則。比如「一周飲食記錄」隱含了「一周有七天、一天有三餐」；「水蒸發演示」隱含了粒子運動速度隨溫度升高的物理定律。
定制化交互（Customized Interaction）：應用結構和行為需要根據用戶意圖動態合成，而非套用固定模板。

前者考察的是模型對世界知識的理解深度，后者考察的是把理解轉化為可執行代碼的工程能力。兩者缺一不可，而現有 Benchmark 對兩者都缺乏有效的評測手段。

02 現有 Benchmark 為什么量不了這件事

現有的代碼評測和 Web 評測，都很難覆蓋 MiniApp 的核心能力。

代碼類 Benchmark（HumanEval、MBPP、SWE-Bench 等）：測的是算法邏輯對不對、函數能不能過測試用例。代碼在這里是抽象的邏輯符號，跟執行環境、用戶交互無關。一個能寫快排的模型，不代表它能理解「一周有七天」并把這種常識編碼進交互邏輯。

Web 生成類 Benchmark（Pix2Code、FullFront、WebGenBench 等）：測的是視覺還原度和布局一致性。能不能把設計稿還原成 HTML/CSS，跟能不能生成一個功能正確的交互應用，完全是兩回事。前者是「畫得像」，后者是「用得對」。

已有的 Agent 評測（ArtifactsBench、WebDevJudge 等）：雖然開始關注交互性，但主要依賴 A/B 偏好對比或與參考實現的偏差打分。MiniApp 的本質是開放式的：同一個需求可以有無數種合理的實現方式，不存在唯一的 Ground Truth。拿固定答案去評判開放式產出，要么太松放過錯誤，要么太嚴誤殺合理方案。

MiniAppBench 要回答的問題是：模型能不能理解用戶的隱含需求，并把它變成一個真正能用的、遵循現實世界原則的交互應用？這個問題，之前沒有任何 Benchmark 系統性地回答過。

03 MiniAppBench：從一千萬條真實交互中蒸餾 500 道題

MiniAppBench 的數據不是拍腦袋想的，也不是用模板批量生成的。

它的起點是大規模真實場景中積累的超過 1000 萬條交互需求。研究者從中篩選出真正需要交互式應用才能滿足的需求，經過四階段流水線層層過濾，最終蒸餾出500 個高質量任務，覆蓋 6 個領域、25 個細分類別、3 個難度級別。

MiniAppBench 數據集構建流水線與統計概覽

Stage 1：識別原則驅動的交互式需求。不是所有需求都適合變成 MiniApp。大量需求是純信息查詢、模糊不清、或者簡單到不需要交互。研究團隊從千萬級數據中先經 LLM 篩選，再由人類專家逐條審核，確保每個需求都隱含了現實世界原則、且需要定制化交互來滿足。

Stage 2：擴展覆蓋面，保留核心意圖。在 1123 條高質量種子需求的基礎上，通過 LLM 擴展生成變體，覆蓋更多領域和難度，同時嚴格保留原始需求的主題和意圖。擴展后的需求同樣經過人工審核，確保擴展過程沒有偏離原始意圖。

Stage 3：錨定可驗證的評測參考（Eval-Ref）。這是 MiniAppBench 區別于其他開放式評測的關鍵一步。對每個需求，研究者生成了一份結構化的評測參考，列出意圖、靜態實現和動態交互中需要驗證的關鍵檢查點。比如「水蒸發演示」的 Eval-Ref 會明確指出需要檢查蒸發是否遵循物理定律、粒子是否有加速逸出行為。但這份參考不是唯一的評判標準，而是輔助評估 Agent 定位潛在問題的指南針。

Stage 4：平衡難度與領域覆蓋。最終分層抽樣選出 500 個任務，難度分布為 30% Easy / 40% Mid / 30% Hard，六個領域分別為：Science（科學）、Games（游戲）、Tools（工具）、Humanities（人文）、Visualization（可視化）、Lifestyle（生活），每個領域下又有 3-5 個細分類別。

6 個領域各有側重：Science 考的是物理定律和公式能不能正確實現；Games 考的是游戲邏輯和交互完備性；Tools 考的是魯棒性和邊界處理；Humanities 考的是知識落地和用戶驅動的探索；Visualization 考的是視覺編碼和精確映射；Lifestyle 考的是生活常識和個性化約束。

04 MiniAppEval：讓 AI Agent 當「人類測試員」

評測開放式交互應用，最棘手的問題是：沒有標準答案。

同一個「飲食記錄器」，你可以做成表格式的，也可以做成卡片式的，交互方式千差萬別，但都可能滿足用戶需求。用固定腳本？覆蓋不了開放式實現。用截圖對比？看不出交互邏輯對不對。用 A/B 偏好？過于主觀，且依賴參考實現。

MiniAppEval 的思路是：讓一個 LLM Agent 模擬人類測試員，去真的操作這個應用。

具體來說，MiniAppEval 通過 Playwright 驅動無頭瀏覽器，讓 Agent 像人一樣點擊按鈕、輸入文本、拖拽滑塊，同時實時捕獲 DOM 狀態、控制臺日志和源碼。Agent 會根據評測參考的指引，系統性地探索應用的功能和邊界，而不是按固定腳本走一遍。

評測從三個維度展開：

Intention 維度：應用是否真正滿足了用戶的意圖？你說「做一個飲食記錄器」，它確實是一個飲食記錄器，而不是一個通用的備忘錄。

Static 維度：靜態實現是否正確？頁面結構是否合理、代碼是否語法正確、必要的元素是否齊全、可訪問性是否達標。比如天氣儀表盤應該有溫度、濕度、位置字段，不管交互與否這些信息都要在。

Dynamic 維度：動態交互是否正常？這是最關鍵的一環。多步操作后狀態是否一致？因果邏輯是否成立？邊界輸入是否崩潰？比如「添加任務→標記完成→驗證從活躍列表消失」這條鏈路能不能跑通？輸入空字符串或無效日期會不會崩？水蒸發演示里粒子運動是否遵循物理定律？

三個維度各給一個 0-1 的分數，最終通過條件采用木桶原則：三個維度都 ≥ 0.8 才算通過。一個應用如果視覺很好但交互全崩，或者功能齊全但違背物理常識，都不能通過。

消融實驗也驗證了三個組件（Eval-Ref / Code 審查 / Playwright 動態測試）缺一不可的必要性：去掉 Eval-Ref，召回率暴跌 38.89 個百分點；去掉 Code 審查，精度暴跌 51.14 個百分點；去掉 Agent 動態測試，精度只剩 12.90%，說明大量交互問題只有「真的點一下」才能發現。

更關鍵的是，MiniAppEval 與人類專家評判的一致性很高：實驗顯示平均 F1 達到 92.4%，跨評估者一致性 κ = 0.89。論文還引入了雙盲評估來緩解 Agent 對圖形類查詢的確認偏差，進一步提升了對純視覺任務的判斷準確性。

05 評測結果：全球最強模型的「不及格」成績單

16 個模型，500 個任務，結果擺在面前：

16 個模型在 MiniAppBench 上的通過率排名

全部模型的平均通過率只有 17.05%。即使是最強的 GPT-5.2，也只拿到 45.46%。

這組數字背后有幾個值得細看的信息：

開源閉源差距巨大，但遠未飽和。開源最佳 GLM-4.7 通過率僅 18.31%，而閉源最佳 GPT-5.2 達到 45.46%，差距懸殊。這也說明 MiniAppBench 不是一個已經飽和的測試，而是一片真正有區分度的戰場。

難度上升，全線崩潰。頭部模型在 Easy 任務上能拿到不錯的分數（GPT-5.2 74.71%、GPT-5.1 74.71%、Claude-Sonnet-4-5 68.22%），看起來還行；但一到 Hard 任務，普遍腰斬甚至跌到個位數：GPT-5.2 跌至 18.64%，Claude-Opus-4-5 跌至 22.33%，GPT-5.1 僅剩 3.49%。多數模型在 Hard 任務上幾乎全軍覆沒，多個模型通過率為 0。這說明當任務需要同時處理復雜交互邏輯、領域特定知識和現實世界原則時，現有模型的能力天花板非常明顯。

Science 和 Tools 是最難啃的骨頭。按領域看，Visualization 和 Lifestyle 通過率相對較高（多個模型超過 30%），因為這類任務目標明確、常識約束相對簡單。但 Science 和 Tools 領域表現普遍低迷：Science 需要嚴格遵循物理定律和科學公式，Tools 需要魯棒的邏輯處理和邊界條件管理，這些對當前模型來說仍是硬挑戰。

推理開銷與性能正相關，但性價比差異顯著。Token 消耗量與通過率的相關系數為 0.84，推理時間與通過率的相關系數為 0.74，更強的模型確實需要更多算力。但同樣是通過率 40% 出頭的水平，不同模型的 Token 消耗可以相差數倍，GPT-5.2 和 Gemini-3-Pro-Preview 在相近性能下消耗更少 Token，而部分模型在同等能力下推理時間明顯更長。這意味著單純堆算力并非唯一路徑，模型架構和訓練策略的優化同樣關鍵。

06 這件事意味著什么

MiniAppBench 不只是又一個 Benchmark。它提出的是一個更根本的問題：當大模型的輸出從靜態文本走向可交互的應用，我們該如何評估它的真實能力？

傳統的代碼評測測的是「邏輯對不對」，Web 評測測的是「畫得像不像」，但 MiniAppBench 測的是「做出來的東西能不能用」。它把評估從代碼層面拉到了應用層面，從「能跑」拉到了「好用」。

這個轉變有幾個值得注意的信號：

第一，交互式應用生成正在成為大模型能力的下一個前沿。從文本到代碼到交互應用，輸出形態的復雜度在指數級增長。Karpathy 預言「動態 App 替代靜態 App Store」，Anthropic 的 Claude Code 團隊已經把「HTML 替代 Markdown」變成日常實踐。當行業共識已經向交互式輸出傾斜，卻沒有人量過模型到底能不能做好這件事。MiniAppBench 填補的正是這個空白。

第二，當前模型在原則遵循上的短板可能比想象中更嚴重。即使是最強的 GPT-5.2 也只有 45.46% 的通過率，這個天花板不是靠更多訓練數據就能輕松突破的：它涉及模型對世界知識的深度理解、對隱含約束的自動推理、以及對復雜交互邏輯的工程實現。這三件事缺一不可，而 MiniAppBench 第一次把它們放在同一個框架下度量。

第三，評估方法論本身也需要進化。固定測試用例覆蓋不了開放式生成，截圖對比看不懂交互邏輯，A/B 偏好過于主觀。MiniAppEval 展示了一種可行路徑：用 LLM Agent 模擬人類測試員，結合靜態代碼審查和動態瀏覽器操作，從意圖、靜態、動態三個維度系統性評估。這套方法論不僅適用于 MiniApp，對任何開放式代碼生成場景都有參考價值。

第四，開源模型的空間很大，但距離還很遠。MiniAppBench 的數據清晰表明，開源最佳 GLM-4.7 僅 18.31%，與閉源最佳 GPT-5.2 的 45.46% 差距超過一倍，而多數開源模型通過率在個位數。這意味著在交互應用生成這個方向上，開源社區還有大量工作要做。

07 開箱即用：5 分鐘本地跑分

https://github.com/MiniAppBench/miniappbench

MiniAppBench 已經完全開源，配套提供了端到端的評測腳手架。只需要一個 OpenAI 格式的 API Key，5 分鐘就能在本地啟動測試：

# 2 句命令安裝環境pip install -r requirements.txtplaywright install chromium# 1 句命令跑評測python -m examples.pipeline --query-file data/query_validation_100.json --index 1

結語

大模型正在從「把話說對」走向「把應用做對」。MiniAppBench 揭示了一個不容回避的事實：在交互應用生成這個更貼近真實使用場景的維度上，即便是最強的模型也只是勉強及格。17% 的平均通過率意味著，每生成 6 個交互應用，只有約 1 個能真正滿足用戶需求。

但這也意味著，這里有巨大的提升空間。當模型的交互應用生成能力從 45% 走向 90% 以上，人機交互的形態將徹底改變：每個人都可以用自然語言定制自己需要的工具，而不需要等待 App Store 里的某個開發者恰好做了你想要的東西。

從靜態文本到可交互的 HTML 應用，不只是輸出格式的變化，而是大模型與人類協作方式的根本性轉變。當 AI 不再只是回答問題，而是直接交付一個能用的應用，人機交互才真正進入下一個時代。MiniAppBench 量出了起跑線上的真實差距，也為這條賽道畫出了第一個清晰的刻度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.