網易首頁 > 網易號 > 正文申請入駐

谷歌給 Android 開發者選模型：GPT-5.5 暫時領先

2026-06-03 12:36:54　來源: InfoQ

北京舉報

分享至

作者 | Adrian Bridgwater

譯者 | 平川

策劃 | Tina

本文最初發布于 THENEWSTACK 博客。

圖片來自 Unsplash+ ，由 Sara Oliveira 提供

谷歌希望軟件開發者在構建 Android 應用時用盡可能好的 AI 模型。因此，該公司在 3 月份推出了基準測試門戶 Android Bench。該服務旨在提供一個持續更新的排行榜，供開發者和模型創建者參考。

上周，排行榜進行了更新，包括開放權重模型，并新增了延遲、令牌和成本等列。

“通過為高質量的 Android 開發設定一個清晰可靠的基準，我們正在幫助模型創建者識別差距并加速改進——這使得開發者能夠更高效地工作。” ——來自谷歌的 Matthew McCullough。

在 3 月份的一篇博文中，谷歌 Android 開發部門產品副總裁 Matthew McCullough 寫道，谷歌對頂級的 AI LLM 進行了基準測試，旨在評估這些工具如何構建 Android 應用。

McCullough 解釋說，“我們的目標是為模型創建者提供一個基準，用于評估 LLM 在 Android 開發中的能力。通過為高質量的 Android 開發設定一個清晰可靠的基準，我們希望可以幫助模型創建者識別差距并加速改進，使他們能夠更加高效地工作，讓 AI 助手有更廣泛的模型可以選擇——這最終將提高 Android 生態系統中應用的質量?！?/p>

1 GPT 5.5 是目前 Android 開發的最佳 AI 模型

這項新服務似乎不提供模型排名隨時間上升和下降的歷史記錄，但 9to5Google 報道稱，最后一次 Android Bench 將 Gemini 3.1 Pro 與 OpenAI 的 GPT 5.4 并列為該領域的領導者。

根據 5 月 18 日的最新消息，GPT 5.5 目前是 Android 應用開發的最佳 AI 模型。

對于 Android Bench 采用的方法，谷歌做了一個公開的說明：“該服務會向 LLM 展示來自開源軟件項目的真實問題和拉取請求，從而評估它們生成代碼解決問題的能力。這種方法旨在確保任務能夠代表開發者每天面臨的挑戰。”

2 為什么谷歌要構建 Android Bench？

谷歌表示，他們之所以構建 Android Bench，是因為基于 AI 的軟件工程“已經出現了幾個基準”來衡量 LLM 的能力。該公司進一步表示，Android 開發者“面臨著一些特定的挑戰，而這些挑戰沒有被現有的基準覆蓋到”，因此他們創建了這個排名服務，專注于全面評估高質量的 Android 開發。

谷歌表示，“我們創建了一個模型無關的基準，用于準確評估 LLM 在各種 Android 開發任務上的性能”。該公司進一步明確了 Android Bench 的目標：作為鼓勵 LLM 改進 Android 開發的手段；讓 Android 開發者能夠更高效地使用一系列“有用的模型”進行 AI 輔助開發；為 Android 生態系統帶來更高質量的應用。

這個軟件開發基準測試有效嗎？

不出所料，開發者和模型創建者會質疑谷歌建立這個基準測試是否有用。反對者可能會自然地引用 Goodhart 定律：“當一個度量成為目標時，它就不再是一個好的度量。”當然，任何獎勵系統都可能吸引那些為了實現標準化目標而優化行動的行為者。

谷歌可能已經預見到了這個陷阱，基于真實的公開代碼庫創建了 Android Bench 基準測試。

來自谷歌的 McCullough 寫道，“在創建基準測試時，我們策劃了一系列 Android 開發領域常見的任務集，其中包含來自公共 GitHub Android 存儲庫的不同難度的真實挑戰”。

這意味著測試的場景包括解決跨 Android 版本發布的“破壞性變更”（當代碼以前工作正常，但因為谷歌更新 Android 到新版本而被損壞時），特定領域的任務，如可穿戴設備的網絡（高延遲和頻繁斷開連接的幽靈始終是一個威脅），以及遷移到最新版本的 Jetpack Compose（Android 自己的聲明式 UI 工具包，使用 Kotlin 語言函數）等。

3 還存在哪些 Android 基準測試？

Jetpack Microbenchmark 也是一個 Android 基準測試庫，允許開發者在 Android Studio 內對他們的 Android 原生代碼進行基準測試，無論是用 Kotlin 還是 Java 編寫的。姊妹基準 Jetbank Macrobenchmark 用于測試大規模的用戶交互，如應用冷啟動時間或用戶界面動畫的流暢性。

在 Android 性能基準測試領域有一個基準測試 Firebase Performance Monitoring。這是一個生產級的現場基準測試工具，用于監控應用的網絡請求和屏幕渲染時間；這更像是一個應用性能監控工具。

在 Android 開發者社區中，Android Vitals 已經提供了一個儀表板來跟蹤應用的質量指標，如穩定性、性能、電池使用情況和權限問題。Apptim 是一個生成式 AI 移動應用分析和測試工具，也可以用于性能基準測試，但與 Android Bench 不完全相同。我們還要提一下谷歌自己的 Android Performance Analyzer（APA），它于今年 5 月 19 日才推出，是一個支持工作流簡化的分析和性能分析工具。

“像 Android Bench 這樣的開放基準測試很棒，我們希望有更多這樣的測試。但需要注意的是數據污染問題。公共存儲庫會滲入訓練過程，我們曾看到某些模型在公開評估中僅差幾分，但在模擬相同工作負載的私有基準測試中卻表現出天壤之別?！?——Zencoder 首席執行官 Andrew Filev。

Zencoder 首席執行官兼創始人 Andrew Filev 告訴 The New Stack，他雖然很欣賞這些系統，但也提出了一些保留意見。

Filev 熱情地說，“像 Android Bench 這樣的開源基準測試工具非常棒，我們希望這類工具能更多一些。總體而言，軟件開發領域過于多樣化，單是一個總分不具有普適意義——Python 基準測試幾乎無法反映模型在處理 Rust、嵌入式系統或移動應用時的表現。此外，構建一個開放的 Web 應用、僅供幾百人使用的內部工具，以及全球規模的多租戶產品之間有著根本性的差異，模型在這些領域中的表現也各不相同?！?/p>

有鑒于此，他說，特定領域的基準測試促使模型開發者關注用戶的實際工作環境，因此他認為，“谷歌在這方面值得稱贊”，并希望其他平臺效仿谷歌的做法。

Filev 說，“但需要注意的是數據污染問題。公共存儲庫會滲入訓練過程，我們曾看到某些模型在公開評估中僅差幾分，但在模擬相同工作負載的私有基準測試中卻表現出天壤之別。在我們自己的研究中，僅僅對測試用例的表述方式進行微小的調整，就能使模型的偏差范圍從 6 個百分點擴大到 26 個百分點，并徹底改變了排名順序。因此，公開基準測試有助于提升大語言模型在各領域的性能，而私有評估則有助于評估模型在具體工作負載下的實際表現。”

4 Android Bench 得分是如何生成的？

每個 Android Bench 模型的總體基準測試分數，是基于谷歌開發的一套計算方法得出的，其中包含四個核心指標。

置信區間（CI）范圍（%）是預期性能范圍的度量，反映了結果的統計可靠性（p 值，0.05）；平均延遲分數是指在 10 次運行中完成 100 個任務所花費的時間；平均總令牌分數是衡量在 10 次完整的基準測試運行中令牌消耗量的指標；而平均成本則是指測試時每次基準測試運行的成本，單位為美元。

Android Bench 測試框架已經公開發布在 GitHub 上。

https://thenewstack.io/gpt-5-5-android-bench

聲明：本文由 InfoQ 翻譯，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.