无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

谷歌給 Android 開發者選模型:GPT-5.5 暫時領先

0
分享至


作者 | Adrian Bridgwater

譯者 | 平川

策劃 | Tina

本文最初發布于 THENEWSTACK 博客。


圖片來自 Unsplash+ , 由 Sara Oliveira 提供

谷歌希望軟件開發者在構建 Android 應用時用盡可能好的 AI 模型。因此,該公司在 3 月份推出了基準測試門戶 Android Bench。該服務旨在提供一個持續更新的排行榜,供開發者和模型創建者參考。

上周,排行榜進行了更新,包括 開放權重模型,并新增了延遲、令牌 和成本等列。

“通過為高質量的 Android 開發設定一個清晰可靠的基準,我們正在幫助模型創建者識別差距并加速改進——這使得開發者能夠更高效地工作。” ——來自谷歌的 Matthew McCullough。

在 3 月份的一篇博文 中,谷歌 Android 開發部門產品副總裁 Matthew McCullough 寫道,谷歌對頂級的 AI LLM 進行了基準測試,旨在評估這些工具如何構建 Android 應用。

McCullough 解釋說,“我們的目標是為模型創建者提供一個基準,用于評估 LLM 在 Android 開發中的能力。通過為高質量的 Android 開發設定一個清晰可靠的基準,我們希望可以幫助模型創建者識別差距并加速改進,使他們能夠更加高效地工作,讓 AI 助手有更廣泛的模型可以選擇——這最終將提高 Android 生態系統中應用的質量?!?/p>

1 GPT 5.5 是目前 Android 開發的最佳 AI 模型

這項新服務似乎不提供模型排名隨時間上升和下降的歷史記錄,但 9to5Google 報道稱,最后一次 Android Bench 將 Gemini 3.1 Pro 與 OpenAI 的 GPT 5.4 并列為該領域的領導者。

根據 5 月 18 日的最新消息,GPT 5.5 目前是 Android 應用開發的最佳 AI 模型。

對于 Android Bench 采用的方法,谷歌做了一個 公開的說明:“該服務會向 LLM 展示來自開源軟件項目的真實問題和拉取請求,從而評估它們生成代碼解決問題的能力。這種方法旨在確保任務能夠代表開發者每天面臨的挑戰。”

2 為什么谷歌要構建 Android Bench?

谷歌表示,他們之所以構建 Android Bench,是因為基于 AI 的軟件工程“已經出現了幾個基準”來衡量 LLM 的能力。該公司進一步表示,Android 開發者“面臨著一些特定的挑戰,而這些挑戰沒有被現有的基準覆蓋到”,因此他們創建了這個排名服務,專注于全面評估高質量的 Android 開發。

谷歌 表示,“我們創建了一個模型無關的基準,用于準確評估 LLM 在各種 Android 開發任務上的性能”。該公司進一步明確了 Android Bench 的目標:作為鼓勵 LLM 改進 Android 開發的手段;讓 Android 開發者能夠更高效地使用一系列“有用的模型”進行 AI 輔助開發;為 Android 生態系統帶來更高質量的應用。

這個軟件開發基準測試有效嗎?

不出所料,開發者和模型創建者會質疑谷歌建立這個基準測試是否有用。反對者可能會自然地引用 Goodhart 定律:“當一個度量成為目標時,它就不再是一個好的度量。”當然,任何獎勵系統都可能吸引那些為了實現標準化目標而優化行動的行為者。

谷歌可能已經預見到了這個陷阱,基于真實的公開代碼庫創建了 Android Bench 基準測試。

來自谷歌的 McCullough 寫道,“在創建基準測試時,我們策劃了一系列 Android 開發領域常見的任務集,其中包含來自公共 GitHub Android 存儲庫的不同難度的真實挑戰”。

這意味著測試的場景包括解決跨 Android 版本發布的“破壞性變更”(當代碼以前工作正常,但因為谷歌更新 Android 到新版本而被損壞時),特定領域的任務,如可穿戴設備的網絡(高延遲和頻繁斷開連接的幽靈始終是一個威脅),以及遷移到最新版本的 Jetpack Compose(Android 自己的聲明式 UI 工具包,使用 Kotlin 語言函數)等。

3 還存在哪些 Android 基準測試?

Jetpack Microbenchmark 也 是一個 Android 基準測試庫,允許開發者在 Android Studio 內對他們的 Android 原生代碼進行基準測試,無論是用 Kotlin 還是 Java 編寫的。姊妹基準 Jetbank Macrobenchmark 用于測試大規模的用戶交互,如應用冷啟動時間或用戶界面動畫的流暢性。

在 Android 性能基準測試領域有一個基準測試 Firebase Performance Monitoring。這是一個生產級的現場基準測試工具,用于監控應用的網絡請求和屏幕渲染時間;這更像是一個應用性能監控工具。

在 Android 開發者社區中,Android Vitals 已經提供了一個儀表板來跟蹤應用的質量指標,如穩定性、性能、電池使用情況和權限問題。Apptim 是一個生成式 AI 移動應用分析和測試工具,也可以用于性能基準測試,但與 Android Bench 不完全相同。我們還要提一下谷歌自己的 Android Performance Analyzer(APA),它于今年 5 月 19 日才推出,是一個支持工作流簡化的分析和性能分析工具。

“像 Android Bench 這樣的開放基準測試很棒,我們希望有更多這樣的測試。但需要注意的是數據污染問題。公共存儲庫會滲入訓練過程,我們曾看到某些模型在公開評估中僅差幾分,但在模擬相同工作負載的私有基準測試中卻表現出天壤之別?!?——Zencoder 首席執行官 Andrew Filev。

Zencoder 首席執行官兼創始人 Andrew Filev 告訴 The New Stack,他雖然很欣賞這些系統,但也提出了一些保留意見。

Filev 熱情地說,“像 Android Bench 這樣的開源基準測試工具非常棒,我們希望這類工具能更多一些。總體而言,軟件開發領域過于多樣化,單是一個總分不具有普適意義——Python 基準測試幾乎無法反映模型在處理 Rust、嵌入式系統或移動應用時的表現。此外,構建一個開放的 Web 應用、僅供幾百人使用的內部工具,以及全球規模的多租戶產品之間有著根本性的差異,模型在這些領域中的表現也各不相同?!?/p>

有鑒于此,他說,特定領域的基準測試促使模型開發者關注用戶的實際工作環境,因此他認為,“谷歌在這方面值得稱贊”,并希望其他平臺效仿谷歌的做法。

Filev 說,“但需要注意的是數據污染問題。公共存儲庫會滲入訓練過程,我們曾看到某些模型在公開評估中僅差幾分,但在模擬相同工作負載的私有基準測試中卻表現出天壤之別。在我們自己的研究中,僅僅對測試用例的表述方式進行微小的調整,就能使模型的偏差范圍從 6 個百分點擴大到 26 個百分點,并徹底改變了排名順序。因此,公開基準測試有助于提升大語言模型在各領域的性能,而私有評估則有助于評估模型在具體工作負載下的實際表現。”

4 Android Bench 得分是如何生成的?

每個 Android Bench 模型的總體基準測試分數,是基于谷歌開發的一套計算方法得出的,其中包含四個核心指標。

置信區間(CI)范圍(%)是預期性能范圍的度量,反映了結果的統計可靠性(p 值,0.05); 平均延遲分數是指在 10 次運行中完成 100 個任務所花費的時間;平均總令牌分數是衡量在 10 次完整的基準測試運行中令牌消耗量的指標;而平均成本則是指測試時每次基準測試運行的成本,單位為美元。

Android Bench 測試框架已經 公開發布在 GitHub 上。

https://thenewstack.io/gpt-5-5-android-bench

聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
年輕人的性蕭條有多恐怖?我國避孕套市場規模萎縮了25%!

年輕人的性蕭條有多恐怖?我國避孕套市場規模萎縮了25%!

燈錦年
2026-06-10 15:31:11
SpaceX總裁:不會出現大批員工套現離職

SpaceX總裁:不會出現大批員工套現離職

財聯社
2026-06-12 22:42:07
WTT薩格勒布賽:單打8強已出其4!國乒連贏韓日,早田希娜被爆冷

WTT薩格勒布賽:單打8強已出其4!國乒連贏韓日,早田希娜被爆冷

全言作品
2026-06-12 19:19:04
鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

果媽聊娛樂
2026-06-07 09:51:32
關曉彤和男演員伸舌吻戲拍完五小時,鹿晗發破碎愛心

關曉彤和男演員伸舌吻戲拍完五小時,鹿晗發破碎愛心

鄉野小珥
2026-06-11 14:06:46
1952年薄一波反映葉帥情況,毛主席:他是有成績的,大家要理解他

1952年薄一波反映葉帥情況,毛主席:他是有成績的,大家要理解他

史之韻
2026-06-13 00:10:13
WTT薩格勒布賽:混雙4強誕生!國乒全軍覆沒,總教練指導無力回天

WTT薩格勒布賽:混雙4強誕生!國乒全軍覆沒,總教練指導無力回天

全言作品
2026-06-12 17:39:46
德布勞內最痛的背叛:女友跟好友庫爾圖瓦睡了,還說一晚勝過三年

德布勞內最痛的背叛:女友跟好友庫爾圖瓦睡了,還說一晚勝過三年

綠茵八卦君
2026-06-13 07:20:03
提前批水太深!軍校警校只是冰山一角,真正好上岸的是這5個方向

提前批水太深!軍校警校只是冰山一角,真正好上岸的是這5個方向

荷蘭豆愛健康
2026-06-09 19:01:42
上海奪冠后大白邊最新動態!已成功簽約下家:盧偉這下真被打臉了

上海奪冠后大白邊最新動態!已成功簽約下家:盧偉這下真被打臉了

籃球快餐車
2026-06-12 15:22:04
日本天皇對高市早苗的不滿,已經到了差點“發飆”的地步了?

日本天皇對高市早苗的不滿,已經到了差點“發飆”的地步了?

影孖看世界
2026-06-12 23:57:37
一場1-1爆冷,讓亞洲冠軍漁翁得利!世界杯出線難度反轉,B組亂了

一場1-1爆冷,讓亞洲冠軍漁翁得利!世界杯出線難度反轉,B組亂了

等等talk
2026-06-13 06:15:05
“薛桂生”才是最大贏家,第一次演戲就出名,還在劇組討到了老婆

“薛桂生”才是最大贏家,第一次演戲就出名,還在劇組討到了老婆

阿纂看事
2026-06-12 11:24:51
姚明為何不生二胎?原因被爆料,葉莉也沒辦法,太可惜且難以接受

姚明為何不生二胎?原因被爆料,葉莉也沒辦法,太可惜且難以接受

三毛看世界
2026-06-11 19:28:54
這次,俞灝明苦苦維持的體面,被王曉晨撕的稀碎,鄭愷早有提醒

這次,俞灝明苦苦維持的體面,被王曉晨撕的稀碎,鄭愷早有提醒

打小我就醜
2026-06-04 12:37:40
三年套現15億,賣掉摩拜單車的創始人胡瑋煒,竟然活成了這樣!

三年套現15億,賣掉摩拜單車的創始人胡瑋煒,竟然活成了這樣!

琴琴有氧運動
2026-06-05 22:12:10
馮小剛電影《抓特務》官宣定檔端午

馮小剛電影《抓特務》官宣定檔端午

東方不敗然多多
2026-06-12 20:30:01
某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

番外行
2026-02-26 19:53:05
大反轉!已簽的波音大豆要取消?美再次對華出手,188家中企在列

大反轉!已簽的波音大豆要取消?美再次對華出手,188家中企在列

鍋鍋愛歷史
2026-06-12 14:31:38
99年北京姑娘征婚:會打王者,做飯超好吃

99年北京姑娘征婚:會打王者,做飯超好吃

生活觀察員啊
2026-06-12 01:25:32
2026-06-13 09:31:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12524文章數 51943關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

手機
親子
房產
健康
公開課

手機要聞

三星官網公布Galaxy A27 5G手機參數,搭載驍龍6 Gen 3芯片

親子要聞

俗話說興趣就要從小開始培養!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

老人、小孩、孕婦,吃粽子有啥風險

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版