亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網易首頁 > 網易號 > 正文 申請入駐

這個AI能自己造AI,十幾分鐘寫完代碼,一天交付可用模型

0
分享至

近日,在 OpenAI 發(fā)布的機器學習工程師基準測試(MLE-bench)中,一個名為 AIBuildAI 的智能體系統(tǒng)以 63.11% 的整體得分穩(wěn)居第一。

AIBuildAI 是一個可以自動構建 AI 模型的 AI 智能體。這意味著,你只需給它一個自然語言任務描述和數據文件夾,它就能在一天內獨立完成模型設計、代碼生成、模型訓練、超參數調優(yōu)、性能評估,并持續(xù)迭代改進模型性能。


(來源:受訪者提供)

這個“AI 工程師”背后的主要負責人,正是加州大學圣地亞哥分校(UCSD)電氣與計算機工程系副教授謝澎濤(Pengtao Xie)。他擁有卡內基梅隆大學機器學習系博士背景,研究方向聚焦人類學習技能啟發(fā)的機器學習,并將其應用于大語言模型、基礎模型以及生物醫(yī)學領域。

據謝澎濤介紹,AIBuildAI 的誕生,最初是為了解決實驗室內部一個非常現(xiàn)實的困境。

“我們團隊有兩類學生。一類是生物醫(yī)學背景的,他們希望用 AI 預測 RNA 功能、蛋白質結構等具體問題,但缺乏建模和編程能力;另一類是 AI 方法背景的,雖然能自己寫代碼,卻要花好幾天甚至幾周反復實驗?!敝x澎濤告訴 DeepTech。

“如果有一個智能體,能讓用戶只用自然語言描述任務,后續(xù)所有步驟——模型架構設計、代碼編寫、訓練、超參數調優(yōu)、性能評估、甚至自我復盤改進——全部自動完成,那對兩類學生都是巨大解放。”他補充道。

于是,AIBuildAI 項目正式啟動?!爸悄荏w本身大約做了半年,但底層的推理、合成數據等技術我們已經積累了好幾年?!敝x澎濤透露,團隊對于這款智能體的定位也十分明確:基于成熟 AI 模塊組合設計模型,解決落地性強的常規(guī)任務。

據悉,AIBuildAI 是一套模塊化、可閉環(huán)運行的 AI 智能體系統(tǒng),整體分為三層,各司其職又深度聯(lián)動,實現(xiàn)從任務理解到模型交付的全流程無人干預。

頂層是任務理解與決策層。當用戶輸入“預測 RNA 功能”或“蛋白質酶分類”等自然語言指令時,這一層負責解析意圖、判斷任務類型并拆解執(zhí)行步驟。它是整個系統(tǒng)的“指揮中心”,決定了建模的方向和邏輯。

在這一核心中樞的選擇上,團隊選用了 Claude-Opus-4.6 大模型。“我們測試對比了多個模型,雖然 GPT-5 在某些設計思路上表現(xiàn)出色,但在智能體最關鍵的環(huán)節(jié)——‘寫代碼’上,Claude 的穩(wěn)定性、長流程邏輯理解和結構化指令執(zhí)行力是最適配建模場景的。”

中層是推理與代碼生成層,也是 AIBuildAI 的技術核心,搭載團隊自研的 Dream PRM(過程獎勵模型)、Dream ORM(結果獎勵模型)推理模塊,負責模型設計、代碼編寫、迭代復盤。PRM 負責步驟級精準推理,ORM 負責結果校驗與優(yōu)化建議,雙重保障每一步執(zhí)行不出錯,避免“一步錯、全流程崩”的問題,也是實現(xiàn)自動復盤改進的關鍵。

底層是執(zhí)行與訓練層,其承接中層生成的代碼和方案,自動完成數據加載、模型訓練、超參數調優(yōu)、性能評估、結果輸出,同時管控硬件資源和算力消耗。這一層把上層的“設計思路”轉化為可運行、可部署的實際模型。


(來源:受訪者提供)

為了驗證 AIBuildAI 的能力,團隊在 MLE-bench 的 75 個任務(涵蓋醫(yī)療、物理、生物等多個學科)中進行了測試。MLE-Bench 是 OpenAI 推出的全球頂尖的全自動機器學習測評平臺,專門考核 AI 智能體 “獨立構建有效 AI 模型” 的能力,測評覆蓋簡單(Low)、中等(Medium)、高難度(High) 三類真實 AI 任務,最終按整體準確率排名,是行業(yè)內公認的“全自動 ML 能力試金石”。

AIBuildAI 在這個測評中交出了亮眼的成績,在無測試數據泄露的前提下排名第一。其中簡單任務準確率77.27%;中等任務準確率 61.40%;高難度任務準確率 46.67%;整體綜合準確率 63.11%。

以“蛋白質酶類別預測”為例,該任務基于發(fā)表在 Science 論文的數據集,AIBuildAI 自動構建的模型,效果完全對標論文成果,普通用戶借助簡化數據集就能快速復現(xiàn)。

“對比學生手動寫代碼需要好幾天,AIBuildAI 十幾分鐘就能完成代碼編寫,大多數數據量不大的任務,一天內就能落地?!敝x澎濤介紹道。

目前,AIBuildAI 已深度融入團隊實驗室工作,主要服務生物醫(yī)學背景的研究者,完美適配分類、回歸、序列分析等單模態(tài)任務,無論是生物信息數據分析,還是產業(yè)界的預測建模需求,都能輕松勝任。但對于 AI方向博士生的前沿研究、多模態(tài)融合任務,目前仍無法完全滿足,團隊仍在持續(xù)迭代優(yōu)化。

針對用戶關心的系統(tǒng)適配問題,謝澎濤表示,現(xiàn)階段 AIBuildAI 僅支持 Linux 系統(tǒng),暫無適配 Mac、Windows 的計劃。“AI 模型訓練依賴 GPU,而 99% 的 GPU 環(huán)境都部署在 Linux 上,足以覆蓋絕大多數使用場景?!?/p>

據悉,AIBuildAI 已開啟中小企業(yè)試用,收獲了不少真實反饋,也明確了下一步優(yōu)化方向。用戶反饋的核心問題集中在兩點:數據處理能力不足,難以應對缺失值、標注混亂等問題;對用戶意圖理解不夠精準。

謝澎濤坦言,數據處理的技術難點并不大,通過增加數據質量檢查工具就能逐步優(yōu)化,但現(xiàn)實場景中數據問題繁雜,實現(xiàn)泛化適配仍有挑戰(zhàn)。這也是團隊接下來的重點攻堅方向。

對于 AIBuildAI 的長遠未來,謝澎濤有著更宏大的構想:讓智能體具備自我學習、自我進化的能力?!拔磥硭苤鲃娱喿x最新論文,歸納新知識、轉化為自身技能,不用人工干預就能實現(xiàn)能力升級。”

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
產能排到2028!光模塊海外加速擴產  8大唯一性設備龍頭量價齊升

產能排到2028!光模塊海外加速擴產 8大唯一性設備龍頭量價齊升

元芳說投資
2026-04-16 06:30:16
荷蘭砸200億挽留無效!光刻機巨頭ASML為何執(zhí)意要走?真相太扎心

荷蘭砸200億挽留無效!光刻機巨頭ASML為何執(zhí)意要走?真相太扎心

大衛(wèi)聊科技
2026-04-15 13:29:37
個人PC已死!AI讓普通人徹底買不起電腦

個人PC已死!AI讓普通人徹底買不起電腦

快科技
2026-04-13 18:35:05
13歲男孩被老人私拴繩索割喉,已脫離生命危險,但仍有一段氣管未能找到……他成績全校前三,母親白血病加乳腺癌,網友已籌款超60萬

13歲男孩被老人私拴繩索割喉,已脫離生命危險,但仍有一段氣管未能找到……他成績全校前三,母親白血病加乳腺癌,網友已籌款超60萬

極目新聞
2026-04-14 22:38:03
廣東一老人種了5年的“牛大力”被挖,社區(qū):施工人員誤以為荒地,正協(xié)商賠償

廣東一老人種了5年的“牛大力”被挖,社區(qū):施工人員誤以為荒地,正協(xié)商賠償

新京報
2026-04-15 20:19:03
我的天哪,劉亦菲還穿過這么暴露的衣服啊

我的天哪,劉亦菲還穿過這么暴露的衣服啊

陳意小可愛
2026-04-16 01:19:30
不想訪華了?特朗普召回美駐華大使,貝森特揚言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特揚言:中國“不可靠”

阿傖說事
2026-04-16 05:36:45
哈斯勒姆:三球不是臟球員,但他拉倒阿德巴約的動作堪比WWE

哈斯勒姆:三球不是臟球員,但他拉倒阿德巴約的動作堪比WWE

懂球帝
2026-04-15 14:11:05
暴跌超八成!美大豆已堆積如山,中國徹底不伺候了,做出明智選擇

暴跌超八成!美大豆已堆積如山,中國徹底不伺候了,做出明智選擇

傲傲講歷史
2026-04-15 11:10:17
2499元!華為隨行WiFi X官宣4月24日預售:下行5.3Gbps 超級直播神器

2499元!華為隨行WiFi X官宣4月24日預售:下行5.3Gbps 超級直播神器

快科技
2026-04-15 23:03:09
董卿被傳離婚6年后,婚姻真相大白,如今隱居上海,低調陪父母

董卿被傳離婚6年后,婚姻真相大白,如今隱居上海,低調陪父母

尋墨閣
2026-04-16 02:57:15
李兆基女兒現(xiàn)狀:老大未晉升集團高層,老二丁克,老三修佛未婚

李兆基女兒現(xiàn)狀:老大未晉升集團高層,老二丁克,老三修佛未婚

白面書誏
2026-04-15 19:03:36
舊話重提!文班亞馬評價阿夫迪亞言論翻紅,季后賽火藥味拉滿

舊話重提!文班亞馬評價阿夫迪亞言論翻紅,季后賽火藥味拉滿

夜白侃球
2026-04-15 14:37:59
摩納哥王妃夏琳2套裙裝封神,王室時尚教科書!普通人直接抄作業(yè)

摩納哥王妃夏琳2套裙裝封神,王室時尚教科書!普通人直接抄作業(yè)

明星私服穿搭daily
2026-04-15 10:10:40
逐玉慶功宴:張凌赫GUCCI造型亮眼,導演妻子美過田曦薇

逐玉慶功宴:張凌赫GUCCI造型亮眼,導演妻子美過田曦薇

眼底星碎
2026-04-14 17:48:27
自困愁城:伊朗將為封鎖霍爾木茲海峽付出最慘重代價

自困愁城:伊朗將為封鎖霍爾木茲海峽付出最慘重代價

民間胡扯老哥
2026-04-13 22:30:45
美國龍脈與特朗普的風水布局:他背后有位神秘的華裔女風水師

美國龍脈與特朗普的風水布局:他背后有位神秘的華裔女風水師

詭譎怪談
2025-02-21 11:20:09
變卦了?鄭麗文訪美日期確定,聲稱兩岸要和平,美國同樣至關重要

變卦了?鄭麗文訪美日期確定,聲稱兩岸要和平,美國同樣至關重要

阿龍聊軍事
2026-04-15 06:17:36
弱者著相,強者破相,智者無相(深度好文)

弱者著相,強者破相,智者無相(深度好文)

洞見
2026-04-12 15:24:55
女星張紫寧自曝:主動報名“乘風2026”,被告知“不夠抓馬”落選

女星張紫寧自曝:主動報名“乘風2026”,被告知“不夠抓馬”落選

南方都市報
2026-04-15 12:28:29
2026-04-16 08:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16580文章數 514879關注度
往期回顧 全部

科技要聞

小鵬最貴SUV預售39.98萬!L4架構3000TOPS算力

頭條要聞

歐洲100萬人請愿要求制裁以色列 以總理:歐洲道德軟弱

頭條要聞

歐洲100萬人請愿要求制裁以色列 以總理:歐洲道德軟弱

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經要聞

業(yè)績失速的Lululemon:"健康"人設崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

親子
旅游
數碼
手機
藝術

親子要聞

南方家長注意!華南汛期提前、潮濕加碼,這種“呼吸道殺手”正全年潛伏

旅游要聞

意大利媒體:云南潑水節(jié)成跨境旅游新焦點

數碼要聞

“真銅實料”表述起爭議!格力海信回應

手機要聞

驍龍8 Elite Gen6曝光!臺積電2nm+2+3+3架構,小米18系列穩(wěn)了

藝術要聞

鄭麗文平底鞋爭議未平,馬英九書法引熱議。

無障礙瀏覽 進入關懷版