亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布o3/o4-mini:"最智能"模型,圖片推理、工具調(diào)用全都有

0
分享至

本周果然是諸神之戰(zhàn)!

繼 GPT-4.1 發(fā)布、可靈2.0 發(fā)布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后,OpenAI 帶來了 o3 滿血版和 o4-mini。

先來劃重點:

  • 本次發(fā)布的模型,分別是 o3 和 o4-mini;
  • 綜合看o4-mini性價比最高,o3能力最為綜合;
  • 兩個模型均為多模態(tài)推理模型,在代碼、科學(xué)方面表現(xiàn)出色;

*網(wǎng)友實測,認為Benchmark又要更新了

多模態(tài)推理也是本次官宣的重點。我們順手拿蘋果手表對o3做了測試:

*識別略有出入,真實型號是S9。不過這幾個型號確實外觀無太大差別,肉眼直接分辨也有難度。

Sam Altman本人也對這次發(fā)布劃了重點

ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型,免費用戶可以通過打開“深度思考”按鈕來試用 o4-mini。

*ChatGPT更新的頁面

"OpenAI 迄今為止最強大的模型們"

OpenAI 聯(lián)創(chuàng)之一 Greg Brockman 主持直播,開場白簡單直接,直接宣布今天的重點:“發(fā)布兩款新模型,o3 和 o4-mini”。

首先被拋出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型,這兩款模型在深度思考方面的能力更突出,在回答問題之前會進行更長時間的思考。

另一個特點是,o3 滿血版和 o4-mini 可以使用 OpenAI 已經(jīng)發(fā)布的所有工具能力,包括聯(lián)網(wǎng)搜索、永久記憶等等。當然,它們還是多模態(tài)的,可以直接對圖片進行推理。

強大的推理能力,以及廣泛的工具調(diào)用能力,使得這兩款模型非常適合科學(xué)研究、代碼生成或數(shù)學(xué)問題解答。

分開來看,o3 定位為OpenAI當前最強大、最前沿的推理引擎。尤其是在編程、商業(yè)/咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色。

o4-mini 則更強調(diào)性價比,是一款專為快速、成本效率優(yōu)化的推理模型,它的體量更小,性價比更高,在數(shù)學(xué)、編程和視覺任務(wù)方面有著不錯的表現(xiàn)。

從科學(xué)方面的測評結(jié)果來看,o3 與 o4-mini 顯著領(lǐng)先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進行比較,得分差距并不是十分明顯,多數(shù)情況下,o4-mini 會略微領(lǐng)先于 o3。

現(xiàn)場直播中也給出了一道 AIME 題目的測試結(jié)果:

對于這個數(shù)學(xué)問題,模型在給出了正確的常規(guī)解法和答案后,甚至還額外給出了一個相對更“聰明”的解法。

再來看代碼能力

本次發(fā)布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評測集上,o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分數(shù)。可以提供參考的是,剛剛發(fā)布的 GPT-4.1 在這項測試上的成績?yōu)?54.6%,而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

OpenAI 發(fā)布的模型在代碼生成能力測評上,終于超越了這個領(lǐng)域的王者Claude。

從現(xiàn)場給出的代碼類任務(wù)的 case 來看,模型在接到代碼問題后,到最終生成并執(zhí)行代碼之前,拆解出了一個個核心步驟。

本次發(fā)布的 o3 和 o4-mini 也都是多模態(tài)模型。

在官方給出的4項多模態(tài)測評數(shù)據(jù)結(jié)果中,o3 又一次全部超越了 o4-mini。

值得注意的是,在指令遵循方面,前幾天的 GPT-4.1 發(fā)布時,在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發(fā)布的 o3 在這項測評中的成績,直接超越了原榜單第一名的 Gemini 2.5 Pro。

不僅在效果上超越了前代的 o 系列模型,在推理成本上也有顯著下降。

官方給出了新模型在 AIME 和 GPQA 兩個評測集上進行的模型效果與預(yù)估推理成本之間的對比結(jié)果。

在達到相同的推理效果時,新模型所花費的預(yù)計推理成本基本均小于前代模型。模型的推理成本優(yōu)化效果在 o3 與 o1 進行對比時,提升十分的明顯。

OpenAI 稱對于大多數(shù)現(xiàn)實世界的使用,o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。

*各模型 API 價格對比,圖源:機器之心

總之,o4-mini是性價比之選,o3是最新的任務(wù)效果天花板。o3-mini和o1,似乎都可以被替代了。

除了模型,還有 Agent

在介紹完新模型的信息后,Greg Brockman 還官宣了一個可以直接在命令行工具中運行的、具備推理能力的代碼 Agent——Codex CLI。

Sam Altman對此的解讀是,它可以和擅長Coding的o3和o4-mini搭配。

插播一句,今天OpenAI還被曝出,正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真,將是OpenAI迄今為止規(guī)模最大的一筆收購。

在實際演示中,用戶只上傳了一張網(wǎng)友制作的小項目的帖子截圖。

模型先是對圖像中的內(nèi)容進行了識別,然后就在沒有任何指令的情況下,開始嘗試猜測用戶關(guān)于這張圖片的具體需求。

僅通過自然語言描述需求后,Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

在直播演示中,OpenAI Agent研究團隊成員,僅通過一張“圖像到 ASCII 風(fēng)格轉(zhuǎn)換”的截圖,把這個圖拖進終端,Codex 就將此前截圖網(wǎng)友的項目準確完成,成功創(chuàng)建了一個簡單的ASCII風(fēng)格圖像轉(zhuǎn)換工具。

在發(fā)布會的最后,Greg Brockman 還預(yù)告說,o3-pro 預(yù)計將在幾周內(nèi)完成發(fā)布。

在萬眾期待的 GPT-5 遲遲未到的情況下,這幾天的接連出新,可能也是OpenAI的“緩兵之計”,希望用戶對 OpenAI 保留一些信心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
京東買冰柜容積大縮水!“榮事達”狂賠6萬元求和,客戶:不需要

京東買冰柜容積大縮水!“榮事達”狂賠6萬元求和,客戶:不需要

科技Nice
2026-04-15 11:42:18
坐后座不系安全帶,北京一市民曬出罰單!

坐后座不系安全帶,北京一市民曬出罰單!

家住東西城
2026-04-16 19:32:29
網(wǎng)紅痞幼自曝做了“媽媽臀”吸脂手術(shù),“四個屁股”影響上鏡效果

網(wǎng)紅痞幼自曝做了“媽媽臀”吸脂手術(shù),“四個屁股”影響上鏡效果

看盡落塵花q
2026-04-16 12:34:37
特朗普抱怨“她不再是原來的那個她”,梅洛尼怎么就“變心”了?

特朗普抱怨“她不再是原來的那個她”,梅洛尼怎么就“變心”了?

上觀新聞
2026-04-16 13:47:03
24.99萬!沃爾沃官宣:新車限時降價

24.99萬!沃爾沃官宣:新車限時降價

手機評測室
2026-04-16 11:50:02
民進黨下手、“法辦”訪陸成員?大陸重磅發(fā)聲,4字令賴清德膽寒

民進黨下手、“法辦”訪陸成員?大陸重磅發(fā)聲,4字令賴清德膽寒

小陸搞笑日常
2026-04-16 00:41:36
《雍正王朝》演員現(xiàn)狀:有人住千萬豪宅,有人晚節(jié)不保,有人離世

《雍正王朝》演員現(xiàn)狀:有人住千萬豪宅,有人晚節(jié)不保,有人離世

小徐講八卦
2026-03-24 17:10:05
李小冉一開口全網(wǎng)笑翻,老公徐佳寧在家捶胸:就不該讓她上節(jié)目

李小冉一開口全網(wǎng)笑翻,老公徐佳寧在家捶胸:就不該讓她上節(jié)目

老吳教育課堂
2026-04-16 00:56:38
中國移動:4月30日起全國統(tǒng)一執(zhí)行!話費、流量將迎來重大變化

中國移動:4月30日起全國統(tǒng)一執(zhí)行!話費、流量將迎來重大變化

Thurman在昆明
2026-04-15 19:05:34
留學(xué)女孩曬2個外籍男友,堪稱“賽級現(xiàn)眼包”,被網(wǎng)友罵破防了

留學(xué)女孩曬2個外籍男友,堪稱“賽級現(xiàn)眼包”,被網(wǎng)友罵破防了

澤澤先生
2026-04-15 21:22:36
金價最新消息

金價最新消息

新浪財經(jīng)
2026-04-16 20:33:39
香煙要被洗白,研究發(fā)現(xiàn),尼古丁能降低30%死亡率,真的嗎

香煙要被洗白,研究發(fā)現(xiàn),尼古丁能降低30%死亡率,真的嗎

醫(yī)學(xué)科普匯
2026-04-16 22:30:04
比無人機更令美方警惕,中國攻克世界級技術(shù),成果領(lǐng)先令人驚嘆

比無人機更令美方警惕,中國攻克世界級技術(shù),成果領(lǐng)先令人驚嘆

你是我心中最美星空
2026-04-16 12:56:43
成都一小區(qū)菜刀從天而降,墜落兒童游樂區(qū),業(yè)主:監(jiān)控拍到來自8樓以上;警方正進一步調(diào)查

成都一小區(qū)菜刀從天而降,墜落兒童游樂區(qū),業(yè)主:監(jiān)控拍到來自8樓以上;警方正進一步調(diào)查

大象新聞
2026-04-16 22:49:09
世錦賽抽簽引熱議!趙心童破咒良機,丁俊暉迎來嚴峻考驗

世錦賽抽簽引熱議!趙心童破咒良機,丁俊暉迎來嚴峻考驗

寶哥精彩賽事
2026-04-16 18:37:35
中國的“性蕭條”時代,正式到來了

中國的“性蕭條”時代,正式到來了

律法刑道
2025-12-15 08:28:58
小姑子提輛奔馳,結(jié)賬時看我坐著不動,嘲諷:嫂子,咋不過來付款

小姑子提輛奔馳,結(jié)賬時看我坐著不動,嘲諷:嫂子,咋不過來付款

云端小院
2026-04-16 09:14:02
馮導(dǎo)和19養(yǎng)女事情上熱搜,好奇查了一下,才發(fā)現(xiàn)徐朵實在是不簡單

馮導(dǎo)和19養(yǎng)女事情上熱搜,好奇查了一下,才發(fā)現(xiàn)徐朵實在是不簡單

小娛樂悠悠
2026-04-15 13:13:11
油輪云集買美油,川普的章法希拉里的智商根本無法理解

油輪云集買美油,川普的章法希拉里的智商根本無法理解

移光幻影
2026-04-16 10:06:25
樊振東全英文告別震碎德甲,一句“永遠是家人”經(jīng)理當場哭崩

樊振東全英文告別震碎德甲,一句“永遠是家人”經(jīng)理當場哭崩

余憁搞笑段子
2026-04-16 13:35:01
2026-04-17 00:44:49
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
127文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

房產(chǎn)
時尚
家居
教育
軍事航空

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會,擠爆了!

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

家居要聞

智能舒適 簡約風(fēng)尚

教育要聞

985學(xué)院官宣!學(xué)碩,停招

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進入關(guān)懷版