无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“編程作為一個(gè)職業(yè)在今日終結(jié)”,OpenAI新模型o1的可怕之處

0
分享至

還記得之前OpenAI的高層大地震嗎?

引發(fā)了Sam Altman被罷免、聯(lián)合創(chuàng)始人Greg Brockman離職、OpenAI內(nèi)部矛盾不斷激化的,是一個(gè)名叫Q*(讀作Q-Star)的項(xiàng)目。

據(jù)知情人士透露,當(dāng)時(shí)Q*項(xiàng)目取得了重大進(jìn)展,已經(jīng)可以解決基本的數(shù)學(xué)問題。與只能解決有限數(shù)量運(yùn)算的計(jì)算器不同,與每次都給同一道題不同答案的GPT-4不同,Q*可能已經(jīng)有了概括、學(xué)習(xí)和理解的能力,而這正是邁向AGI關(guān)鍵的一步。OpenAI的研究人員向董事會(huì)致信警告,Q*的重大發(fā)現(xiàn)可能威脅全人類,而Sam Altman隱瞞了這一點(diǎn)。

OpenAI內(nèi)部翻天覆地,而OpenAI本身從未正面回應(yīng)過Q*的存在。

今天,OpenAI突然發(fā)布了一個(gè)新模型,這個(gè)模型目前還是前瞻版,它就是傳說中的Q*,后來的代號“Strawberry”,如今的OpenAI o1-preview。

解決復(fù)雜問題的新推理模型,和ChatGPT不一個(gè)系列了|OpenAI

o,還是“omini”,包羅萬象的o,只不過據(jù)OpenAI表示,這次的模型“代表了人工智能的新高度”,和之前的大模型在工作方式上大有區(qū)別,因此可以單獨(dú)成立一個(gè)新系列,從1開始重新算起(GPT5:我老了?。?。

至于這個(gè)模型是不是像Ilya Sutskever和其他反水的OpenAI前核心科學(xué)家判斷的那樣會(huì)“威脅人類”、在道德約束不完善的情況下把人類推進(jìn)AGI(通用人工智能)時(shí)代,大家可以看完文章再自己判斷。

o1,跑贏一切

首先是耳熟能詳?shù)呐芊汁h(huán)節(jié)。

每一代大模型橫空出世,都會(huì)跑出空前絕后的新高度,但這次的o1有本質(zhì)的不同。

目前比較流行的大模型大多都以聊天機(jī)器人的形式出現(xiàn),思考路徑難以解釋,而且發(fā)展方向是多模態(tài)(能說能看能聽),在語氣和反應(yīng)方面越來越像人。o1和它們不一樣。

首先它的目標(biāo)不是越來越快,甚至是越來越慢。

OpenAI科學(xué)家Noam Brown稱,目前o1幾秒就能給出答案,但未來它要能進(jìn)行幾小時(shí)、幾天,甚至幾周的思考。之后附上了一張圖,o1在十幾秒的思考后給一個(gè)病例做出了診斷。Noam Brown的言下之意,推理時(shí)間長,意味著模型能構(gòu)建更長的思維鏈,進(jìn)行更深入的思考。

其次,o1突破了之前大語言模型的死穴,數(shù)學(xué)

AIME,美國數(shù)學(xué)邀請賽,比奧賽簡單點(diǎn),比SAT難很多,一般用來選拔全美國數(shù)學(xué)最優(yōu)秀的高中生。讓GPT4-o來寫邀請賽的題,只得了12分,但o1一次性答題得了74分。如果采樣1000次,再對1000個(gè)樣本進(jìn)行評分函數(shù)重新排序的話(這樣更能反映模型的期望水平),o1得了93分,可以躋身全美前500 名,可以入圍美國數(shù)學(xué)奧賽了。

o1和GPT-4o表現(xiàn)對比,數(shù)學(xué)上的進(jìn)步非常大|OpenAI

讓o1去寫2024年國際信息學(xué)奧林匹克競賽(IOI)的題,它在10小時(shí)內(nèi),每題最多允許提交50次的情況下,取得了213分,在人類選手里排前49%。如果把提交次數(shù)放開到10000次,o1能得362.14分,可以拿到IOI金牌保送清華。

在實(shí)際測試中,使用的是o1的微調(diào)版本,不是我們能用的前瞻版本|OpenAI

另外還有好多有的沒的測試。比如在GPQA(一個(gè)綜合了理化生的智力測試)里,o1在某些問題上超過了相關(guān)領(lǐng)域的博士。

簡而言之,在已經(jīng)很強(qiáng)的領(lǐng)域內(nèi)卷早就不是o1的目的,在大語言模型不擅長的復(fù)雜邏輯上實(shí)現(xiàn)突破才是。

退一步,進(jìn)兩步

就像上面說的,o1的反應(yīng)速度變慢了。

它會(huì)花更多時(shí)間思考,然后再做出反應(yīng),然后不斷完善思維過程,嘗試不同策略,并從錯(cuò)誤中學(xué)習(xí)。這一點(diǎn)很可怕。

而且o1現(xiàn)在不是個(gè)多模態(tài)的模型,OpenAI用了兩年讓大模型能看能聽,今朝返璞歸真了,o1只能接受字符輸入。

變慢和變單調(diào),對o1來說,是退一步進(jìn)兩步。已經(jīng)用上o1的人表示o1是他們用過的最聰明的模型,和它的對話已經(jīng)超越了之前的小打小鬧范疇。

在一個(gè)測試?yán)?,用戶問了o1一個(gè)邏輯悖論問題:“這個(gè)問題的答案里有幾個(gè)字?”

o1想了十秒鐘,并且展示了思考過程。首先它想到,這是一個(gè)自指悖論,或者是遞歸問題,沒有確定答案的時(shí)候就無法確定答案的字?jǐn)?shù),“避免不必要的表述對回答的清晰簡潔很重要”。下一步是計(jì)算字?jǐn)?shù),需要讓句子中出現(xiàn)的數(shù)字和句子的字?jǐn)?shù)相匹配。然后它列舉了很多句子,在里面找出最合適的匹配選項(xiàng),它發(fā)現(xiàn)“這有五個(gè)字”有五個(gè)字,于是把句子結(jié)構(gòu)換成完整的答復(fù)后,五應(yīng)該換成七。

于是它回答:“答案里有七個(gè)字。”

這個(gè)推理過程已經(jīng)和我的推理過程區(qū)別不大了|X

在另一個(gè)例子里,o1回答“straberry里有幾個(gè)r”這個(gè)簡單的問題,用了5.6秒,631個(gè)token。

從上面的例子,可以看出o1的工作方式已經(jīng)和ChatGPT有了本質(zhì)區(qū)別。現(xiàn)在的o1加入了推理token,會(huì)把一個(gè)問題拆分成多個(gè)步驟,再分別思考,之后再除去推理token生成答案。

下圖展示了思路鏈的工作方式,這也解釋了為什么o1的響應(yīng)速度變慢了。

在用o1的時(shí)候,不妨用一些經(jīng)典的邏輯問題和數(shù)學(xué)問題來檢驗(yàn)它的能力

也許在回答簡單問題的時(shí)候,是否進(jìn)行多輪推理的區(qū)別并不明顯,但如果是用來解決寫代碼、做數(shù)學(xué)題,和科學(xué)領(lǐng)域的復(fù)雜問題,這種思考能力就是必不可少的了。

OpenAI在論文中說,現(xiàn)在,醫(yī)療人員可以用o1來標(biāo)注細(xì)胞測序數(shù)據(jù),物理學(xué)家可以用o1生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,各領(lǐng)域的開發(fā)人員可以使用o1來構(gòu)建和執(zhí)行多步驟工作流程。

更重要的是,這是一種思維模式的雛形,是智慧的早期形態(tài)。

新的模型,新的習(xí)慣

由于o1的工作方式已經(jīng)和ChatGPT不一樣了,之前看到的那些教你寫prompts的教程也不再適用——現(xiàn)在的情況下,過多的描述只會(huì)消耗海量的token,而不一定會(huì)獲得更好的結(jié)果。

為了讓所有用戶都明白這一點(diǎn),OpenAI寫了新的token指南。在指南中,OpenAI說明,在o1里最好的prompts是直接而簡潔的,指揮模型一步一步做或者給若干分散的提示詞可能會(huì)適得其反。以下是幾個(gè)官方建議:

  • Prompts要簡單直接。模型對簡短清晰的指令響應(yīng)效果最好,不需要過多的指導(dǎo)。

  • 在prompts中避免思維鏈。o1會(huì)自己進(jìn)行內(nèi)部推理,因此引導(dǎo)它一步一步思考和解釋你的思考路徑都是沒用的。

  • 最好使用分隔符來提高清晰度。用‘‘‘ ’’’、<>、§等分隔符,清晰地區(qū)分prompts的不同部分,以幫助模型分批處理問題。

  • 限制檢索增強(qiáng)生成中的額外上下文。只提供最相關(guān)的信息,避免模型過度思考。

看到第三條的時(shí)候,我對這個(gè)格式產(chǎn)生了一絲熟悉的感覺。未來的程序員很有可能要用自然語言編程,基本的指令還是那些,只不過變成了大白話。按照最新的指南,一個(gè)好的prompts看起來會(huì)是這樣的:

<寫一個(gè)貪吃蛇游戲>

<要3d的>

<蛇碰到邊框游戲結(jié)束>

或者這樣的:

§主持人§作家§酒吧老板§油畫家§皮匠§銀匠§歌手§手鼓藝人§背包客§黃金左臉§法國騎士§禪宗弟子§

其他的就交給模型自己想去吧。

給我一分鐘,做出3D貪吃蛇

用貪吃蛇舉例子是有原因的。o1發(fā)布不到一天,就有人用它做了很多嘗試,其中就包括3D貪吃蛇。

X上的@Ammaar Reshi用了極其簡單的prompts,僅用一分鐘的時(shí)間就寫出了一個(gè)3D貪吃蛇,而且o1還手把手教他怎么用代碼。

學(xué)會(huì)寫prompts了嗎?|@Ammaar Reshi

效果雖然有點(diǎn)簡陋,但誰都不能說它不是貪吃蛇。

而且還挺好玩的|@Ammaar Reshi

網(wǎng)友@James Wade用o1做了個(gè)數(shù)據(jù)分析app,能顯示每個(gè)分布的簡短描述和示例,只用了15分鐘,這還包括了部署的時(shí)間。他說:之前從來沒有想過做這樣的東西,之前太麻煩了。

效果如圖|@James Wade

另一位工作了16年的全棧工程師@Dallas Lones,用幾分鐘做了一個(gè)React Native全棧開發(fā)App之后感慨道,自己當(dāng)初沒有盡快創(chuàng)業(yè),如今這門手藝已經(jīng)成了時(shí)代的眼淚。他說,“編程作為一個(gè)職業(yè),在今天正式終結(jié)了”。

還有更多的人在挑戰(zhàn)o1的極限,已經(jīng)有人玩起了“看誰的問題更刁鉆能讓o1思考的時(shí)間最長”的游戲。

目前,o1先對ChatGPT Plus和Team用戶開放,而API訪問權(quán)限將首先開放給在OpenAI API上花費(fèi)超過1000美元的5級用戶。下一步,OpenAI將逐步向免費(fèi)用戶開放低配版的o1-mini。

這會(huì)是人類的夕陽嗎?

作者:翻翻

編輯:odette

封面圖來源:OpenAI

果殼AI組 出品

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
17歲男生家門口遭兩次毆打案最新進(jìn)展:傷情鑒定為輕傷二級,警方以涉嫌尋釁滋事罪進(jìn)行偵辦

17歲男生家門口遭兩次毆打案最新進(jìn)展:傷情鑒定為輕傷二級,警方以涉嫌尋釁滋事罪進(jìn)行偵辦

極目新聞
2026-06-18 18:57:20
寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

千言娛樂記
2026-06-18 18:59:27
最高法發(fā)布瀆職典型案例:四川一交通局長索賄1.3億元被判死緩

最高法發(fā)布瀆職典型案例:四川一交通局長索賄1.3億元被判死緩

新京報(bào)
2026-06-18 12:12:06
外媒:梅西父親豪爾赫正與胰腺癌抗?fàn)帲闆r令人擔(dān)憂

外媒:梅西父親豪爾赫正與胰腺癌抗?fàn)帲闆r令人擔(dān)憂

懂球帝
2026-06-18 15:58:12
棉襯衫制造巨頭溢達(dá)回應(yīng)關(guān)閉寧波工廠

棉襯衫制造巨頭溢達(dá)回應(yīng)關(guān)閉寧波工廠

界面新聞
2026-06-18 19:14:47
川大和港理工研究發(fā)現(xiàn):一個(gè)地方經(jīng)濟(jì)越落后,女生自拍P圖越厲害

川大和港理工研究發(fā)現(xiàn):一個(gè)地方經(jīng)濟(jì)越落后,女生自拍P圖越厲害

必記本
2026-06-12 14:03:52
80歲知名書畫家與小38歲女伴,曬150平米豪宅房產(chǎn)證,引熱議

80歲知名書畫家與小38歲女伴,曬150平米豪宅房產(chǎn)證,引熱議

火山詩話
2026-06-18 07:04:01
內(nèi)幕?曝世界杯后馬丁內(nèi)斯或赴沙特與C羅團(tuán)聚,賽前已與勝利談判

內(nèi)幕?曝世界杯后馬丁內(nèi)斯或赴沙特與C羅團(tuán)聚,賽前已與勝利談判

衣衫襤褸的文人
2026-06-18 15:09:33
今日,資金逃離“老登”股;股民:我心態(tài)崩了

今日,資金逃離“老登”股;股民:我心態(tài)崩了

中國基金報(bào)
2026-06-18 16:04:01
中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級

中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級

麥子的籃球故事
2026-06-18 12:56:54
2026年養(yǎng)老金政策落地,實(shí)現(xiàn)22連漲,這3類人群養(yǎng)老金漲幅有變化

2026年養(yǎng)老金政策落地,實(shí)現(xiàn)22連漲,這3類人群養(yǎng)老金漲幅有變化

職場資深秘書
2026-06-18 15:24:42
梁文鋒為什么選了劉強(qiáng)東,沒選馬云?

梁文鋒為什么選了劉強(qiáng)東,沒選馬云?

帥真商業(yè)
2026-06-18 10:20:26
14億人口大國,汽車為啥突然賣不動(dòng)?老百姓說出原因,太真實(shí)了

14億人口大國,汽車為啥突然賣不動(dòng)?老百姓說出原因,太真實(shí)了

老特有話說
2026-06-17 14:32:33
世界杯48隊(duì)完成首秀!進(jìn)球最多的是“烏龍”,其次是梅西

世界杯48隊(duì)完成首秀!進(jìn)球最多的是“烏龍”,其次是梅西

大象新聞
2026-06-18 14:10:22
亨利:葡萄牙需要的是進(jìn)球,C羅擋住了B費(fèi)的必進(jìn)球

亨利:葡萄牙需要的是進(jìn)球,C羅擋住了B費(fèi)的必進(jìn)球

懂球帝
2026-06-18 15:06:15
山西運(yùn)城“冒充警察打人事件”,提級調(diào)查!

山西運(yùn)城“冒充警察打人事件”,提級調(diào)查!

新動(dòng)察
2026-06-18 08:31:27
青年演員自曝?zé)o戲可拍,曾與楊紫是同學(xué),生活拮據(jù),早已入不敷出

青年演員自曝?zé)o戲可拍,曾與楊紫是同學(xué),生活拮據(jù),早已入不敷出

180視角
2026-06-18 10:58:39
深夜白云機(jī)場大批老外被當(dāng)場勸返!別再天真以為:有簽證就能入境

深夜白云機(jī)場大批老外被當(dāng)場勸返!別再天真以為:有簽證就能入境

行者聊官
2026-06-18 09:58:27
乘坐飛機(jī),發(fā)現(xiàn)一個(gè)空姐很像豆包,蚌埠住了。

乘坐飛機(jī),發(fā)現(xiàn)一個(gè)空姐很像豆包,蚌埠住了。

微微熱評
2026-06-18 12:42:56
李金羽:2014年我曾發(fā)微博讓梅西多跑一點(diǎn),后來被兩萬多人罵

李金羽:2014年我曾發(fā)微博讓梅西多跑一點(diǎn),后來被兩萬多人罵

懂球帝
2026-06-18 10:29:23
2026-06-18 21:11:00
果殼硬科技 incentive-icons
果殼硬科技
果殼旗下硬科技產(chǎn)業(yè)報(bào)道品牌
730文章數(shù) 1146關(guān)注度
往期回顧 全部

科技要聞

庫克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

男子連續(xù)140天高強(qiáng)度工作后猝死 公司:周末不算工傷

頭條要聞

男子連續(xù)140天高強(qiáng)度工作后猝死 公司:周末不算工傷

體育要聞

英格蘭4比2克羅地亞:本屆迄今,最佳比賽

娛樂要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博睿康IPO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

本地
親子
健康
旅游
公開課

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

親子要聞

廣東成功舉辦“南粵家政”嬰幼兒照護(hù)從業(yè)人員培訓(xùn)班

吃粽子的3條保胃法則,消化科醫(yī)生推薦

旅游要聞

只知電影阿詩瑪?撒尼老人藏了半輩子的原石傳說,本地人很少講全

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版