亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

生成式AI助力未來技能評估,谷歌Vantage實驗研究解析

0
分享至


谷歌發(fā)布新研究,展示了一種利用生成式AI評估"未來就緒"技能的全新方法。與紐約大學(xué)聯(lián)合開展的研究結(jié)果表明,AI評分結(jié)果與人類專家的評分水平相當(dāng)。這一研究實驗項目Vantage現(xiàn)已在Google Labs上線,向公眾開放體驗。

隨著AI以前所未有的速度持續(xù)演進(jìn),"未來就緒"技能再度受到廣泛關(guān)注——這類經(jīng)久耐用的人類核心能力,無論技術(shù)如何迭代或自動化程度如何提升,都將保持其價值。經(jīng)合組織《學(xué)習(xí)羅盤2030》和世界經(jīng)濟(jì)論壇《未來就業(yè)報告》等國際框架均明確指出了一批優(yōu)先技能,兩者共同強(qiáng)調(diào)批判性思維、協(xié)作能力與創(chuàng)意思維等核心能力。這些技能早在AI興起之前便被視為不可或缺,如今更是愈發(fā)重要。

谷歌今日正式發(fā)布Vantage——一項利用生成式AI在模擬環(huán)境中創(chuàng)建對話場景,以評估未來就緒技能的研究實驗項目。Vantage由谷歌與紐約大學(xué)的教育學(xué)專家及研究人員聯(lián)合開發(fā),旨在為高中生和大學(xué)生提供一個可供練習(xí)和經(jīng)過驗證評估的沙盒環(huán)境,其構(gòu)建方法與數(shù)學(xué)、科學(xué)等核心學(xué)科傳統(tǒng)上所采用的系統(tǒng)性方法一脈相承。Vantage英文版現(xiàn)已在Google Labs開放注冊。

為何評估未來就緒技能如此重要

有效學(xué)習(xí)過程的核心在于反饋與評估,兩者對個人成長和有效教學(xué)均至關(guān)重要。在全球教育體系中,"考什么就教什么"的現(xiàn)象普遍存在。

然而,未來就緒技能出了名地難以衡量。傳統(tǒng)測試方式過于僵化,難以捕捉人們的思維過程與互動方式,也與這些技能在真實世界中的應(yīng)用場景相去甚遠(yuǎn)。在真實的人際互動中測試這些技能固然是理想方式,但資源消耗極大,且難以在眾多學(xué)生中實現(xiàn)標(biāo)準(zhǔn)化和一致性評分。例如,如果一組學(xué)生從未產(chǎn)生分歧,又如何公正地評估他們的沖突解決能力?如果他們采納了第一個出現(xiàn)的想法,又如何評估在此基礎(chǔ)上創(chuàng)造性發(fā)展的能力?

谷歌研究團(tuán)隊致力于探索如何借助可擴(kuò)展、經(jīng)驗證的方法評估學(xué)生的未來就緒技能,從而幫助教育者將課程與這些技能對齊,并支持學(xué)生持續(xù)成長。

Vantage的運(yùn)作機(jī)制

Vantage的實驗設(shè)置將學(xué)習(xí)者置于與AI虛擬角色進(jìn)行協(xié)作任務(wù)的動態(tài)多方對話場景中。這一設(shè)置既能管控評估環(huán)境,又能模擬比現(xiàn)有標(biāo)準(zhǔn)化測試更真實、更貼近現(xiàn)實場景的互動,為學(xué)習(xí)者提供一個應(yīng)對復(fù)雜人際與情境挑戰(zhàn)的沙盒空間。

當(dāng)用戶在開放式場景中——例如準(zhǔn)備辯論或提出創(chuàng)意方案——與AI虛擬角色互動時,一個"執(zhí)行大語言模型"會依據(jù)預(yù)設(shè)的評估評分標(biāo)準(zhǔn),引導(dǎo)AI虛擬角色推動有效評估的進(jìn)行。執(zhí)行大語言模型會持續(xù)分析對話狀態(tài),動態(tài)引入特定挑戰(zhàn)——如對某一想法提出質(zhì)疑,或制造矛盾沖突——為學(xué)習(xí)者創(chuàng)造針對性地展示自身技能的機(jī)會。由此,它充當(dāng)了新一代自適應(yīng)評估引擎的角色,通過引導(dǎo)對話走向,確保在對話結(jié)束時收集到評估用戶所需的完整信息。

任務(wù)完成后,AI評估器會依據(jù)執(zhí)行大語言模型所使用的同一套嚴(yán)格評分標(biāo)準(zhǔn),對對話記錄進(jìn)行分析,識別并衡量技能應(yīng)用的具體證據(jù)。學(xué)習(xí)者隨后將收到詳細(xì)的技能圖譜,其中包含可視化評分及針對其在對話中所展示技能的定性反饋,讓原本"看不見"的人類技能發(fā)展進(jìn)程變得可視化、可落地。

研究發(fā)現(xiàn):AI評估達(dá)到專家水準(zhǔn)

為確保學(xué)術(shù)與教育嚴(yán)謹(jǐn)性,谷歌與紐約大學(xué)建立了研究合作關(guān)系。雙方共同梳理了常見評估標(biāo)準(zhǔn),并將其與相關(guān)任務(wù)對齊,合作重點在于建立并驗證評估方法。

雙方開展了一項聯(lián)合研究,招募了188名來自美國、年齡在18至25歲之間的測試者,完成涵蓋協(xié)作技能——即沖突解決與項目管理——的Vantage任務(wù),并重點考察兩個核心研究問題。

Vantage的一項關(guān)鍵創(chuàng)新在于引入執(zhí)行大語言模型,實現(xiàn)自適應(yīng)評估。研究評估了大語言模型在引導(dǎo)對話時針對特定技能(如沖突解決或項目管理)的有效性,通過與使用獨(dú)立運(yùn)作、未受引導(dǎo)的AI虛擬角色完成相同任務(wù)的學(xué)習(xí)者進(jìn)行比較,衡量用戶所展示的與該技能相關(guān)信息的豐富程度。研究結(jié)果表明,執(zhí)行大語言模型確實能夠有效引導(dǎo)對話產(chǎn)生高密度信息,在保持自然對話流暢性的同時,顯著提升了被評估技能相關(guān)信息的數(shù)量。這一能力在多項模擬任務(wù)中表現(xiàn)一致。

為測試AI評估器的準(zhǔn)確性,研究團(tuán)隊將其評分與紐約大學(xué)評分者依據(jù)同一教學(xué)評分標(biāo)準(zhǔn)所給出的評分進(jìn)行了比較。結(jié)果顯示,AI評估器與人類專家之間的評分一致性,與兩位專家評分者之間的一致性相當(dāng)。這表明AI評估器的對話評分已達(dá)到人類專家評分者的水準(zhǔn),證明Vantage是一套有效的技能評估自動化系統(tǒng)。

谷歌還與專注于耐久性技能評估AI工具開發(fā)的初創(chuàng)公司OpenMic開展了聯(lián)合研究,聚焦創(chuàng)造力與英語語言藝術(shù)領(lǐng)域,在更廣泛的情境中驗證AI評估器的表現(xiàn)。研究分析了180名學(xué)生在創(chuàng)意多媒體任務(wù)上的表現(xiàn)——包括人物專訪和與英語文學(xué)相關(guān)的媒體文章——并將AI評估器的評分與OpenMic內(nèi)部專家的評分進(jìn)行了比對。結(jié)果同樣顯示出AI評估器與人類專家之間的高度相關(guān)性,皮爾遜相關(guān)系數(shù)達(dá)到0.88,證明AI評估器即便面對復(fù)雜的現(xiàn)實創(chuàng)意任務(wù),也能提供有效的評分。

對教育的深遠(yuǎn)影響

在學(xué)校場景中,這類模擬環(huán)境有望開辟出一個可量化的"技能層",疊加于現(xiàn)有學(xué)校課程之上,并融入學(xué)科任務(wù)之中。這將幫助教育者探索全新的作業(yè)形式,例如與AI虛擬角色就社會科學(xué)話題展開辯論,或扮演團(tuán)隊負(fù)責(zé)人角色規(guī)劃實驗室實驗。學(xué)生不僅可以獲得關(guān)于學(xué)科知識(如實驗的科學(xué)原理)的反饋,還能獲得技能層面(如協(xié)作質(zhì)量與批判性思維水平)的反饋。這一方式是對現(xiàn)有小組合作項目的補(bǔ)充,有望同步推動學(xué)術(shù)知識與耐久性技能的共同發(fā)展。

展望未來

本研究探索了如何將至關(guān)重要的未來就緒耐久性技能,從難以衡量轉(zhuǎn)變?yōu)榭纱笠?guī)模量化。由此,一個更具包容性、更精準(zhǔn)的未來就緒能力評估體系將成為可能。這一實驗是朝著更貼合未來需求的評估方式邁出的重要一步。

谷歌團(tuán)隊也希望新搭建的基礎(chǔ)設(shè)施能夠支持生態(tài)系統(tǒng)內(nèi)更廣泛的研究與有效性研究,使研究人員不僅能夠評估新工具對知識留存的影響,還能評估其對技能發(fā)展的直接影響。此類研究的潛力不可小覷,將有助于深入理解不同教學(xué)干預(yù)手段如何隨時間推移塑造人類能力。

展望未來,谷歌將拓展研究范圍,重點攻克遷移性這一關(guān)鍵問題——即在模擬沙盒中所展示的技能,如何轉(zhuǎn)化為真實人際互動中的實際能力。此外,鑒于人類技能具有文化情境性,谷歌將著重探索不同文化背景下的表現(xiàn)差異,以確保技術(shù)的包容性與公平性。在評估之外,下一階段的目標(biāo)是向技能成長邁進(jìn),進(jìn)一步深化對技能發(fā)展的理解,并通過在模擬環(huán)境中的實踐來衡量技能提升的成效。

Q&A

Q1:Vantage是什么?它能評估哪些技能?

A:Vantage是谷歌與紐約大學(xué)聯(lián)合開發(fā)的一項研究實驗項目,利用生成式AI在模擬環(huán)境中創(chuàng)建對話場景,評估學(xué)生的"未來就緒"技能。目前主要評估的技能包括沖突解決、項目管理、批判性思維、協(xié)作能力和創(chuàng)意思維等核心能力。Vantage英文版現(xiàn)已在Google Labs開放注冊。

Q2:Vantage的AI評估結(jié)果準(zhǔn)確嗎?和人類專家相比如何?

A:根據(jù)與紐約大學(xué)的聯(lián)合研究,Vantage的AI評估器與人類專家之間的評分一致性,與兩位專家評分者之間的一致性相當(dāng)。另在與OpenMic合作的創(chuàng)造力評估研究中,AI評估器與人類專家評分的皮爾遜相關(guān)系數(shù)高達(dá)0.88,說明AI評估精度已達(dá)到專家水準(zhǔn)。

Q3:Vantage在學(xué)校教學(xué)中怎么用?對學(xué)生有什么幫助?

A:在學(xué)校場景中,Vantage可作為一個"技能層"疊加于現(xiàn)有課程之上,教師可設(shè)計學(xué)生與AI虛擬角色辯論社會科學(xué)話題或規(guī)劃實驗室實驗等任務(wù)。學(xué)生不僅能獲得學(xué)科知識反饋,還能獲得協(xié)作、批判性思維等技能的可視化評分與定性反饋,幫助技能發(fā)展"看得見、用得上"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗披露擊落美C-130細(xì)節(jié):情報部門周密部署 軍民協(xié)同作戰(zhàn)

伊朗披露擊落美C-130細(xì)節(jié):情報部門周密部署 軍民協(xié)同作戰(zhàn)

財聯(lián)社
2026-04-16 22:08:06
喜訊!北約宣布向烏提供600億美元援助,烏軍2026年軍費(fèi)達(dá)1700億

喜訊!北約宣布向烏提供600億美元援助,烏軍2026年軍費(fèi)達(dá)1700億

史政先鋒
2026-04-16 16:09:37
普京敲定訪華,特朗普緊急下命令,中國通告全球,無懼美國威脅

普京敲定訪華,特朗普緊急下命令,中國通告全球,無懼美國威脅

書紀(jì)文譚
2026-04-16 18:08:02
恭喜!官方確認(rèn)東契奇坎寧安申訴成功獲評獎資格 華子申訴被駁回

恭喜!官方確認(rèn)東契奇坎寧安申訴成功獲評獎資格 華子申訴被駁回

醉臥浮生
2026-04-17 00:00:52
當(dāng)執(zhí)法者將國家法律摔在地上,請先別討論摩托能否上高速和張雪了

當(dāng)執(zhí)法者將國家法律摔在地上,請先別討論摩托能否上高速和張雪了

阿陸
2026-04-16 14:52:08
廣交會封神!張雪機(jī)車820被老外圍堵,當(dāng)場要簽單帶回巴西

廣交會封神!張雪機(jī)車820被老外圍堵,當(dāng)場要簽單帶回巴西

趣味萌寵的日常
2026-04-16 09:54:37
女子利用天氣預(yù)報頻繁購買飛機(jī)延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

女子利用天氣預(yù)報頻繁購買飛機(jī)延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
“牛散”操作曝光,葛衛(wèi)東、章建平等最新持倉來了

“牛散”操作曝光,葛衛(wèi)東、章建平等最新持倉來了

新浪財經(jīng)
2026-04-16 16:04:22
一個30噸鋼卷,滾出了2026最“重量級”的地獄笑話

一個30噸鋼卷,滾出了2026最“重量級”的地獄笑話

果殼
2026-04-16 12:17:28
只喝燒開的自來水,不碰桶裝水,不買礦泉水,最后結(jié)果如何?

只喝燒開的自來水,不碰桶裝水,不買礦泉水,最后結(jié)果如何?

芹姐說生活
2026-04-16 19:35:17
海關(guān)總署企業(yè)管理和稽查司原司長王勝被查

海關(guān)總署企業(yè)管理和稽查司原司長王勝被查

新京報
2026-04-16 17:00:11
任正非小女兒代言華為炸場!網(wǎng)友:代言人都自研,你們拿什么和我爭...

任正非小女兒代言華為炸場!網(wǎng)友:代言人都自研,你們拿什么和我爭...

品牌新
2026-04-16 12:10:00
“靈隱寺僧人是日本人、間諜”?抖音通報

“靈隱寺僧人是日本人、間諜”?抖音通報

觀察者網(wǎng)
2026-04-16 17:58:07
廣西靖西一地多名男子持手電筒攔車,當(dāng)?shù)劓?zhèn)政府:他們想當(dāng)路霸,警方已到場處理

廣西靖西一地多名男子持手電筒攔車,當(dāng)?shù)劓?zhèn)政府:他們想當(dāng)路霸,警方已到場處理

瀟湘晨報
2026-04-16 15:55:11
男子因噪音過敏住5年隔音艙:自己設(shè)計,已接上百個訂單,幫噪音受困者找回睡眠

男子因噪音過敏住5年隔音艙:自己設(shè)計,已接上百個訂單,幫噪音受困者找回睡眠

半島官網(wǎng)
2026-04-16 11:20:50
投訴公交提前發(fā)車,竟丟了工作?松原男子稱個人信息遭泄露,單位被施壓后將其解雇

投訴公交提前發(fā)車,竟丟了工作?松原男子稱個人信息遭泄露,單位被施壓后將其解雇

大風(fēng)新聞
2026-04-16 16:07:03
兩名外籍乘客在網(wǎng)約車上對著部隊大門連續(xù)拍照,接下來又要去訓(xùn)練場方向,司機(jī)覺得可疑,直接開車把他們交給了部隊

兩名外籍乘客在網(wǎng)約車上對著部隊大門連續(xù)拍照,接下來又要去訓(xùn)練場方向,司機(jī)覺得可疑,直接開車把他們交給了部隊

極目新聞
2026-04-16 08:59:25
特朗普宣布,100%關(guān)稅封殺中國汽車,話音剛落,中國減持77億美債

特朗普宣布,100%關(guān)稅封殺中國汽車,話音剛落,中國減持77億美債

史料布籍
2026-04-16 16:54:52
女教師群聊“八卦”被拘,起訴公安局再被駁回

女教師群聊“八卦”被拘,起訴公安局再被駁回

中國新聞周刊
2026-04-16 09:02:37
男子辦婚禮未領(lǐng)證,后發(fā)現(xiàn)女方疑與他人曖昧,起訴退彩禮購房款才知她有婚史,法院調(diào)解退39萬元,當(dāng)事人:將追責(zé)女方騙婚

男子辦婚禮未領(lǐng)證,后發(fā)現(xiàn)女方疑與他人曖昧,起訴退彩禮購房款才知她有婚史,法院調(diào)解退39萬元,當(dāng)事人:將追責(zé)女方騙婚

極目新聞
2026-04-16 21:58:30
2026-04-17 00:52:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
17749文章數(shù) 49699關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

手機(jī)
健康
親子
游戲
時尚

手機(jī)要聞

華為Pura 90和X Max價格齊曝!4199元到9999元,直接對標(biāo)蘋果!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

孩子被傷害,不要去責(zé)備媽媽!

《荒野大鏢客3》最全新情報!前傳還是新故事?

爆火的前額葉梗,讓多少年輕人主動確診「腦殘」?

無障礙瀏覽 進(jìn)入關(guān)懷版