![]()
谷歌發(fā)布新研究,展示了一種利用生成式AI評估"未來就緒"技能的全新方法。與紐約大學(xué)聯(lián)合開展的研究結(jié)果表明,AI評分結(jié)果與人類專家的評分水平相當(dāng)。這一研究實驗項目Vantage現(xiàn)已在Google Labs上線,向公眾開放體驗。
隨著AI以前所未有的速度持續(xù)演進(jìn),"未來就緒"技能再度受到廣泛關(guān)注——這類經(jīng)久耐用的人類核心能力,無論技術(shù)如何迭代或自動化程度如何提升,都將保持其價值。經(jīng)合組織《學(xué)習(xí)羅盤2030》和世界經(jīng)濟(jì)論壇《未來就業(yè)報告》等國際框架均明確指出了一批優(yōu)先技能,兩者共同強(qiáng)調(diào)批判性思維、協(xié)作能力與創(chuàng)意思維等核心能力。這些技能早在AI興起之前便被視為不可或缺,如今更是愈發(fā)重要。
谷歌今日正式發(fā)布Vantage——一項利用生成式AI在模擬環(huán)境中創(chuàng)建對話場景,以評估未來就緒技能的研究實驗項目。Vantage由谷歌與紐約大學(xué)的教育學(xué)專家及研究人員聯(lián)合開發(fā),旨在為高中生和大學(xué)生提供一個可供練習(xí)和經(jīng)過驗證評估的沙盒環(huán)境,其構(gòu)建方法與數(shù)學(xué)、科學(xué)等核心學(xué)科傳統(tǒng)上所采用的系統(tǒng)性方法一脈相承。Vantage英文版現(xiàn)已在Google Labs開放注冊。
為何評估未來就緒技能如此重要
有效學(xué)習(xí)過程的核心在于反饋與評估,兩者對個人成長和有效教學(xué)均至關(guān)重要。在全球教育體系中,"考什么就教什么"的現(xiàn)象普遍存在。
然而,未來就緒技能出了名地難以衡量。傳統(tǒng)測試方式過于僵化,難以捕捉人們的思維過程與互動方式,也與這些技能在真實世界中的應(yīng)用場景相去甚遠(yuǎn)。在真實的人際互動中測試這些技能固然是理想方式,但資源消耗極大,且難以在眾多學(xué)生中實現(xiàn)標(biāo)準(zhǔn)化和一致性評分。例如,如果一組學(xué)生從未產(chǎn)生分歧,又如何公正地評估他們的沖突解決能力?如果他們采納了第一個出現(xiàn)的想法,又如何評估在此基礎(chǔ)上創(chuàng)造性發(fā)展的能力?
谷歌研究團(tuán)隊致力于探索如何借助可擴(kuò)展、經(jīng)驗證的方法評估學(xué)生的未來就緒技能,從而幫助教育者將課程與這些技能對齊,并支持學(xué)生持續(xù)成長。
Vantage的運(yùn)作機(jī)制
Vantage的實驗設(shè)置將學(xué)習(xí)者置于與AI虛擬角色進(jìn)行協(xié)作任務(wù)的動態(tài)多方對話場景中。這一設(shè)置既能管控評估環(huán)境,又能模擬比現(xiàn)有標(biāo)準(zhǔn)化測試更真實、更貼近現(xiàn)實場景的互動,為學(xué)習(xí)者提供一個應(yīng)對復(fù)雜人際與情境挑戰(zhàn)的沙盒空間。
當(dāng)用戶在開放式場景中——例如準(zhǔn)備辯論或提出創(chuàng)意方案——與AI虛擬角色互動時,一個"執(zhí)行大語言模型"會依據(jù)預(yù)設(shè)的評估評分標(biāo)準(zhǔn),引導(dǎo)AI虛擬角色推動有效評估的進(jìn)行。執(zhí)行大語言模型會持續(xù)分析對話狀態(tài),動態(tài)引入特定挑戰(zhàn)——如對某一想法提出質(zhì)疑,或制造矛盾沖突——為學(xué)習(xí)者創(chuàng)造針對性地展示自身技能的機(jī)會。由此,它充當(dāng)了新一代自適應(yīng)評估引擎的角色,通過引導(dǎo)對話走向,確保在對話結(jié)束時收集到評估用戶所需的完整信息。
任務(wù)完成后,AI評估器會依據(jù)執(zhí)行大語言模型所使用的同一套嚴(yán)格評分標(biāo)準(zhǔn),對對話記錄進(jìn)行分析,識別并衡量技能應(yīng)用的具體證據(jù)。學(xué)習(xí)者隨后將收到詳細(xì)的技能圖譜,其中包含可視化評分及針對其在對話中所展示技能的定性反饋,讓原本"看不見"的人類技能發(fā)展進(jìn)程變得可視化、可落地。
研究發(fā)現(xiàn):AI評估達(dá)到專家水準(zhǔn)
為確保學(xué)術(shù)與教育嚴(yán)謹(jǐn)性,谷歌與紐約大學(xué)建立了研究合作關(guān)系。雙方共同梳理了常見評估標(biāo)準(zhǔn),并將其與相關(guān)任務(wù)對齊,合作重點在于建立并驗證評估方法。
雙方開展了一項聯(lián)合研究,招募了188名來自美國、年齡在18至25歲之間的測試者,完成涵蓋協(xié)作技能——即沖突解決與項目管理——的Vantage任務(wù),并重點考察兩個核心研究問題。
Vantage的一項關(guān)鍵創(chuàng)新在于引入執(zhí)行大語言模型,實現(xiàn)自適應(yīng)評估。研究評估了大語言模型在引導(dǎo)對話時針對特定技能(如沖突解決或項目管理)的有效性,通過與使用獨(dú)立運(yùn)作、未受引導(dǎo)的AI虛擬角色完成相同任務(wù)的學(xué)習(xí)者進(jìn)行比較,衡量用戶所展示的與該技能相關(guān)信息的豐富程度。研究結(jié)果表明,執(zhí)行大語言模型確實能夠有效引導(dǎo)對話產(chǎn)生高密度信息,在保持自然對話流暢性的同時,顯著提升了被評估技能相關(guān)信息的數(shù)量。這一能力在多項模擬任務(wù)中表現(xiàn)一致。
為測試AI評估器的準(zhǔn)確性,研究團(tuán)隊將其評分與紐約大學(xué)評分者依據(jù)同一教學(xué)評分標(biāo)準(zhǔn)所給出的評分進(jìn)行了比較。結(jié)果顯示,AI評估器與人類專家之間的評分一致性,與兩位專家評分者之間的一致性相當(dāng)。這表明AI評估器的對話評分已達(dá)到人類專家評分者的水準(zhǔn),證明Vantage是一套有效的技能評估自動化系統(tǒng)。
谷歌還與專注于耐久性技能評估AI工具開發(fā)的初創(chuàng)公司OpenMic開展了聯(lián)合研究,聚焦創(chuàng)造力與英語語言藝術(shù)領(lǐng)域,在更廣泛的情境中驗證AI評估器的表現(xiàn)。研究分析了180名學(xué)生在創(chuàng)意多媒體任務(wù)上的表現(xiàn)——包括人物專訪和與英語文學(xué)相關(guān)的媒體文章——并將AI評估器的評分與OpenMic內(nèi)部專家的評分進(jìn)行了比對。結(jié)果同樣顯示出AI評估器與人類專家之間的高度相關(guān)性,皮爾遜相關(guān)系數(shù)達(dá)到0.88,證明AI評估器即便面對復(fù)雜的現(xiàn)實創(chuàng)意任務(wù),也能提供有效的評分。
對教育的深遠(yuǎn)影響
在學(xué)校場景中,這類模擬環(huán)境有望開辟出一個可量化的"技能層",疊加于現(xiàn)有學(xué)校課程之上,并融入學(xué)科任務(wù)之中。這將幫助教育者探索全新的作業(yè)形式,例如與AI虛擬角色就社會科學(xué)話題展開辯論,或扮演團(tuán)隊負(fù)責(zé)人角色規(guī)劃實驗室實驗。學(xué)生不僅可以獲得關(guān)于學(xué)科知識(如實驗的科學(xué)原理)的反饋,還能獲得技能層面(如協(xié)作質(zhì)量與批判性思維水平)的反饋。這一方式是對現(xiàn)有小組合作項目的補(bǔ)充,有望同步推動學(xué)術(shù)知識與耐久性技能的共同發(fā)展。
展望未來
本研究探索了如何將至關(guān)重要的未來就緒耐久性技能,從難以衡量轉(zhuǎn)變?yōu)榭纱笠?guī)模量化。由此,一個更具包容性、更精準(zhǔn)的未來就緒能力評估體系將成為可能。這一實驗是朝著更貼合未來需求的評估方式邁出的重要一步。
谷歌團(tuán)隊也希望新搭建的基礎(chǔ)設(shè)施能夠支持生態(tài)系統(tǒng)內(nèi)更廣泛的研究與有效性研究,使研究人員不僅能夠評估新工具對知識留存的影響,還能評估其對技能發(fā)展的直接影響。此類研究的潛力不可小覷,將有助于深入理解不同教學(xué)干預(yù)手段如何隨時間推移塑造人類能力。
展望未來,谷歌將拓展研究范圍,重點攻克遷移性這一關(guān)鍵問題——即在模擬沙盒中所展示的技能,如何轉(zhuǎn)化為真實人際互動中的實際能力。此外,鑒于人類技能具有文化情境性,谷歌將著重探索不同文化背景下的表現(xiàn)差異,以確保技術(shù)的包容性與公平性。在評估之外,下一階段的目標(biāo)是向技能成長邁進(jìn),進(jìn)一步深化對技能發(fā)展的理解,并通過在模擬環(huán)境中的實踐來衡量技能提升的成效。
Q&A
Q1:Vantage是什么?它能評估哪些技能?
A:Vantage是谷歌與紐約大學(xué)聯(lián)合開發(fā)的一項研究實驗項目,利用生成式AI在模擬環(huán)境中創(chuàng)建對話場景,評估學(xué)生的"未來就緒"技能。目前主要評估的技能包括沖突解決、項目管理、批判性思維、協(xié)作能力和創(chuàng)意思維等核心能力。Vantage英文版現(xiàn)已在Google Labs開放注冊。
Q2:Vantage的AI評估結(jié)果準(zhǔn)確嗎?和人類專家相比如何?
A:根據(jù)與紐約大學(xué)的聯(lián)合研究,Vantage的AI評估器與人類專家之間的評分一致性,與兩位專家評分者之間的一致性相當(dāng)。另在與OpenMic合作的創(chuàng)造力評估研究中,AI評估器與人類專家評分的皮爾遜相關(guān)系數(shù)高達(dá)0.88,說明AI評估精度已達(dá)到專家水準(zhǔn)。
Q3:Vantage在學(xué)校教學(xué)中怎么用?對學(xué)生有什么幫助?
A:在學(xué)校場景中,Vantage可作為一個"技能層"疊加于現(xiàn)有課程之上,教師可設(shè)計學(xué)生與AI虛擬角色辯論社會科學(xué)話題或規(guī)劃實驗室實驗等任務(wù)。學(xué)生不僅能獲得學(xué)科知識反饋,還能獲得協(xié)作、批判性思維等技能的可視化評分與定性反饋,幫助技能發(fā)展"看得見、用得上"。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.