生成式AI助力未來技能評估，谷歌Vantage實驗研究解析

2026-04-14 21:12:16　來源: 至頂頭條

北京舉報

分享至

谷歌發(fā)布新研究，展示了一種利用生成式AI評估"未來就緒"技能的全新方法。與紐約大學(xué)聯(lián)合開展的研究結(jié)果表明，AI評分結(jié)果與人類專家的評分水平相當(dāng)。這一研究實驗項目Vantage現(xiàn)已在Google Labs上線，向公眾開放體驗。

隨著AI以前所未有的速度持續(xù)演進(jìn)，"未來就緒"技能再度受到廣泛關(guān)注——這類經(jīng)久耐用的人類核心能力，無論技術(shù)如何迭代或自動化程度如何提升，都將保持其價值。經(jīng)合組織《學(xué)習(xí)羅盤2030》和世界經(jīng)濟(jì)論壇《未來就業(yè)報告》等國際框架均明確指出了一批優(yōu)先技能，兩者共同強(qiáng)調(diào)批判性思維、協(xié)作能力與創(chuàng)意思維等核心能力。這些技能早在AI興起之前便被視為不可或缺，如今更是愈發(fā)重要。

谷歌今日正式發(fā)布Vantage——一項利用生成式AI在模擬環(huán)境中創(chuàng)建對話場景，以評估未來就緒技能的研究實驗項目。Vantage由谷歌與紐約大學(xué)的教育學(xué)專家及研究人員聯(lián)合開發(fā)，旨在為高中生和大學(xué)生提供一個可供練習(xí)和經(jīng)過驗證評估的沙盒環(huán)境，其構(gòu)建方法與數(shù)學(xué)、科學(xué)等核心學(xué)科傳統(tǒng)上所采用的系統(tǒng)性方法一脈相承。Vantage英文版現(xiàn)已在Google Labs開放注冊。

為何評估未來就緒技能如此重要

有效學(xué)習(xí)過程的核心在于反饋與評估，兩者對個人成長和有效教學(xué)均至關(guān)重要。在全球教育體系中，"考什么就教什么"的現(xiàn)象普遍存在。

然而，未來就緒技能出了名地難以衡量。傳統(tǒng)測試方式過于僵化，難以捕捉人們的思維過程與互動方式，也與這些技能在真實世界中的應(yīng)用場景相去甚遠(yuǎn)。在真實的人際互動中測試這些技能固然是理想方式，但資源消耗極大，且難以在眾多學(xué)生中實現(xiàn)標(biāo)準(zhǔn)化和一致性評分。例如，如果一組學(xué)生從未產(chǎn)生分歧，又如何公正地評估他們的沖突解決能力？如果他們采納了第一個出現(xiàn)的想法，又如何評估在此基礎(chǔ)上創(chuàng)造性發(fā)展的能力？

谷歌研究團(tuán)隊致力于探索如何借助可擴(kuò)展、經(jīng)驗證的方法評估學(xué)生的未來就緒技能，從而幫助教育者將課程與這些技能對齊，并支持學(xué)生持續(xù)成長。

Vantage的運(yùn)作機(jī)制

Vantage的實驗設(shè)置將學(xué)習(xí)者置于與AI虛擬角色進(jìn)行協(xié)作任務(wù)的動態(tài)多方對話場景中。這一設(shè)置既能管控評估環(huán)境，又能模擬比現(xiàn)有標(biāo)準(zhǔn)化測試更真實、更貼近現(xiàn)實場景的互動，為學(xué)習(xí)者提供一個應(yīng)對復(fù)雜人際與情境挑戰(zhàn)的沙盒空間。

當(dāng)用戶在開放式場景中——例如準(zhǔn)備辯論或提出創(chuàng)意方案——與AI虛擬角色互動時，一個"執(zhí)行大語言模型"會依據(jù)預(yù)設(shè)的評估評分標(biāo)準(zhǔn)，引導(dǎo)AI虛擬角色推動有效評估的進(jìn)行。執(zhí)行大語言模型會持續(xù)分析對話狀態(tài)，動態(tài)引入特定挑戰(zhàn)——如對某一想法提出質(zhì)疑，或制造矛盾沖突——為學(xué)習(xí)者創(chuàng)造針對性地展示自身技能的機(jī)會。由此，它充當(dāng)了新一代自適應(yīng)評估引擎的角色，通過引導(dǎo)對話走向，確保在對話結(jié)束時收集到評估用戶所需的完整信息。

任務(wù)完成后，AI評估器會依據(jù)執(zhí)行大語言模型所使用的同一套嚴(yán)格評分標(biāo)準(zhǔn)，對對話記錄進(jìn)行分析，識別并衡量技能應(yīng)用的具體證據(jù)。學(xué)習(xí)者隨后將收到詳細(xì)的技能圖譜，其中包含可視化評分及針對其在對話中所展示技能的定性反饋，讓原本"看不見"的人類技能發(fā)展進(jìn)程變得可視化、可落地。

研究發(fā)現(xiàn)：AI評估達(dá)到專家水準(zhǔn)

為確保學(xué)術(shù)與教育嚴(yán)謹(jǐn)性，谷歌與紐約大學(xué)建立了研究合作關(guān)系。雙方共同梳理了常見評估標(biāo)準(zhǔn)，并將其與相關(guān)任務(wù)對齊，合作重點在于建立并驗證評估方法。

雙方開展了一項聯(lián)合研究，招募了188名來自美國、年齡在18至25歲之間的測試者，完成涵蓋協(xié)作技能——即沖突解決與項目管理——的Vantage任務(wù)，并重點考察兩個核心研究問題。

Vantage的一項關(guān)鍵創(chuàng)新在于引入執(zhí)行大語言模型，實現(xiàn)自適應(yīng)評估。研究評估了大語言模型在引導(dǎo)對話時針對特定技能（如沖突解決或項目管理）的有效性，通過與使用獨(dú)立運(yùn)作、未受引導(dǎo)的AI虛擬角色完成相同任務(wù)的學(xué)習(xí)者進(jìn)行比較，衡量用戶所展示的與該技能相關(guān)信息的豐富程度。研究結(jié)果表明，執(zhí)行大語言模型確實能夠有效引導(dǎo)對話產(chǎn)生高密度信息，在保持自然對話流暢性的同時，顯著提升了被評估技能相關(guān)信息的數(shù)量。這一能力在多項模擬任務(wù)中表現(xiàn)一致。

為測試AI評估器的準(zhǔn)確性，研究團(tuán)隊將其評分與紐約大學(xué)評分者依據(jù)同一教學(xué)評分標(biāo)準(zhǔn)所給出的評分進(jìn)行了比較。結(jié)果顯示，AI評估器與人類專家之間的評分一致性，與兩位專家評分者之間的一致性相當(dāng)。這表明AI評估器的對話評分已達(dá)到人類專家評分者的水準(zhǔn)，證明Vantage是一套有效的技能評估自動化系統(tǒng)。

谷歌還與專注于耐久性技能評估AI工具開發(fā)的初創(chuàng)公司OpenMic開展了聯(lián)合研究，聚焦創(chuàng)造力與英語語言藝術(shù)領(lǐng)域，在更廣泛的情境中驗證AI評估器的表現(xiàn)。研究分析了180名學(xué)生在創(chuàng)意多媒體任務(wù)上的表現(xiàn)——包括人物專訪和與英語文學(xué)相關(guān)的媒體文章——并將AI評估器的評分與OpenMic內(nèi)部專家的評分進(jìn)行了比對。結(jié)果同樣顯示出AI評估器與人類專家之間的高度相關(guān)性，皮爾遜相關(guān)系數(shù)達(dá)到0.88，證明AI評估器即便面對復(fù)雜的現(xiàn)實創(chuàng)意任務(wù)，也能提供有效的評分。

對教育的深遠(yuǎn)影響

在學(xué)校場景中，這類模擬環(huán)境有望開辟出一個可量化的"技能層"，疊加于現(xiàn)有學(xué)校課程之上，并融入學(xué)科任務(wù)之中。這將幫助教育者探索全新的作業(yè)形式，例如與AI虛擬角色就社會科學(xué)話題展開辯論，或扮演團(tuán)隊負(fù)責(zé)人角色規(guī)劃實驗室實驗。學(xué)生不僅可以獲得關(guān)于學(xué)科知識（如實驗的科學(xué)原理）的反饋，還能獲得技能層面（如協(xié)作質(zhì)量與批判性思維水平）的反饋。這一方式是對現(xiàn)有小組合作項目的補(bǔ)充，有望同步推動學(xué)術(shù)知識與耐久性技能的共同發(fā)展。

展望未來

本研究探索了如何將至關(guān)重要的未來就緒耐久性技能，從難以衡量轉(zhuǎn)變?yōu)榭纱笠?guī)模量化。由此，一個更具包容性、更精準(zhǔn)的未來就緒能力評估體系將成為可能。這一實驗是朝著更貼合未來需求的評估方式邁出的重要一步。

谷歌團(tuán)隊也希望新搭建的基礎(chǔ)設(shè)施能夠支持生態(tài)系統(tǒng)內(nèi)更廣泛的研究與有效性研究，使研究人員不僅能夠評估新工具對知識留存的影響，還能評估其對技能發(fā)展的直接影響。此類研究的潛力不可小覷，將有助于深入理解不同教學(xué)干預(yù)手段如何隨時間推移塑造人類能力。

展望未來，谷歌將拓展研究范圍，重點攻克遷移性這一關(guān)鍵問題——即在模擬沙盒中所展示的技能，如何轉(zhuǎn)化為真實人際互動中的實際能力。此外，鑒于人類技能具有文化情境性，谷歌將著重探索不同文化背景下的表現(xiàn)差異，以確保技術(shù)的包容性與公平性。在評估之外，下一階段的目標(biāo)是向技能成長邁進(jìn)，進(jìn)一步深化對技能發(fā)展的理解，并通過在模擬環(huán)境中的實踐來衡量技能提升的成效。

Q&A

Q1：Vantage是什么？它能評估哪些技能？

A：Vantage是谷歌與紐約大學(xué)聯(lián)合開發(fā)的一項研究實驗項目，利用生成式AI在模擬環(huán)境中創(chuàng)建對話場景，評估學(xué)生的"未來就緒"技能。目前主要評估的技能包括沖突解決、項目管理、批判性思維、協(xié)作能力和創(chuàng)意思維等核心能力。Vantage英文版現(xiàn)已在Google Labs開放注冊。

Q2：Vantage的AI評估結(jié)果準(zhǔn)確嗎？和人類專家相比如何？

A：根據(jù)與紐約大學(xué)的聯(lián)合研究，Vantage的AI評估器與人類專家之間的評分一致性，與兩位專家評分者之間的一致性相當(dāng)。另在與OpenMic合作的創(chuàng)造力評估研究中，AI評估器與人類專家評分的皮爾遜相關(guān)系數(shù)高達(dá)0.88，說明AI評估精度已達(dá)到專家水準(zhǔn)。

Q3：Vantage在學(xué)校教學(xué)中怎么用？對學(xué)生有什么幫助？

A：在學(xué)校場景中，Vantage可作為一個"技能層"疊加于現(xiàn)有課程之上，教師可設(shè)計學(xué)生與AI虛擬角色辯論社會科學(xué)話題或規(guī)劃實驗室實驗等任務(wù)。學(xué)生不僅能獲得學(xué)科知識反饋，還能獲得協(xié)作、批判性思維等技能的可視化評分與定性反饋，幫助技能發(fā)展"看得見、用得上"。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.