網易首頁 > 網易號 > 正文 申請入駐

幾千年都沒考過這個?谷歌「最毒」AI考局,專測你在壓力下怎么做人

0
分享至


新智元報道

編輯:元宇 大衛

【新智元導讀】谷歌最新實驗Vantage,派AI假扮你的同事,按劇本跟你唱反調、搞情緒化施壓??嫉牟皇悄阒朗裁?,而是你在壓力下怎么做人。

考試考了幾千年,還從來沒人考過這個。

SAT考你數學,GRE考你詞匯,再往前看:科舉考試考你的八股文……

古今考試形式不同,但底層邏輯卻很一致:考你知道什么。

但有一類能力,從來沒有考試碰過:你跟人吵架時怎么辦。

最近,Google Research推出了一個叫Vantage的實驗項目,就把這件事給干了。

Google Labs實驗中的Vantage入口https://research.google.com/p/vantage


目前Vantage已經在Google Labs開放申請體驗,現階段主要支持英文。

Vantage項目由谷歌聯合紐約大學開發,主要設想是利用GenAI模擬團隊協作場景,以此來開發和測量被測試者的軟技能

它會把你扔進一個AI角色扮演的協作場景里,然后讓你和一群AI角色組隊完成任務。

其中會有一個agent跳出來,專門按劇本跟你唱反調,拋不合理要求,搞情緒化反應。

你在壓力下做出的每一個回應,都會被另一個Agent基于評分量表進行分析,生成評分與反饋。

整個過程中,你所面對的是一個被AI精心操控的「職場修羅場」:它考的不是你背了多少東西,而是你在壓力下怎么做人。

谷歌聯合紐約大學做了188人驗證,結果顯示:

AI評分與人類專家的一致性,跟專家與專家之間的一致性,處于同一水平。

這意味著,至少在「評判」這件事上,AI已經開始接近人類專家。

看來,考試這件事,以后可能要被重新定義了。

最值錢的能力,偏偏最難考

為什么軟技能一直考不了?

這個事企業HR太清楚了:招人最怕的不是技術不行,而是進了團隊才發現這人完全不會協作。

世界經濟論壇2025年《Future of Jobs 2025》報告給了一組數據:到2030年,全球39%的核心職場技能將發生變化。


未來五年內,預計工人核心技能將發生改變與保持不變的占比演變https://www.weforum.org/publications/the-future-of-jobs-report-2025/

在企業最看重的能力排名中,分析思維排第一,緊隨其后的是韌性、靈活性、領導力與社會影響力,排在最前面的幾乎全是「軟技能」。


雇員最核心的技能中,排名靠前的包括分析思維、韌性、靈活性與敏捷性,以及領導力與社會影響力等。

AI時代,這些軟技能仍然是最核心的技能。

問題是,怎么測?

傳統標準化測試太僵硬了,題目難易捕捉人類思維過程和人際互動,跟真實場景隔著十萬八千里。

基本上只能依靠兩條。

第一條,自我匯報問卷。問你「你善于溝通嗎」,人人都勾「是的」。

第二條,真人評估中心。請幾個專業考官,設計情境,觀察你一整天,最后給個評語。

靠譜是靠譜,但做一次往往價格不菲、耗時幾天,評分還因為考官不同而漂移。

核心矛盾只有一條:軟技能必須在互動中才能被觀測,但標準化互動的成本太高,限制了它的實現和推廣。

你不可能給每個學生配一個真人考官,讓他們吵一架再打分。

所以幾十年來,這一直是教育評估領域的一個老大難問題。

市場上也不是沒人嘗試。

HireVue用視頻面試做AI情緒分析,Pymetrics用神經科學小游戲做性格測評,但它們都有一個共同局限:

候選人面對的,更多仍是被設計好的數字流程,而不是一個會跟你爭論、會給你挖坑、會把互動不斷推進下去的真實對手。

直到谷歌推出 Vantage,事情才開始變得不一樣:它試圖用多方AI角色協作生成情境,而且還把軟技能測試的成本壓到接近可規?;乃?。

Vantage的多智能體架構

Vantage不是一個AI在干活,而是一群AI在演戲,該系統的精巧之處在于架構設計。


它不是一個AI出題、你來答題的傳統路子,而是搭了一個四層架構,每層都有AI各司其職,同時運轉。

第一層,場景生成。

你輸入一個軟技能維度,比如「沖突解決」。系統不是隨機編個故事,它先拿到評估量表,看清楚「什么表現算好、什么算差」,然后倒推出一個能區分好壞的具體情境。

第二層,角色扮演

這是整個系統最有意思的部分:多個AI agent各領一個角色進入場景,跟真人被測者對話。

關鍵的地方來了:其中一個agent(Executive LLM)的任務就是「制造麻煩」。

谷歌研究人員提到,它的角色就是按劇本給你施壓、拋出不合理要求、搞情緒化反應。

這不是隨便聊聊天,而是有組織、有「預謀」的壓力測試。

當然,這個agent也不是傻壓,而是實時分析對話狀態,動態調整施壓策略。它就像一個自適應的考試引擎,確??纪曛笤摬杉淖C據都采集到了。

第三層,行為提取。

對話結束后,另一個agent上場,逐輪回看對話記錄。

它不打分,只做一件事:把你的具體行為抽出來。

哪句話是在回避沖突,哪句是在主動傾聽,哪句是在強行說服。

事實歸事實,判斷歸判斷,這兩步被刻意分開了。

第四層,評分。

評分agent拿著量表和上一步提取出的行為證據,逐條對照打分。

每個分數必須指向具體對話片段作為依據,不允許憑印象給分。

這樣四層解耦的好處很明顯:場景可以換,角色可以換,評分標準可以換,但流水線本身不變,而且,模塊化意味著可擴展。

今天測沖突解決,明天換個量表就能測項目管理,后天再換就能測談判能力。

熟悉軟件工程的人大概一眼就認出來了,這就是把微服務架構的思路,搬到了教育評估里。

188人實測

AI考官到底靠不靠譜

架構再漂亮,不實測都是空談。

谷歌和NYU做了一次聯合驗證。他們找了188名美國測試者,年齡18-25歲,在Vantage中完成了沖突解決和項目管理兩個維度的評估。

然后,NYU的人類評分專家用同一份rubric對同樣的對話記錄打分。

結果很有意思。

人類專家之間的一致性,Kappa值為0.45到0.64,也就是中等一致性。


專家彼此之間,以及大模型和專家之間,在對話評估上的一致性對比。 藍色是專家與專家,紅色是大模型與專家的一致性評估結果。柱子越高,代表看法越接近。

兩個人類專家給同一段對話打分,經常打出不同的分數。

這不意外。

軟技能評估本來就是主觀判斷密集的領域。

比如,一個人覺得候選人在沖突中表現出了「堅定但尊重」,另一個人可能覺得那叫「固執」。

而AI評分期跟人類專家之間的一致性呢?跟兩個人類專家之間差不多,這意味著它的評分質量已經到了同一水平線上。

這聽起來似乎沒什么大不了,但在軟技能評估這個領域里,這已經是一個了不起的基線。

更重要的是:人類專家一次只能評幾個人,AI可以同時評幾萬人。

成本直接差了兩個數量級。

這不只是考試

很多人第一反應是:這不就是個花哨的AI面試官嗎。

過去幾年,AI面試工具層出不窮,大多數最后淪為噱頭。

但Vantage更像是一個基礎設施層,目前谷歌已公開 Vantage 的技術報告與實驗介紹,外界已經能比較清楚地看到它如何用評分量表驅動情境生成、角色互動與結果評估。

從方法上看,這套框架具備一定的可遷移性:在理論上,研究者或機構可以圍繞不同軟技能設計相應任務與量表,并據此搭建類似的評估流程。

比如,企業可以探索把它用于領導力或協作場景的訓練與評估,教育機構也可以把它用于協作能力練習和反饋。

這讓人想起教育評估領域長期討論的「形成性評估」:不是期末一次定結果,而是在學習過程中持續測量、持續反饋、持續調整。

過去這件事之所以難以規?;?,一個重要原因是高質量互動評估往往依賴真人考官,成本高、耗時長、標準化困難。

而像Vantage這類基于生成式AI的模擬評估系統,則讓這件事第一次呈現出更強的可擴展性。

當「最難考的能力」變得可考

當然,必須說清楚Vantage目前的邊界。

Google Labs博客中將其定義為研究實驗,它目前更接近一個公開可體驗的研究實驗,而不是已經大規模落地的成熟應用。


188人的驗證規模不算大,只明確覆蓋了協作中的沖突解決和項目管理兩個維度,跨文化場景沒碰,長期技能成長追蹤沒做,模擬環境里的表現能不能遷移到真實的人際互動,也還是個問號。

谷歌自己也承認,下一步要研究的正是這些。但這不妨礙Vantage這項實驗的潛力。

OECD早就把創造力、批判性思維列進了教育系統的核心討論。所有人都知道軟技能重要,但沒人真正解決過怎么測、怎么大規模地測。

Vantage給出了一個可能的答案。

Google Research博客里提到了這樣一句話:「在全球教育體系中,被測量的東西往往就是被教授的東西?!?/p>


這句話才是真正的炸彈。

如果軟技能可以被量化評估,那學校教什么就會變。

現在學??际裁??知識、公式、標準答案。因為只有這些東西能標準化測量。

但如果有一天,協作力、沖突解決能力、創造力都能被精準打分了,課程設計的底層邏輯就會被改寫。

企業招聘也一樣。

今天的招聘流程看學歷、看簡歷、看面試官的直覺。

如果AI可以在沉浸式模擬中直接觀察一個人處理沖突的能力,并給出可量化的分數,面試這件事本身就會被重新定義。

個人成長也一樣。

你的溝通能力、你的領導力,第一次有了可視化的進步曲線。

不再是「我覺得自己變強了」,而是「系統顯示你的沖突解決得分從上個月的63提升到了71」。

這就是Vantage這個小實驗背后的大故事:當「最難考的能力」變得可考,教育評估的邊界就會被重新劃定。

未來的考試

可能是讓你跟AI吵一架

當AI能制造沖突、觀察行為、提取證據、逐條打分,「考試」這個詞的含義就永遠變了。

它不再是你對著一張試卷獨自奮斗,可能是你走進一個房間,面對一群不好對付的人,然后做你自己。

下一個被AI考的軟技能會是什么?

也許是談判,也許是共情,也許是你最不想被打分的那個東西。

當AI不僅能替代你的硬技能,還能給你的軟技能精準打分的時候,你還覺得「情商」「協作力」是不需要認真對待的東西嗎?

參考資料:

https://research.google/blog/towards-developing-future-ready-skills-with-generative-ai/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今晚打響!中國U17女足vs越南:中國女足全力沖擊2連勝提前出線

今晚打響!中國U17女足vs越南:中國女足全力沖擊2連勝提前出線

愛奇藝體育
2026-05-04 09:34:06
劉翔的悲劇再度上演?這次請別把張雪機車捧成神,也別一退賽就罵成鬼

劉翔的悲劇再度上演?這次請別把張雪機車捧成神,也別一退賽就罵成鬼

打破砂鍋看本質
2026-05-04 10:15:17
一個75歲退休老頭在德云社干了216場,年收入曝光后網友沉默了

一個75歲退休老頭在德云社干了216場,年收入曝光后網友沉默了

一盅情懷
2026-05-03 18:02:52
53:0!無人反對彈劾案,一場清算行動即將展開,馬科斯趕盡殺絕

53:0!無人反對彈劾案,一場清算行動即將展開,馬科斯趕盡殺絕

牛鍋巴小釩
2026-05-04 10:45:20
央視官宣殲-35新機0001,出口版“首機”亮相

央視官宣殲-35新機0001,出口版“首機”亮相

世家寶
2026-05-03 20:49:57
毛主席看不清老布什的臉,把他拉到眼前說:這個年輕人能當總統

毛主席看不清老布什的臉,把他拉到眼前說:這個年輕人能當總統

大江
2026-04-28 11:02:26
至少在已經過去的25年里,中國的“財神”不是趙公明,而是WTO!

至少在已經過去的25年里,中國的“財神”不是趙公明,而是WTO!

細雨中的呼喊
2026-02-21 06:59:07
炸了!中國選手遭“性騷擾”!孫穎莎被迫同床睡。國際乒聯緊急致歉!倫敦世乒賽

炸了!中國選手遭“性騷擾”!孫穎莎被迫同床睡。國際乒聯緊急致歉!倫敦世乒賽

最愛乒乓球
2026-05-04 10:43:48
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練

硅星人
2026-05-03 10:43:17
自討苦吃!印度瘋狂阻撓中吉烏鐵路,為何反倒堵死自家發展路?

自討苦吃!印度瘋狂阻撓中吉烏鐵路,為何反倒堵死自家發展路?

糖逗在娛樂
2026-05-03 21:33:30
9球對轟背后:拜仁的瘋狂賭局與巴黎的冷反擊

9球對轟背后:拜仁的瘋狂賭局與巴黎的冷反擊

競技風云錄
2026-05-04 11:49:21
中國芯片工程師徐澤偉在意大利被捕事件真相

中國芯片工程師徐澤偉在意大利被捕事件真相

劉哥談體育
2026-05-03 06:58:10
西安事變死的人有誰?看到名單,就明白蔣介石為何關張學良一輩子

西安事變死的人有誰?看到名單,就明白蔣介石為何關張學良一輩子

老范談史
2026-05-04 10:24:47
私人加油站5塊多的油和中石化7塊差在哪?老汽修師傅說出大實話

私人加油站5塊多的油和中石化7塊差在哪?老汽修師傅說出大實話

芳姐侃社會
2026-05-03 10:18:07
事態升級!伊能靜小作文惹眾怒,網友:祖國人民求你回來的嗎?

事態升級!伊能靜小作文惹眾怒,網友:祖國人民求你回來的嗎?

摸爬滾打的烙印
2026-05-03 05:49:46
第一次對紙巾收納大法產生了敬意!換個思路,家干凈而利索了

第一次對紙巾收納大法產生了敬意!換個思路,家干凈而利索了

裝修秀
2026-05-04 10:45:03
國乒運氣爆棚,世乒賽抽簽再遇上上簽,半決賽避開日本決戰法國

國乒運氣爆棚,世乒賽抽簽再遇上上簽,半決賽避開日本決戰法國

等等talk
2026-05-04 08:40:15
維尼修斯雙響后深情表忠心:為皇馬至死不渝,我們定會重返巔峰!

維尼修斯雙響后深情表忠心:為皇馬至死不渝,我們定會重返巔峰!

星耀國際足壇
2026-05-04 09:57:16
佛山徹底失守!廣東第三城易主

佛山徹底失守!廣東第三城易主

洞見報告
2026-05-02 18:55:22
特朗普訪華行程再變,中國有言在先,中美頭等大事要一錘定音?

特朗普訪華行程再變,中國有言在先,中美頭等大事要一錘定音?

基斯默默
2026-05-04 10:38:37
2026-05-04 12:27:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15127文章數 66834關注度
往期回顧 全部

科技要聞

OpenAI“復活”了QQ寵物,網友直接玩瘋

頭條要聞

美軍將在霍爾木茲海峽有重大行動 由特朗普親自指示

頭條要聞

美軍將在霍爾木茲海峽有重大行動 由特朗普親自指示

體育要聞

曼聯3-2雙殺利物浦!提前三輪鎖定歐冠資格 梅努制勝

娛樂要聞

嚴浩翔新歌,父母離婚17年矛盾升級

財經要聞

魔幻的韓國股市,父母給嬰兒開戶買股票

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

數碼
本地
親子
公開課
軍事航空

數碼要聞

家用路由器市場變天,華為第一,小米第二

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

健康孩子的6個特征,寶媽必看

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗公布伊方最新談判方案

無障礙瀏覽 進入關懷版