无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

薩爾大學(xué):用"說(shuō)明書"連接手勢(shì)與語(yǔ)言,讓AI真正讀懂你比劃的意思

0
分享至


這項(xiàng)由薩爾大學(xué)、薩爾蘭信息學(xué)園區(qū)馬克斯·普朗克信息研究所、不列顛哥倫比亞大學(xué)和Vector研究院聯(lián)合開(kāi)展的研究,以預(yù)印本形式發(fā)布于2026年6月,論文編號(hào)為arXiv:2605.30608v2,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整原文。

一、 為什么AI總是"看不懂"你在比劃什么

你有沒(méi)有注意到,當(dāng)人們說(shuō)"這個(gè)東西非常大"時(shí),雙手會(huì)自然地向兩側(cè)張開(kāi);說(shuō)"我覺(jué)得"時(shí),一只手往往會(huì)輕輕指向自己的胸口;說(shuō)"第一、第二、第三"時(shí),手指會(huì)一根根豎起來(lái)。這些伴隨說(shuō)話出現(xiàn)的手勢(shì),在人類交流中幾乎無(wú)處不在,甚至在很多時(shí)候比語(yǔ)言本身還要能傳遞情感和意圖。

然而對(duì)于人工智能來(lái)說(shuō),理解這些手勢(shì)卻是一件極為困難的事。不是因?yàn)锳I"眼神不好",而是因?yàn)檫@類手勢(shì)的含義并不藏在動(dòng)作本身里,而是隱藏在說(shuō)話的語(yǔ)境之中。同樣一個(gè)手掌向上的動(dòng)作,在表示"請(qǐng)"的時(shí)候是禮貌邀請(qǐng),在表示"這么多"的時(shí)候是數(shù)量描述,在表示"我不確定"的時(shí)候又變成了一種茫然感。AI如果只看動(dòng)作,根本分不清這些區(qū)別。

薩爾大學(xué)的研究團(tuán)隊(duì)正是為了解決這個(gè)問(wèn)題而開(kāi)展了這項(xiàng)研究。他們想要讓機(jī)器真正"讀懂"手勢(shì)背后的意思,而不僅僅是記住手和胳膊移動(dòng)的軌跡。為此,他們提出了一個(gè)叫做"語(yǔ)義運(yùn)動(dòng)錨點(diǎn)"(Semantic Motion Anchors)的全新方法,相當(dāng)于給每一個(gè)手勢(shì)配了一份說(shuō)明書,既寫明了手勢(shì)的外觀,也寫明了手勢(shì)想表達(dá)的意思,然后讓AI通過(guò)這份說(shuō)明書來(lái)學(xué)習(xí)手勢(shì)和語(yǔ)言之間的深層聯(lián)系。

二、 現(xiàn)有方法的根本困境:認(rèn)臉不認(rèn)心

在研究團(tuán)隊(duì)著手解決問(wèn)題之前,科學(xué)界已經(jīng)有一些嘗試讓AI理解手勢(shì)的方法。這些方法的基本思路是:把手勢(shì)的三維運(yùn)動(dòng)數(shù)據(jù)和說(shuō)話的文字配對(duì),然后訓(xùn)練AI找出兩者之間的對(duì)應(yīng)關(guān)系。

這個(gè)思路聽(tīng)起來(lái)很合理,實(shí)際上卻存在一個(gè)根本性的缺陷。手勢(shì)數(shù)據(jù)記錄的是每一幀畫面里各個(gè)關(guān)節(jié)的坐標(biāo),這些數(shù)字密密麻麻,充滿了"低層次"的運(yùn)動(dòng)細(xì)節(jié),比如手腕轉(zhuǎn)了幾度、手指彎了多少。但說(shuō)話的文字記錄的是人想表達(dá)的意思,是"高層次"的語(yǔ)義信息。這兩者之間存在著巨大的鴻溝。

更麻煩的是,日常說(shuō)話中出現(xiàn)頻率最高的手勢(shì)其實(shí)是一種叫做"節(jié)拍手勢(shì)"(beat gesture)的東西——就是那種隨著說(shuō)話節(jié)奏上下?lián)]動(dòng)或前后擺動(dòng)的手勢(shì),本身沒(méi)有特定含義,只是在給語(yǔ)言打節(jié)拍。這類手勢(shì)在數(shù)據(jù)里鋪天蓋地,數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)那些真正有語(yǔ)義內(nèi)容的手勢(shì)。于是AI在學(xué)習(xí)時(shí),很容易就被這些"打節(jié)拍"的動(dòng)作所主導(dǎo),學(xué)到的模型變成了一個(gè)擅長(zhǎng)識(shí)別節(jié)奏性擺動(dòng)的系統(tǒng),對(duì)真正有意義的語(yǔ)義手勢(shì)卻幾乎無(wú)能為力。

這就好比你想學(xué)辨別一個(gè)人的情緒,但訓(xùn)練數(shù)據(jù)里90%都是那個(gè)人在正常呼吸,只有10%才是真正的笑聲、皺眉或驚訝表情。結(jié)果你把"平靜呼吸"學(xué)得滾瓜爛熟,對(duì)真正的情緒變化卻視而不見(jiàn)。

研究團(tuán)隊(duì)意識(shí)到,要打破這個(gè)困境,不能只靠讓AI直接對(duì)比原始運(yùn)動(dòng)數(shù)據(jù)和文字,必須引入一個(gè)中間層——一種能夠把手勢(shì)的物理外觀和語(yǔ)義內(nèi)涵都說(shuō)清楚的"說(shuō)明書"。這份說(shuō)明書,就是他們提出的語(yǔ)義運(yùn)動(dòng)錨點(diǎn)。

三、 說(shuō)明書是怎么寫出來(lái)的:從骨架坐標(biāo)到人話描述

語(yǔ)義運(yùn)動(dòng)錨點(diǎn)的生成過(guò)程,可以分成三個(gè)環(huán)環(huán)相扣的步驟,整個(gè)流程就像是把一段無(wú)聲的舞蹈視頻翻譯成一篇帶有表演者心理活動(dòng)的劇本。

第一步,把連續(xù)的手勢(shì)動(dòng)作壓縮成"動(dòng)作詞匯"。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)叫做雙流殘差向量量化變分自編碼器(two-stream RVQ-VAE)的模型,這個(gè)名字聽(tīng)起來(lái)很嚇人,但核心思想其實(shí)很簡(jiǎn)單:把連續(xù)流動(dòng)的手勢(shì)動(dòng)作切成一小段一小段,每段大約涵蓋8幀畫面(相當(dāng)于約0.27秒),然后把每一小段歸類到一個(gè)"動(dòng)作詞匯庫(kù)"里最接近的類別。手勢(shì)數(shù)據(jù)被分成兩個(gè)通道分別處理:一個(gè)通道負(fù)責(zé)記錄肩膀、肘部、手腕等大關(guān)節(jié)的運(yùn)動(dòng)(稱為"身體流"),另一個(gè)通道負(fù)責(zé)記錄手指的細(xì)節(jié)(稱為"手部流")。經(jīng)過(guò)這個(gè)壓縮過(guò)程,一段連續(xù)的手勢(shì)就變成了一串離散的"動(dòng)作詞匯"序列。研究團(tuán)隊(duì)在身體流使用了三級(jí)量化,每級(jí)碼本大小為128;手部流同樣使用三級(jí)量化,碼本大小分別為128、64、32,最終在測(cè)試集上達(dá)到了較低的重建誤差(MPJPE約0.044),說(shuō)明這種壓縮方式能夠比較忠實(shí)地保留手勢(shì)的關(guān)鍵信息。

第二步,用規(guī)則把每個(gè)"動(dòng)作詞匯"翻譯成一段文字描述。這一步完全靠預(yù)設(shè)的幾何規(guī)則來(lái)完成,不需要任何人工標(biāo)注,也不需要AI猜測(cè)。對(duì)于身體流,系統(tǒng)會(huì)自動(dòng)計(jì)算手腕的高度(是在頭部以上、肩膀處、胸部、腰部還是腰以下?)、手腕相對(duì)于軀干的水平位置(是越過(guò)身體中線、在肩外側(cè)、在肩旁還是在身體中央?)、手腕的前后深度、肘部彎曲程度,以及手臂在8幀內(nèi)的運(yùn)動(dòng)方向(上升、下降、向內(nèi)、向外還是靜止?)。對(duì)于手部流,系統(tǒng)會(huì)計(jì)算掌心朝向(朝內(nèi)、朝外、朝上或朝下)以及手形(開(kāi)放平展、放松、卷曲、握拳或食指伸出?)。

這些屬性都被轉(zhuǎn)換成自然語(yǔ)言片段。例如,一段身體流動(dòng)作詞匯可能被描述為"左手腕靜止于肩部高度,位于軀干前方,手肘彎曲,手臂伸展至中等距離;右手腕靜止于腰部高度,位于軀干前方,手肘彎曲,手臂伸展至中等距離"。對(duì)應(yīng)的手部流可能被描述為"左掌朝外,手形從卷曲變化為放松;右掌朝內(nèi),手形卷曲,靜止"。把整段手勢(shì)所有動(dòng)作詞匯的描述按時(shí)間順序拼接起來(lái),就得到了一份完整的"物理運(yùn)動(dòng)敘述",記錄了這個(gè)手勢(shì)從頭到尾的外觀變化。

第三步,用大語(yǔ)言模型結(jié)合說(shuō)話內(nèi)容生成最終的語(yǔ)義運(yùn)動(dòng)錨點(diǎn)。僅有外觀描述還不夠,因?yàn)橥瑯拥氖謩?shì)動(dòng)作在不同語(yǔ)境下含義完全不同。研究團(tuán)隊(duì)使用GPT-5.4,設(shè)計(jì)了一套四階段結(jié)構(gòu)化推理流程,讓模型依次完成四項(xiàng)任務(wù):首先判斷有意義的手勢(shì)是單手還是雙手完成的(這個(gè)判斷非常關(guān)鍵,因?yàn)檫\(yùn)動(dòng)數(shù)據(jù)始終同時(shí)記錄兩只手,但很多情況下只有一只手在做有意義的動(dòng)作);然后把物理運(yùn)動(dòng)敘述轉(zhuǎn)化為簡(jiǎn)潔的空間描述,包括手勢(shì)的高度位置、運(yùn)動(dòng)路徑、掌心朝向等;接著根據(jù)說(shuō)話內(nèi)容推斷手勢(shì)的交流意圖,可選的意圖類別包括強(qiáng)調(diào)、列舉、枚舉、對(duì)比、不確定、自我指代、指向他人、話語(yǔ)組織、時(shí)間指示、相對(duì)性、情緒、否定、量化和象征描繪等;最后進(jìn)行一致性核查,確保推斷出的手勢(shì)一致性、運(yùn)動(dòng)描述和意圖三者互相吻合,不矛盾,才輸出最終結(jié)果。

最終生成的語(yǔ)義運(yùn)動(dòng)錨點(diǎn)是一兩句簡(jiǎn)潔的自然語(yǔ)言,同時(shí)涵蓋手勢(shì)的形態(tài)和功能,例如:"右手從腰部上升至胸部高度,手掌朝上張開(kāi),以強(qiáng)調(diào)說(shuō)話者描述的增長(zhǎng)趨勢(shì)。"這份說(shuō)明書既告訴你手在哪里怎么動(dòng),又告訴你這個(gè)動(dòng)作想表達(dá)什么。

四、 如何用這份說(shuō)明書來(lái)訓(xùn)練更聰明的AI

有了語(yǔ)義運(yùn)動(dòng)錨點(diǎn),研究團(tuán)隊(duì)接下來(lái)要用它來(lái)改進(jìn)手勢(shì)檢索系統(tǒng)的訓(xùn)練方式。所謂手勢(shì)檢索,就是給定一段說(shuō)話文字,從數(shù)據(jù)庫(kù)里找出最匹配的手勢(shì)動(dòng)作。

訓(xùn)練系統(tǒng)的基本框架叫做對(duì)比學(xué)習(xí)(contrastive learning):讓AI學(xué)會(huì)把"相關(guān)"的文字和手勢(shì)拉近,把"不相關(guān)"的拉遠(yuǎn)。研究團(tuán)隊(duì)在原有的"文字對(duì)手勢(shì)"對(duì)比目標(biāo)之上,額外引入了兩條輔助監(jiān)督信號(hào)。

第一條輔助信號(hào)把語(yǔ)義運(yùn)動(dòng)錨點(diǎn)里描述外觀的部分(稱為物理形態(tài)錨點(diǎn),記為a-phys)和手勢(shì)運(yùn)動(dòng)數(shù)據(jù)配對(duì),讓AI學(xué)會(huì):這段運(yùn)動(dòng)數(shù)據(jù)應(yīng)該和這樣的外觀描述對(duì)應(yīng)。這條信號(hào)相當(dāng)于告訴AI,不管是哪位說(shuō)話者、不管手勢(shì)細(xì)節(jié)有多少變化,只要外觀特征相似,就應(yīng)該被歸入相同的類別。

第二條輔助信號(hào)把語(yǔ)義運(yùn)動(dòng)錨點(diǎn)里描述意圖的部分(稱為交流意圖錨點(diǎn),記為a-int)和說(shuō)話文字配對(duì),讓AI學(xué)會(huì):這段話文字應(yīng)該和這樣的交流意圖對(duì)應(yīng)。這條信號(hào)相當(dāng)于告訴AI,從說(shuō)話內(nèi)容里提取出與手勢(shì)相關(guān)的語(yǔ)義線索,而不是被無(wú)關(guān)內(nèi)容干擾。

此外,還有第三條權(quán)重極低的信號(hào),用于防止物理形態(tài)描述和意圖描述兩個(gè)向量在共享空間里漂離得太遠(yuǎn),起到一點(diǎn)結(jié)構(gòu)性約束的作用。

整個(gè)訓(xùn)練分兩個(gè)階段進(jìn)行。第一階段只用最基本的"文字對(duì)手勢(shì)"目標(biāo)來(lái)建立檢索空間的基礎(chǔ)結(jié)構(gòu);第二階段才加入所有輔助信號(hào)進(jìn)行精調(diào)。這樣的安排確保了輔助信號(hào)起到的是錦上添花的規(guī)范化作用,而不是取代主任務(wù)。

至關(guān)重要的是,在實(shí)際使用(推理階段)時(shí),語(yǔ)義運(yùn)動(dòng)錨點(diǎn)完全不需要出現(xiàn)。系統(tǒng)只需要輸入說(shuō)話文字,就能在動(dòng)作數(shù)據(jù)庫(kù)里檢索出匹配的手勢(shì)。錨點(diǎn)只是在訓(xùn)練階段幫助AI學(xué)習(xí)更好的對(duì)應(yīng)關(guān)系,就像課堂上的習(xí)題和解析,考試時(shí)是不能帶進(jìn)去的。

五、 研究團(tuán)隊(duì)如何檢驗(yàn)說(shuō)明書的質(zhì)量

在把語(yǔ)義運(yùn)動(dòng)錨點(diǎn)用于訓(xùn)練之前,研究團(tuán)隊(duì)首先需要驗(yàn)證這些自動(dòng)生成的說(shuō)明書質(zhì)量是否足夠可靠。為此,他們專門構(gòu)建了一個(gè)叫做SEMANTIX的人工標(biāo)注數(shù)據(jù)集,包含878段來(lái)自TED Expressive視頻和BEAT2數(shù)據(jù)集的語(yǔ)義手勢(shì)片段,每段都配有經(jīng)過(guò)專家標(biāo)注的標(biāo)準(zhǔn)說(shuō)明書,包括手勢(shì)的手形、掌心朝向、空間位置、運(yùn)動(dòng)軌跡以及交流意圖。

標(biāo)注工作本身經(jīng)過(guò)了嚴(yán)格的質(zhì)量控制。一位主要標(biāo)注者首先標(biāo)注了231個(gè)樣本,第二位專家隨后對(duì)這些標(biāo)注進(jìn)行了獨(dú)立復(fù)核,或接受或修改。兩位標(biāo)注者的標(biāo)注結(jié)果在詞級(jí)別上的Levenshtein距離(一種衡量文本差異的指標(biāo))平均只有0.72,說(shuō)明兩人的判斷高度接近。

為了評(píng)估自動(dòng)生成的錨點(diǎn)與人工標(biāo)注的吻合程度,團(tuán)隊(duì)還開(kāi)發(fā)了一套"大模型當(dāng)裁判"的評(píng)估流程,讓GPT-5.4比較自動(dòng)生成的描述和人工標(biāo)注的描述,分別從外觀相似度和意圖準(zhǔn)確性兩個(gè)維度給出1到5分的評(píng)分。

六、 實(shí)驗(yàn)結(jié)果:說(shuō)明書讓檢索準(zhǔn)確率大幅提升

研究團(tuán)隊(duì)在BEAT2數(shù)據(jù)集上進(jìn)行了系統(tǒng)性的評(píng)估實(shí)驗(yàn)。BEAT2數(shù)據(jù)集包含超過(guò)15000條訓(xùn)練樣本,包括說(shuō)話者的三維上身運(yùn)動(dòng)數(shù)據(jù)和對(duì)應(yīng)的語(yǔ)音文字記錄,覆蓋多位說(shuō)話者和多種話題。數(shù)據(jù)集被劃分為90%訓(xùn)練集(15395條)、5%驗(yàn)證集(855條)和5%測(cè)試集(856條)。

評(píng)估指標(biāo)采用信息檢索領(lǐng)域的標(biāo)準(zhǔn)指標(biāo)。R@1表示在檢索到的第一個(gè)結(jié)果就命中正確答案的比例,R@5和R@10分別表示前5個(gè)和前10個(gè)結(jié)果中至少有一個(gè)命中的比例,MRR(平均倒數(shù)排名)則綜合反映正確答案在排名中的平均位置。

對(duì)比的基準(zhǔn)方法包括四種:GestureDiffuCLIP,使用CLIP文本編碼器做基本對(duì)比學(xué)習(xí);TMR,使用與本研究相同的Qwen3嵌入模型,加入了假負(fù)例過(guò)濾;JEGAL,使用軟正例目標(biāo)的對(duì)比學(xué)習(xí)方法;以及直接文本對(duì)比學(xué)習(xí)基線,與本研究使用完全相同的架構(gòu),但只用基本檢索目標(biāo),不加任何錨點(diǎn)監(jiān)督。

七、 不只看排名數(shù)字:手勢(shì)檢索到底"懂"了多少意思

標(biāo)準(zhǔn)檢索指標(biāo)衡量的是有沒(méi)有找到同一個(gè)人做出的同一段手勢(shì),但這種衡量方式有一個(gè)根本性的局限:人類的手勢(shì)是多對(duì)多的。說(shuō)"我非常喜歡"這句話,不同的人、甚至同一個(gè)人在不同時(shí)刻,做出的手勢(shì)可能大相徑庭,但都能準(zhǔn)確傳達(dá)同樣的情感。

為了衡量系統(tǒng)是否真正學(xué)到了語(yǔ)義層面的匹配能力,研究團(tuán)隊(duì)還計(jì)算了"語(yǔ)義標(biāo)簽匹配率":檢索結(jié)果的第一名雖然可能不是原配手勢(shì),但如果它的交流意圖類別(強(qiáng)調(diào)、自我指代、象征描繪等)與正確答案相同,也算作成功。

在856個(gè)測(cè)試樣本上,語(yǔ)義標(biāo)簽匹配率的總體結(jié)果顯示,使用語(yǔ)義錨點(diǎn)的方法達(dá)到56.9%,直接文本對(duì)比基線為52.6%,隨機(jī)錨點(diǎn)為55.1%。分類別來(lái)看,提升最明顯的是量化(從27.3%提升至45.5%)、時(shí)間指示(從33.3%提升至50.0%)、不確定(從53.3%提升至66.7%)和情緒(從43.8%提升至56.2%)。這些恰恰是手勢(shì)形態(tài)最具特色、意圖信號(hào)最明確的類別。

定性分析進(jìn)一步說(shuō)明了這種語(yǔ)義對(duì)齊的實(shí)際效果。以"情緒"類別為例,當(dāng)說(shuō)話者描述"最想念親戚和朋友,最想念在家的感覺(jué)"時(shí),正確答案是雙手從腰部上升至胸部并向外展開(kāi),傳達(dá)寬廣、發(fā)自內(nèi)心的歸屬感。使用語(yǔ)義錨點(diǎn)的系統(tǒng)檢索到了另一段雙手從低處上升至胸部、以開(kāi)放放松的掌心懸停的手勢(shì),描述為"傳遞思念和對(duì)家的眷戀",意圖類別完全一致。而直接文本對(duì)比基線檢索到的手勢(shì)是一只手向外向下移動(dòng),描述為"展示注意到感官細(xì)節(jié)的停頓",不僅動(dòng)作不對(duì),意圖也完全錯(cuò)位。

八、 跨數(shù)據(jù)集測(cè)試:說(shuō)明書能不能在陌生環(huán)境里發(fā)揮作用

研究團(tuán)隊(duì)還測(cè)試了一個(gè)更具挑戰(zhàn)性的場(chǎng)景:把在BEAT2數(shù)據(jù)集上訓(xùn)練好的系統(tǒng),直接用到完全陌生的TED Expressive數(shù)據(jù)集上,看看是否還能有效工作。

這個(gè)測(cè)試分兩種設(shè)置。第一種叫TED-to-TED,用TED的說(shuō)話文字檢索TED數(shù)據(jù)庫(kù)里的手勢(shì)。這里有一個(gè)棘手的問(wèn)題:TED數(shù)據(jù)集和BEAT2數(shù)據(jù)集使用的是不同的動(dòng)作捕捉系統(tǒng)(分別是ExPose和SMPL-X),兩者產(chǎn)生的骨架坐標(biāo)在數(shù)值空間上差異極大。直接用在BEAT2上訓(xùn)練的運(yùn)動(dòng)編碼器去處理TED的數(shù)據(jù),結(jié)果幾乎等同于隨機(jī)猜測(cè)(R@5約1%,MRR約0.82)。

然而,把TED數(shù)據(jù)庫(kù)里的手勢(shì)替換成它們的物理形態(tài)描述(a-phys),再通過(guò)錨點(diǎn)投影器進(jìn)行檢索,性能就大幅回升了。使用語(yǔ)義錨點(diǎn)方法,R@5達(dá)到4.6%,MRR達(dá)到3.48%,比直接文本對(duì)比基線(R@5僅1.8%,MRR為1.91%)提升了一倍以上。更關(guān)鍵的是,隨機(jī)錨點(diǎn)在這種跨數(shù)據(jù)集設(shè)置下直接崩潰到接近隨機(jī)水平(R@5約0.5%),這證明性能的提升確實(shí)來(lái)自語(yǔ)義錨點(diǎn)的有意義內(nèi)容,而不只是某種結(jié)構(gòu)性效果。

第二種設(shè)置叫TED-to-BEAT2,用TED的說(shuō)話文字去檢索BEAT2的手勢(shì)數(shù)據(jù)庫(kù)——這兩個(gè)數(shù)據(jù)集來(lái)自完全不同的說(shuō)話者、話題和采集環(huán)境,是一種更嚴(yán)格的跨域測(cè)試。在把BEAT2數(shù)據(jù)庫(kù)里的手勢(shì)替換成語(yǔ)義錨點(diǎn)描述之后,語(yǔ)義標(biāo)簽準(zhǔn)確率(Acc@1)從15.8%提升至17.2%,Hit@5從37.7%提升至41.2%,Hit@10從49.3%提升至53.5%,MRR從26.7%提升至28.4%,在語(yǔ)義上下文相似度指標(biāo)上也有一致的小幅提升。這些結(jié)果說(shuō)明,把手勢(shì)抽象成語(yǔ)義說(shuō)明書的方式,確實(shí)能在一定程度上克服不同數(shù)據(jù)集之間的領(lǐng)域差距。

九、 最終測(cè)試:真人用戶更喜歡哪種檢索結(jié)果

研究團(tuán)隊(duì)還進(jìn)行了一個(gè)最能反映實(shí)際價(jià)值的測(cè)試:把手勢(shì)檢索系統(tǒng)接入到基于檢索增強(qiáng)生成(RAG)的手勢(shì)生成系統(tǒng)中,然后讓真實(shí)用戶來(lái)評(píng)判效果。

具體來(lái)說(shuō),他們與另一項(xiàng)叫做RAG-Gesture的工作進(jìn)行比較。RAG-Gesture的檢索步驟依賴啟發(fā)式規(guī)則來(lái)匹配查詢?cè)~和手勢(shì),研究團(tuán)隊(duì)把這個(gè)檢索步驟替換成自己的語(yǔ)義錨點(diǎn)檢索方法,其他生成步驟保持不變,然后對(duì)同樣的查詢?cè)~生成兩套手勢(shì),讓用戶判斷哪一套更合適。

32位參與者(主要來(lái)自大學(xué)的教職工和學(xué)生)通過(guò)在線表單觀看手勢(shì)動(dòng)畫,針對(duì)每個(gè)問(wèn)題回答"哪個(gè)手勢(shì)更適合紅色高亮顯示的那個(gè)詞"。實(shí)驗(yàn)共10道強(qiáng)制選擇題,每道題并排展示兩段動(dòng)畫。

十、 研究的局限與未來(lái)可能

研究團(tuán)隊(duì)對(duì)這項(xiàng)工作的局限性保持了坦誠(chéng)的態(tài)度。語(yǔ)義運(yùn)動(dòng)錨點(diǎn)目前捕捉的只是手勢(shì)屬性的一個(gè)子集:手形相、掌心朝向、運(yùn)動(dòng)軌跡等較粗粒度的特征,手勢(shì)的不同階段(準(zhǔn)備階段、核心動(dòng)作階段、收勢(shì)階段)以及手指的細(xì)微關(guān)節(jié)運(yùn)動(dòng)并沒(méi)有被完整建模。生成錨點(diǎn)的流程需要調(diào)用GPT-5.4這樣的商業(yè)閉源大模型,雖然這是一次性的離線處理成本,但仍然存在對(duì)外部服務(wù)的依賴。此外,整個(gè)系統(tǒng)主要在BEAT2和TED這兩個(gè)數(shù)據(jù)集上訓(xùn)練和驗(yàn)證,這兩個(gè)數(shù)據(jù)集的說(shuō)話者群體有其特定的人口學(xué)構(gòu)成和文化背景,而手勢(shì)習(xí)慣在不同文化、語(yǔ)言和人群之間存在顯著差異,系統(tǒng)的泛化能力還有待在更多樣的數(shù)據(jù)上進(jìn)一步驗(yàn)證。

從方法論角度看,目前的框架仍然是比較直接的對(duì)比學(xué)習(xí)結(jié)構(gòu),未來(lái)可以探索更多種類的方式來(lái)利用錨點(diǎn),例如生成式方法、跨模態(tài)注意力或更復(fù)雜的多任務(wù)框架。

歸根結(jié)底,這項(xiàng)研究的核心貢獻(xiàn)在于提出了一種有說(shuō)服力的思路:要讓機(jī)器真正理解手勢(shì)的含義,不應(yīng)該只讓它盯著動(dòng)作數(shù)據(jù)和文字?jǐn)?shù)據(jù)硬配對(duì),而應(yīng)該給它一份"翻譯說(shuō)明書",把手勢(shì)的外觀和意圖都轉(zhuǎn)化成自然語(yǔ)言,在一個(gè)共同的語(yǔ)義空間里完成對(duì)齊。實(shí)驗(yàn)數(shù)據(jù)和用戶研究都表明,這份說(shuō)明書確實(shí)起到了預(yù)期的橋梁作用,讓檢索系統(tǒng)不再只認(rèn)動(dòng)作,而是真正開(kāi)始"讀懂"手勢(shì)在說(shuō)什么。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的虛擬助手、視頻會(huì)議系統(tǒng)或者輔助交流工具,或許能夠更自然地理解和生成伴隨說(shuō)話出現(xiàn)的手勢(shì),讓人機(jī)交互不再只依賴?yán)浔奈淖郑嵌嘁环秩伺c人之間那種流動(dòng)的、有溫度的肢體語(yǔ)言。有興趣進(jìn)一步探索的讀者,可以通過(guò)arXiv:2605.30608v2找到完整論文,對(duì)應(yīng)的數(shù)據(jù)集SEMANTIX也在論文中有詳細(xì)說(shuō)明。

Q&A

Q1:語(yǔ)義運(yùn)動(dòng)錨點(diǎn)是什么,它和普通的手勢(shì)描述有什么不同?

A:語(yǔ)義運(yùn)動(dòng)錨點(diǎn)是一種自動(dòng)生成的自然語(yǔ)言描述,同時(shí)包含兩方面信息:手勢(shì)的外觀(比如哪只手在動(dòng)、手在哪個(gè)高度、掌心朝哪里、手指是開(kāi)的還是卷的)和手勢(shì)的交流意圖(比如是在強(qiáng)調(diào)某件事、指向自己、表示不確定還是比劃數(shù)量)。普通的手勢(shì)描述通常只記錄動(dòng)作本身,而語(yǔ)義運(yùn)動(dòng)錨點(diǎn)把"看起來(lái)怎樣"和"想表達(dá)什么"都寫進(jìn)了同一段描述里,讓AI能從語(yǔ)言層面理解手勢(shì),而不只是對(duì)比骨架坐標(biāo)的數(shù)字。

Q2:BEAT2數(shù)據(jù)集上文字檢索手勢(shì)的R@1提升8.2%,這個(gè)數(shù)字在實(shí)際應(yīng)用中意味著什么?

A:R@1衡量的是檢索系統(tǒng)第一個(gè)給出的結(jié)果就命中正確手勢(shì)的概率。從39.1%提升到42.3%,意味著在856個(gè)測(cè)試查詢里,多出約27個(gè)查詢?cè)诘谝淮尉驼覍?duì)了手勢(shì)。在手勢(shì)生成這類應(yīng)用場(chǎng)景里,系統(tǒng)通常只使用檢索到的第一個(gè)結(jié)果作為參考,排名越靠前的命中越直接影響生成質(zhì)量。結(jié)合用戶研究72.2%的偏好率,可以看出這個(gè)數(shù)字的提升在實(shí)際體驗(yàn)上是可以被真實(shí)用戶感知到的。

Q3:為什么跨數(shù)據(jù)集測(cè)試時(shí)直接用運(yùn)動(dòng)嵌入效果幾乎為零,但用錨點(diǎn)描述就能恢復(fù)一部分性能?

A:TED Expressive和BEAT2數(shù)據(jù)集的骨架數(shù)據(jù)來(lái)自不同的動(dòng)作捕捉系統(tǒng),產(chǎn)生的坐標(biāo)值在數(shù)值空間里差異極大,就好像同一件事情用中文寫和用阿拉伯文寫,直接比較字符完全沒(méi)有意義。在BEAT2上訓(xùn)練的運(yùn)動(dòng)編碼器學(xué)到的是BEAT2的數(shù)值模式,遇到TED的坐標(biāo)就完全懵了,所以效果接近隨機(jī)。而錨點(diǎn)描述是用自然語(yǔ)言寫的,不管原始數(shù)據(jù)來(lái)自哪套系統(tǒng),只要描述的是"右手在胸口高度展開(kāi)"這樣的屬性,在語(yǔ)言空間里就是接近的,因此能跨越數(shù)據(jù)集之間的數(shù)值鴻溝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
美國(guó)頂級(jí)戰(zhàn)略家一針見(jiàn)血,中國(guó)的這場(chǎng)危機(jī)不解決,未來(lái)后果很嚴(yán)重

美國(guó)頂級(jí)戰(zhàn)略家一針見(jiàn)血,中國(guó)的這場(chǎng)危機(jī)不解決,未來(lái)后果很嚴(yán)重

荷蘭豆愛(ài)健康
2026-06-14 13:42:59
伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲(chǔ)新掌門首秀在即,6月利率不變概率飆至98.5%!

伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲(chǔ)新掌門首秀在即,6月利率不變概率飆至98.5%!

金融界
2026-06-14 13:43:17
不出意外,下半年開(kāi)始,寬帶費(fèi)、有線電視費(fèi)將迎來(lái)行業(yè)新一輪洗牌

不出意外,下半年開(kāi)始,寬帶費(fèi)、有線電視費(fèi)將迎來(lái)行業(yè)新一輪洗牌

民生格物
2026-06-14 13:14:05
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開(kāi)

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開(kāi)

你的籃球頻道
2026-06-14 12:44:04
保時(shí)捷撞上兩車后,火速逃離現(xiàn)場(chǎng)!北京警方:姐弟兩人,一個(gè)刑拘一個(gè)拘留

保時(shí)捷撞上兩車后,火速逃離現(xiàn)場(chǎng)!北京警方:姐弟兩人,一個(gè)刑拘一個(gè)拘留

都市快報(bào)橙柿互動(dòng)
2026-06-14 00:39:15
12000億光模塊巨頭,回應(yīng)業(yè)績(jī)暴雷傳聞

12000億光模塊巨頭,回應(yīng)業(yè)績(jī)暴雷傳聞

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-06-14 14:12:59
中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問(wèn)責(zé)處理!

中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問(wèn)責(zé)處理!

細(xì)說(shuō)職場(chǎng)
2026-06-13 12:51:02
爭(zhēng)議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

爭(zhēng)議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

暖心萌阿菇?jīng)?/span>
2026-06-14 14:57:11
世界杯官方社媒:蘇格蘭1998年以來(lái)首次進(jìn)球

世界杯官方社媒:蘇格蘭1998年以來(lái)首次進(jìn)球

懂球帝
2026-06-14 10:31:36
包工頭退出舞臺(tái)!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國(guó)資委:建筑央企建立自有工人隊(duì)伍

包工頭退出舞臺(tái)!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國(guó)資委:建筑央企建立自有工人隊(duì)伍

新浪財(cái)經(jīng)
2026-06-14 07:41:37
45歲安以軒復(fù)出,好友透露其近況:沒(méi)有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

45歲安以軒復(fù)出,好友透露其近況:沒(méi)有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

無(wú)比
2026-06-13 20:42:09
美國(guó)隊(duì)長(zhǎng)又帥回來(lái)了,一次失敗的植發(fā),毀了他兩年形象

美國(guó)隊(duì)長(zhǎng)又帥回來(lái)了,一次失敗的植發(fā),毀了他兩年形象

替補(bǔ)席懂王
2026-06-14 11:43:01
崩潰!6萬(wàn)美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對(duì)女兒話術(shù)洗腦

崩潰!6萬(wàn)美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對(duì)女兒話術(shù)洗腦

火山詩(shī)話
2026-06-14 05:11:04
中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

職場(chǎng)資深秘書
2026-06-14 09:25:33
日媒:韓國(guó)決定申請(qǐng)加入CPTPP

日媒:韓國(guó)決定申請(qǐng)加入CPTPP

參考消息
2026-06-13 12:18:28
美聯(lián)儲(chǔ),重磅來(lái)襲!加息,傳來(lái)大消息!

美聯(lián)儲(chǔ),重磅來(lái)襲!加息,傳來(lái)大消息!

證券時(shí)報(bào)
2026-06-14 16:50:07
雷軍犯天條了,竟然遭到整個(gè)中國(guó)家電行業(yè)集體圍剿。

雷軍犯天條了,竟然遭到整個(gè)中國(guó)家電行業(yè)集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國(guó)已經(jīng)反超了日本

張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國(guó)已經(jīng)反超了日本

林子說(shuō)事
2026-06-14 14:36:43
男童失蹤96小時(shí)!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來(lái)了

男童失蹤96小時(shí)!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來(lái)了

小陸搞笑日常
2026-06-14 15:13:09
2026-06-14 19:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
手機(jī)
公開(kāi)課

藝術(shù)要聞

明代高僧寫的《春江花月夜》,美得令人驚嘆

親子要聞

女兒想吃榴蓮說(shuō)媽媽沒(méi)給她買,媳婦卻不是這么說(shuō)的,看看誰(shuí)撒謊了

本地新聞

AK劉彰邂逅河北南大港濕地

手機(jī)要聞

消息稱小米MIX Fold 5闊折疊手機(jī)首發(fā)澎湃OS4

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版