![]()
通過感知他人的行為來模仿運動,是人類的本能。比如,嬰兒通過傾聽大人的聲音來咿呀學語,學徒通過觀察師傅的動作來掌握技藝。但這種根植于生物的感知-動作閉環(huán)機制,對于機器人而言,卻是難以復刻的難題。
近日,南加州大學(USC)的科學家們開發(fā)了一只四指機械手,它只需經(jīng)過 2 分鐘的鍵盤自學練習,聽一遍陌生的旋律,就能將其完美演奏出來,完全不依賴樂譜或預設程序的指導。相關論文發(fā)表在 Journal of the Royal Society Interface 期刊。
領導這項研究的是 USC 維特比工程學院的弗朗西斯科·瓦萊羅-奎瓦斯 (Francisco Valero-Cuevas) ,他的實驗室致力于研究復雜神經(jīng)肌肉系統(tǒng)(例如人手)的生物力學、神經(jīng)肌肉控制和臨床康復。
![]()
圖 | 音樂家之手(來源:USC)
這套被稱為“音樂家之手”(Musician Hand)的系統(tǒng),包括由肌腱驅動的四指機械手,以及一套全新的感知學習算法。
機械手采用輕量化 3D 打印結構,四個手指由微型電機控制的肌腱驅動。手指上安裝了彈簧,能像人體肌肉張力一樣被動回位,確保動作靈活且富有彈性。指尖還包裹了泡沫材料,模擬人類指腹的柔軟觸感,對在力度敏感的鋼琴鍵盤上演奏較為重要。其內置的神經(jīng)網(wǎng)絡會分析旋律的聲音,并將其轉化為重現(xiàn)該旋律所需的運動指令。
圖 | 音樂家之手概述(來源:上述論文)
與依賴大量編程和海量訓練數(shù)據(jù)集的傳統(tǒng)機器人不同,這款機械手的訓練過程類似于嬰兒時期的“咿呀學語”。在 2 分鐘的時間里,機械手會在琴鍵上隨機亂按。在亂按的過程中,它的內部算法會記錄下什么樣的按鍵動作(力度和時間)會產生什么樣的聲音(頻率和強度)。
經(jīng)過 2 分鐘的訓練后,再次聽到一段全新的旋律時,系統(tǒng)會將這段聲音轉化為聲譜圖,并直接調用之前積累的經(jīng)驗,推導出需要哪些手指動作來重現(xiàn)這段旋律,全程不需要任何試錯糾正。
為了驗證效果,研究團隊專門請兩位作曲家創(chuàng)作了三首只使用四個相鄰琴鍵(C4、D4、E4、F4)的簡單旋律,每首時長約 20-30 秒,節(jié)奏統(tǒng)一在每分鐘 90 拍。
![]()
圖 | 三首旋律的樂譜(來源:上述論文)
團隊選擇了9 位人類參與者,包括 4 位訓練有素的鋼琴手(3 位專業(yè)演奏者和 1 位業(yè)余愛好者,均有鋼琴演奏的訓練和經(jīng)驗)和 5 位無任何鋼琴基礎的新手,他們被允許“咿呀學語”5 分鐘,然后練習 3 分鐘,最后有 1 分鐘時間正式演奏。機械手則只經(jīng)過 2 分鐘隨機探索,就直接聽一遍演奏。研究主要評估了他們在復刻旋律 1(有 37 個音符)上的表現(xiàn)。
結果顯示,在音符識別準確率上,機械手達到了 100%,完整復現(xiàn)了三首旋律的所有音符;而新手參與者僅能正確彈出前 2-3 個音符,準確率僅 6%-9%,無法完成完整演奏。專業(yè)鋼琴演奏者的音符準確率為 92%-100%,一位演奏得完美無缺,其他人在演奏 37 個音符時犯了 1 到 4 個錯誤。
在力度還原度上,機器人得分 68%,專業(yè)演奏者為 78%-100%,略勝一籌;節(jié)奏時差方面,機器人控制在 150 毫秒左右,專業(yè)演奏者低于 120 毫秒,同樣小幅領先。
研究人員還對機械手和 5 位鋼琴家彈奏的音樂片段,進行了感知相似性、聽覺相似性和節(jié)奏相似性的量化。對于所有三個指標,得分為 0 表示無相似性(特征完全不同),0.5 表示中等相似性(有一些共享特征,但在頻譜圖和短期功率譜上有重大差異),1 表示完全相似(特征相同)。
對于旋律 1,“音樂家之手”在所有三個指標上取得了與四位人類鋼琴家相當?shù)南嗨菩缘梅郑瑑烧叩牡梅志?0.9+ 范圍內。
![]()
(來源:上述論文)
在盲聽環(huán)節(jié),兩位專業(yè)作曲家進行盲聽打分,不看演奏者、僅聽演奏音頻,評估它們與原曲在音樂美感上的相似度。最終排名結果為:3 位專業(yè)鋼琴手位列前三,機械手排名第四,超過一名業(yè)余鋼琴手,碾壓所有新手參與者。
隨后,研究人員又讓機械手嘗試了其他兩首音樂(分別有 28 和 24 個音符),在沒有額外“咿呀學語”或練習的情況下,它依然完美地彈奏出了所有音符,展現(xiàn)出了強大的泛化能力。
機械手同樣準確識別了所有音符,在力度還原上,其在旋律 2 上的分數(shù)為 84%,在旋律 3 上為 70%。最后,其平均節(jié)奏時差在旋律 2 上為 135 毫秒,在旋律 3 上為 150 毫秒。
![]()
圖 | 定量結果:音符檢測、力度估計、節(jié)奏時差(來源:上述論文)
這臺會聽音彈琴的機械手,實際上是研究團隊對“感知機器人”理念的一次深度概念驗證。在這一全新框架下,機器系統(tǒng)不再依賴于海量數(shù)據(jù)訓練,而是能夠主動感知環(huán)境、自主試錯并完成自我糾正。研究人員相信,這種模式未來將比現(xiàn)有的任務驅動型機器人更能以貼近直覺、極具個性化的方式造福人類。
比如瓦萊羅-奎瓦斯描繪的愿景:對于帕金森病患者而言,現(xiàn)有的輔助技術往往難以跟上患者身體變化的步伐。但在確診初期穿上機器外骨骼,用幾天時間去教它走路的樣子,伸手的方式......隨著病情的發(fā)展,當患者再次穿上它并開啟輔助模式時,它就能幫你原汁原味地找回專屬于你自己的生活習慣。不需要專門進行繁瑣的定制編程,因為它已經(jīng)懂你了。
此外,這項研究的一作、專注于神經(jīng)工程研究的赫薩姆·阿扎朱(Hesam Azadjou)也指出了該技術在治療領域的潛力。未來的康復機器人可以先拜師學習理療師的專業(yè)手法,隨后在患者家中充當私人教練,并能夠根據(jù)每位患者實時的動作和身體反饋,動態(tài)調整康復訓練計劃。
研究人員表示,只要投入足夠的時間與資源,同樣的系統(tǒng)完全可以用來輔助中風患者的康復、與建筑工人并肩協(xié)作,甚至幫助年邁的老人安全、獨立地實現(xiàn)居家養(yǎng)老。
1.Hesam Azadjou, Ali Marjaninejad, Francisco J. Valero-Cuevas; Perception in action: a robotic system that can teach itself to melodiously play music by ear. J R Soc Interface 1 May 2026; 23 (238): 20250909. https://doi.org/10.1098/rsif.2025.0909
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.