聽一遍就會彈！仿生機械手2分鐘自學鋼琴超越人類新手

2026-05-29 17:35:29　來源: DeepTech深科技

北京舉報

分享至

通過感知他人的行為來模仿運動，是人類的本能。比如，嬰兒通過傾聽大人的聲音來咿呀學語，學徒通過觀察師傅的動作來掌握技藝。但這種根植于生物的感知-動作閉環(huán)機制，對于機器人而言，卻是難以復刻的難題。

近日，南加州大學（USC）的科學家們開發(fā)了一只四指機械手，它只需經(jīng)過 2 分鐘的鍵盤自學練習，聽一遍陌生的旋律，就能將其完美演奏出來，完全不依賴樂譜或預設程序的指導。相關論文發(fā)表在 Journal of the Royal Society Interface 期刊。

領導這項研究的是 USC 維特比工程學院的弗朗西斯科·瓦萊羅-奎瓦斯 (Francisco Valero-Cuevas) ，他的實驗室致力于研究復雜神經(jīng)肌肉系統(tǒng)（例如人手）的生物力學、神經(jīng)肌肉控制和臨床康復。

圖 | 音樂家之手（來源：USC）

這套被稱為“音樂家之手”（Musician Hand）的系統(tǒng)，包括由肌腱驅動的四指機械手，以及一套全新的感知學習算法。

機械手采用輕量化 3D 打印結構，四個手指由微型電機控制的肌腱驅動。手指上安裝了彈簧，能像人體肌肉張力一樣被動回位，確保動作靈活且富有彈性。指尖還包裹了泡沫材料，模擬人類指腹的柔軟觸感，對在力度敏感的鋼琴鍵盤上演奏較為重要。其內置的神經(jīng)網(wǎng)絡會分析旋律的聲音，并將其轉化為重現(xiàn)該旋律所需的運動指令。

圖 | 音樂家之手概述（來源：上述論文）

與依賴大量編程和海量訓練數(shù)據(jù)集的傳統(tǒng)機器人不同，這款機械手的訓練過程類似于嬰兒時期的“咿呀學語”。在 2 分鐘的時間里，機械手會在琴鍵上隨機亂按。在亂按的過程中，它的內部算法會記錄下什么樣的按鍵動作（力度和時間）會產生什么樣的聲音（頻率和強度）。

經(jīng)過 2 分鐘的訓練后，再次聽到一段全新的旋律時，系統(tǒng)會將這段聲音轉化為聲譜圖，并直接調用之前積累的經(jīng)驗，推導出需要哪些手指動作來重現(xiàn)這段旋律，全程不需要任何試錯糾正。

為了驗證效果，研究團隊專門請兩位作曲家創(chuàng)作了三首只使用四個相鄰琴鍵（C4、D4、E4、F4）的簡單旋律，每首時長約 20-30 秒，節(jié)奏統(tǒng)一在每分鐘 90 拍。

圖 | 三首旋律的樂譜（來源：上述論文）

團隊選擇了9 位人類參與者，包括 4 位訓練有素的鋼琴手（3 位專業(yè)演奏者和 1 位業(yè)余愛好者，均有鋼琴演奏的訓練和經(jīng)驗）和 5 位無任何鋼琴基礎的新手，他們被允許“咿呀學語”5 分鐘，然后練習 3 分鐘，最后有 1 分鐘時間正式演奏。機械手則只經(jīng)過 2 分鐘隨機探索，就直接聽一遍演奏。研究主要評估了他們在復刻旋律 1（有 37 個音符）上的表現(xiàn)。

結果顯示，在音符識別準確率上，機械手達到了 100%，完整復現(xiàn)了三首旋律的所有音符；而新手參與者僅能正確彈出前 2-3 個音符，準確率僅 6%-9%，無法完成完整演奏。專業(yè)鋼琴演奏者的音符準確率為 92%-100%，一位演奏得完美無缺，其他人在演奏 37 個音符時犯了 1 到 4 個錯誤。

在力度還原度上，機器人得分 68%，專業(yè)演奏者為 78%-100%，略勝一籌；節(jié)奏時差方面，機器人控制在 150 毫秒左右，專業(yè)演奏者低于 120 毫秒，同樣小幅領先。

研究人員還對機械手和 5 位鋼琴家彈奏的音樂片段，進行了感知相似性、聽覺相似性和節(jié)奏相似性的量化。對于所有三個指標，得分為 0 表示無相似性（特征完全不同），0.5 表示中等相似性（有一些共享特征，但在頻譜圖和短期功率譜上有重大差異），1 表示完全相似（特征相同）。

對于旋律 1，“音樂家之手”在所有三個指標上取得了與四位人類鋼琴家相當?shù)南嗨菩缘梅郑瑑烧叩牡梅志?0.9+ 范圍內。

（來源：上述論文）

在盲聽環(huán)節(jié)，兩位專業(yè)作曲家進行盲聽打分，不看演奏者、僅聽演奏音頻，評估它們與原曲在音樂美感上的相似度。最終排名結果為：3 位專業(yè)鋼琴手位列前三，機械手排名第四，超過一名業(yè)余鋼琴手，碾壓所有新手參與者。

隨后，研究人員又讓機械手嘗試了其他兩首音樂（分別有 28 和 24 個音符），在沒有額外“咿呀學語”或練習的情況下，它依然完美地彈奏出了所有音符，展現(xiàn)出了強大的泛化能力。

機械手同樣準確識別了所有音符，在力度還原上，其在旋律 2 上的分數(shù)為 84%，在旋律 3 上為 70%。最后，其平均節(jié)奏時差在旋律 2 上為 135 毫秒，在旋律 3 上為 150 毫秒。

圖 | 定量結果：音符檢測、力度估計、節(jié)奏時差（來源：上述論文）

這臺會聽音彈琴的機械手，實際上是研究團隊對“感知機器人”理念的一次深度概念驗證。在這一全新框架下，機器系統(tǒng)不再依賴于海量數(shù)據(jù)訓練，而是能夠主動感知環(huán)境、自主試錯并完成自我糾正。研究人員相信，這種模式未來將比現(xiàn)有的任務驅動型機器人更能以貼近直覺、極具個性化的方式造福人類。

比如瓦萊羅-奎瓦斯描繪的愿景：對于帕金森病患者而言，現(xiàn)有的輔助技術往往難以跟上患者身體變化的步伐。但在確診初期穿上機器外骨骼，用幾天時間去教它走路的樣子，伸手的方式......隨著病情的發(fā)展，當患者再次穿上它并開啟輔助模式時，它就能幫你原汁原味地找回專屬于你自己的生活習慣。不需要專門進行繁瑣的定制編程，因為它已經(jīng)懂你了。

此外，這項研究的一作、專注于神經(jīng)工程研究的赫薩姆·阿扎朱（Hesam Azadjou）也指出了該技術在治療領域的潛力。未來的康復機器人可以先拜師學習理療師的專業(yè)手法，隨后在患者家中充當私人教練，并能夠根據(jù)每位患者實時的動作和身體反饋，動態(tài)調整康復訓練計劃。

研究人員表示，只要投入足夠的時間與資源，同樣的系統(tǒng)完全可以用來輔助中風患者的康復、與建筑工人并肩協(xié)作，甚至幫助年邁的老人安全、獨立地實現(xiàn)居家養(yǎng)老。

1.Hesam Azadjou, Ali Marjaninejad, Francisco J. Valero-Cuevas; Perception in action: a robotic system that can teach itself to melodiously play music by ear. J R Soc Interface 1 May 2026; 23 (238): 20250909. https://doi.org/10.1098/rsif.2025.0909

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.