![]()
(來源:麻省理工科技評(píng)論)
宙斯(Zeus)是一名醫(yī)學(xué)生,住在尼日利亞中部一座山城。每天從醫(yī)院結(jié)束漫長的一天回到他的單間公寓后,他會(huì)打開環(huán)形補(bǔ)光燈,把 iPhone 綁在額頭上,開始錄像。他像夢(mèng)游一樣把雙手舉在身前,然后給床鋪上床單。他動(dòng)作緩慢而小心,確保雙手始終留在鏡頭畫面內(nèi)。
宙斯是 Micro1 的一名數(shù)據(jù)錄制員。Micro1 是一家總部位于加州帕洛阿爾托的美國公司,專門收集真實(shí)世界數(shù)據(jù)并出售給機(jī)器人公司。隨著特斯拉、Figure AI 和 Agility Robotics 等公司競(jìng)相打造能在工廠和家務(wù)環(huán)境中像人一樣工作的人形機(jī)器人,像宙斯這樣的零工錄制的視頻正在成為訓(xùn)練機(jī)器人最熱門的新方式。
Micro1 在全球 50 多個(gè)國家雇用了數(shù)千名合同工,包括印度、尼日利亞和阿根廷,這些地方有大量精通技術(shù)的年輕人在找工作。他們把 iPhone 固定在頭上,錄下自己疊衣服、洗碗和做飯的過程。這份工作按當(dāng)?shù)貥?biāo)準(zhǔn)收入不錯(cuò),也在提振當(dāng)?shù)亟?jīng)濟(jì),但它引發(fā)了關(guān)于隱私和知情同意的棘手問題;而且這份工作有時(shí)候很有挑戰(zhàn)性,有時(shí)候也很怪。
宙斯是去年 11 月找到這份工作的,當(dāng)時(shí) LinkedIn 和 YouTube 上到處都在討論它。“這會(huì)是一個(gè)很好的機(jī)會(huì),留下自己的印記,提供將來用于訓(xùn)練機(jī)器人的數(shù)據(jù),”他想。
宙斯的時(shí)薪是 15 美元,在失業(yè)率高企、經(jīng)濟(jì)緊張的尼日利亞,這是一份不錯(cuò)的收入。但作為一個(gè)滿懷憧憬、夢(mèng)想成為醫(yī)生的學(xué)生,他覺得每天花好幾個(gè)小時(shí)熨衣服實(shí)在無聊。
“我真的不太喜歡這份工作,”他說,“我是那種需要……一份技術(shù)性工作、需要?jiǎng)幽X子的人。”
宙斯以及所有接受《麻省理工科技評(píng)論》采訪的工人都要求僅使用化名,因?yàn)樗麄兾幢皇跈?quán)談?wù)撟约旱墓ぷ鳌?/p>
人形機(jī)器人出了名地難造,因?yàn)椴倏匚锢砦矬w是一項(xiàng)極難掌握的技能。但 ChatGPT 等聊天機(jī)器人背后的大語言模型的崛起,給機(jī)器人領(lǐng)域帶來了一次范式轉(zhuǎn)換。正如大語言模型通過在互聯(lián)網(wǎng)上抓取的海量文本上訓(xùn)練來學(xué)會(huì)生成文字,許多研究者相信,人形機(jī)器人也可以通過在大量運(yùn)動(dòng)數(shù)據(jù)上訓(xùn)練來學(xué)會(huì)與世界互動(dòng)。
不過,機(jī)器人領(lǐng)域需要的是關(guān)于物理世界的、復(fù)雜得多的數(shù)據(jù),而這類數(shù)據(jù)要難找得多。虛擬仿真可以訓(xùn)練機(jī)器人做特技動(dòng)作,但教不會(huì)它們?nèi)绾巫ト『鸵苿?dòng)物體,因?yàn)榉抡骐y以完美精確地模擬物理規(guī)律。要讓機(jī)器人在工廠里工作、在家里當(dāng)管家,真實(shí)世界的數(shù)據(jù)可能才是我們需要的——盡管采集起來既耗時(shí)又昂貴。
投資者正在瘋狂砸錢解決這個(gè)問題,2025 年在人形機(jī)器人領(lǐng)域的投資超過 60 億美元。在家錄制數(shù)據(jù)正在成為全球蓬勃發(fā)展的零工經(jīng)濟(jì)。Scale AI 和 Encord 等數(shù)據(jù)公司正在招募自己的數(shù)據(jù)錄制大軍,DoorDash 付錢讓外賣騎手拍攝自己做家務(wù)的視頻。在一些國家,數(shù)十個(gè)國有機(jī)器人訓(xùn)練中心的工人佩戴 VR 頭盔和外骨骼,教人形機(jī)器人如何打開微波爐和擦桌子。
“需求非常大,而且增長非常快,”Micro1 的 CEO 阿里·安薩里(Ali Ansari)說。他估計(jì),機(jī)器人公司現(xiàn)在每年花費(fèi)超過 1 億美元向他的公司和類似公司購買真實(shí)世界數(shù)據(jù)。
![]()
一天的生活
Micro1 的工人由一個(gè)名為 Zara 的 AI 智能體進(jìn)行篩選,Zara 會(huì)面試候選人并審查他們提交的家務(wù)視頻樣本。每周,工人們提交自己在家做家務(wù)的視頻,按照一系列指示操作,比如保持雙手可見、以自然速度移動(dòng)。視頻經(jīng) AI 和人工雙重審核后,要么被接受,要么被駁回。之后由 AI 和一個(gè)數(shù)百人的團(tuán)隊(duì)對(duì)視頻中的動(dòng)作進(jìn)行標(biāo)注。
由于這種訓(xùn)練機(jī)器人的方法還處于起步階段,什么樣的數(shù)據(jù)算好的訓(xùn)練數(shù)據(jù)目前并不清楚。但安薩里表示,“你需要提供大量的變體,機(jī)器人才能在基本的導(dǎo)航和物體操控方面實(shí)現(xiàn)良好的泛化。”
但很多工人說,在他們狹小的住所里創(chuàng)造各種“家務(wù)內(nèi)容”是一個(gè)挑戰(zhàn)。宙斯是一個(gè)精打細(xì)算的學(xué)生,住在簡(jiǎn)樸的單間里,每天除了熨衣服幾乎錄不出別的內(nèi)容。阿爾俊(Arjun)是印度德里的一名家教,錄一段 15 分鐘的視頻要花一個(gè)小時(shí),因?yàn)樗枰罅繒r(shí)間來構(gòu)思新的家務(wù)內(nèi)容。
“家里就這么大,能拍出多少花樣來?”阿爾俊抱怨道。
還有一個(gè)棘手的隱私問題。Micro1 要求工人不要在鏡頭前露臉,也不要暴露姓名、電話號(hào)碼和出生日期等個(gè)人信息。然后公司使用 AI 和人工審核員來刪除漏網(wǎng)的內(nèi)容。
但即使沒有面部信息,這些視頻也捕捉到了工人們生活中非常私密的一面:他們家的內(nèi)部陳設(shè)、私人物品和日常作息。而且工人們?cè)诿χ鴮?duì)著鏡頭做家務(wù)的時(shí)候,很難意識(shí)到自己可能正在錄下什么樣的個(gè)人信息。對(duì)這類視頻的審核可能無法過濾掉除最明顯標(biāo)識(shí)符之外的敏感信息。
對(duì)有家庭的工人來說,讓私生活不入鏡是一場(chǎng)持續(xù)的拉鋸戰(zhàn)。阿爾俊有兩個(gè)女兒,他得想方設(shè)法把鬧騰的兩歲小女兒擋在畫面外。“有時(shí)候很難工作,因?yàn)槲遗畠禾×耍彼f。
薩莎(Sasha)原來在尼日利亞做銀行職員,現(xiàn)在轉(zhuǎn)行當(dāng)數(shù)據(jù)錄制員。她住在一個(gè)共用的居民大院里,在外面晾衣服時(shí)得躡手躡腳,生怕錄到鄰居。鄰居們看著她,滿臉困惑。
雖然接受《麻省理工科技評(píng)論》采訪的工人們都知道自己的數(shù)據(jù)被用于訓(xùn)練機(jī)器人,但沒有人知道自己的數(shù)據(jù)具體會(huì)被如何使用、存儲(chǔ)以及與第三方共享,包括 Micro1 將數(shù)據(jù)出售給的那些機(jī)器人公司。安薩里說,出于保密原因,Micro1 不會(huì)向工人透露客戶名稱或他們參與項(xiàng)目的具體性質(zhì)。
“如果工人們參與了這項(xiàng)工作,公司有責(zé)任告知他們這些數(shù)據(jù)的用途……這類技術(shù)可能走向何方,以及長遠(yuǎn)來看可能對(duì)他們產(chǎn)生什么影響,”馬里蘭大學(xué)人本計(jì)算教授亞斯敏·科圖里(Yasmine Kotturi)說。
一些工人表示,他們偶爾會(huì)看到其他工人在公司的 Slack 頻道里詢問公司能否刪除自己的數(shù)據(jù)。Micro1 拒絕就此類數(shù)據(jù)是否會(huì)被刪除發(fā)表評(píng)論。
“人們是自愿選擇做這份工作的,”安薩里說,“他們隨時(shí)可以停止。”
![]()
對(duì)數(shù)據(jù)如饑似渴
由于數(shù)千名工人在不同的家里以不同的方式做家務(wù),一些機(jī)器人學(xué)家質(zhì)疑這些數(shù)據(jù)是否可靠到足以安全地訓(xùn)練機(jī)器人。
“我們?cè)诩依锏纳罘绞剑瑥陌踩嵌葋碚f并不總是正確的,”ASTM International 的機(jī)器人學(xué)家亞倫·普拉瑟(Aaron Prather)說,“如果這些人把可能導(dǎo)致事故的壞習(xí)慣教給了機(jī)器人,那就不是好數(shù)據(jù)。”而且收集的數(shù)據(jù)量之大也讓質(zhì)量審核充滿挑戰(zhàn)。但安薩里表示,公司會(huì)駁回展示不安全操作方式的視頻,而笨拙的動(dòng)作反而可以用來教機(jī)器人什么是不該做的。
還有一個(gè)問題是我們到底需要多少數(shù)據(jù)。Micro1 表示自己擁有數(shù)萬小時(shí)的素材,Scale AI 則宣布收集了超過 10 萬小時(shí)。
“要達(dá)到目標(biāo)還需要很長時(shí)間,”加州大學(xué)伯克利分校的機(jī)器人學(xué)家肯·戈德伯格(Ken Goldberg)說。大語言模型訓(xùn)練用的文本和圖像,一個(gè)人要讀 10 萬年才能讀完,而人形機(jī)器人可能需要更多數(shù)據(jù),因?yàn)榭刂茩C(jī)器人關(guān)節(jié)比生成文字還要復(fù)雜。“這件事花的時(shí)間會(huì)比人們以為的要長,”他說。
達(dá)圖(Dattu)是一名工程系學(xué)生,住在印度一座繁忙的科技城市。每天從大學(xué)上完一整天課回到家后,他跳過晚飯,直奔他那個(gè)堆滿盆栽和啞鈴的狹小陽臺(tái)。他把 iPhone 綁在額頭上,一遍又一遍地錄下自己疊同一堆衣服的過程。
家人困惑地看著他。“對(duì)他們來說這就像什么太空科技,”他說。當(dāng)他告訴朋友自己的工作時(shí),“他們聽到錄家務(wù)視頻還能拿錢,都驚呆了。”
在大學(xué)課業(yè)、數(shù)據(jù)錄制和其他數(shù)據(jù)標(biāo)注零工之間來回奔波讓他很疲憊。但他還是覺得,“這感覺像是在做一件全世界都還沒做過的事。”
https://www.technologyreview.com/2026/04/01/1134863/humanoid-data-training-gig-economy-2026-breakthrough-technology/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.