機(jī)器人在空間感知技術(shù)層面又取得新突破。昨天,記者從市經(jīng)信局獲悉,北京大學(xué)多媒體信息處理國家重點(diǎn)實(shí)驗(yàn)室聯(lián)合香港科技大學(xué)、新加坡國立大學(xué)以及北京人形機(jī)器人創(chuàng)新中心等共同開發(fā)一套“視角轉(zhuǎn)換想象系統(tǒng)”,給機(jī)器人裝上“空間感知大腦”。
該研究團(tuán)隊(duì)發(fā)布的論文中提到,在傳統(tǒng)學(xué)習(xí)方法中,機(jī)器人需通過預(yù)先標(biāo)注的手腕位置信息來訓(xùn)練模型,因此,手腕視角的觀測,對于機(jī)器人實(shí)現(xiàn)視覺抓取和操作的模型至關(guān)重要。因?yàn)樗鼈兡懿蹲降骄?xì)的手與物體之間的交互,從而直接提高操控性能。
然而,在全球現(xiàn)有數(shù)據(jù)庫當(dāng)中,超過90%的操作錄像采用第三人稱視角,直接反映操作細(xì)節(jié)的第一人稱視角數(shù)據(jù)非常稀缺,這導(dǎo)致機(jī)器人難以進(jìn)行握持、翻轉(zhuǎn)等復(fù)雜動作?!艾F(xiàn)有的世界模型無法彌合這種差距,‘WristWorld’成為首個能夠僅基于錨點(diǎn)視圖生成手腕視角視頻的4D世界模型?!闭撐闹蟹Q。
為了解決這一問題,研究團(tuán)隊(duì)開發(fā)的“WristWorld”技術(shù),讓機(jī)器人能夠通過智能分析外部攝像頭畫面,自動生成手腕視角操作畫面,讓其從第三人稱視角推測出第一人稱視角的精確操作畫面,解決機(jī)器人精細(xì)操作中的數(shù)據(jù)瓶頸問題。該技術(shù)還能讓機(jī)器人實(shí)現(xiàn)“自監(jiān)督”學(xué)習(xí),不需額外的標(biāo)注信息,便可獲得準(zhǔn)確的手腕位置估計(jì)。
據(jù)介紹,“WristWorld”技術(shù)為機(jī)器人學(xué)習(xí)領(lǐng)域開辟了新的發(fā)展方向,可提升機(jī)器人訓(xùn)練效率和效果,增強(qiáng)具身智能進(jìn)行握持、翻轉(zhuǎn)等復(fù)雜動作的能力,將推動機(jī)器人在精密制造、醫(yī)療手術(shù)、食品加工等精細(xì)操作領(lǐng)域的應(yīng)用。