以人體模型為中心的計算機視覺系統(tǒng)在過去幾年里取得了巨大的進步,這在很大程度上得益于大規(guī)模的人體數(shù)據(jù)標(biāo)記。然而,,重要的隱私、法律,、安全和倫理問題限制了人體數(shù)據(jù)的獲取渠道。現(xiàn)有的數(shù)據(jù)集還會有在數(shù)據(jù)收集和標(biāo)注時引入的偏差,,這會對用這些數(shù)據(jù)訓(xùn)練的模型產(chǎn)生負(fù)面影響,。此外,大多數(shù)現(xiàn)有的人體數(shù)據(jù)沒有提供對內(nèi)容多樣性,、人類活動和姿勢以及領(lǐng)域不可知論的適當(dāng)分析,。真實數(shù)據(jù)的一個新興替代方法是合成數(shù)據(jù),它可以幫助緩解這些問題,,這種方案主要應(yīng)用于以數(shù)據(jù)為中心的人工智能和用計算機視覺解鎖家庭智能應(yīng)用的解決方案之中,。然而,創(chuàng)建合成數(shù)據(jù)生成器非常具有挑戰(zhàn)性,,這使得計算機視覺社區(qū)無法利用合成數(shù)據(jù),。此外,合成數(shù)據(jù)是否有助于取代或補充現(xiàn)有的真實世界數(shù)據(jù)也是大家一直在討論的問題,,產(chǎn)生這些問題的主要是因為我們?nèi)狈σ粋€高度參數(shù)化和高度可操作的數(shù)據(jù)生成器,,該生成器能夠被用作模型訓(xùn)練之中。
受到上述挑戰(zhàn)的激勵,,Unity推出了PeopleSansPeople,。它是一個以人為中心的數(shù)據(jù)生成器,包含高度參數(shù)化和模擬就緒的3D人資源,、參數(shù)化照明和相機系統(tǒng),、參數(shù)化環(huán)境生成器以及完全可操作和可擴展的域隨機器。PeopleSansPeople可以在JSON注釋文件中生成具有亞像素的完美2D/3D邊界框,、符合COCO的人體關(guān)鍵點和語義/實例分割遮罩的RGB圖像,。通過使用PeopleSansPeople和Detectron2 Keypoint R-CNN 變體可以實現(xiàn)基準(zhǔn)合成數(shù)據(jù)訓(xùn)練。
PeopleSansPeople將支持并加速研究合成數(shù)據(jù)對以人為中心的計算機視覺的作用性,。這將解決研究人員在涉及以人作為目標(biāo)的任務(wù)中使用具有域隨機化的合成數(shù)據(jù),,從而擴展了現(xiàn)有和新領(lǐng)域中模擬器功能的空間,如增強現(xiàn)實/虛擬現(xiàn)實,、自動駕駛以及人體姿勢預(yù)估、動作識別和跟蹤等,。對PeopleSansPeople數(shù)據(jù)的研究將涉及生成的合成數(shù)據(jù),,這些數(shù)據(jù)將模擬與真實(sim2real)傳輸學(xué)習(xí)聯(lián)系起來,并將解決合成數(shù)據(jù)和真實數(shù)據(jù)之間的域差,。
PeopleSansPeople的發(fā)布
目前Unity發(fā)布了兩個版本的PeopleSansPeople:
首先是macOS和Linux的可執(zhí)行二進制文件,,可以用一個可變配置JSON文件生成大規(guī)模(1M+)數(shù)據(jù)集,。其包括:
28個不同年齡和種族的3D人體模型,以及不同的服裝(擁有28個反照率,、28個蒙版和28個法線的21952個獨特的服裝紋理),;
39個動畫片段,具有完全隨機化的人形放置,、大小和旋轉(zhuǎn),,以生成不同排列的人體;
完全參數(shù)化的照明設(shè)置(位置,、顏色,、角度和強度)和相機(位置、旋轉(zhuǎn),、視野,、焦距)設(shè)置;
一組原始對象,,用作具有可變紋理的干擾物和遮擋物,;和一組1600幅自然圖像來自COCO無標(biāo)簽集,充當(dāng)對象的背景和紋理,。
其次,,Unity還發(fā)布了一個模板項目,通過幫助用戶創(chuàng)建自己版本的以人為中心的數(shù)據(jù)生成器,,降低其社區(qū)的進入壁壘,。用戶可以將他們自己獲得的3D資產(chǎn)帶入這個環(huán)境,并通過修改已經(jīng)存在的域隨機化器或定義新的域隨機化器來進一步增強其功能,。該環(huán)境具有上述二進制文件所描述的全部功能:
4個服裝顏色不同的示例3D人體模型,;
8個示例動畫剪輯,具有完全隨機化的人形放置,、大小和旋轉(zhuǎn),,以生成不同排列的人;和
一組529個來自Unity感知包充當(dāng)對象的背景和紋理,。
PeopleSansPeople域隨機化
PeopleSansPeople是一個參數(shù)數(shù)據(jù)生成器,,它通過一個簡單的JSON配置文件公開了幾個變量參數(shù)。當(dāng)然用戶也可以直接從Unity環(huán)境中更改這些配置,。許多領(lǐng)域隨機化和環(huán)境設(shè)計都投入到創(chuàng)建完全參數(shù)化的人體模型中,。有了這樣的參數(shù)集,用戶能夠為人體模型捕捉一些基本的內(nèi)在和外在變化,。通過使用Unity Shader Graph隨機化器來改變?nèi)梭w數(shù)據(jù)資產(chǎn)的服裝紋理,,這為角色賦予了獨特的外觀,當(dāng)然你還可以使用Unity的動畫隨機器來改變角色的姿勢,,該工具具有一組不同的動畫,,涵蓋了許多真實的人類動作和姿勢,。
數(shù)據(jù)集統(tǒng)計分析
通過使用域隨機化,Unity隨機生成了500,,000幅圖像的合成數(shù)據(jù)集以及上述提及的標(biāo)簽,。通過使用這些圖像中的490,000個用于訓(xùn)練,,10,,000個用于驗證。我們將合成數(shù)據(jù)集統(tǒng)計數(shù)據(jù)與COCO?person數(shù)據(jù)集進行比較,。合成數(shù)據(jù)集比COCO數(shù)據(jù)集多了一個數(shù)量級的實例,,也多了一個數(shù)量級的帶有關(guān)鍵點注釋的實例。
在上圖中,,顯示了三個數(shù)據(jù)集的邊界框占用熱圖,。對于COCO數(shù)據(jù)集,由于有許多人像和風(fēng)景圖像,,我們觀察到長方形邊界框分布跟隨圖像的高度和寬度,。我們發(fā)現(xiàn)大多數(shù)盒子靠近大多數(shù)圖像的中心,而較少向邊緣擴展,。對于人體合成數(shù)據(jù)來說,,盒子往往更好地占據(jù)整個圖像框架,因此迫使模型使用整個感受場,。
最后,,為了量化生成的圖像中的人體模型的姿態(tài)多樣性,我們從角色的末端生成了五個最具代表性關(guān)鍵點的姿態(tài)熱圖,。我們觀察到1)PeopleSansPeople中人體的分布的姿勢包含了COCO中的姿勢分布,;2)我們合成姿勢的分布比COCO更廣泛;以及3)在COCO中,,大多數(shù)人都是面向前方的,,導(dǎo)致點密度的“慣用手”不對稱,這在合成數(shù)據(jù)中得到了很好的改善,。
PeopleSansPeople基準(zhǔn)測試開箱即用
為了獲得一組模擬到真實遷移學(xué)習(xí)的基準(zhǔn)結(jié)果,,我們對各種合成和真實數(shù)據(jù)集的大小和組合進行了訓(xùn)練,用于人員邊界框(bbox)和關(guān)鍵點檢測,。我們使用平均精度(AP)作為模型性能的主要指標(biāo),,在COCO人體驗證(person val2017)和測試集(test-dev2017)上報告我們的結(jié)果。
我們根據(jù)隨機初始化的權(quán)重以及ImageNet預(yù)先訓(xùn)練的權(quán)重來訓(xùn)練我們的模型,。我們沒有在任何基準(zhǔn)中執(zhí)行任何模型或數(shù)據(jù)生成超參數(shù),。事實上,我們使用我們直觀選擇的默認(rèn)參數(shù)范圍來生成數(shù)據(jù)集,并通過從這些范圍進行統(tǒng)一采樣來強制生成數(shù)據(jù),。因此,我們的數(shù)據(jù)生成非常簡單,。我們在選項卡中顯示結(jié)果,。我們觀察到,使用合成數(shù)據(jù)預(yù)訓(xùn)練和真實數(shù)據(jù)微調(diào),,我們的模型比僅在真實數(shù)據(jù)上訓(xùn)練或使用ImageNet預(yù)訓(xùn)練然后在真實數(shù)據(jù)上微調(diào)的模型表現(xiàn)更好,。這種效果在真實數(shù)據(jù)有限的少鏡頭遷移學(xué)習(xí)中更強。有了豐富的真實數(shù)據(jù),,我們?nèi)匀挥^察到合成數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢,。
需要注意的是,這些結(jié)果旨在服務(wù)于對PeopleSansPeople數(shù)據(jù)進行基準(zhǔn)測試目的,。PeopleSansPeople自帶高度參數(shù)化的隨機器,,將定制的隨機器集成到其中非常簡單。因此,,我們預(yù)計PeopleSansPeople將能夠研究模型訓(xùn)練循環(huán)中的超參數(shù)調(diào)整和數(shù)據(jù)生成,,以優(yōu)化這些數(shù)據(jù)的性能,從而解決零觸發(fā),、少觸發(fā)以及完全監(jiān)督的任務(wù),。此外,由于合成數(shù)據(jù)帶有豐富的高質(zhì)量標(biāo)簽,,它可以與帶有很少或沒有注釋的真實數(shù)據(jù)相結(jié)合,,以實現(xiàn)弱監(jiān)督訓(xùn)練。