虛擬試衣間技術(shù)的工作原理
譯文【51CTO.com快譯】隨著科技的進(jìn)步與發(fā)展,虛擬試衣間正在進(jìn)入人們的生活。那么如何為衣服、鞋子、配飾、手表、眼鏡以及帽子提供虛擬試穿體驗(yàn),就需要了解虛擬試衣間的工作原理。
為了讓消費(fèi)者獲得在實(shí)體商店購物的體驗(yàn),從事虛擬試驗(yàn)人工智能技術(shù)開發(fā)的數(shù)據(jù)科學(xué)開發(fā)商MobiDev公司開發(fā)出一種虛擬試衣間。以下對(duì)虛擬試衣間技術(shù)的工作原理進(jìn)行闡述和分析。
虛擬試驗(yàn)室技術(shù)的工作原理
多年來,“先試后買”策略一直是服裝店行之有效的客戶互動(dòng)方法?,F(xiàn)在,這種策略能夠以虛擬試衣間的形式存在。根據(jù)調(diào)研機(jī)構(gòu)《財(cái)富商業(yè)洞察》預(yù)測(cè),到2027年,全球虛擬試衣間市場(chǎng)規(guī)模有望達(dá)到100億美元。
為了更好地理解虛擬試衣間技術(shù)的工作原理和技術(shù)邏輯,將以MobiDev公司近日開發(fā)的一個(gè)關(guān)于增強(qiáng)現(xiàn)實(shí) (AR) 鞋類試衣間開發(fā)的項(xiàng)目為例。虛擬試衣間的工作方式如下:
- 將輸入視頻分割成幀,并用深度學(xué)習(xí)模型進(jìn)行處理,該模型估計(jì)一組特定試衣者腿部和雙腳關(guān)鍵點(diǎn)的位置。
- 根據(jù)檢測(cè)到的關(guān)鍵點(diǎn)來放置鞋類的3D模型。
- 渲染3D鞋類模型,以便每個(gè)幀顯示逼真的紋理和光線。
MobiDev公司在使用ARKit(蘋果設(shè)備的增強(qiáng)現(xiàn)實(shí)框架)時(shí),發(fā)現(xiàn)它存在渲染限制。從發(fā)布的視頻中可以看出,其跟蹤精度太低,無法用于鞋類定位。這種限制的原因可能是在忽略跟蹤精度的同時(shí)保持推理速度,這對(duì)于實(shí)時(shí)工作的應(yīng)用程序可能至關(guān)重要。
另一個(gè)問題是ARKit 算法對(duì)身體部位的識(shí)別效果不佳。由于該算法旨在識(shí)別試穿者整個(gè)身體,如果處理后的圖像僅包含身體的一部分,它不會(huì)檢測(cè)任何關(guān)鍵點(diǎn)。這正是鞋類試衣間所面臨的情況,而算法應(yīng)該只處理試衣者的腿部。
其結(jié)論是,虛擬試衣間應(yīng)用程序可能需要附加功能以及標(biāo)準(zhǔn)AR庫。因此,建議讓數(shù)據(jù)科學(xué)家參與開發(fā)自定義姿勢(shì)估計(jì)模型,該模型應(yīng)該只檢測(cè)幀中一只腳或雙腳的關(guān)鍵點(diǎn)并實(shí)時(shí)操作。
虛擬試驗(yàn)室解決方案
虛擬試衣間技術(shù)可以提供配飾、手表、眼鏡、帽子、衣服等產(chǎn)品的試穿功能。以下了解這些解決方案中是如何在幕后工作的。
(1)手表
AR-Watches應(yīng)用程序就是試戴虛擬手表的一個(gè)很好的例子,它允許用戶試戴各種手表。該解決方案基于ARTag技術(shù),利用印在表帶上的特定標(biāo)記,將表帶佩戴在用戶的手腕上以代替手表,以便開始虛擬試戴手表。計(jì)算機(jī)視覺算法僅處理幀中可見的那些標(biāo)記,并識(shí)別攝影頭相對(duì)于它們的位置。之后,需要正確渲染手表3D圖像,虛擬攝影頭應(yīng)放置在同一位置。
總的來說,該技術(shù)有其局限性。但是,如果它與業(yè)務(wù)用例相匹配,那么創(chuàng)建要使用的正確3D圖像并不困難。
(2)鞋類
Wanna Kicks和SneakerKit應(yīng)用程序很好地展示了AR和深度學(xué)習(xí)技術(shù)如何應(yīng)用于鞋類。
從技術(shù)上來說,這種解決方案利用了基于深度學(xué)習(xí)的足部姿態(tài)估計(jì)模型。該技術(shù)可用于全身3D姿態(tài)估計(jì)模型的特殊情況,該模型直接或通過將檢測(cè)到的2D關(guān)鍵點(diǎn)的位置推斷為3D坐標(biāo),來估計(jì)3D維度中所選關(guān)鍵點(diǎn)的位置。
3D足部姿勢(shì)估計(jì)
一旦檢測(cè)到試穿者足部的3D關(guān)鍵點(diǎn)的位置,就可以用于創(chuàng)建足部的參數(shù)化3D模型,并根據(jù)參數(shù)化模型的幾何特性對(duì)鞋類3D模型進(jìn)行定位和縮放。
在檢測(cè)到的足部參數(shù)化模型上定位鞋類的3D模型
與全身/面部姿態(tài)估計(jì)模型相比,足部姿態(tài)估計(jì)仍然存在一定的挑戰(zhàn)。主要問題是缺乏模型訓(xùn)練所需的3D注釋數(shù)據(jù)。
但是,避免這一問題的最佳方法是使用合成數(shù)據(jù),該數(shù)據(jù)假設(shè)渲染具有關(guān)鍵點(diǎn)的逼真3D足部模型并使用該數(shù)據(jù)訓(xùn)練模型;或者使用攝影測(cè)量法,它假設(shè)從多個(gè)2D視圖重建3D場(chǎng)景,以減少需要標(biāo)記的數(shù)量。
這種解決方案在技術(shù)方面要復(fù)雜得多。為了使其解決方案推出市場(chǎng),需要收集足夠大的足部關(guān)鍵點(diǎn)數(shù)據(jù)集(使用合成數(shù)據(jù)、攝影測(cè)量或兩者的組合),訓(xùn)練定制的姿態(tài)估計(jì)模型(即將結(jié)合足夠高的準(zhǔn)確性和推理速度),測(cè)試其在各種條件下的穩(wěn)健性并創(chuàng)建足部模型。從技術(shù)上來說,這是一個(gè)中等復(fù)雜度的項(xiàng)目。
(3)眼鏡
FittingBox公司和Ditto公司考慮將虛擬現(xiàn)實(shí)(AR)技術(shù)用于虛擬眼鏡試戴。用戶應(yīng)該從虛擬目錄中選擇一款眼鏡然后戴上。
虛擬眼鏡試戴和鏡片模擬
該解決方案基于深度學(xué)習(xí)的姿態(tài)估計(jì)方法,用于面部標(biāo)志點(diǎn)檢測(cè),其中通用注釋格式包括68個(gè)2D/3D面部標(biāo)志點(diǎn)。這種注釋格式允許以足夠的準(zhǔn)確度區(qū)分面部輪廓、鼻子、眼睛、眉毛和嘴唇。用于訓(xùn)練人臉標(biāo)志估計(jì)模型的數(shù)據(jù)可能取自FaceAlignment等開源庫,提供開箱即用的人臉姿勢(shì)估計(jì)功能。
從技術(shù)的角度來看,這種解決方案并不復(fù)雜,尤其是如果使用任何預(yù)先訓(xùn)練的模型作為人臉識(shí)別任務(wù)的基礎(chǔ)。但重要的是要考慮到低質(zhì)量的攝像頭和光線條件差可能是限制因素。
(4)醫(yī)用口罩
在冠狀病毒持續(xù)蔓延期間,ZapWorks公司推出了基于AR的教育應(yīng)用程序,旨在指導(dǎo)用戶如何正確佩戴醫(yī)用口罩。從技術(shù)上來說,該應(yīng)用程序也是基于3D 面部標(biāo)志檢測(cè)方法。與試戴眼鏡應(yīng)用程序一樣,這種方法允許接收有關(guān)面部特征的信息和進(jìn)一步的蒙版渲染。
(5)帽子
鑒于面部標(biāo)志檢測(cè)模型運(yùn)行良好,另一個(gè)經(jīng)常模擬的AR項(xiàng)目是帽子。正確渲染戴在頭上的帽子所需的一切就是幾個(gè)關(guān)鍵點(diǎn)的3D坐標(biāo),這些關(guān)鍵點(diǎn)指示太陽穴和前額中心的位置。而QUYTECH、Banuba和Vertebrae等公司已經(jīng)推出了虛擬帽子試戴應(yīng)用程序。
(6)服裝
與鞋子、帽子、眼鏡和手表相比,虛擬試穿3D衣服仍然是一個(gè)挑戰(zhàn)。原因是服裝由于質(zhì)地柔軟會(huì)變形。因此,為了獲得正確的AR體驗(yàn),深度學(xué)習(xí)模型不僅要識(shí)別人體關(guān)節(jié)上的基本關(guān)鍵點(diǎn),還要識(shí)別3D身體形狀。
以深度學(xué)習(xí)模型DensePose為例,它旨在將一個(gè)人體的RGB圖像像素映射到人體圖像的3D表面,研究發(fā)現(xiàn)它仍然不太適合增強(qiáng)現(xiàn)實(shí)。DensePose的推理速度不適合于實(shí)時(shí)應(yīng)用程序,人體網(wǎng)格檢測(cè)對(duì)三維服裝項(xiàng)目的擬合精度不夠。為了提高結(jié)果,需要收集更多的帶注釋的數(shù)據(jù),這是一項(xiàng)耗費(fèi)時(shí)間和資源的任務(wù)。
另一種方法是使用2D服裝項(xiàng)目和2D人物輪廓。Zeekit公司就是這么做的,讓用戶可以將多種服裝類型(連衣裙、褲子、襯衫等)應(yīng)用到他們的照片中。
嚴(yán)格來說,2D服裝圖像傳輸?shù)姆椒ú荒鼙灰暈樵鰪?qiáng)現(xiàn)實(shí),因?yàn)?ldquo;現(xiàn)實(shí)”意味著實(shí)時(shí)操作,但它仍然可以提供不同尋常的沉浸式用戶體驗(yàn)。其背后的技術(shù)包括生成對(duì)抗網(wǎng)絡(luò)、人體姿勢(shì)估計(jì)和人體解析模型。2D服裝轉(zhuǎn)換算法如下所示:
(1)識(shí)別圖像中與身體各個(gè)部位相對(duì)應(yīng)的區(qū)域。
(2)檢測(cè)已識(shí)別身體部位的位置。
(3)產(chǎn)生轉(zhuǎn)換衣服的扭曲圖像。
(4)將扭曲圖像應(yīng)用于具有最少產(chǎn)生偽影的人物圖像。
2D布料轉(zhuǎn)移實(shí)驗(yàn)
由于虛擬更衣室并沒有現(xiàn)成的預(yù)訓(xùn)練模型,因此使用ACGPN模型對(duì)該領(lǐng)域進(jìn)行了研究。其想法是在實(shí)踐中探索該模型的輸出,通過利用各種方法進(jìn)行2D布料轉(zhuǎn)換。
該模型應(yīng)用于約束條件下(訓(xùn)練數(shù)據(jù)集樣本、VITON樣本)和無約束(任何環(huán)境)條件下的人物圖像。此外,不僅通過在自定義人物圖像上運(yùn)行模型,而且還使用與訓(xùn)練數(shù)據(jù)完全不同的自定義服裝圖像來測(cè)試模型能力的限制。
以下是在研究期間收到的結(jié)果示例:
(1)使用原始數(shù)據(jù)和預(yù)處理模型復(fù)制MobiDev公司研究論文中描述的結(jié)果:
衣服更換成功(A1-A3)和不成功更換(B1-B3)。
結(jié)果:
- B1——修補(bǔ)效果不佳。
- B2——衣服重疊。
- B3——邊緣缺陷。
(2)定制服裝在默認(rèn)人物圖片中的應(yīng)用:
使用定制衣服更換衣服。
結(jié)果:
- A 行——無缺陷。
- B行——需要糾正的一些缺陷。
- C行——嚴(yán)重缺陷。
(3)將默認(rèn)服裝應(yīng)用于自定義人物圖像
具有無約束環(huán)境的圖像上的服裝更換輸出。
- A行——邊緣缺陷(輕微)。
- B行——掩飾錯(cuò)誤(中等)。
- C行——修復(fù)和屏蔽錯(cuò)誤(嚴(yán)重)。
(4)定制服裝在定制人物形象中的應(yīng)用:
用不受約束的環(huán)境和自定義服裝圖像替換衣服。
結(jié)果:
- A行——從模型中獲得的最佳結(jié)果。
- B行—— 許多缺陷需要審核。
- C行——最扭曲的結(jié)果。
結(jié)論
在分析輸出時(shí),發(fā)現(xiàn)虛擬試衣仍然存在一定的局限性。關(guān)鍵是訓(xùn)練數(shù)據(jù)應(yīng)該包含目標(biāo)布料的配對(duì)圖像,以及穿著服裝的人物。如果給出一個(gè)真實(shí)世界的業(yè)務(wù)場(chǎng)景,完成它可能具有挑戰(zhàn)性。而這個(gè)研究的其他要點(diǎn)是:
- ACGPN模型在來自訓(xùn)練數(shù)據(jù)集的人物圖像上輸出相當(dāng)好的結(jié)果,如果應(yīng)用定制服裝項(xiàng)目也是如此的話。
- 當(dāng)處理在不同光線、不同環(huán)境條件和不尋常姿勢(shì)中拍攝的人的圖像時(shí),模型不穩(wěn)定。
- 用于將虛擬2D服裝圖像傳輸?shù)揭巴馊宋飯D像上的虛擬更衣室系統(tǒng)的技術(shù)尚未投入商業(yè)應(yīng)用。但是如果條件是靜態(tài)的,則其預(yù)期結(jié)果會(huì)好得多。
- 阻礙更好模型開發(fā)的主要限制因素是缺乏在室外條件下捕獲人員的多樣化數(shù)據(jù)集。
總而言之,當(dāng)前的虛擬試衣間非常適合與身體各個(gè)部位有關(guān)的項(xiàng)目,例如頭部、面部、足部和手臂。但是需要完全檢測(cè)、估計(jì)和修改人體的試穿項(xiàng)目,虛擬試衣間技術(shù)仍處于起步階段。然而,AR技術(shù)發(fā)展正在突飛猛進(jìn),最好的策略是進(jìn)行調(diào)整并不斷嘗試。
原文標(biāo)題:How Virtual Fitting Room Technology Works,作者:Maksym Tatariants
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】