自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI訓練數(shù)據(jù)不夠用?支付寶3D合成方案揭秘

企業(yè)動態(tài)
模型未動,數(shù)據(jù)先行,有標注的大量數(shù)據(jù)是AI落地一直以來的重中之重。如何快速高效率的獲取訓練數(shù)據(jù)成了AI實戰(zhàn)中面臨的巨大困難。采用3D圖形技術(shù)合成訓練數(shù)據(jù)是近年來計算機視覺新興的一個方向。

????模型未動,數(shù)據(jù)先行,有標注的大量數(shù)據(jù)是AI落地一直以來的重中之重。如何快速高效率的獲取訓練數(shù)據(jù)成了AI實戰(zhàn)中面臨的巨大困難。采用3D圖形技術(shù)合成訓練數(shù)據(jù)是近年來計算機視覺新興的一個方向。通過對實物建立3D模型,然后使用照片級渲染技術(shù)渲染合成海量訓練圖像,這樣拿到的圖像具有完美的標簽,而且數(shù)據(jù)生成的邊際成本很低,因此獲得了工業(yè)界的重點關(guān)注。本文就來講講來自支付寶多媒體技術(shù)部的同學們是如何將這一技術(shù)應用到視覺零售這一領(lǐng)域的。

本文作者:支付寶多媒體技術(shù)部。

前言

支付寶視覺售貨柜項目是螞蟻IOT的重要產(chǎn)品,用戶通過人臉識別打開貨柜門,挑選出想要購買的商品后關(guān)門,視覺識別算法通過對比開門前后的商品變化判斷出用戶購買了哪些商品,自動完成結(jié)算。“開門即取,關(guān)門即走”的體驗給用戶帶來了極大方便。

??

??

圖1:3D合成的百歲山礦泉水

??

??

圖2:支付寶視覺售貨柜

在本場景中,由于貨品的高密度擺放,視覺貨柜所拍攝的圖像中商品之間遮擋非常嚴重,算法需要根據(jù)非常有限的圖像片段判斷是哪個商品。同時算法需要不斷迭代以支撐源源不斷的上新需求。這就需要我們不僅要采集足夠多的數(shù)據(jù)以解決各種情況,而且要能在很短的時間內(nèi)及時輸出新品的訓練數(shù)據(jù),否則算法模型的泛化能力將大打折扣。3D合成數(shù)據(jù)技術(shù)為該項目提升了3倍以上的上新速度,降低了70%以上的成本,大大縮短了商品上新周期。同時避免了人工打標帶來的質(zhì)量不穩(wěn)定,保障了訓練數(shù)據(jù)的高質(zhì)量,將因人工標注數(shù)據(jù)不可靠造成的風險降低了90%以上。圖3是這個方案的流程圖。Part1對商品建模,并賦予精確的紋理和材質(zhì),Part2對場景進行參數(shù)化建模仿真模擬各種各樣可能出現(xiàn)的情況,Part3對場景的每個情況進行渲染獲取最終訓練數(shù)據(jù)。

??

??

圖3:3D數(shù)據(jù)合成流程

Part 1 全材質(zhì)3D重建

3D重建是利用技術(shù)手段對某個物體進行自動幾何重建,以及紋理與材質(zhì)的建模。這個過程有別于3D建模師手K的過程,可快速準確的恢復某個物體的真實幾何和外觀信息。3D重建需要重建的信息包括幾何和外觀兩個部分。當前3D重建難以解決的物體是一些反光、透明等材質(zhì),尤其是各種材質(zhì)雜糅在一起的物體。這個難題橫旦在項目的初期,是無論后面走哪條技術(shù)路線都需要攻克的難題。

項目組經(jīng)過艱苦技術(shù)攻關(guān)自研了一套全材質(zhì)3D建模方案,該方案結(jié)合了結(jié)構(gòu)光掃描技術(shù)與基于圖像特征匹配的多目幾何重建技術(shù),通過掃描和3D特征匹配的方法實現(xiàn)了全材質(zhì)物體的3D重建,攻克了業(yè)界難題。使用全材質(zhì)3D重建技術(shù)方案可在5-10分鐘左右的時間精確重建一個商品的完整幾何信息以及初步的外觀信息。下面是若干個3D重建示例。

??

??

圖4:重建的3D模型

在獲得3D幾何信息和初步外觀信息之后,可根據(jù)實際商品的外觀對3D模型不同部位賦予準確材質(zhì)模型,這個過程稱之為材質(zhì)重建。一般來講特定應用場景的商品材質(zhì)種類是相對有限的,可根據(jù)不同業(yè)務場景建立一個特定材質(zhì)庫,根據(jù)3D模型的初步外觀信息賦予相應的材質(zhì)。實際上商品的外觀與材質(zhì)之間的專家經(jīng)驗是可以通過網(wǎng)絡學習到的,一些研究工作如:開放環(huán)境材質(zhì)估計、 形狀與SV-BRDF估計 表明即便是在商品3D模型未知、采集環(huán)境開放的時候,我們?nèi)匀豢梢詫W習到材質(zhì)模型與圖像特征的對應關(guān)系。

Part2 參數(shù)化場景

我們通過全材質(zhì)3D重建技術(shù)對場景進行建模,之后需要針對場景分布的各種可能性進行基于物理的模擬。在參數(shù)化場景部分,我們也需要對場景進行3D建模。場景的建模是對所渲染3D模型所處的環(huán)境進行3D建模,包括了場景3D重建和光源建模兩個部分。場景3D重建的過程可以是自動化的使用如掃描儀,或者根據(jù)多目幾何原理使用Structure-from-Motion進行三維重建。而光源重建則是對環(huán)境的光源進行建模,使得渲染出來的圖像與實際拍攝的圖像在外觀上融合度較好。

光照估計

在渲染流程中,光照對渲染結(jié)果的影響至關(guān)重要,因此場景參數(shù)化需要對光照進行精確的描述。通常來講,一個場景中的光源往往構(gòu)成復雜,需要對直接光源的數(shù)量、色溫、光源形狀、乃至頻譜范圍等進行準確建模,如果場景中有類似液晶顯示屏等光源,還需要針對光源的偏振態(tài)和頻率進行建模,工作量很大且很難自動化。

??

??

圖5:HDR合成與渲染結(jié)果

這里我們采用了HDRI技術(shù)對光源進行重建,該方案是一個簡單有效的光源重建和渲染技術(shù),被廣泛采用于電影制作中實現(xiàn)與真實場景融合度很高的渲染圖像。該技術(shù)是一種基于圖像的渲染技術(shù),即采集并合成一張高動態(tài)范圍圖像作為光源進行渲染??梢钥吹竭@樣的光源渲染出來的結(jié)果在高光表現(xiàn)方面較好。

場景建模和物理碰撞檢測引擎

在視覺貨柜項目中,我們所面料的場景是一個采用視覺識別技術(shù)完成商品交易的無人貨柜。貨柜需要頻繁上新品,且商品之間遮擋嚴重。商家為了更有效的利用貨柜會密集擺放很多商品,很多商品漏出來的畫面非常有限,而視覺識別需要檢測并識別出所有目標。這就要求視覺算法同學除了想法設(shè)法提高模型泛化能力之外,也需要準備充分多樣性的數(shù)據(jù),盡可能全的覆蓋到各種遮擋關(guān)系,同時需要覆蓋到每個可能出現(xiàn)的商品。

在參數(shù)化場景的過程中,我們使用重力模型、隨機力模型等對場景施加變化,并對場景中的各個物體進行碰撞檢測和模擬,使得場景中的物體分布接近真實狀態(tài)。下面這個視頻示意如何對倒瓶等異常情況進行仿真模擬。

??

??

圖6:物理碰撞模擬

Part3 照片級渲染

3D合成數(shù)據(jù)方案的核心問題是怎樣使得渲染出來的圖像看起來像照片,而不是人眼看上去很真實就夠了。我們需要渲染域與實拍域盡量接近才能真正起到訓練數(shù)據(jù)的作用。一般意義上的渲染場景存在所謂too perfect的問題,也就是說渲染出來的圖像看上去可能已經(jīng)非常真實,與人眼實際看到的樣子很接近,但卻與攝像頭實際拍攝的圖片不同。作為喂給機器學習模型的訓練數(shù)據(jù),我們要求最終輸出的圖片需要復現(xiàn)這些瑕疵,實現(xiàn)所謂的照片級渲染(Photo-realistic rendering)。

我們嘗試了兩種思路實現(xiàn)照片級渲染。一種思路是數(shù)據(jù)驅(qū)動的方法,先采集大量實拍圖,之后通過GAN、域遷移、域自適應等方法將渲染域的圖像遷移至實拍域。另一種思路是成像模擬的方法,在渲染流程前中后期分別模擬各種攝像頭成像的影響,比如渲染過程中根據(jù)場景深度不同模擬散焦模糊,對渲染圖像卷積同一模糊算子實現(xiàn)因低分辨率引起的鏡頭模糊等。

??

??

圖7:渲染圖、域遷移圖與實拍圖

圖7為采用第一種思路實現(xiàn)的效果。將渲染圖、遷移圖和實拍圖的對比,我們看到遷移圖可以較好的實現(xiàn)與鏡頭相關(guān)的圖像特征遷移效果,同時也會存在一些artifacts。此外,作為數(shù)據(jù)驅(qū)動的技術(shù),域遷移的過程可控性較弱,獲得好結(jié)果的前提是需要有與真實場景分布接近的實拍數(shù)據(jù),導致數(shù)據(jù)采集成本較高。

不同于上面的數(shù)據(jù)驅(qū)動算法,成像模擬采用純模擬的方式合成訓練數(shù)據(jù),可控性強,且效果無天花板,但實現(xiàn)的技術(shù)較為復雜。我們采用電影級渲染引擎,并自研了光學攝像頭模擬器,實現(xiàn)了一系列因鏡頭、光電傳感器、以及ISP圖像處理單元的模擬,消除了許多引起渲染域與實拍域差距的因素。下圖為成像模擬實現(xiàn)的效果。

??

??

圖8:成像模擬結(jié)果

寫在最后

在實踐中,我們發(fā)現(xiàn)3D合成數(shù)據(jù)可以很好的解決許多計算機視覺任務,尤其是在一些無法很好獲取ground truth的任務中具有非常好的落地前景。畢竟人工智能的目的是代替重復低效的人工,而如果用于訓練的數(shù)據(jù)收集和標注仍然大量依賴人工的話,有時就不免落入到所謂“有多少人工就有多少智能“的尷尬境地。

同時我們也必須看到目前的3D合成數(shù)據(jù)方案有諸多挑戰(zhàn)。首先,不能完全依賴合成數(shù)據(jù),總會有一些模擬不到的場景。其次,合成數(shù)據(jù)方案比較適合標注成本高的任務,對于一些標注成本不高的任務反而會增加成本,比如人臉檢測、物體識別分類等任務。再次,一些技術(shù)難點,如低成本實現(xiàn)動態(tài)場景模擬等尚需進一步攻克。

 

責任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2012-11-21 17:37:46

Oracle技術(shù)嘉年華

2024-10-16 10:50:00

2019-12-18 15:25:39

人臉識別支付寶微信

2021-03-15 23:11:12

內(nèi)存虛擬化技術(shù)

2019-11-15 10:41:10

Vim分屏終端

2024-12-09 16:00:00

代碼引用

2013-10-23 14:28:30

2017-12-29 08:16:43

2013-12-19 10:08:52

AWS服務器

2017-09-28 14:48:46

支付寶深度學習xNN

2019-11-13 09:46:08

技術(shù)研發(fā)指標

2022-08-01 10:00:47

AI趨勢

2019-07-24 14:05:17

Redis內(nèi)存集群

2019-07-25 15:23:05

Redis電腦數(shù)據(jù)庫

2017-03-23 11:24:26

Windows 10Windows系統(tǒng)盤

2018-11-22 14:34:01

局域網(wǎng)IP擴容

2013-05-02 09:16:16

程序員

2021-08-08 08:17:45

事件響應日志網(wǎng)絡安全

2023-12-09 14:29:32

AI算法

2021-09-09 15:30:28

鴻蒙HarmonyOS應用
點贊
收藏

51CTO技術(shù)棧公眾號