譯者 | 仇凱
審校 | 梁策 孫淑娟
客戶體驗是線上零售的重要優(yōu)勢,無需排隊、沒有延遲、采購便捷。但根據(jù)Forrester研究報告,由于人們希望在購買前充分了解產(chǎn)品,或只是不喜歡等待商品運(yùn)輸?shù)倪^程,美國72%的零售消費(fèi)仍然依靠實體店面。
目前,無人售貨的創(chuàng)意方案在亞馬遜無人便利店(Amazon Go)、樂購(Tesco)、沃爾瑪(Walmart)等場所得到了落地,通過計算機(jī)視覺技術(shù)實現(xiàn)自動結(jié)賬是無人售貨的成功案例。但是,一些店主想要建立全新的線下門店渠道來開展他們的業(yè)務(wù),而這就需要一個集成的軟件基礎(chǔ)架構(gòu),并涉及開發(fā)和財務(wù)方面的問題。
在本文中,我們將分析實體店如何通過計算機(jī)視覺系統(tǒng)實現(xiàn)無人售貨。我們將分析其工作原理,自動結(jié)賬的選擇,以及現(xiàn)有挑戰(zhàn)。
一、用于實體零售的計算機(jī)視覺自動結(jié)賬系統(tǒng)
大多數(shù)店內(nèi)操作,如貨架管理、結(jié)賬或產(chǎn)品稱重,都需要人工監(jiān)督。人員生產(chǎn)力是零售商的基本績效指標(biāo),也極易成為店內(nèi)操作的瓶頸,同時也是客戶感到厭煩的主要因素。
也就是說,排隊結(jié)賬是客戶和零售商雙方共同的痛點(diǎn)。此外,除了排隊,實際的人力成本也是財務(wù)的繁重負(fù)擔(dān)。那么,計算機(jī)視覺如何解決這些問題呢?
計算機(jī)視覺(Computer vision,CV)是一種人工智能技術(shù),它使機(jī)器能夠從圖像中提取有價值的信息。計算機(jī)視覺的核心是模仿人類的視覺。類似于眼睛,計算機(jī)視覺依賴于攝像頭傳感器捕捉環(huán)境信息。然后,一個底層神經(jīng)網(wǎng)絡(luò)(類似大腦)將識別商品、它們在貨架中的位置,或者其他特別屬性(例如將百事可樂罐與胡椒博士(美國的一種汽水飲料)罐區(qū)分開)。
這是我們了解計算機(jī)視覺如何適應(yīng)實體零售任務(wù)的基礎(chǔ),因為它可以識別位于貨架中的商品。這些商品可以放在貨架上,也可以由顧客攜帶。這讓我們無需使用條碼掃描、收銀機(jī)操作或自助結(jié)賬機(jī)來完成自動結(jié)賬任務(wù)。
盡管計算機(jī)視覺在復(fù)雜性和預(yù)算方面的實現(xiàn)存在顯著差異,但有兩種常見的場景可以展示計算機(jī)視覺用于自動化零售的方式。因此,首先讓我們看看如何構(gòu)建全店自動化。
二、人工智能驅(qū)動的自動結(jié)賬:全店自動化
自動結(jié)賬有許多不同的名字:“無收銀員”、“即拿即走”、“免結(jié)賬”等。在亞馬遜、樂購甚至沃爾瑪?shù)馁徫矬w驗中,在此類商店購物時系統(tǒng)會檢查商品,并在商品隨顧客離開商店時自動結(jié)賬。這個簡單的過程就是它的基本工作場景。
購物環(huán)節(jié)開始。像亞馬遜這樣的商店通過旋轉(zhuǎn)門掃描二維碼啟動購物。此時,系統(tǒng)會將亞馬遜用戶資料和數(shù)字錢包與實際進(jìn)入商店的顧客進(jìn)行匹配。
人員檢測。這一步是通過計算機(jī)視覺攝像頭完成的對人和物體的識別和跟蹤。簡單來說,攝像頭會識別顧客的身份,一旦有商品被顧客從貨架上取下來,系統(tǒng)就會將其放入虛擬購物車中。一些商店使用數(shù)以百計的攝像頭全方位覆蓋并監(jiān)控商店的所有區(qū)域。
商品識別。一旦顧客從貨架上取下商品并隨身攜帶,相機(jī)就會捕捉到這個動作。在將視頻中的商品圖像與零售商數(shù)據(jù)庫中的實際商品進(jìn)行匹配后,商品將放入虛擬購物車中。
結(jié)賬。商品采購結(jié)束后顧客可能會離開商店。當(dāng)顧客離開攝像頭覆蓋的區(qū)域時,計算機(jī)視覺系統(tǒng)就會將其視為購物結(jié)束。這將觸發(fā)系統(tǒng)計算商品總金額,并從顧客的數(shù)字錢包中扣除相應(yīng)的金額。
從顧客的角度來看,這樣的系統(tǒng)代表了與在線商店相似的購物體驗,特別是不需要排隊結(jié)賬。進(jìn)入商店,找到你想要的商品,取下,然后離開。但是,為了給客戶提供完全的自主權(quán),并覆蓋所有的應(yīng)用場景,我們需要在技術(shù)上解決大量的問題。那么,自動結(jié)賬有什么復(fù)雜之處呢?
三、建立人工智能的無人售貨商店,挑戰(zhàn)何在?
顧客行為是無法預(yù)測的,而我們將為數(shù)十人面對數(shù)千種商品的購買行為進(jìn)行檢查并提供自動結(jié)賬服務(wù),這就給計算機(jī)視覺系統(tǒng)帶來了諸多挑戰(zhàn):
1.持續(xù)追蹤顧客購買行為
當(dāng)顧客進(jìn)入商店時,系統(tǒng)應(yīng)該能夠沿著顧客的購物路線持續(xù)追蹤其購買行為。我們需要知道是同一位顧客在商店的不同地方取走了商品。在擁擠的商店中,持續(xù)追蹤顧客會變得很困難。因為不允許使用人臉識別,模型就應(yīng)該通過人的外表來識別身份。那么,如果有人脫下外套,或者肩上扛著孩子,又會怎樣呢?
為了實現(xiàn)持續(xù)追蹤,我們需要為攝像頭提供100%的區(qū)域覆蓋以檢測跨越不同區(qū)域的顧客。攝像頭要放置在不同的角度,此外還需要傳感器來反饋它們的準(zhǔn)確位置,這樣我們就可以使用這些數(shù)據(jù)更準(zhǔn)確地追蹤物體。
2.解決“誰拿走啥”的問題
除了顧客,還有商品的問題。顧客在購物時并不是一直走直線路線,他們可能會移動商品,聞聞氣味再放回去,然后去另一個貨架。尤其是當(dāng)一個貨架上有多位顧客時,系統(tǒng)模型很難識別是哪位顧客取走了商品,以及顧客是否真的想要購買取走的商品。
亞馬遜通過部署人體姿態(tài)檢測系統(tǒng)和人體行為檢測系統(tǒng)來分析顧客的行為意圖。這基本上是人工智能與計算機(jī)視覺結(jié)合的另一種方式。它的作用是測量顧客的位置和運(yùn)動,預(yù)測顧客取走了什么商品,以及該商品是否被購買。
這解決了貨架上有多個顧客的問題,且在相機(jī)被遮擋時,也有助于識別是哪位顧客取走了哪些商品。
3.識別相似的商品
此外,我們還需要處理商品包裝相似的問題。有些商品的外觀差異很小,這使得系統(tǒng)模型很難獲取商品的所有細(xì)節(jié),尤其是當(dāng)畫面中有障礙物,或者商品在快速移動時。我們可以通過訓(xùn)練模型并使用具有更高分辨率和幀速率的攝像頭來識別細(xì)節(jié)以解決這個問題。
雖然使用自動結(jié)賬看起來優(yōu)勢很多,但這種系統(tǒng)異常復(fù)雜。對一家技術(shù)優(yōu)先的公司來說可能不是問題,但對于普通零售商來說,這種自動化帶來的收益恐怕會被人工智能的成本負(fù)擔(dān)削弱。這就是為什么采用基于計算機(jī)視覺的部分自動化可能更契合普通零售商的場景需求。
四、自動售貨機(jī)商店的部分自動化
我們可以在店內(nèi)或其他室內(nèi)外位置放置自動售貨機(jī),這就可以很好地解決追蹤全店所帶來的問題。自動售貨機(jī)可以用帶有玻璃門的貨架或配備計算機(jī)視覺攝像頭的普通冰箱來執(zhí)行購買流程。通過安裝二維碼掃描器,我們可以將結(jié)賬流程最小化到單個冰箱的位置。因此,這個設(shè)想的流程也很簡單:
購物環(huán)節(jié)開始。一旦有人接近并打開冰箱,購物環(huán)節(jié)就開始了。如果冰箱門是關(guān)閉的,可以通過移動應(yīng)用程序掃描二維碼來開始購物行為。在普通貨架的場景中,攝像頭可以追蹤從貨架中取下的商品以啟動購物環(huán)節(jié)。
創(chuàng)建虛擬購物車。當(dāng)顧客掃描二維碼時,系統(tǒng)就會收到為該客戶創(chuàng)建購物車的信號。
商品識別。攝像頭可以安裝在自動售貨機(jī)的內(nèi)部或外部。內(nèi)部攝像頭需要追蹤取出/放回的商品。外部攝像頭需要追蹤打開冰箱的操作,就像使用普通貨架一樣。兩種類型的攝像頭都可以捕獲商品并將其放入購物車。
由于顧客可能會檢查多個商品并將商品從一側(cè)移動至另一側(cè),因此計算機(jī)視覺攝像頭還可以追蹤貨架旁的顧客。這將幫助我們驗證購買的是同一位顧客,而非站在附近的另一位顧客。
商品驗證。當(dāng)商品被取走時,系統(tǒng)會將商品的圖像與數(shù)據(jù)庫中的圖像進(jìn)行比對并獲取商品價格。此外,我們可以在庫存管理系統(tǒng)中自動更新商品數(shù)量。
編輯購物清單。一旦商品被取走,系統(tǒng)會將其發(fā)送到顧客智能手機(jī)中的購物車或展示在冰箱的顯示面板上。此時,顧客可以修改購物清單,然后進(jìn)行付款。
結(jié)賬。在移動應(yīng)用程序和掃描二維碼的場景中,關(guān)閉冰箱可能是完成購買并從數(shù)字錢包中扣款的觸發(fā)條件。但是,這里也可能安裝一個POS終端以允許信用卡支付。至此,購物完成,顧客就可以離開商店了。
盡管它看起來是自動結(jié)賬系統(tǒng)相對較弱的替代品,但自動售貨機(jī)可以輕松擴(kuò)展以實現(xiàn)整個商店的自動化。這在客戶體驗方面略有不同,且僅需要較少的開發(fā)工作和預(yù)算。
模塊自動化的概念可以應(yīng)用于許多場景。除了超市和雜貨店,計算機(jī)視覺售貨服務(wù)也可以安裝在食品服務(wù)場所或咖啡店。
五、食品免結(jié)賬服務(wù)
餐廳、咖啡廳和食堂經(jīng)常使用自助餐服務(wù)系統(tǒng),例如餐具柜,顧客可以從中選擇盛裝好的菜肴。顧客將盤子放在托盤上,然后系統(tǒng)需要檢查他們的訂單,這可能就是計算機(jī)視覺信息服務(wù)處理的。
位于后端的機(jī)器學(xué)習(xí)模型可以被訓(xùn)練為能夠識別放置在托盤上的盤子和其他商品以啟動結(jié)賬流程。這個想法可以通過攝像頭來設(shè)計成一種結(jié)賬服務(wù),其中攝像頭負(fù)責(zé)掃描訂單。實際支付可以通過普通的POS終端或使用移動應(yīng)用程序和數(shù)字錢包完成。
無收銀員操作的概念在星巴克發(fā)揮到了極致。通過使用亞馬遜的系統(tǒng),星巴克成為第一家即拿即走咖啡店??蛻艨梢酝ㄟ^移動應(yīng)用程序下訂單,然后來店里喝咖啡,就像亞馬遜無人售貨商店那樣進(jìn)行結(jié)賬。然而,開展計算機(jī)視覺項目需要具備專業(yè)知識,具體來說,需要數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的專業(yè)知識。
所以,現(xiàn)在讓我們來聊聊基于計算機(jī)視覺的自動化結(jié)賬,你需要了解什么。
六、如何處理基于人工智能的結(jié)賬流程?
根據(jù)經(jīng)驗,創(chuàng)建用于零售自動化的計算機(jī)視覺系統(tǒng)需要很多步驟。我們將專注于基于智能冰箱的零售領(lǐng)域,因為這是最易于接受和用途最廣泛的售賣方式。
1.收集需求
首先,我們需要詳細(xì)了解相關(guān)的商業(yè)案例:
首選的零售自動化方法。配備智能冰箱或其他類型的自動售貨機(jī)可能需要對商店全局進(jìn)行少量改造,在改造的同時需要保持易于擴(kuò)展的需求。全面的商店自動化主要需要改變場地布局,以及需要類似旋轉(zhuǎn)門這樣的額外硬件,這對大多數(shù)店主來說是重要的成本負(fù)擔(dān)。
店鋪規(guī)模。自動售貨機(jī)的安裝數(shù)量需要涵蓋商店的所有庫存并滿足商品多樣性的需求。因此,店鋪規(guī)模將決定你需要多少臺自動售貨機(jī),以及部分智能冰箱在店鋪內(nèi)的布局。
需要識別的商品數(shù)量。與其他機(jī)器學(xué)習(xí)項目一樣,計算機(jī)視覺系統(tǒng)需要經(jīng)過訓(xùn)練才能識別商品。一個冰箱可能包含20到50種不同的商品,所以我們應(yīng)該考慮這些數(shù)字,因為它將決定需要多長時間來訓(xùn)練計算機(jī)視覺系統(tǒng)。
現(xiàn)有的基礎(chǔ)設(shè)施。在大多數(shù)情況下,實體店鋪在庫存管理、銷售點(diǎn)和財務(wù)之間缺乏足夠的資源整合。但是,計算機(jī)視覺系統(tǒng)將需要訪問商店數(shù)據(jù)來自動更新銷售數(shù)據(jù)和商品庫存。因此,在考慮該項目的需求時,檢查現(xiàn)有基礎(chǔ)設(shè)施是另一個需要評估的因素。
此外,假設(shè)單個冰箱可以包含35件商品,我們也需要關(guān)注這些數(shù)字。
2.數(shù)據(jù)收集
計算機(jī)視覺是一種人工智能技術(shù)。這意味著,我們需要數(shù)據(jù)對其訓(xùn)練才能識別商品。這些數(shù)據(jù)用于模型訓(xùn)練,以識別貨架中的不同商品,以及識別顧客及其取走的商品。
為商品識別收集數(shù)據(jù)的最佳方式是在不同角度和光線條件下將每個商品記錄在視頻中。將這些視頻按商品進(jìn)行分類,以確保系統(tǒng)能夠自動對貨架中的商品進(jìn)行標(biāo)記并形成對應(yīng)的標(biāo)簽。通常建議在收集數(shù)據(jù)時,盡可能接近真實用戶的觀察方式。
建立了自動結(jié)賬的工作模型后,我們將需要每秒60幀圖像信息。這是確保模型快速運(yùn)行的必要條件。幀率越高,圖像越平滑,我們可以從中提取的細(xì)節(jié)越多。
3.模型訓(xùn)練
下一步是訓(xùn)練。一旦我們收集到所有的視頻記錄,機(jī)器學(xué)習(xí)專家將為模型訓(xùn)練做好準(zhǔn)備。這個過程可以分為兩個任務(wù)。
(1)準(zhǔn)備數(shù)據(jù)
意味著我們需要將所有視頻幀分割成單獨(dú)的圖像,并標(biāo)記我們需要檢測的商品。簡而言之,我們從一分鐘長的視頻中提取60張照片,并在目標(biāo)對象周圍繪制邊界。
(2)選擇算法
算法是一種數(shù)學(xué)模型,它從給定的數(shù)據(jù)中學(xué)習(xí)圖案以進(jìn)行預(yù)測。對于對象識別等任務(wù),有現(xiàn)成的工作算法可用于構(gòu)建模型。所以我們這里的任務(wù)是選擇一個合適的算法,并將我們的數(shù)據(jù)傳遞給它。
為了獲得較高的識別準(zhǔn)確性,訓(xùn)練過程可能要持續(xù)數(shù)周時間。
4.模型再訓(xùn)練
如果在模型訓(xùn)練的過程中添加或調(diào)換了任何商品,就需要重新訓(xùn)練模型。這是因為預(yù)測結(jié)果會因數(shù)據(jù)輸入的變化而發(fā)生改變。這意味著商店每次添加新商品并將它們放入基于計算機(jī)視覺的智能冰箱銷售時,我們都需要為模型啟動一個新的訓(xùn)練階段來學(xué)習(xí)新商品。
在這種情況下,如果之前商品中沒有任何品牌薯片,我們就需要重新訓(xùn)練以識別圖像上的品牌包裝。不過,一旦我們在冰箱中安裝攝像頭,這就會變得很容易,因為我們可以使用實時影像來進(jìn)行備注并再次啟動訓(xùn)練。
5.必要的基礎(chǔ)設(shè)施
商店中現(xiàn)有的基礎(chǔ)設(shè)施通常是管理庫存的服務(wù)器,并通過POS終端記錄銷售情況。要建立機(jī)器學(xué)習(xí)模型,我們需要添加幾個組件:
攝像頭:用來記錄和傳輸視覺信息。
視頻處理單元:可以是視頻卡或單板計算機(jī),例如Nvidia Jetson,其中包括針對計算機(jī)視覺需求優(yōu)化過的GPU。
二維碼:這張紙貼在旋轉(zhuǎn)門或智能冰箱上,顧客通過掃描此二維碼來識別身份并啟動購物流程。
模型服務(wù)器:當(dāng)我們談?wù)搶崟r視頻處理時,在商店部署硬件服務(wù)器可以確保穩(wěn)定的結(jié)果輸出。最基本的,當(dāng)顧客從冰箱里取商品時,系統(tǒng)的運(yùn)行無需引起顧客的注意,這樣的硬件配置才能快速響應(yīng)并處理顧客的購買行為。
因為每個單元之間都有數(shù)據(jù)流進(jìn)行交互,所有這些組件都應(yīng)相互連接。至于攝像頭,我們需要確保商店有快速且穩(wěn)定的帶寬。由于攝像頭會實時處理視頻數(shù)據(jù)流,因此模型需要在沒有網(wǎng)絡(luò)延遲的情況下運(yùn)行。另一方面,客戶會期望自動售貨機(jī)快速對自身行為做出反應(yīng),而這將取決于模型接受和處理數(shù)據(jù)的速度。
——Daniil Liadov Python工程師
6.隱私問題
零售商和顧客可能都會關(guān)注隱私問題。由于計算機(jī)視覺旨在檢測和跟蹤視頻中的對象,因此記錄和存儲此類數(shù)據(jù)可能會違反某些國家/地區(qū)的隱私法律。
不過,美國的商店使用監(jiān)控攝像頭通常是合法的。只要是使用隨機(jī)ID跟蹤顧客,并且僅以完成結(jié)賬任務(wù)為目的,就不需要使用人臉識別一類的技術(shù)。即使攝像頭捕捉到人臉信息,也可以使用AI技術(shù)對其進(jìn)行模糊處理以保障顧客的隱私權(quán)。
七、AI自助結(jié)賬適用于所有零售商嗎?
在所有的系統(tǒng)中,自動結(jié)賬似乎是一件燒錢且復(fù)雜的事情,但顧客還是很愿意使用更方便的結(jié)賬方式。2021年零售客戶體驗報告指出,60%的消費(fèi)者會選擇自助結(jié)賬而不是通過收銀員。
因此,自動售貨機(jī)對于零售行業(yè)來說可能是性價比較高的選擇,因為它的成本適當(dāng),又有很多好處。此外,由于機(jī)器學(xué)習(xí)模型的靈活性,可以定制此類系統(tǒng)以滿足特殊零售商的特殊需求?;旧?,任何類型的商品都可以通過適當(dāng)?shù)挠?xùn)練來進(jìn)行商品識別。因此,便利店并非唯一可從計算機(jī)視覺應(yīng)用中獲得收益的零售模式。
原文鏈接:https://hackernoon.com/how-to-build-your-own-automated-self-checkout-service
譯者介紹
仇凱,51CTO社區(qū)編輯,目前就職于北京宅急送快運(yùn)股份有限公司,職位為信息安全工程師。主要負(fù)責(zé)公司信息安全規(guī)劃和建設(shè)(等保,ISO27001),日常主要工作內(nèi)容為安全方案制定和落地、內(nèi)部安全審計和風(fēng)險評估以及管理。