自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打臉淘寶,顛覆電商!這家時尚公司用算法引領(lǐng)新零售

原創(chuàng)
開發(fā) 架構(gòu) 算法
本次分享的主題是數(shù)據(jù)驅(qū)動的決策輔助跟產(chǎn)品智能化的兩大部分內(nèi)容,主要涉及我在數(shù)據(jù)科學(xué)中探索的心得體會和數(shù)據(jù)驅(qū)動的創(chuàng)業(yè)公司 Stitch Fix 的商業(yè)模式、業(yè)務(wù)流程、參考特征及推薦算法。

【51CTO.com原創(chuàng)稿件】我分享的主題是數(shù)據(jù)驅(qū)動的決策輔助跟產(chǎn)品智能化的兩大部分內(nèi)容,主要涉及我在數(shù)據(jù)科學(xué)中探索的心得體會和數(shù)據(jù)驅(qū)動的創(chuàng)業(yè)公司 Stitch Fix 的商業(yè)模式、業(yè)務(wù)流程、參考特征及推薦算法。

數(shù)據(jù)科學(xué)中探索的心得和體會

數(shù)據(jù)科學(xué)可從被 Google 收購的大數(shù)據(jù)競賽平臺 Kaggle 說起,Kaggle 是規(guī)模很大的數(shù)據(jù)科學(xué)家社區(qū),創(chuàng)立于 2010 年,專注于數(shù)據(jù)科學(xué)、機器學(xué)習(xí)競賽的舉辦。

在 C 端,它很快吸引了大量數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)開發(fā)者的參與。在 B 端,Kaggle 的模式也對接了大批優(yōu)秀企業(yè),為現(xiàn)實中的各類商業(yè)難題探尋算法和解決方案。

而它基于社區(qū)提供的招聘服務(wù)以及名為 Kaggle Kernels 的代碼分享工具也是社區(qū)運營的關(guān)鍵競爭力。

大家經(jīng)常會說 Kaggle 是玩數(shù)據(jù)的平臺,ML 的開發(fā)者們展示功力、揚名立萬的江湖。如果是學(xué)習(xí)數(shù)據(jù)科學(xué)剛?cè)胄?,想要找工作,可先?Kaggle 上參加幾次競賽。

如下圖,是 Kaggle 的兩個習(xí)題:

  • 回歸分析預(yù)測房價。
  • 分類問題。

 

回歸分析預(yù)測房價。這是預(yù)測美國中西部一個只有十萬人左右的大學(xué)城。數(shù)據(jù)給出 79 個解釋變量,如質(zhì)量打分、形狀(規(guī)則/不太規(guī)則/很不規(guī)則)、居住面積、路面(鋪碎石/柏油路)等,通過這些分析解釋變量,就可以預(yù)測房價。

如圖,Y 軸是銷售價格,X 軸是從 1-10 的質(zhì)量打分,可以看出,當(dāng)質(zhì)量打分增加,售價也同時以遞增的速度增加。

分類問題。這個是對谷歌的視頻打標(biāo)簽,使用 Youtube-8M 作為訓(xùn)練數(shù)據(jù),視頻是百萬量級,每個視頻對應(yīng) 3-5 標(biāo)簽,總共標(biāo)簽數(shù)是 4000 左右。

從給定的訓(xùn)練集中抽象出一些模型來,移動到測試集。問題產(chǎn)出是針對每一個視頻,可以預(yù)測一列標(biāo)簽,可以根據(jù)置信度對標(biāo)簽進行排序。

在 Kaggle 數(shù)據(jù)競賽中,數(shù)據(jù)都是預(yù)處理好的,基本變成行和列的表格狀數(shù)據(jù)。所以可以省掉很多原始數(shù)據(jù)預(yù)處理的過程。

如下圖,是基本的數(shù)據(jù)科學(xué)流程:

 

 

 

開始要先搜集原始數(shù)據(jù)(CRM、歷史交易等),還有網(wǎng)站分析或?qū)τ脩?APP 行為進行埋點,根據(jù)這些埋點追蹤用戶的行為。

之后,對原始數(shù)據(jù)進行預(yù)處理,也叫數(shù)據(jù)清洗,因為原始數(shù)據(jù)會有很多冗余、重復(fù)信息、變量缺失以及錯誤?;谇逑催^的數(shù)據(jù)集,可以做一些探索性分析和機器學(xué)習(xí)。

數(shù)據(jù)科學(xué)的用途與數(shù)據(jù)產(chǎn)品

在數(shù)據(jù)科學(xué)的探索與分析方面,尿片和啤酒是很經(jīng)典的案例。很多分析師會對商品信息進行歸類以及監(jiān)督商品的相關(guān)度。

一般情況,大多數(shù)的商品相關(guān)度都很低,約在 0.1 左右,啤酒跟尿片的相關(guān)度是 0.3 左右。針對這個奇怪的現(xiàn)象,分析師們做了分析,發(fā)現(xiàn)很多父親晚上去超市給嬰兒買尿片的同時也會買啤酒來自己喝。

這樣一來,超市排放商品時可以把相關(guān)度比較高的商品放在一起,方便顧客挑選。所以對數(shù)據(jù)科學(xué)來講,通過數(shù)據(jù)分析、建??梢缘玫揭恍┛梢宰屓诵欧男畔ⅲ阌谧鰶Q策輔助。

另外就是生成分析型和智能化數(shù)據(jù)產(chǎn)品

  • 分析類數(shù)據(jù)產(chǎn)品。如現(xiàn)在了解當(dāng)前北京實時交通狀況,可以找一些網(wǎng)上數(shù)據(jù)源,針對這些數(shù)據(jù)源做一些數(shù)據(jù)可視化和交互式分析。這樣數(shù)據(jù)產(chǎn)品可以呈現(xiàn)數(shù)據(jù)和定時更新數(shù)據(jù)內(nèi)容,這就是一個分析型數(shù)據(jù)產(chǎn)品。
  • 智能化數(shù)據(jù)產(chǎn)品。如基于機器學(xué)習(xí)實現(xiàn)的搜索引擎,廣告推薦系統(tǒng)等可定義為智能化數(shù)據(jù)產(chǎn)品。

數(shù)據(jù)科學(xué)家分類

數(shù)據(jù)科學(xué)家可劃分為 Analytics 和 Machine Learning 兩類,但是也有很多人兼顧兩個角色,相互轉(zhuǎn)換。

Analytics 更多時候是問題導(dǎo)向,如購物平臺上用戶在工作時間和下班后消費習(xí)慣的差異。最初可以針對總體綜合信息進行分析,然后在結(jié)果的基礎(chǔ)上做更細(xì)化的分析。可把用戶按照城市、地理位置、用戶使用的客戶端來分類細(xì)化。

這里整個過程是交互式的,就是不斷提出新問題,通過分析解決問題,然后再提出新的問題,最終目的是做決策輔助。

Machine Learning 主要是指標(biāo)驅(qū)動,如提高廣告平臺上用戶的轉(zhuǎn)化率。轉(zhuǎn)化率就是從用戶點擊廣告到生成轉(zhuǎn)化或用戶訪問網(wǎng)站和下載 APP。

通過應(yīng)用新模型或?qū)ΜF(xiàn)有系統(tǒng)當(dāng)前參數(shù)進行改良來提升指標(biāo),最終目的是生成智能化的產(chǎn)品,當(dāng)然中間還要考慮規(guī)?;妥詣踊?/p>

Stitch Fix 的商業(yè)和業(yè)務(wù)模式

Stitch Fix 的商業(yè)模式

Stitch Fix 的商業(yè)模式和 Netflix 早期的商業(yè)模式很相似,在約 2004、2005 年的時候,Netflix 的商業(yè)模式主要是用戶可以在網(wǎng)上建一個自己想看的電影隊列,建成這樣一個隊列以后,Netflix會把電影寄到用戶的家里。

Stitch Fix 采用直郵的模式,只不過它是電商+直郵+推薦?,F(xiàn)在,Stitch Fix 是一個在線個性化服裝推薦的公司。用戶注冊后,系統(tǒng)會推薦一些衣服寄到家里,用戶可以根據(jù)自己的興趣偏好決定要不要購買這些衣服。

Stitch Fix 主要解決用戶的以下購物痛點:

  • 在我們生活中大部分人都非常忙碌,沒有時間上街購物。
  • 有些用戶可能想發(fā)掘新的穿著偏好或是一些穿搭的體會。
  • 很多追隨時尚潮流的人,想試用一下不同的場景等。

Stitch Fix 的業(yè)務(wù)模式

如下圖,從用戶方面看 Stitch Fix 的業(yè)務(wù)流程:

 

 

 

從用戶的角度看,用戶需要填寫個人風(fēng)格問卷。問卷涉及購買衣服時會考慮到的常規(guī)問題,如顏色、價格、尺寸等等。

Stitch Fix 會搜集用戶個人風(fēng)格問卷,結(jié)合算法和造型師的建議進行推薦。之后,用戶會收到五件不同的衣服,可在方便的地方試穿及與其他衣服進行搭配,喜歡留下來,不喜歡退回。

Stitch Fix 在做推薦衣服或人和貨匹配時,采用的是人機協(xié)同方式,不是純粹靠機器算法,也不是純粹靠人工,優(yōu)勢互補實現(xiàn) 1 +1 > 2 的效果。

如下圖,是人機協(xié)同推薦衣服:

 

 

 

通過算法:

  • 可對大量庫存 SUK 篩選和排序,這點人工是比較難實現(xiàn)的,當(dāng)庫存量到峰值時會高達(dá)幾十萬甚至上百萬,從中進行人為篩選很耗時。
  • 可基于試穿模式從大規(guī)模數(shù)據(jù)中找到每個人適合的 Pattern。
  • 可發(fā)現(xiàn)某一類顏色衣服可能在某一個年齡段用戶銷售的特別好。
  • 可對系統(tǒng)進行降噪操作,因為不同的造型師挑選會有差異。

如下圖,是人和算法協(xié)同工作:

 

構(gòu)建人和算法協(xié)同系統(tǒng),讓兩者優(yōu)勢互補,真正實現(xiàn)1+1>2。人可以處理系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù),如文本數(shù)據(jù)、照片等。

也可以和用戶進行感情溝通,如造型師和用戶之間,多做情感溝通,大家會更加信任。還可以有更多的創(chuàng)造性,這樣算法就可免于被邊緣的情況。

 

如上圖,左邊是計算機,右邊是人,計算機可處理比較繁重的重復(fù)性計算,另外計算機的短期記憶與長期記憶都是人所不能媲美的。

人能很好處理非數(shù)據(jù)化結(jié)構(gòu)、對照片進行美化及建立更好的人機關(guān)系。還可以處理敏感度,例如,這樣一句話:把話筒放在地上,上面還有一本書。其中“上面”大家都知道是地上,但是這樣的場景讓機器學(xué)習(xí)的話是很難的。

Stitch Fix 的數(shù)據(jù)團隊概況與職責(zé)

如下圖,是 Stitch Fix 的數(shù)據(jù)團隊概況:

 

Stitch Fix 團隊約 80 人左右,主要分為客戶、推薦、庫存和數(shù)據(jù)平臺四個小團隊。數(shù)據(jù)平臺團隊的大數(shù)據(jù)架構(gòu)和自動化分析流程,支撐其他三個團隊,這三個團隊和事業(yè)部一一對應(yīng)。

客戶團隊主要是做精準(zhǔn)營銷、需求預(yù)測、用戶畫像、客服分析。需求預(yù)測方面主要考慮用戶穩(wěn)定增長,需求的季節(jié)性以及訂閱式用戶。

推薦團隊主要做人貨匹配、用戶造型師匹配、Human Computation 和造型師行為分析。

當(dāng)用戶發(fā)出請求,會把造型師匹配給用戶,Human Computation主要是在虛擬環(huán)境下,研究造型師的行為,如一些歷史購買或退回的數(shù)據(jù),基于這些數(shù)據(jù)抽樣,構(gòu)造虛擬環(huán)境提供給造型師挑選衣服。

在已知購買和退回的情況下,控制展示造型師的信息。同時研究不同展示的情況下對造型師的成功率產(chǎn)生的影響。造型師行為分析則通過日志,對造型師的實際揀選行為進行分析。

庫存團隊主要做庫存預(yù)測、基于算法清倉和打標(biāo)簽。

庫存隨時性很大,有倉庫庫存商品,還有從庫存寄到用戶家,在用戶家里停留,以及用戶不買的產(chǎn)品退回來的商品,所以要對庫存進行預(yù)測。還有對商品打標(biāo)簽,有了標(biāo)簽數(shù)據(jù)就可以做更好的匹配。

Stitch Fix的智能化物流

智能化物流—倉庫分配

Stitch Fix 采用的是單一倉庫發(fā)貨,單一包裹的方式。

如下圖,是選倉發(fā)貨:

 

Stitch Fix 有五個倉庫,當(dāng)用戶發(fā)來請求,首先進行倉庫的選擇。在選倉的同時考慮運費、投遞時間、庫存匹配等。倉庫不斷有商品出售,因此庫存會不斷消耗,不同庫存和用戶維度在實時變化。

智能化物流—造型師匹配

如下圖,是用戶造型師匹配表:

 

基于交易歷史、用戶對造型師打分和兩者資料的匹配情況。它會考慮到用戶跟造型師的屬性,如用戶是媽媽,會盡可能推薦一位也是媽媽的造型師。

智能化物流—人貨匹配

如下圖,是基于用戶和過去產(chǎn)品交易的特征建模:

 

人貨匹配可以理解為比較傳統(tǒng)的機器學(xué)習(xí)算法,一種方法是協(xié)同過濾。協(xié)同過濾不用用戶特征和產(chǎn)品特征,只需用戶和過去產(chǎn)品交易的特征。

另一種方法是基于用戶特征和產(chǎn)品特征建模,用戶特征部分 Stitch Fix 有用戶問卷;產(chǎn)品特征部分,通過邏輯回歸,支持向量機,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到。

如下圖,是用戶問卷特征:

 

圖中可以看到,對一個用戶會搜集他的數(shù)據(jù),包括年齡、位置、職業(yè),還有用戶的身材尺寸,顏色偏好等等。

Stitch Fix 還設(shè)計了一個樣式彩虹概念,把每個用戶樣式、偏好放在七維空間,七維包括經(jīng)典、浪漫、波希米亞風(fēng)、前衛(wèi)、閃亮、休閑和制服式等。

除此之外可以根據(jù)交易歷史得到隱式尺寸,如用戶尺寸是從小到大,在不同范圍里會通過模型預(yù)測一些隱式尺寸來把用戶放到同一個范圍內(nèi)。

如下圖,是產(chǎn)品特征:

 

產(chǎn)品特征是通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的,通過分析圖片,對每一個產(chǎn)品的圖片放到深度神經(jīng)網(wǎng)絡(luò)中,生產(chǎn)一些進程,把每一件產(chǎn)品進程可計算產(chǎn)品相似度矩陣,這樣就可以用鄰近法進行推薦。

Stitch Fix 的推薦算法

在算法方面,Stitch Fix 主要是在開源庫的基礎(chǔ)上自研,這樣的模式比較像臉書。

如下圖,Stitch Fix 主算法 Mixed-effect logistic regression 混合效應(yīng)邏輯回歸:

 

在矩陣中,每一行代表一個用戶,每一列代表一個產(chǎn)品。還有用戶特征、產(chǎn)品特征以及一些匹配反饋。之后通過建模預(yù)測這些數(shù)據(jù),這個模型就是帶有混合效應(yīng)的邏輯回歸。

推薦算法的挑戰(zhàn)

對于推薦算法而言,最需要考慮的是以什么指標(biāo)排序?比如用交易數(shù)據(jù)、購買率?

Naïve 的方案是忽略造型師選擇,對交易數(shù)據(jù)建模。

 

交易數(shù)據(jù)就是每一個用戶,每次郵寄的物件產(chǎn)品,哪些被購買、哪些被退回。這樣做的好處是用傳統(tǒng)機器學(xué)習(xí)就可以解決問題,交易數(shù)據(jù)的數(shù)據(jù)量不是很大。

但是,我們?nèi)绻娴挠眠@樣的方式,就會遇到很多問題。如刪除數(shù)據(jù):

 

當(dāng)用戶有特殊請求時,如有用戶不喜歡無袖,造型師就不會推薦,這部分?jǐn)?shù)據(jù)在交易數(shù)據(jù)中就體現(xiàn)不出來,對于這樣的用戶就沒辦法估計這些產(chǎn)品在這些用戶推薦的成功率。

購買率不一定是好的排序指標(biāo)

如下兩圖,是兩件衣服購買率的比較:

 

 

圖中可以看到第一件是覆蓋率比較低的,大圈是所有用戶群,在所有用戶群中只有很小一部分用戶挑選了這個產(chǎn)品,因為這個產(chǎn)品是比較前衛(wèi)的,雖受眾較小,但知道應(yīng)該選給誰,購買率很高。

第二件比較中性、百搭,給誰都可以,但是造型師不太清楚哪些是購買客戶。所以選中用戶圈覆蓋很大,但高覆蓋率下是低購買率。

如下圖,如果用購買率做指標(biāo)需要把第一件排前:

 

這樣做排序還需要注意一個很重要的因素就是造型師選擇過程中會有選擇性偏差,解決這個偏差可以采用 Heckman 兩階段模型。

總結(jié)

本文主分享了數(shù)據(jù)科學(xué)的一些心得體會以及 Stitch Fix 的一些關(guān)鍵技術(shù)。如果讀者對數(shù)據(jù)科學(xué)感興趣,個人建議有三個詞:興趣、實戰(zhàn)、分享。

  • 興趣:高山仰止,雖不能至,然心向往之。
  • 實戰(zhàn):千里之行始于足下。
  • 分享:獨樂樂不如眾樂樂。

以上內(nèi)容根據(jù)王建強老師在 WOTA2017 “大數(shù)據(jù)應(yīng)用創(chuàng)新”專場的演講內(nèi)容整理。

[[201233]]

前Twitter美國總部技術(shù)主管、中科大管理科學(xué)學(xué)士,2008 年獲 Lowa State University統(tǒng)計學(xué)博士。曾任科羅拉多州立大學(xué)(Colorado State University)統(tǒng)計系客座教授,美國國家統(tǒng)計院(National Institute of Statistical Sciences)和美國農(nóng)業(yè)部聯(lián)合培養(yǎng)的博士后,惠普研究院(Hewlett-Packard Labs)高級科學(xué)家,推特廣告組數(shù)據(jù)科學(xué)家。他有多年數(shù)據(jù)分析及建模經(jīng)驗,涉及領(lǐng)域有需求預(yù)測,供應(yīng)鏈管理,廣告點擊率預(yù)測,廣告排序,推薦算法,統(tǒng)計預(yù)測模型。對數(shù)據(jù)科學(xué)教育,互聯(lián)網(wǎng)廣告和新興的零售業(yè)模式有興趣。

【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2015-11-17 15:50:04

A商APPAPP電商

2023-04-23 10:25:40

物聯(lián)網(wǎng)IOT

2017-12-07 14:50:57

零售物流商貿(mào)

2018-03-20 09:56:50

新零售

2017-03-13 10:57:40

2017-09-12 16:58:00

2019-03-21 19:19:35

新零售阿里云零售云

2018-05-10 09:44:57

新零售 供應(yīng)鏈

2019-05-23 15:28:33

騰訊阿里新零售

2019-07-17 05:33:33

零售物聯(lián)網(wǎng)IOT

2017-09-30 10:00:41

2018-11-01 10:45:42

AI

2018-01-22 10:33:01

云計算 新零售

2022-05-03 23:37:26

區(qū)塊鏈加密貨幣零售支付

2012-07-23 16:22:07

Oracle

2015-06-30 15:23:48

物聯(lián)網(wǎng)零售行業(yè)

2017-09-27 10:48:31

2014-02-27 14:09:46

實體零售

2023-01-17 15:13:23

2018-05-03 07:45:50

新零售無人超市自助貨柜
點贊
收藏

51CTO技術(shù)棧公眾號