自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

提升深度學(xué)習(xí)模型預(yù)測(cè)質(zhì)量的秘密武器——上下文感知數(shù)據(jù)

譯文 精選
人工智能 深度學(xué)習(xí)
本文中,我們將探討如何借助于上下文感知數(shù)據(jù)工程化方案實(shí)現(xiàn)在深度學(xué)習(xí)中設(shè)計(jì)出更具魯棒性和更準(zhǔn)確的預(yù)測(cè)模型。

譯者 | 朱先忠

審校 | 孫淑娟

在本文中,我想和大家分享我優(yōu)化深度學(xué)習(xí)模型輸入數(shù)據(jù)的方法。作為一名數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師,我已經(jīng)成功地將這一技巧應(yīng)用于自己的工作中。您將通過一些具體的實(shí)際開發(fā)案例來學(xué)習(xí)如何使用上下文信息來豐富模型輸入數(shù)據(jù)。這將有助于您能夠設(shè)計(jì)出更為穩(wěn)健和更準(zhǔn)確的深度學(xué)習(xí)模型。

深度學(xué)習(xí)模型非常強(qiáng)大,因?yàn)樗鼈兎浅I朴谡仙舷挛男畔?。我們可以通過向原始數(shù)據(jù)的維度添加幾個(gè)上下文來提高神經(jīng)網(wǎng)絡(luò)的性能。我們可以通過一些巧妙的數(shù)據(jù)工程化來實(shí)現(xiàn)這種目標(biāo)。

當(dāng)你開發(fā)一個(gè)新的預(yù)測(cè)性深度學(xué)習(xí)算法時(shí),你可能會(huì)選擇一個(gè)完全適合你特定使用場(chǎng)景的模型架構(gòu)。根據(jù)輸入數(shù)據(jù)和實(shí)際的預(yù)測(cè)任務(wù),你可能已經(jīng)想到了很多方法:如果是打算對(duì)圖像進(jìn)行分類的話,那么你很可能會(huì)選擇卷積神經(jīng)網(wǎng)絡(luò);如果是預(yù)測(cè)時(shí)間序列或者是分析文本,那么LSTM網(wǎng)絡(luò)可能是一個(gè)很有前途的選擇方案。通常,關(guān)于正確的模型架構(gòu)的決策主要由流入模型的數(shù)據(jù)類型決定。

如此一來,找到正確的輸入數(shù)據(jù)結(jié)構(gòu)(即定義模型的輸入層)就成為模型設(shè)計(jì)中最關(guān)鍵的步驟之一。我通常將更多的開發(fā)時(shí)間投入到輸入數(shù)據(jù)的形狀設(shè)計(jì)上,而不是其他任何事情上。需要明確的是,我們不必處理給定的原始數(shù)據(jù)結(jié)構(gòu),只需找到合適的模型即可。神經(jīng)網(wǎng)絡(luò)在其內(nèi)部處理特征工程化和特征選擇(“端到端建?!保┑哪芰Σ⒉荒苁刮覀兠庥趦?yōu)化輸入數(shù)據(jù)的結(jié)構(gòu)。我們應(yīng)該以這樣一種方式為數(shù)據(jù)服務(wù),即模型可以從中獲得最佳意義,并做出最明智的決策(即最準(zhǔn)確的預(yù)測(cè))。這里的“秘密”因素正是上下文信息。也就是說,我們應(yīng)該用盡可能多的上下文來豐富原始數(shù)據(jù)。

什么是上下文?

那么,上面我具體說的“上下文”是什么意思呢?不妨讓我們來舉個(gè)例子?,旣愂且幻麛?shù)據(jù)科學(xué)家,她正在開展一項(xiàng)新的工作,為一家飲料零售公司開發(fā)銷售預(yù)測(cè)系統(tǒng)。簡(jiǎn)而言之,她的任務(wù)是:給定一家特定的商店和一種特定的產(chǎn)品(檸檬水、橙汁、啤酒……),她的模型應(yīng)該能夠預(yù)測(cè)該產(chǎn)品在特定商店的未來銷量。預(yù)測(cè)將應(yīng)用于數(shù)百家不同商店提供的數(shù)千種不同產(chǎn)品。到目前為止,系統(tǒng)一直都還運(yùn)行得不錯(cuò)?,旣惖牡谝惶焓侨チ虽N售部,那里的預(yù)測(cè)工作已經(jīng)完成了,盡管是由經(jīng)驗(yàn)豐富的銷售會(huì)計(jì)彼得斯手動(dòng)完成的。她的目標(biāo)是了解這位領(lǐng)域?qū)<一谑裁礃拥幕A(chǔ)決定未來某一特定產(chǎn)品的需求量。作為一名優(yōu)秀的數(shù)據(jù)科學(xué)家,瑪麗預(yù)計(jì)彼得斯多年的經(jīng)驗(yàn)將非常有助于定義哪些數(shù)據(jù)可能對(duì)模型更有價(jià)值。為了找到答案,瑪麗問了彼得斯兩個(gè)問題。

第一個(gè)問題:“你是通過分析什么數(shù)據(jù)來計(jì)算下個(gè)月我們將在柏林的商店里銷售多少瓶特定品牌的檸檬水?你是如何解釋這些數(shù)據(jù)的?”

彼得斯回答道:“隨著時(shí)間的推移,我們?cè)诎亓值臋幟仕N售上邁出了第一步”。隨后,他繪制了以下圖表來說明他的策略:

在上圖中,我們看到有一條連續(xù)的曲線,在7月/8月(柏林夏季時(shí)間)出現(xiàn)高峰。夏季氣溫較高,人們更喜歡吃點(diǎn)心,所以產(chǎn)品的銷量會(huì)增加,這一點(diǎn)很直觀。在較小的時(shí)間尺度上(大約一個(gè)月),我們看到銷售額在大約10件商品的范圍內(nèi)波動(dòng),這可能是由于不可預(yù)測(cè)的事件(隨機(jī)噪聲)導(dǎo)致的。

彼得斯繼續(xù)說道:“當(dāng)我看到夏季銷售額增加而冬季銷售額減少的重復(fù)模式時(shí),我認(rèn)為這也極有可能在未來發(fā)生,因此就根據(jù)這種可能性來估計(jì)銷售額?!边@聽起來很有道理。

彼得斯是在時(shí)間上下文中解釋銷售數(shù)據(jù)的,其中兩個(gè)數(shù)據(jù)點(diǎn)的距離由它們的時(shí)間差定義。如果數(shù)據(jù)不按時(shí)間順序排列,那么很難解釋。例如,如果我們只查看直方圖中的銷售分布,則時(shí)間上下文將丟失,我們的最佳未來銷售估計(jì)值將是一些合計(jì)值,例如所有值的中值。

當(dāng)數(shù)據(jù)以某種方式排序時(shí),上下文就會(huì)出現(xiàn)。

不用說,您應(yīng)該在正確的時(shí)間順序?yàn)槟匿N售預(yù)測(cè)模型提供歷史銷售數(shù)據(jù),以保存來自數(shù)據(jù)庫的“免費(fèi)”上下文。深度學(xué)習(xí)模型非常強(qiáng)大,因?yàn)樗鼈兎浅I朴谡仙舷挛男畔ⅲ愃朴谖覀兊拇竽X(當(dāng)然,在本例中是彼得斯的大腦)。

你有沒有想過:為什么深度學(xué)習(xí)對(duì)于圖像分類和圖像對(duì)象檢測(cè)如此有效?因?yàn)槠胀ǖ膱D像中已經(jīng)存在很多的“自然”上下文:圖像基本上是光強(qiáng)度的數(shù)據(jù)點(diǎn),按兩個(gè)背景維度排列,即x方向的空間距離和y方向的空間間距。而作為動(dòng)畫形式的電影(圖像時(shí)間序列),它又添加了時(shí)間作為第三個(gè)上下文維度。

因?yàn)樯舷挛膶?duì)預(yù)測(cè)非常有利,所以我們可以通過添加更多的上下文維度來提高模型性能——盡管這些維度已經(jīng)包含在原始數(shù)據(jù)中。我們通過一些巧妙的數(shù)據(jù)工程化方法實(shí)現(xiàn)了這一點(diǎn),如接下來所要介紹的那樣。

我們應(yīng)該以這樣一種方式來服務(wù)數(shù)據(jù),即模型可以從中獲得最佳意義,并做出最明智的決策。我通常將更多的開發(fā)時(shí)間投入到輸入數(shù)據(jù)的形狀設(shè)計(jì)上,而不是其他任何事情上。

設(shè)計(jì)上下文豐富的數(shù)據(jù)

讓我們?cè)倩氐浆旣惡捅说盟沟挠懻搯栴}上?,旣愔?,在大多數(shù)情況下,真實(shí)數(shù)據(jù)看起來并不像上面的圖表那么好,所以她稍微修改了一下圖表,如下所示:

瑪麗問的第二個(gè)問題是:“如果最后一個(gè)銷售數(shù)據(jù)點(diǎn)高于通常的噪音水平怎么辦?這可能是一種真實(shí)的情形。也許該產(chǎn)品正在進(jìn)行一場(chǎng)成功的營銷活動(dòng)。也許配方已經(jīng)改變,現(xiàn)在味道更好了。在這些情況下,效果是持久的,并且未來的銷售將保持在相同的高水平?;蛘呖赡苤皇怯捎陔S機(jī)事件而出現(xiàn)的異常。例如,一個(gè)參觀柏林的學(xué)校班級(jí)學(xué)生碰巧走進(jìn)商店,所有的孩子都買了一瓶這種檸檬水品牌。在這種情況下,銷售增長(zhǎng)額并不穩(wěn)定,只能算是噪音數(shù)據(jù)。在這種情況下,你如何決定這是否會(huì)是真正的銷售效果呢?”

你可以看到彼得斯在回答之前不斷地?fù)项^:“在這種情況下,我關(guān)注的是與柏林類似的商店的銷售情況。例如我們?cè)跐h堡和慕尼黑的商店。這些商店具有可比性,因?yàn)樗鼈円参挥诘聡饕鞘?。我不?huì)考慮在農(nóng)村的商店,因?yàn)槲移谕抢镉胁煌谖逗推玫牟煌櫩汀!?/p>

他將其他商店的銷售曲線與兩種可能的場(chǎng)景相加?!叭绻铱吹桨亓值匿N量增長(zhǎng),我認(rèn)為這是噪音。但是,如果我看到漢堡和慕尼黑的檸檬水銷量也在增長(zhǎng),我希望這會(huì)是一個(gè)穩(wěn)定的效果。”

因此,在一些頗為困難的情況下,彼得斯會(huì)考慮更多的數(shù)據(jù),以便做出更明智的決策。他在不同商店的上下文中添加了一個(gè)新的數(shù)據(jù)維度。如上所述,當(dāng)數(shù)據(jù)以某種方式排序時(shí),上下文就會(huì)出現(xiàn)。要?jiǎng)?chuàng)建一個(gè)商店上下文,我們首先必須定義一個(gè)距離度量值,以便相應(yīng)地從不同的商店訂購數(shù)據(jù)。例如,彼得斯根據(jù)商店所在城市的大小來區(qū)分商店。

通過運(yùn)用一些SQL和Numpy編程技巧,我們就可以為我們的模型提供類似的上下文。首先,我們要了解我們公司商店所在城市的人口規(guī)模;然后,我們根據(jù)人口差異來衡量所有商店之間的距離;最后,我們將所有的銷售數(shù)據(jù)組合在一個(gè)2D矩陣中,其中第一個(gè)維度是時(shí)間,第二個(gè)維度是我們的商店距離指標(biāo)。

圖中的銷售矩陣提供了最近檸檬水銷售的良好概括,由此產(chǎn)生的模式也可以直觀地得到解釋??纯翠N售矩陣左下角的數(shù)據(jù)點(diǎn):這是柏林最近的銷售數(shù)據(jù)。注意,那個(gè)亮點(diǎn)很可能是一個(gè)例外,因?yàn)轭愃频纳痰辏ɡ鐫h堡)不會(huì)重現(xiàn)銷售額的急劇增長(zhǎng)。相比之下,7月份的銷售高峰是由類似的商店再現(xiàn)的。

因此,我們總是需要添加一個(gè)距離指標(biāo)來創(chuàng)建上下文。

現(xiàn)在,我們將彼得斯的說法轉(zhuǎn)化為數(shù)學(xué)術(shù)語,可以根據(jù)產(chǎn)品所在城市的人口規(guī)模來建模。在添加新的上下文維度時(shí),我們必須非常仔細(xì)地考慮正確的距離指標(biāo)。這取決于我們想要預(yù)測(cè)的實(shí)體受到影響的因素。影響因素完全取決于產(chǎn)品,必須相應(yīng)地調(diào)整距離指標(biāo)。例如,如果你看看德國的啤酒銷售,你會(huì)發(fā)現(xiàn)消費(fèi)者很可能會(huì)從當(dāng)?shù)氐钠【茝S購買產(chǎn)品(你可以在全國各地找到大約1300家不同的啤酒廠)。

來自科隆的人通常喝庫爾施啤酒,但當(dāng)你驅(qū)車半小時(shí)向北前往杜塞爾多夫地區(qū)時(shí),人們會(huì)避開庫爾施,轉(zhuǎn)而喝更黑、麥芽味更濃的阿爾特啤酒。因此,在德國啤酒銷售的情況下,通過地理距離來模擬商店距離可能是一個(gè)合理的選擇。然而,其他產(chǎn)品類別(檸檬水、橙汁、運(yùn)動(dòng)飲料……)的情況并非如此。

因?yàn)槲覀兲砑恿艘粋€(gè)額外的上下文維度,我們創(chuàng)建了一個(gè)上下文豐富的數(shù)據(jù)集,在該數(shù)據(jù)集中,潛在的預(yù)測(cè)模型可以獲得不同時(shí)間和不同商店的檸檬水銷售概況。這使得模型可以通過查看最近的銷售歷史并左右查看其他地點(diǎn)的類似商店,對(duì)柏林商店的未來銷售做出明智的決定。

從這里開始,我們可以進(jìn)一步添加產(chǎn)品類型作為附加的上下文維度。因此,我們用其他產(chǎn)品的數(shù)據(jù)來豐富銷售矩陣,這些數(shù)據(jù)根據(jù)它們與檸檬水的相似性進(jìn)行排序(我們的預(yù)測(cè)目標(biāo))。同樣,我們需要找到一個(gè)好的相似性指標(biāo)??蓸繁瘸戎駲幟仕畣??我們可以根據(jù)什么數(shù)據(jù)定義相似性排名?

在商店的情況下,我們有一個(gè)連續(xù)的衡量標(biāo)準(zhǔn),那就是城市的人口?,F(xiàn)在我們正在處理商品類別。我們真正想找到的是與檸檬水具有類似銷售行為的產(chǎn)品。與檸檬水相比,我們可以對(duì)所有產(chǎn)品的時(shí)間分辨銷售數(shù)據(jù)進(jìn)行互相關(guān)分析。通過這種方式,我們獲得了每個(gè)產(chǎn)品的皮爾遜相關(guān)系數(shù),它告訴我們銷售模式有多相似??蓸返溶涳嬃系匿N售模式可能與檸檬水相似,夏季銷量會(huì)增加。其他產(chǎn)品的行為將完全不同。例如Gühwein,這是一種在圣誕市場(chǎng)上供應(yīng)的溫暖甜美的葡萄酒,在12月可能會(huì)有強(qiáng)勁的銷售高峰,而在今年余下的時(shí)間里幾乎沒有銷售。

【譯者注】時(shí)間分辨(time-resolved):物理學(xué)或統(tǒng)計(jì)學(xué)名稱。與之相關(guān)的另一些常用詞是時(shí)間分辨診斷測(cè)量(time-resolved diagnosis)、時(shí)間分辨光譜(time-resolvedspectrum)等。

交叉相關(guān)分析將顯示Glühwein葡萄酒的皮爾遜系數(shù)較低(實(shí)際上是負(fù)的),而可樂的皮爾森系數(shù)較高。

盡管在銷售矩陣中添加了第三個(gè)維度,但我們可以通過將第二個(gè)維度以相反的方向連接起來來包含產(chǎn)品上下文。這樣就將最重要的銷售數(shù)據(jù)(柏林檸檬水銷量)放在了中心位置:

添加更多特征

雖然我們現(xiàn)在有一個(gè)信息非常豐富的數(shù)據(jù)結(jié)構(gòu),但到目前為止,我們只有一個(gè)特征:在特定的時(shí)間特定的商店中為特定產(chǎn)品銷售的產(chǎn)品數(shù)量。這可能已經(jīng)足以進(jìn)行穩(wěn)健和精確的預(yù)測(cè),但是我們還可以從其他數(shù)據(jù)源添加額外的有用信息。

例如,飲料購買行為很可能取決于天氣。例如,在非常炎熱的夏天,對(duì)檸檬水的需求可能會(huì)增加。我們可以提供天氣數(shù)據(jù)(如氣溫)作為矩陣的第二層。天氣數(shù)據(jù)將在與銷售數(shù)據(jù)相同的上下文(商店位置和產(chǎn)品)中訂購。對(duì)于不同的產(chǎn)品,我們將獲得相同的空氣溫度數(shù)據(jù)。但是,對(duì)于不同的時(shí)間和商店位置,我們將看到還是存在差異的,這可能會(huì)為數(shù)據(jù)提供有用的信息。

如此一來,我們就擁有了一個(gè)進(jìn)一步包含銷售額和溫度數(shù)據(jù)的三維矩陣。需要注意的是,我們沒有通過包括溫度數(shù)據(jù)來添加額外的上下文維度。正如我之前指出的,當(dāng)數(shù)據(jù)以某種方式排序時(shí),上下文就會(huì)出現(xiàn)。對(duì)于我們建立的數(shù)據(jù)上下文,我們根據(jù)時(shí)間、產(chǎn)品相似性和商店相似性對(duì)數(shù)據(jù)進(jìn)行排序。然而,特征的順序(在我們的例子中,是指沿著矩陣的第三維度)是不相關(guān)的。其實(shí),我們的數(shù)據(jù)結(jié)構(gòu)與RGB彩色圖像相當(dāng)。在RGB圖像中,我們有兩個(gè)上下文維度(空間維度x和y)和三個(gè)顏色層(紅、綠、藍(lán))。為了正確解釋圖像,顏色通道的順序是任意的。一旦你定義了它,你就必須保持它的順序。但是對(duì)于在特定上下文中組織的數(shù)據(jù),我們沒有距離指標(biāo)。

總之,輸入數(shù)據(jù)的結(jié)構(gòu)不是預(yù)先能夠確定的。因此,我們應(yīng)該充分發(fā)揮自己的創(chuàng)造力和直覺來挖掘新的可行性指標(biāo)了。

總結(jié)

通過向時(shí)間分辨的銷售數(shù)據(jù)添加兩個(gè)附加上下文和一個(gè)附加的特征層,我們獲得了具有兩個(gè)“通道”(銷售和溫度)的二維“圖片”。該數(shù)據(jù)結(jié)構(gòu)提供了特定商店最近檸檬水銷售的綜合視圖,以及來自類似商店和類似產(chǎn)品的銷售和天氣信息。到目前為止,我們創(chuàng)建的數(shù)據(jù)結(jié)構(gòu)非常適合由深度神經(jīng)網(wǎng)絡(luò)進(jìn)行解釋——例如,包含多個(gè)卷積層和LSTM單元。但是限于篇幅,我不打算討論如何以此為基礎(chǔ)開始設(shè)計(jì)一個(gè)合適的神經(jīng)網(wǎng)絡(luò)。這可能是我的后續(xù)文章的主題了。

我希望你能夠擁有自己的想法,雖然你的輸入數(shù)據(jù)的結(jié)構(gòu)可能不是預(yù)先確定的,但你可以(應(yīng)該)發(fā)揮你所有的創(chuàng)造力和直覺來擴(kuò)展它。

一般來說,上下文豐富的數(shù)據(jù)結(jié)構(gòu)可不是免費(fèi)提供的。為了預(yù)測(cè)公司所有門店的各種產(chǎn)品,我們需要生成數(shù)千個(gè)上下文豐富的銷售概況信息(每個(gè)門店產(chǎn)品組合一個(gè)矩陣)。您必須投入大量的額外工作來設(shè)計(jì)有效的處理和緩沖措施,以使數(shù)據(jù)成為您需要的形式,并為后續(xù)的神經(jīng)網(wǎng)絡(luò)快速訓(xùn)練和預(yù)測(cè)周期提供需要的數(shù)據(jù)。當(dāng)然,這樣一來,你會(huì)得到一個(gè)期望的深度學(xué)習(xí)模型,它可以做出準(zhǔn)確的預(yù)測(cè),即使在高噪聲數(shù)據(jù)下也能表現(xiàn)得非常穩(wěn)健,因?yàn)樗梢钥雌饋砟軌颉按蚱瞥R?guī)”,并做出非常明智的決定。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:??Context-Enriched Data: The Secret Superpower for Your Deep Learning Model??,作者:Christoph M?hl

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2013-10-16 09:28:14

亞馬遜AWSSDN

2011-08-11 17:05:26

2025-01-06 23:33:04

2019-11-27 10:40:34

數(shù)據(jù)工具CIO

2019-11-27 10:38:37

數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備工具

2013-10-16 09:33:36

亞馬遜AWSSDN

2025-01-03 16:32:13

SpringBoot虛擬線程Java

2024-01-31 08:04:43

PygmentsPython

2025-01-15 13:25:47

MySQL命令數(shù)據(jù)庫

2014-01-07 10:46:39

2025-03-18 08:14:05

2024-07-11 08:34:48

2021-09-07 09:53:42

JavaScript變量提升

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2021-09-14 10:39:16

入侵檢測(cè)數(shù)據(jù)泄露日志文件

2024-03-14 08:11:45

模型RoPELlama

2022-02-11 10:47:17

CIOIT團(tuán)隊(duì)企業(yè)

2023-03-31 13:37:34

研究

2023-05-08 14:54:00

AI任務(wù)HuggingGPT

2009-07-28 10:36:58

云計(jì)算Google秘密武器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)