自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

工業(yè)界中的機(jī)器學(xué)習(xí)是什么樣子的

新聞 機(jī)器學(xué)習(xí)
本文結(jié)合作者十余年的工業(yè)界經(jīng)歷,從工業(yè)界的視角來嘗試給些思考和總結(jié),歡迎大家批評(píng)討論。

 [[402555]]

導(dǎo)語:機(jī)器學(xué)習(xí)無論是在學(xué)術(shù)界還是工業(yè)界都扮演越來越重的角色,但目前鮮有資料來系統(tǒng)闡述機(jī)器學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的差異。本文結(jié)合作者十余年的工業(yè)界經(jīng)歷,從工業(yè)界的視角來嘗試給些思考和總結(jié),歡迎大家批評(píng)討論。

工業(yè)界需要定義問題在先

在工業(yè)界,所做的一切都是服務(wù)于業(yè)務(wù)指標(biāo)的,常見的業(yè)務(wù)指標(biāo)有DAU、時(shí)長(zhǎng)、點(diǎn)擊、體驗(yàn)、廣告提升等。但這里業(yè)務(wù)的問題一般不能直接轉(zhuǎn)化為學(xué)術(shù)界的分類、聚類問題,需要工程師結(jié)合對(duì)業(yè)務(wù)的理解來做合適的轉(zhuǎn)換。例如,廣告中要優(yōu)化變現(xiàn)效率可以對(duì)應(yīng)到CPM,而CPM=BID *CTR*1000 (此處近似,由于計(jì)費(fèi)模式不同,可能略有差異,比如Generalized Second Pricing下使用下一位的出價(jià)計(jì)費(fèi))。 BID一般是廣告主的主觀行為,機(jī)器學(xué)習(xí)算法不適合優(yōu)化 ,更適合優(yōu)化CTR,這就是常見的CTR預(yù)估。而預(yù)估可以用分類、回歸或者排序的思路去做,考慮到用戶對(duì)廣告的主觀反饋是點(diǎn)或不點(diǎn),所以建模成分類而不是回歸。至于為什么很少用排序,則是因?yàn)镃TR的絕對(duì)值也很重要,在競(jìng)價(jià)排序和計(jì)費(fèi)中需要用到。

線上環(huán)境一直在變化

在學(xué)術(shù)界,機(jī)器學(xué)習(xí)是一次性任務(wù),學(xué)完這次就不用管下次了。而在工業(yè)界,產(chǎn)品一直在線,它學(xué)習(xí)和作用的環(huán)境一直在變,機(jī)器學(xué)習(xí)是個(gè)持續(xù)不斷優(yōu)化的過程,這就會(huì)帶來幾個(gè)非常有意思的問題:怎么保證學(xué)習(xí)的時(shí)效性,持續(xù)不斷地學(xué)習(xí)來適應(yīng)環(huán)境的變化?短期觀測(cè)到的效果增益長(zhǎng)期真的是有效的嗎?歷史上證明過有效的東西當(dāng)前還是有效的嗎? 那些歷史上沒帶來增益的優(yōu)化現(xiàn)在可能會(huì)有效嗎 ?基于當(dāng)前模型A影響下的行為,我們新學(xué)了一個(gè)模型B,模型B效果好所以替換了模型A。但模型B作用環(huán)境發(fā)生了變化(不再受模型A影響),而這種變化是之前沒法模擬到的,怎么辦?

解決問題可以用不止一個(gè)算法

在學(xué)術(shù)界,發(fā)論文的套路一般是先剖析一堆算法的缺點(diǎn),然后基于某個(gè)點(diǎn)的發(fā)現(xiàn)發(fā)明一個(gè)新算法,最后用實(shí)驗(yàn)驗(yàn)證這個(gè)算法的效果。而在工業(yè)界中,解決問題的套路和這個(gè)完全不一樣,你不需要管哪個(gè)算法好,也不需要限定一個(gè)算法來解決問題。相反,你可以用很多算法來解決同一個(gè)問題,無論使用同一個(gè)算法的集成還是不同算法的集成,甚至把算法串聯(lián)在一起,相互依賴能解決問題都是可以的。學(xué)術(shù)界的集成學(xué)習(xí)的相關(guān)研究也揭示了對(duì)于特定問題集成學(xué)習(xí)的效果往往是更好的。據(jù)我觀察, 牛叉的算法工程師一般都有自己的算法庫 ,當(dāng)來一個(gè)問題時(shí),能同時(shí)實(shí)驗(yàn)好幾個(gè)不同的算法,迅速組裝出一個(gè)基本解出來。

機(jī)器學(xué)習(xí)應(yīng)用效果如何量化

在學(xué)術(shù)界,我們經(jīng)常會(huì)用AUC、準(zhǔn)確率、召回率、F值等評(píng)測(cè)算法的效果,這些指標(biāo)能反應(yīng)模型在某個(gè)維度上的增益,但在工業(yè)界,這些指標(biāo)大多時(shí)候是不能直接反應(yīng)對(duì)業(yè)務(wù)指標(biāo)的影響。比如CTR模型的AUC漲了,線上CTR、CPM能漲多少是不得而知的?再者,AUC漲了,線上業(yè)務(wù)的關(guān)鍵指標(biāo)就一定能漲嗎?這個(gè)往往是不確定的,整體AUC漲了,不代表頭部排序效果變好了,可能是低于過濾閾值那部分變好了而已,這對(duì)線上沒有實(shí)際的意義;單個(gè)指標(biāo)漲了,可能對(duì)其他指標(biāo)帶來不可預(yù)知的影響,總體可能還是不能上線。另外,線上模型和策略上線往往是并行的,這就會(huì)出現(xiàn) 不同算法工程師的工作相互影響 的情況,這個(gè)時(shí)候要設(shè)計(jì)好實(shí)驗(yàn)機(jī)制來盡可能減弱彼此的影響,比較真實(shí)地反映自己小一塊優(yōu)化帶來的客觀收益。

1)需要更謹(jǐn)慎的樣本工程

在工業(yè)界,Y標(biāo)簽的選取要和業(yè)務(wù)指標(biāo)有直接的聯(lián)系,樣本直接決定了機(jī)器學(xué)習(xí)優(yōu)化的目標(biāo)和方向。比如要優(yōu)化點(diǎn)擊率,Y標(biāo)簽自然是點(diǎn)擊或不點(diǎn)擊。但很多情況下,Y還需要經(jīng)過一些必要的處理才能進(jìn)行學(xué)習(xí)。比如要優(yōu)化播放時(shí)長(zhǎng),Y標(biāo)簽直接定義成觀看時(shí)長(zhǎng)不一定是合適的,因?yàn)橛行┮曨l長(zhǎng)有些視頻短。另外,現(xiàn)在用戶基本是在移動(dòng)手機(jī)上來使用產(chǎn)品的,用戶所處的環(huán)境可能有很大的不確定性,行為的置信度是不同的。比如,當(dāng)你很認(rèn)真的刷手機(jī)和很隨意刷手機(jī)時(shí)候,跳過的那些內(nèi)容不感興趣的置信度顯然是不一樣的。還有一點(diǎn),也是容易被忽視的:一個(gè)成功的產(chǎn)品涉及到多方的利益, 有不少行為可能不是正常用戶造成的 ,這部分的行為如何區(qū)分、建模時(shí)怎么對(duì)待都是很有意思的問題。

2 )需要更重的特征工程

在學(xué)術(shù)界,評(píng)測(cè)算法一般使用標(biāo)準(zhǔn)的數(shù)據(jù)集,這些數(shù)據(jù)集的特征都已制作好,只需要輸入到自己的算法建模即可。而在工業(yè)界,特征是算法工程師自己要加工的,且加工的來源也不局限于特定的數(shù)據(jù)源,會(huì)有一個(gè)近似開放的數(shù)據(jù)體系?;谶@些數(shù)據(jù)源,可以持續(xù)不斷地進(jìn)行數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)挖掘、特征組合和選擇。算法工程師要利用自己的經(jīng)驗(yàn),來想新特征、特征組合以及新的數(shù)據(jù)引入。實(shí)際上,特征工程占據(jù)了機(jī)器學(xué)習(xí)過程中大多數(shù)時(shí)間,Andrew Ng在最近的一次分享中也提到類似的觀點(diǎn)。另外,不同場(chǎng)景的差異也很大, 在圖像、文本領(lǐng)域這個(gè)輸入基本是確定的,看到的就這些原始信息,是一個(gè)完備的輸入;而在推薦、營(yíng)銷等領(lǐng)域,這個(gè)輸入是不確定的, 理論上所有影響用戶做決策的因素都對(duì)建模效果有影響,這里的特征工程會(huì)更復(fù)雜。

不同學(xué)習(xí)任務(wù)耦合是難以避免的

在工業(yè)界有種特殊的數(shù)據(jù)耦合現(xiàn)象--一個(gè)機(jī)器學(xué)習(xí)任務(wù)的輸入是另一個(gè)機(jī)器學(xué)習(xí)任務(wù)的輸出,這種耦合幾乎是沒法避免的,因?yàn)橐韵乱恍┰颍悍止f(xié)作的原因,一個(gè)算法團(tuán)隊(duì)有很多工程師,大家分頭解決不同的問題要;從單任務(wù)可學(xué)習(xí)的角度,它的學(xué)習(xí)應(yīng)該聚焦于本任務(wù)自身,而不應(yīng)摻雜其他目標(biāo),否則會(huì)加大學(xué)習(xí)的復(fù)雜性;出于架構(gòu)簡(jiǎn)潔的角度,分層、分模塊是很自然的架構(gòu)設(shè)計(jì),層、模塊間的依賴也很自然。但在機(jī)器學(xué)習(xí)里,這種 數(shù)據(jù)耦合是個(gè)風(fēng)險(xiǎn)很高的事情 (不同于軟件工程里的代碼耦合),因?yàn)橄掠螞]法保證你的上游不發(fā)生問題(可能僅僅是數(shù)據(jù)分布的變化,而不是什么大的BUG),這個(gè)時(shí)候怎么降低這種風(fēng)險(xiǎn)就很關(guān)鍵。

要優(yōu)化的目標(biāo)不是唯一的

在學(xué)術(shù)界,確定一個(gè)問題后優(yōu)化的目標(biāo)往往是唯一的,研究者只需優(yōu)化好這個(gè)指標(biāo)就好了,而在工業(yè)界,一個(gè)業(yè)務(wù)往往有好多個(gè)關(guān)鍵指標(biāo),比如DAU、點(diǎn)擊率、時(shí)長(zhǎng)、完播率、多樣性、冷啟率、頭部大v的穩(wěn)定率、廣告效率等等。這些指標(biāo)雖然可以單獨(dú)拆解開,但往往之間是相互影響的。這個(gè)影響是個(gè)很復(fù)雜的關(guān)系,不是單純的相關(guān)或獨(dú)立,而是耦合在一起,甚至說不清楚。雖然我們可以用機(jī)器學(xué)習(xí)各個(gè)擊破,但還需要在應(yīng)用學(xué)出來的模型時(shí)把他們綜合在一起,這就導(dǎo)致了一個(gè)嚴(yán)重問題----可能某個(gè)單點(diǎn)我們學(xué)得很好了,但綜合用的時(shí)候反而對(duì)其他指標(biāo)有不可預(yù)知的危害。那你可能會(huì)很自然地提出來一個(gè)問題,為何不搞個(gè)多目標(biāo)問題直接用機(jī)器學(xué)習(xí)來學(xué)呢?可以當(dāng)然是可以,一起學(xué)模型相互輔助當(dāng)然是好的,但你可以細(xì)想一下,這種 真的解決了多目標(biāo)耦合甚至沖突的本質(zhì)問題了嗎?

工業(yè)界的機(jī)器學(xué)習(xí)是受約束的

機(jī)器學(xué)習(xí)系統(tǒng)核心要解決的問題是如何建模和上線,但它的輸入和輸出都依托于業(yè)務(wù)系統(tǒng),它和現(xiàn)有業(yè)務(wù)系統(tǒng)的交互是否順暢是直接決定學(xué)習(xí)效果的關(guān)鍵要素。在這個(gè)前提下,業(yè)務(wù)系統(tǒng)原有的一些約束會(huì)直接加到機(jī)器學(xué)習(xí)系統(tǒng)上,比如如果業(yè)務(wù)后臺(tái)是C++的,那么你的機(jī)器學(xué)習(xí)這套系統(tǒng)最好也是C++的,這樣就會(huì)減少很多不必要的兼容性問題。還有一點(diǎn),機(jī)器學(xué)習(xí)系統(tǒng)往往是后于業(yè)務(wù)系統(tǒng)來建設(shè)的,需要對(duì)業(yè)務(wù)系統(tǒng)的進(jìn)行改造,比如必要行為的埋點(diǎn)、數(shù)據(jù)上報(bào)通路、降級(jí)處理等等,都是要反復(fù)驗(yàn)證的。最后, 業(yè)務(wù)系統(tǒng)本身性能永遠(yuǎn)是第一位的 ,在這個(gè)前提下對(duì)模型性能的要求基本也是限定死的。要在這個(gè)前提下完成特征處理、模型預(yù)測(cè)等等操作,要做好性能和應(yīng)用效果的平衡,選擇最合適當(dāng)前情況的算法上線,這也是為什么LR在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)都是業(yè)界的主流算法的原因。

寫了一兩個(gè)小時(shí),發(fā)現(xiàn)還有很多新的點(diǎn)可以繼續(xù)講講。由于時(shí)間關(guān)系,今天就先寫到這里吧,姑且作為上篇,敬請(qǐng)期待下篇。

責(zé)任編輯:張燕妮 來源: 我愛計(jì)算機(jī)
相關(guān)推薦

2022-10-10 08:47:49

ITCIO數(shù)據(jù)

2021-02-19 10:14:49

云計(jì)算公共云

2021-05-08 13:11:58

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)技術(shù)

2021-05-27 09:30:51

Java流程控制

2024-03-04 09:19:33

CSSbackground前端

2014-04-08 09:56:30

銷售易CRM

2020-11-04 11:17:20

好代碼程序員整潔

2021-11-29 07:42:44

CSS 技巧CSS 繪圖技巧

2022-05-30 18:54:12

元宇宙Web3數(shù)據(jù)量

2018-01-16 15:02:20

存儲(chǔ)RAIDSAN

2023-02-17 14:40:06

物聯(lián)網(wǎng)供應(yīng)鏈

2012-10-29 15:45:51

2021-10-04 15:46:31

網(wǎng)絡(luò)通信5G

2021-09-30 19:12:46

通信網(wǎng)絡(luò)ADSL

2022-11-18 10:17:10

2019-09-03 14:57:33

智慧城市虛擬新加坡3D

2021-03-24 15:25:44

AI

2023-04-19 15:03:52

2011-10-10 11:04:54

2022-03-15 16:19:13

物聯(lián)網(wǎng)物聯(lián)網(wǎng) 2.0IoT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)