自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

《狂飆》爆火背后:愛(ài)奇藝的大數(shù)據(jù)大規(guī)模落地實(shí)踐

大數(shù)據(jù) 數(shù)據(jù)分析
愛(ài)奇藝擁有海量視頻內(nèi)容和海量用戶,因此我認(rèn)為,愛(ài)奇藝在擁有豐富的大模型應(yīng)用場(chǎng)景,在大模型應(yīng)用層有巨大想象空間,未來(lái)愛(ài)奇藝也將會(huì)把研發(fā)重點(diǎn)聚焦于大模型應(yīng)用層。

一、愛(ài)奇藝的企業(yè)文化

圖片

愛(ài)奇藝于2010年4月成立,到現(xiàn)在已走過(guò)13年,多年來(lái)在內(nèi)容制作和技術(shù)創(chuàng)新方面碩果累累。13年間,愛(ài)奇藝在技術(shù)上的投入龐大,大數(shù)據(jù)方向的實(shí)踐同樣得到了極大的重視。

圖片

上圖展示愛(ài)奇藝平臺(tái)的三大構(gòu)成要素,三者之間相輔相成、互相影響。

圖片

愛(ài)奇藝一直在追求科技與創(chuàng)意之間的平衡,以雙螺旋的方式向前走。

二、數(shù)據(jù)中臺(tái)架構(gòu)

如下圖所示,愛(ài)奇藝的數(shù)據(jù)中臺(tái)架構(gòu)看似并無(wú)特殊,和業(yè)界基本相似,但其實(shí)不然。愛(ài)奇藝的數(shù)據(jù)中臺(tái)架構(gòu)結(jié)合了自己的業(yè)務(wù)場(chǎng)景,在很多細(xì)節(jié)上,做了相關(guān)的研發(fā)。

圖片

1. 數(shù)據(jù)鏈路

愛(ài)奇藝的海量用戶產(chǎn)生的數(shù)據(jù),我們?nèi)绾螐腃端進(jìn)行收集?大量合作伙伴產(chǎn)生的數(shù)據(jù),我們?nèi)绾卧诤侠砗戏ǖ那疤嵯聫腂端進(jìn)行收集?

圖片

從數(shù)據(jù)鏈路的角度看,數(shù)據(jù)流向是非常清晰的。數(shù)據(jù)輸入后被接收、采集和加工,最終投入使用,并運(yùn)用到業(yè)務(wù)層上,呈從左向右的流向。整個(gè)過(guò)程中,我們也積極參與并推動(dòng)行業(yè)內(nèi)的各種新技術(shù)和標(biāo)準(zhǔn)。

2. 數(shù)據(jù)資產(chǎn)對(duì)上層統(tǒng)一、透明

圖片

如上圖所示,數(shù)據(jù)在底層經(jīng)過(guò)數(shù)據(jù)采集、加工和封裝,到呈現(xiàn)在業(yè)務(wù)層的全過(guò)程中,所有模型都是透明的。在技術(shù)、業(yè)務(wù)邏輯層面上,我們對(duì)上下層業(yè)務(wù)都做了較好的隔離,減少之間的細(xì)節(jié)關(guān)聯(lián),實(shí)現(xiàn)了更好的擴(kuò)展性和實(shí)用性。

3. 數(shù)據(jù)發(fā)展過(guò)程

經(jīng)過(guò)多年的發(fā)展,愛(ài)奇藝大數(shù)據(jù)體系和模塊有了豐富的積累,但在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)方面也仍然比較粗獷,處在零散化狀態(tài),面臨著比較嚴(yán)峻的問(wèn)題。

圖片

三、數(shù)據(jù)中臺(tái)理念

在2017年以前,愛(ài)奇藝積極探索各種商業(yè)模式,衍生了很多視頻周邊的相關(guān)業(yè)務(wù),不同的業(yè)務(wù)對(duì)數(shù)據(jù)產(chǎn)生了不同的訴求。因此在2017年之前,數(shù)據(jù)體系是和業(yè)務(wù)狀態(tài)一致,處于野蠻生長(zhǎng)、零散割裂的狀態(tài)。從2017年到現(xiàn)在,經(jīng)過(guò)多年的發(fā)展,愛(ài)奇藝大數(shù)據(jù)體系和模塊有了豐富的積累,先后經(jīng)歷了平臺(tái)化、標(biāo)準(zhǔn)化、智能化、體系化、立體化五個(gè)階段。

圖片

平臺(tái)化:面對(duì)不同層級(jí)的用戶,提供相應(yīng)的數(shù)據(jù)產(chǎn)品,支持用戶進(jìn)行自助分析,最大限度發(fā)揮數(shù)據(jù)價(jià)值。

標(biāo)準(zhǔn)化:通過(guò)對(duì)數(shù)據(jù)體系各個(gè)環(huán)節(jié)進(jìn)行標(biāo)準(zhǔn)化,保證數(shù)據(jù)質(zhì)量,有助提高數(shù)據(jù)流轉(zhuǎn)和使用效率。

智能化:數(shù)據(jù)與人工智能深度結(jié)合,在為用戶提供智能化的同時(shí),數(shù)據(jù)中臺(tái)自身也需要智能化。

體系化:實(shí)施是從落實(shí)角度,對(duì)數(shù)據(jù)治理的標(biāo)準(zhǔn)(包括目標(biāo)和方式等)進(jìn)行具體的落地,確保治理工作的正常運(yùn)轉(zhuǎn)。

立體化:通過(guò)打造離線、近實(shí)時(shí)和實(shí)時(shí)數(shù)據(jù)鏈路,構(gòu)建立體化的數(shù)據(jù)體系,滿足業(yè)務(wù)對(duì)時(shí)效性和準(zhǔn)確性的不同需求。

1. 立體化

以下三個(gè)關(guān)鍵點(diǎn),是立體化工作的核心:

圖片

1)大:大模型的出現(xiàn),讓大規(guī)模數(shù)據(jù)的處理工作變得更為重要。在愛(ài)奇藝,我們通過(guò)Hive、Spark等離線引擎的升級(jí),對(duì)巨量離線數(shù)據(jù)提供準(zhǔn)確高效的數(shù)據(jù)計(jì)算能力,以支撐核心數(shù)據(jù)絕對(duì)準(zhǔn)確性的業(yè)務(wù)要求。

2)湖:數(shù)據(jù)湖不是什么新穎技術(shù),但其整體應(yīng)用、業(yè)務(wù)提效有重要作用。愛(ài)奇藝引入了Iceberg數(shù)據(jù)湖,通過(guò)Flink進(jìn)行數(shù)據(jù)入湖,降低數(shù)據(jù)可見(jiàn)的延遲時(shí)間,提高大規(guī)模數(shù)據(jù)的分析時(shí)效性,同時(shí)降低實(shí)時(shí)鏈路的成本。

3)快:時(shí)效性在數(shù)據(jù)工作中尤為重要。愛(ài)奇藝通過(guò)Flink和Kafka等實(shí)時(shí)組件的最佳搭配,提供秒級(jí)延遲的數(shù)據(jù)流,結(jié)合實(shí)時(shí)數(shù)倉(cāng),支撐推薦、用增等模型的快速反饋。

2. 標(biāo)準(zhǔn)化

我深切體會(huì)過(guò)無(wú)標(biāo)準(zhǔn)化的痛苦,在業(yè)界大數(shù)據(jù)理念還未完善時(shí),行業(yè)內(nèi)不同的技術(shù)人員,都在以自己高效舒服的方式去做數(shù)據(jù)處理。

但事實(shí)上,任何一個(gè)公司不論體量大小,勢(shì)必不可能通過(guò)一套數(shù)據(jù)邏輯解決所有事情,所以當(dāng)數(shù)據(jù)累積到一定階段后,由數(shù)據(jù)不標(biāo)準(zhǔn)和不規(guī)范帶來(lái)的痛苦非常明顯,愛(ài)奇藝在過(guò)去也有類似的經(jīng)歷。

如今,數(shù)據(jù)治理仍是討論火爆的主題,但不同于大數(shù)據(jù)工作,數(shù)據(jù)治理如同垃圾分類,是一個(gè)吃力不討好的工作。

圖片

如上圖所示,在整個(gè)數(shù)據(jù)全生命周期中,從生產(chǎn)、采集加工、存儲(chǔ)到流轉(zhuǎn),各個(gè)環(huán)節(jié)我們都在不斷規(guī)范標(biāo)準(zhǔn)。

在我們內(nèi)部,也設(shè)置了一個(gè)數(shù)據(jù)管理委員會(huì),制定相關(guān)的數(shù)據(jù)治理制度,使整個(gè)數(shù)據(jù)治理環(huán)節(jié)更加符合公司業(yè)務(wù)訴求,同時(shí)進(jìn)一步提升大數(shù)據(jù)效率。

3. 體系化

所有的基礎(chǔ)設(shè)施到位后,必定會(huì)形成一個(gè)體系,再在這一體系基礎(chǔ)上進(jìn)一步迭代。

圖片

如上圖左側(cè)所示,內(nèi)部的數(shù)據(jù)體系在決策上分為管理組、業(yè)務(wù)組,不同的小組承載不同的目標(biāo)和數(shù)據(jù)工作,同時(shí)讓不限于大數(shù)據(jù)團(tuán)隊(duì)的業(yè)務(wù)部門參與到數(shù)據(jù)工作中。

在大數(shù)據(jù)管理委員會(huì)中,所以負(fù)責(zé)人都來(lái)自各自的業(yè)務(wù)線,同時(shí)我們生成了數(shù)據(jù)BP的概念,由他們垂直深耕,延續(xù)之前達(dá)成的共識(shí),最終形成所有業(yè)務(wù)的體系化高速運(yùn)轉(zhuǎn)。

4. 智能化

近年來(lái),大家對(duì)智能化的關(guān)注愈發(fā)加大,每一位大數(shù)據(jù)工作者都會(huì)思考:智能化給行業(yè)帶來(lái)的怎樣的革命?未來(lái)有怎樣的想象空間?

圖片

5. 產(chǎn)品化

任何技術(shù)如果無(wú)法落地形成一套規(guī)范的數(shù)據(jù)產(chǎn)品,那么其最終在公司內(nèi)部的認(rèn)可程度就很難達(dá)標(biāo);有了整個(gè)大數(shù)據(jù)基礎(chǔ)設(shè)施、服務(wù)、接口,但缺乏產(chǎn)品呈現(xiàn),也很難讓其他業(yè)務(wù)方發(fā)揮和利用業(yè)務(wù)價(jià)值。數(shù)據(jù)本身也是一個(gè)業(yè)務(wù),如果無(wú)法恰當(dāng)應(yīng)用且形成體系化,數(shù)據(jù)治理的價(jià)值也無(wú)法真正體現(xiàn)。

圖片

愛(ài)奇藝數(shù)據(jù)產(chǎn)品整體體系主要分為四個(gè)部分:

1)數(shù)據(jù)研發(fā):數(shù)據(jù)開發(fā)和產(chǎn)品人員負(fù)責(zé)數(shù)據(jù)需求的驅(qū)動(dòng),能否靈活處理數(shù)據(jù)的拓展性和復(fù)雜性,讓數(shù)據(jù)有更好的呈現(xiàn)形式。

2)數(shù)據(jù)分析:數(shù)據(jù)分析人員需要全面理解業(yè)務(wù),能否在數(shù)據(jù)產(chǎn)品上提供自主和靈活的功能,以便業(yè)務(wù)方進(jìn)行個(gè)性化的處理。

3)產(chǎn)品運(yùn)營(yíng):產(chǎn)品運(yùn)營(yíng)需要關(guān)注一定范圍的數(shù)據(jù),數(shù)據(jù)需求也比較常規(guī),但本身運(yùn)營(yíng)是非技術(shù)人員,不能要求其對(duì)大數(shù)據(jù)底層技術(shù)和工具有很好的理解。

4)數(shù)據(jù)產(chǎn)品:我們的目標(biāo)是做易用、簡(jiǎn)單、無(wú)理解門檻的數(shù)據(jù)產(chǎn)品。很多公司都有自己的BI分析工具、畫像系統(tǒng)、內(nèi)容分析系統(tǒng)和標(biāo)簽系統(tǒng),如何把這些工具的底層相關(guān)的技術(shù)與業(yè)務(wù)人員的思維搭建橋梁,“翻譯”成大家都能懂的數(shù)據(jù),使得大家在無(wú)法理解大數(shù)據(jù)融合技術(shù)的情況下,解決自己的業(yè)務(wù)問(wèn)題,這是數(shù)據(jù)產(chǎn)品研發(fā)的關(guān)鍵。

6. 總結(jié):發(fā)揮用戶大數(shù)據(jù)、內(nèi)容大數(shù)據(jù)的價(jià)值

愛(ài)奇藝有三個(gè)關(guān)鍵元素,即海量用戶、海量?jī)?nèi)容和大量的合作伙伴,其中用戶和內(nèi)容是與大數(shù)據(jù)最相關(guān)的兩方面,也是愛(ài)奇藝永恒的二元體。

四、大數(shù)據(jù)大規(guī)模實(shí)踐——內(nèi)容側(cè)

1. 內(nèi)容制作

愛(ài)奇藝站內(nèi)有大量PGC(也稱PPC)和UGC,海量的內(nèi)容的背后則產(chǎn)生了海量的數(shù)據(jù),同時(shí)愛(ài)奇藝的用戶量也非常龐大。

當(dāng)內(nèi)容大數(shù)據(jù)和用戶大數(shù)據(jù)相連接,就會(huì)產(chǎn)生很多應(yīng)用場(chǎng)景和想象空間,我們可以從內(nèi)容最早的制作階段出發(fā),大數(shù)據(jù)能做些什么呢?

1)知文劇本評(píng)估

內(nèi)容創(chuàng)作的第一步是選劇本,從海量劇本中挑選出有藝術(shù)性、市場(chǎng)性并符合監(jiān)管要求的劇本,同時(shí)快速剔除掉劣質(zhì)劇本,是一個(gè)關(guān)鍵問(wèn)題。多年來(lái),我們一直在探索通過(guò)大數(shù)據(jù)技術(shù)對(duì)劇本進(jìn)行評(píng)估的事情。

愛(ài)奇藝做了很多劇本評(píng)估系統(tǒng),基于AI算法、NLP技術(shù)對(duì)劇集劇本、電影劇本、小說(shuō)等多種形態(tài)的內(nèi)容進(jìn)行理解,分析其質(zhì)量和衍生價(jià)值輔助專家決策、作者創(chuàng)作、文本審核,經(jīng)過(guò)多年的驗(yàn)證實(shí)踐,助力了愛(ài)奇藝內(nèi)容質(zhì)量提升。

如今大模型的出現(xiàn),也促使我們?cè)谝环矫娴奶剿鹘Y(jié)合。

圖片

2)藝匯選角系統(tǒng)

以今年爆火的《狂飆》為例,在選角上,需求方會(huì)自定義一些選角需求,平臺(tái)則會(huì)根據(jù)供方提供的藝人信息,進(jìn)行藝匯AI智能匹配,在成本效率最優(yōu)化的基礎(chǔ)上,快速進(jìn)行選角。

圖片

2. 內(nèi)容運(yùn)營(yíng)

1)流量票房預(yù)測(cè)系統(tǒng)

圖片

預(yù)測(cè)投入產(chǎn)出能否成正比是內(nèi)容制作前的關(guān)鍵,所以任何內(nèi)容在最開始都需要預(yù)估流量及收入。因此,我們提供多內(nèi)容類型、多時(shí)間窗口的流量預(yù)測(cè),幫助選角、劇本創(chuàng)作、版權(quán)采購(gòu)、宣發(fā)推廣、廣告售賣等業(yè)務(wù)把握投資意向,把控投資風(fēng)險(xiǎn),提升業(yè)務(wù)效率,這方面的探索實(shí)踐也已經(jīng)廣泛應(yīng)用。

2)內(nèi)容熱度

早期,愛(ài)奇藝提出了內(nèi)容熱度的概念。評(píng)價(jià)內(nèi)容的好壞,不能只是基于內(nèi)容的播放次數(shù),還要綜合分析觀看行為、互動(dòng)行為、分享行為等指標(biāo),以此得出用戶反饋、內(nèi)容質(zhì)量和當(dāng)前市場(chǎng)表現(xiàn)。

舉個(gè)例子,《小豬佩奇》是愛(ài)奇藝站內(nèi)播放次數(shù)最多的視頻,但這顯然不是愛(ài)奇藝站內(nèi)最受歡迎的作品。所以,從大數(shù)據(jù)角度分析,需要融合各種各樣與內(nèi)容相關(guān)的指標(biāo),去計(jì)算熱度,并評(píng)價(jià)出最受歡迎的內(nèi)容。

圖片

3)精準(zhǔn)篩選+精細(xì)觸達(dá)+實(shí)時(shí)分析

在用戶增長(zhǎng)上,我們通過(guò)精準(zhǔn)篩選+精細(xì)觸達(dá)+實(shí)時(shí)分析的方式,打造了覆蓋全生命周期的用戶自動(dòng)化運(yùn)營(yíng)場(chǎng)景。

圖片

3. 內(nèi)容分發(fā)

1)個(gè)性化推薦

在這方面我們充分結(jié)合了運(yùn)營(yíng)專家意見(jiàn)和機(jī)器動(dòng)態(tài)規(guī)劃,實(shí)現(xiàn)了機(jī)器運(yùn)營(yíng),對(duì)比傳統(tǒng)的手工內(nèi)容分發(fā)方式,個(gè)性化推薦是更為精細(xì)化的。

圖片

個(gè)性化推薦可以更高效分發(fā)長(zhǎng)尾內(nèi)容,使用戶與內(nèi)容之間產(chǎn)生更多連接,提升用戶對(duì)平臺(tái)的粘性,降低對(duì)個(gè)別內(nèi)容的粘性。在內(nèi)容不變的情況下,提升全站用戶總有效播放時(shí)長(zhǎng)。

2)推薦中的用戶和內(nèi)容理解

首先我們基于用戶畫像產(chǎn)品,生成多維度的用戶標(biāo)簽,再根據(jù)用戶反饋內(nèi)容和用戶看到的內(nèi)容,運(yùn)用算法+人工的方式,生成內(nèi)容理解。

圖片

3)個(gè)性化創(chuàng)意:海報(bào)圖、推薦語(yǔ)、精彩看點(diǎn)

以《狂飆》為例,不同用戶看到的宣傳海報(bào)可能是不一樣的,有人看到高啟強(qiáng)、有人看到大嫂、有人看到安欣……

愛(ài)奇藝在個(gè)性化創(chuàng)意上,也進(jìn)行了用戶側(cè)+內(nèi)容側(cè)的分析,將多種風(fēng)格的創(chuàng)意素材(海報(bào)圖、推薦語(yǔ)、精彩看點(diǎn)),個(gè)性化推薦給不同觀眾。

圖片

4. 內(nèi)容營(yíng)銷

在愛(ài)奇藝站外做投放的時(shí)候(如抖音、微博、小紅書等),需要分析站外投放內(nèi)容的效果和站內(nèi)產(chǎn)品的回響,我們是通過(guò)內(nèi)容營(yíng)銷的智能決策分析平臺(tái)進(jìn)行處理的。

圖片

同時(shí),平臺(tái)能針對(duì)不同的營(yíng)銷階段可以提供不同的能力:

營(yíng)銷前:營(yíng)銷策略分析

營(yíng)銷中:站內(nèi)效果監(jiān)測(cè)、投放效果追蹤、追蹤渠道輿情

營(yíng)銷后:營(yíng)銷效果評(píng)估

圖片

5. 內(nèi)容理解

1)標(biāo)簽體系

通過(guò)深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)(文本、圖像、音頻、視頻)的理解,提供算法能力滿足下游用戶方需求,助力公司的內(nèi)容生產(chǎn)、分發(fā)以及生態(tài)建設(shè)。

圖片

2)多團(tuán)隊(duì)合作助力內(nèi)容生產(chǎn)與分發(fā)

圖片

五、大數(shù)據(jù)大規(guī)模實(shí)踐——用戶側(cè)

1.用戶理解

1)TA識(shí)別:基于用戶行為數(shù)據(jù)和機(jī)器學(xué)習(xí)算法精準(zhǔn)識(shí)別愛(ài)奇藝用戶的性別、年齡等基礎(chǔ)屬性助力精準(zhǔn)運(yùn)營(yíng),廣告變現(xiàn)和分析決策,性別識(shí)別準(zhǔn)確率達(dá)到90%以上;

2)自然人識(shí)別:通過(guò)對(duì)用戶行為習(xí)慣的挖掘,識(shí)別出的同一自然人使用的多個(gè)設(shè)備,可以幫助推薦和廣告召回更大范圍的目標(biāo)用戶;

3)會(huì)員流失預(yù)警:基于用戶在會(huì)員期間的行為特征,預(yù)測(cè)即將到期的會(huì)員的流失概率,準(zhǔn)確度達(dá)到80%以上。

圖片

2.用戶增長(zhǎng)

站內(nèi)海量數(shù)據(jù)+站外海量數(shù)據(jù),實(shí)現(xiàn)用戶全生命周期聯(lián)動(dòng)。

圖片

六、大模型時(shí)代

圖片

愛(ài)奇藝擁有海量視頻內(nèi)容和海量用戶,因此我認(rèn)為,愛(ài)奇藝在擁有豐富的大模型應(yīng)用場(chǎng)景,在大模型應(yīng)用層有巨大想象空間,未來(lái)愛(ài)奇藝也將會(huì)把研發(fā)重點(diǎn)聚焦于大模型應(yīng)用層。

作者介紹

孫斌,愛(ài)奇藝副總裁,負(fù)責(zé)愛(ài)奇藝的商業(yè)智能、大數(shù)據(jù)、個(gè)性化推薦和用戶增長(zhǎng)等部門和方向。在互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)和研發(fā)方面有近二十年經(jīng)驗(yàn),曾就職于微軟、hulu、雅虎等公司,也曾在國(guó)內(nèi)知名互聯(lián)網(wǎng)公司負(fù)責(zé)過(guò)創(chuàng)業(yè)項(xiàng)目。

責(zé)任編輯:武曉燕 來(lái)源: dbaplus社群
相關(guān)推薦

2023-06-05 07:36:30

數(shù)據(jù)湖大數(shù)據(jù)架構(gòu)

2022-06-10 15:37:24

愛(ài)奇藝App網(wǎng)絡(luò)

2021-01-08 13:42:28

愛(ài)奇藝機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2023-08-11 07:44:09

大數(shù)據(jù)數(shù)據(jù)分析

2015-07-22 12:53:55

羅生門式

2022-07-22 15:31:45

愛(ài)奇藝?視頻內(nèi)容延遲敏感

2021-08-05 15:03:16

愛(ài)奇藝大數(shù)據(jù)體系存儲(chǔ)

2025-02-12 10:06:25

2012-07-18 09:29:14

愛(ài)奇藝Windows Pho

2015-07-23 14:50:54

2024-04-26 09:38:36

2021-12-06 07:49:43

愛(ài)奇藝裁員互聯(lián)網(wǎng)

2016-11-11 20:12:46

大數(shù)據(jù)數(shù)據(jù)主義

2020-08-26 10:17:55

愛(ài)奇節(jié)數(shù)據(jù)中臺(tái)數(shù)據(jù)平臺(tái)

2023-09-22 07:36:54

2021-04-22 13:38:21

前端開發(fā)技術(shù)

2020-06-10 10:00:53

Serverless數(shù)據(jù)處理函數(shù)

2015-10-20 15:00:51

七牛云

2024-02-22 10:17:39

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)