自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【W(wǎng)OTD】網(wǎng)易傳媒VP劉彥東:當(dāng)AI遇見信息流: 新時(shí)代的信息分發(fā)

原創(chuàng)
新聞
12月01日上午WOTD2017主會場,網(wǎng)易傳媒技術(shù)VP劉彥東進(jìn)行了主題為《當(dāng)AI遇見信息流: 新時(shí)代的信息分發(fā)》的精彩演講。以下是演講實(shí)錄,讓我們先睹為快!

【51CTO.com原創(chuàng)稿件】2017年12月01-02日,由51CTO主辦的WOTD 2017全球軟件開發(fā)技術(shù)峰會在深圳中洲萬豪酒店召開。秉承專注技術(shù)、服務(wù)技術(shù)人員的理念,自2012年以來,WOT品牌大會成功舉辦了十四屆,積累了大量的技術(shù)專家資源,獲得了廣大IT從業(yè)者和技術(shù)愛好者的一致認(rèn)可,成為了業(yè)界重要的技術(shù)分享交流平臺以及人脈拓展平臺。

本次會議分為10個(gè)技術(shù)主題,分別是:編程語言與框架,大數(shù)據(jù)系統(tǒng)架構(gòu)設(shè)計(jì)、微服務(wù)與容器技術(shù)、前端開發(fā)實(shí)戰(zhàn)、物聯(lián)網(wǎng)(IOT)技術(shù)、軟件性能優(yōu)化、深度學(xué)習(xí)與智能應(yīng)用開發(fā)、創(chuàng)新運(yùn)維探索、技術(shù)架構(gòu)遇到業(yè)務(wù)架構(gòu)、CTO訓(xùn)練營。51CTO作為本次大會的主辦方,將全程圖文直播報(bào)道與后期視頻展示這場盛宴。

12月01日上午WOTD2017主會場,網(wǎng)易傳媒技術(shù)VP劉彥東進(jìn)行了主題為《當(dāng)AI遇見信息流: 新時(shí)代的信息分發(fā)》的精彩演講。以下是演講實(shí)錄,讓我們先睹為快!

劉顏東

我7月份回來,加入網(wǎng)易,之前在美國待了十年,后來去了雅虎研究院,很長時(shí)間都是做技術(shù)方面或者基于學(xué)習(xí)方面,很偏學(xué)術(shù)性研究。早在十年前我感覺機(jī)器學(xué)習(xí)不錯(cuò),很有意思,現(xiàn)在我突然發(fā)現(xiàn),全世界都在討論AI。后來在大公司待了很多年,去了Uber。技術(shù)沒有最好的,只有最適合的,這句話我非常認(rèn)同。產(chǎn)品設(shè)計(jì)追求簡單、追求便捷,在過能的場景很豐富,追求各種場景、各種很有意思的玩法,這可能和兩邊的技術(shù)的場景也很不一樣。這是我回國以后最大的感觸。

我們都知道現(xiàn)在是AI的時(shí)代,AI技術(shù)其實(shí)已經(jīng)幾十年了,大家都說的神經(jīng)網(wǎng)絡(luò)幾十年前也就有。之前我們做研究都是談?wù)摶诮y(tǒng)計(jì)做機(jī)器學(xué)習(xí)的東西,雖然機(jī)器學(xué)習(xí)理論或者統(tǒng)計(jì)的東西都還在,但是今天大家討論的都是深度學(xué)習(xí)。有幾個(gè)原因,一是數(shù)據(jù)非常多,尤其是國內(nèi)。我覺得在中國,國人對于手機(jī)或者移動互聯(lián)網(wǎng)接受程度非???,甚至大家跨過桌面互聯(lián)網(wǎng)的時(shí)代。國內(nèi)很長時(shí)間沒有電腦,突然手機(jī)普及了,每個(gè)手機(jī)都可以上網(wǎng),而且中國人非常擅于把生活場景搬到移動互聯(lián)網(wǎng)。機(jī)器學(xué)習(xí)技術(shù)成熟很多年,深度學(xué)習(xí)方興未艾。當(dāng)然計(jì)算能力必不可少,同時(shí)還有場景,技術(shù)說了很多,還要落地,給用戶服務(wù),還要變現(xiàn)。

信息流,在座的來自各行各業(yè)或者來自不同的技術(shù)領(lǐng)域,對信息流不一定了解。信息流是否有明確定義呢?我不知道,這是我個(gè)人的體會。它以推薦為基礎(chǔ),將信息呈現(xiàn)在用戶面前。過去大家找信息是被動的,我知道要什么。但是有信息流產(chǎn)品,你不知道你要什么,或者我們都不知道要什么,我們推薦一些東西給你,希望在你不斷的反饋和用戶的行為中探索你真正想要的,也許你不清楚,但是機(jī)器比你更清楚。內(nèi)容豐富多彩,我們知道今天的信息流,廣義上已經(jīng)遠(yuǎn)超過新聞或者資訊的新聞,過去是要聞、新聞、大事件,今天泛娛樂和內(nèi)容形式,你要看圖片、新聞、音頻、視頻、笑話,什么都有,付費(fèi)內(nèi)容、知識問答。場景也是很豐富的,早上起來要看重要新聞,很自然的,甚至不需要打開手機(jī)都可以,緊急大事件我第一時(shí)間告訴你,最新的常委亮相告訴你,路況告訴你,天氣告訴你,等車打開信息流,我告訴你,追星、追劇都是一站式服務(wù)。還有信息選取是被動的,你不告訴我要什么,我主動猜。本身定義人與信息的連接和關(guān)系。

信息流為何崛起?

為什么信息流會崛起?大數(shù)據(jù)+算法+計(jì)算力,但是要有場景,非常豐富和適合的場景,這個(gè)要以信息為AI驅(qū)動,好像我們說AI,AI可能沾邊,貢獻(xiàn)10%、20%,但是信息流產(chǎn)品是100%信息流定義,每個(gè)環(huán)節(jié)都是由AI驅(qū)動的,不光是你看到,最終你用的產(chǎn)品。包括內(nèi)容生產(chǎn)、內(nèi)容理解還有用戶反饋,其實(shí)完全由AI決定。還有很多產(chǎn)品,它也許是機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)驅(qū)動,比如無人車,它有硬件制造、路況和當(dāng)?shù)卣献?,其?shí)很麻煩,門檻很高,但是信息流產(chǎn)品,它純技術(shù)人員就可以完成。

信息流是這幾年比較火,信息流之前我們怎么獲取信息?我們再回顧一下,我們要看東西去搜索引擎搜,你明確知道要什么。比如美國總統(tǒng)是誰,我想知道去搜。要么是門戶網(wǎng)站,編輯已經(jīng)編輯好的頁面,今天的要聞十條,我訪問或者你訪問。要么我知道這個(gè)網(wǎng)站,我很清楚,我去買東西去什么網(wǎng)站、看新聞去什么網(wǎng)站。它更多是主動的、直接的信息獲取手段,而且效率很低。比如用搜索引擎,我們覺得搜索引擎很高,但是你發(fā)現(xiàn)要單點(diǎn),你去一個(gè)地方要去一個(gè)網(wǎng)站,然后搜索。信息單一、效率低、千人一面。信息流的優(yōu)勢是理想化的AI場景應(yīng)用,是+AI,不是AI+。因?yàn)橛猩俨糠秩松a(chǎn)少量內(nèi)容,到大部分人生產(chǎn)大量內(nèi)容,實(shí)際上需要AI技術(shù)。算法永遠(yuǎn)可以復(fù)制,大家都會發(fā)Paper,甚至買云服務(wù),但是數(shù)據(jù)是不合作的。很多公司是做云服務(wù),賣給你技術(shù),永遠(yuǎn)不賣給你數(shù)據(jù)。如果今天一款產(chǎn)品可以得到很多數(shù)據(jù),這是最珍貴的地方,其他的東西都可以想辦法解決。體量很大,一般都是幾千萬。同時(shí)商業(yè)變現(xiàn),我覺得這也是很重要的一環(huán),你的產(chǎn)品不能只叫好不叫做,很多用戶在燒錢,沒有意義。因?yàn)樾畔⒘鲗τ脩粜袨榈呢S富采集和對用戶的深刻理解,可以做定向廣告,讓變現(xiàn)很容易,而且可以想像產(chǎn)品形式很容易插入最傳統(tǒng)的展示廣告。

信息流的截圖,以網(wǎng)易新聞為例,你會看到信息流本身有這種頻道,我們叫頭條,其實(shí)是綜合體,把各種信息的形式插入里面,我們有置頂新聞,還有很重要的新聞。還有一些熱點(diǎn)新聞,全世界的熱點(diǎn)新聞。然后下面還有我關(guān)心的內(nèi)容,恰好是有我的,不一定是我的,也許是很多人都喜歡的,也許是我的,就會推出來。下面是廣告。這個(gè)頁面幾乎覆蓋了各個(gè)場景,它有熱點(diǎn),也有個(gè)性化,還有變現(xiàn)的方式,有圖片和文字,因?yàn)槭芟蓿阃吕€有視頻。上面有分類,通過個(gè)性化,視頻關(guān)心,把食品放在第二個(gè),還有垂直頻道,你是體育迷,就給你推體育。

信息流本身的體量是非常大的,也看到很多家大公司入場,但是每個(gè)產(chǎn)品幾乎都有幾千萬的,排名頭部的有數(shù)千萬的用戶。數(shù)千萬的用戶,如果每個(gè)用戶的經(jīng)營時(shí)長是幾十分鐘,這樣就會產(chǎn)生大量的行為數(shù)據(jù)。生產(chǎn)端每天也有幾十萬的內(nèi)容,這是各種各樣的形式,首先有少量的原創(chuàng),這是最獨(dú)特的地方,很多地方?jīng)]有原創(chuàng)的能力,只能去外面爬和收集信息,質(zhì)量往往不能保證,同時(shí)還有海量的自媒體內(nèi)容,你會發(fā)現(xiàn)智慧在民間,比如快手,幾乎完全是民間創(chuàng)造,網(wǎng)易也是自媒體平臺,大家會上傳大量原創(chuàng)內(nèi)容。還有很多其他形式,我們有社區(qū),這是網(wǎng)易的特色,包括評論,還是很有意思的,里面本身有很多具體內(nèi)容。還有直播和線下活動,以客戶端為載體,把所有的信息、表現(xiàn)形式穿在一起。海量用戶加海量時(shí)長就創(chuàng)造海量數(shù)據(jù)。

信息流產(chǎn)品本質(zhì)

信息流的本質(zhì)是什么?重新定義人和信息的關(guān)系,解決信息過載,今天信息太多,信息很多,搜索引擎太慢,其他的方式,如果自己找,也很累,就是信息流把海量的數(shù)據(jù)庫把你最想要的東西展示到你面前。信息獲取更加便捷,還有很多泛娛樂,幫你填補(bǔ)碎片時(shí)間。我們談了信息流產(chǎn)品的本質(zhì),一個(gè)信息流產(chǎn)品怎么才是成功的呢?還是那句話,用算法以AI為驅(qū)動來預(yù)測你的需求,無非是何時(shí)何地,這里面有三個(gè)要素,你的人,就是你的用戶加上你的地點(diǎn)和你的場景,我覺得場景包括時(shí)間和地點(diǎn),來預(yù)測你的需求,過去是人找信息,過去是單點(diǎn)的需求,現(xiàn)在是全面?zhèn)€性化的需求,每個(gè)人的信息需求,每個(gè)人肯定不一樣,每個(gè)人在不同的時(shí)間點(diǎn)、不同的地點(diǎn)也是不一樣的。

信息流產(chǎn)品的關(guān)鍵步驟

信息流產(chǎn)品有這么幾個(gè)步驟:

一是內(nèi)容的生產(chǎn)、加工和過濾,你內(nèi)容拿過來,不管是圖文還是其他,要理解這個(gè)內(nèi)容講什么,質(zhì)量的好壞,甚至說低俗程度怎么樣,我才能更好的做推薦。你理解用戶,并且把最想要、最合適的內(nèi)容,在合適的時(shí)間推給你,即便你想要,時(shí)間不合適也不行。比如白天工作很忙,我給你推一個(gè)八卦信息,你也不會看。晚上我推給你,你可能覺得會看一看,這就是很典型的場景化的應(yīng)用。收集用戶反饋,改進(jìn)模型,精準(zhǔn)定向廣告。我想強(qiáng)調(diào)的是,這個(gè)事情是非常綜合、非常復(fù)雜的,很多人覺得信息流,它涉及內(nèi)容的生產(chǎn)、消費(fèi),然后這種閉環(huán),生態(tài)的建設(shè),本身是很不容易的事情。這些環(huán)節(jié),比如技術(shù)很好,你沒有內(nèi)容,這也不行,內(nèi)容本身就是生態(tài),是很長的過程,是難度很大的事情。

二是內(nèi)容形式,我再具體的闡述一下,里面我個(gè)人是這么分類的,比如有文本、圖片、音頻,還有其他的拓展,就是知識圖譜,這是內(nèi)容本身。文本,有人物、標(biāo)簽、信息點(diǎn),文章質(zhì)量、文章熱度。還有圖片、視頻,有清晰度,很多東西技術(shù)難點(diǎn)沒有那么簡單,清晰度,視頻的比特率就可以,碼率就可以,視頻本身很不清晰,只是把不清晰用高清晰的形式表現(xiàn)出來,還是不清晰,這是算法的技巧。包括類別和語義,我們希望可以做到,但是不能完全做到,這個(gè)視頻有誰,到底講什么事情,有誰,這是很復(fù)雜的。否則我推就根據(jù)視頻的標(biāo)題,這可能不是很準(zhǔn)確。包括用戶體驗(yàn),是不是有廣告,是不是插入二維碼。還有我們不知道的問題,轉(zhuǎn)化為已知的問題解決。

三是內(nèi)容處理,這個(gè)層面會提到一些,分析、處理、挖掘,這里面技術(shù)主要是用NLP、Computer Vision、知識圖譜、Data Ming。用戶本身我們需要了解他的用戶需求和興趣點(diǎn),比如說這幾個(gè)維度,有人習(xí)慣看圖文、有人喜歡看視頻、有人喜歡看短內(nèi)容、有人喜歡看長內(nèi)容,每個(gè)人的需求不一樣,屬性也不一樣,有人喜歡看要聞、有人喜歡看娛樂、有人喜歡看八卦,其他的場景需求也是,我剛才強(qiáng)調(diào)了有天氣、路況,如果你可以預(yù)測出,他這時(shí)候要出門,想看一下路況,或者給他發(fā)一條天氣信息,他的關(guān)注度肯定很高。

四是用戶畫像,有這種行為畫像、上下文畫像、人口屬性畫像,有些我們可以采集到,有些要推測出來,用戶行為,本身可以采集到,上下文有些自己的行為數(shù)據(jù)的積累,人口屬性,也許你自己推測,也許通過第三方合作,畢竟今天的數(shù)據(jù)交換、數(shù)據(jù)共享的服務(wù)也有,你可能推算出來大體是30歲女性,城市白領(lǐng),也可能不一定準(zhǔn)確,可能別的公司也有這種很精準(zhǔn)的服務(wù)。他們可能要求注冊者必須提供這些,更精準(zhǔn)的數(shù)據(jù)可以幫助你更好做推薦。

談完內(nèi)容、談完用戶,本質(zhì)還是算法,算法是基于用戶興趣的推薦引擎。算法需要用戶建模,我什么樣的性別、什么樣的年齡、什么樣的收入,推什么內(nèi)容,這是用戶屬性。其他的用戶行為,通過閱讀歷史、興趣點(diǎn)和時(shí)間推一些東西,還有上下文,甚至網(wǎng)絡(luò)條件也很重要,4G和wifi和3G條件下,時(shí)好時(shí)壞推什么內(nèi)容。這個(gè)時(shí)間他對高清視頻推很大的,他不點(diǎn),因?yàn)榫W(wǎng)絡(luò)不支持,不是沒有興趣。

推薦系統(tǒng)架構(gòu),用戶畫像、檢索、數(shù)據(jù)流、實(shí)驗(yàn)系統(tǒng)都要,你需要實(shí)時(shí)數(shù)據(jù)流,用戶點(diǎn)擊馬上就應(yīng)該更新你的模型,我這秒點(diǎn)這個(gè)新聞,你下一秒就應(yīng)該給我反饋。我點(diǎn)體育賽事,你明天推,可能已經(jīng)晚了,因?yàn)楸荣愐呀?jīng)結(jié)束。最后還有效果評估。

信息流生態(tài)培養(yǎng)

重點(diǎn)談一下生態(tài)的培養(yǎng),信息流不是純信息流,需要生態(tài)的培養(yǎng),來組織好用戶和組織好內(nèi)容,用戶一方面是客戶端用戶,另一方面是自媒體號用戶,就是網(wǎng)易號用戶,現(xiàn)在都很重視生態(tài)的培養(yǎng)。內(nèi)容是起點(diǎn),用戶是終點(diǎn),形成閉環(huán),互相促進(jìn)。比如某個(gè)影視劇在某個(gè)時(shí)間段很火,鼓勵(lì)生產(chǎn)者都做生成。這個(gè)是動態(tài)的,包括一些興趣點(diǎn)可能是臨時(shí)的,也有一些長期的,比如NBA之類的,可以放在池子里反復(fù)推薦,鼓勵(lì)大家更好做這些事情。大量內(nèi)容來自PGC/UGC,UGC是用戶生產(chǎn),看起來質(zhì)量不那么高,但是有些個(gè)人觀點(diǎn)很好,有很多量,能達(dá)到個(gè)性化、千人千面的效果。包括內(nèi)容創(chuàng)作要審核、過濾,畢竟接口開放給大家會有各種各樣的內(nèi)容涌進(jìn)來,泥沙俱下,要把這些好的內(nèi)容挑出來,把糟粕過濾出去。希望完全機(jī)器做,如果風(fēng)險(xiǎn)很大,還需要加一道人工。最終用戶看到的用戶體驗(yàn)一定是最好的內(nèi)容。人工標(biāo)注來促進(jìn)人工智能的發(fā)展,這個(gè)我們很熟悉,一開始數(shù)據(jù)不夠,人工標(biāo),標(biāo)一陣,數(shù)據(jù)可以了,反過來就不需要人的工作。

信息流未來發(fā)展趨勢

再談?wù)勎覍π畔⒘魑磥淼陌l(fā)展變化趨勢判斷,形式越來越多樣,圖文、視頻、音頻,今天看到音頻不是很多,很多是第三方的,只做音頻內(nèi)容,信息流這種瀑布流的形式,我覺得內(nèi)容是不拘一格的,音頻一定會出現(xiàn),知識問答也會有,知識問答今天很多公司已經(jīng)在做了。實(shí)際上只要有用戶、有流量、有興趣點(diǎn)、有熱點(diǎn),為什么不做問答?一個(gè)是把內(nèi)容形式變得更多樣,另一方面社交屬性,一旦做問答,可能就把用戶的互動性建立起來,其實(shí)就是往社交方向引導(dǎo),很多人想能不能做社交,黏性越來越強(qiáng)。當(dāng)把所有生活場景覆蓋掉以后,你發(fā)現(xiàn)離不開這個(gè)產(chǎn)品,這個(gè)產(chǎn)品也許變成你一站式的服務(wù),也許將來不需要搜索引擎和第三方,通過這個(gè)就可以獲得你想要的所有信息。

場景更加細(xì)分,剛才提到一些,要做個(gè)性化、做推薦,為達(dá)到更好的效果,肯定要把這些列出來。有些東西機(jī)器可以分別出來,有些需要在產(chǎn)品思考,要真正思考一下用戶是怎么用這個(gè)產(chǎn)品。我大體羅列了一下,早上起來,我給你發(fā)一些東西和晚上起來發(fā)一些東西,東西不一樣。晚上是一些沉淀的東西,可能是一些精讀,體育賽事,如果有體育賽事,關(guān)心體育賽事,一定是第一時(shí)間push,明天看可能沒有意義。有時(shí)候抱怨手機(jī)收到信息太多,但是你關(guān)心的體育比賽,推給你,你一定是放在重大新聞。還有追劇,電視上熱播的劇,我們推給你,甚至精彩片斷,相信你會點(diǎn)。打發(fā)時(shí)間,等車的時(shí)候拿出來,我們判斷出你在車站,拿出來就是打發(fā)時(shí)間,我可能推一些泛讀的東西給你,還有路況信息。

AI本身的角色會發(fā)揮更大的價(jià)值,這無需多說,我很看好AI在信息流的應(yīng)用。隨著內(nèi)容形式復(fù)雜,必須通過AI。

AI的應(yīng)用價(jià)值

剛才說AI很泛泛,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)具體能干什么?我們知道視頻、圖像的分類,這個(gè)不多說。深度學(xué)習(xí)CNN、RNN、ETC很多,這方面進(jìn)展很熱,我自己也看。明星臉識別,看視頻,如果視頻關(guān)于明星,識別出來推薦給合適的人還是可以做到的。語音識別,音頻拿過來轉(zhuǎn)化為語音,這包括不同地區(qū)的語音。三俗、不適內(nèi)容,這個(gè)很關(guān)鍵,其實(shí)很多內(nèi)容,我覺得并不適合推給大家,或者不適合在很多場景下推給大家。很多很低俗的內(nèi)容,今天看來,這個(gè)生態(tài)是其中一部分,今天很多人為了拿到流量,故意生產(chǎn)一些不太好的內(nèi)容,或者比較低俗的內(nèi)容,也許一部分人推給他不介意,但是很多人介意。如何挑這些內(nèi)容出來,是很困難的。這種不適內(nèi)容和低俗內(nèi)容如何定義,還沒有很好的定義。

還有比較傳統(tǒng)的理論,遷移學(xué)習(xí),今天你點(diǎn)很多圖文,明天我突然上馬視頻項(xiàng)目或者音頻項(xiàng)目,沒有用戶數(shù)據(jù),如何快速的把你在其他領(lǐng)域的積累,馬上被模型遷移到另外的領(lǐng)域,很關(guān)鍵,因?yàn)槎桃曨l很火爆,如果今天說推短視頻場景,我花一年時(shí)間積累五百萬用戶數(shù)據(jù)做好的模型,已經(jīng)來不及,必須把現(xiàn)有的信息擴(kuò)展到新的。

智能寫稿我覺得也是很好的方向,今天很多場景下,寫稿需求很緊迫,比如體育賽事和重大新聞和重大自然災(zāi)害,大家比的是誰快、誰準(zhǔn)確,如何能在已知的現(xiàn)有條件下,讓機(jī)器人把稿件準(zhǔn)確寫出來,并且傳播,這是我們的核心競爭力之一。有時(shí)候人可以盯著,但是人總有失誤的時(shí)候,可能會慢一點(diǎn),人寫又很慢,如何用機(jī)器更精準(zhǔn)的把信息真實(shí)表達(dá)出來,并且傳播,我覺得是未來的方向之一。

以上就是我演講的全部內(nèi)容。謝謝大家!

————————

以上是51CTO.com記者從一線為您帶來的精彩報(bào)道。后續(xù)我們還有更加精彩的獨(dú)家報(bào)道,敬請關(guān)注。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:張昂 來源: 51CTO
相關(guān)推薦

2017-11-30 09:59:14

2022-08-23 14:00:48

數(shù)據(jù)管治

2018-06-13 19:36:58

IBM、AI、人工智能

2023-10-18 07:09:31

AIGC瀏覽器

2022-11-10 08:48:20

開源數(shù)據(jù)湖Arctic

2014-08-18 13:44:22

易傳媒

2017-12-01 12:35:57

信息無障礙

2017-04-13 12:01:54

數(shù)據(jù)監(jiān)測信息流

2010-11-18 12:36:13

距離矢量協(xié)議路由交換

2010-07-07 12:14:01

路由選擇協(xié)議

2017-07-26 18:49:00

京東機(jī)器學(xué)習(xí)人工智能

2017-07-07 16:11:40

2011-11-07 09:50:30

2017-08-06 19:43:31

2023-05-11 07:42:04

doop漏洞

2024-03-08 08:50:01

信息流系統(tǒng)緩存

2024-07-03 16:44:49

2025-03-07 08:31:34

2012-03-13 13:45:32

元年軟件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號