“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運(yùn)作流程
今日頭條這類資訊聚合平臺(tái)是基于數(shù)據(jù)挖掘技術(shù),篩選和推薦新聞:“它為用戶推薦有價(jià)值的、個(gè)性化的信息,提供連接人與信息的新型服務(wù),是國(guó)內(nèi)移動(dòng)互聯(lián)網(wǎng)領(lǐng)域成長(zhǎng)最快的產(chǎn)品服務(wù)之一”。自從2012年3月創(chuàng)建以來(lái),今日頭條至今已經(jīng)累計(jì)激活用戶3.1億,日活躍用戶超過(guò)3000萬(wàn)。 本文嘗試從技術(shù)層面分析今日頭條的傳播機(jī)制和相關(guān)原理。 今日頭條是一個(gè)典型的數(shù)據(jù)新聞平臺(tái),其新聞來(lái)源除了合作媒體之外,很大一部分來(lái)自于搜索引擎的網(wǎng)絡(luò)爬蟲。 網(wǎng)絡(luò)爬蟲是什么? STEP 1:從互聯(lián)網(wǎng)各個(gè)角落收集信息; STEP 2:將其中的新聞?lì)愋畔⑦M(jìn)行匯總; STEP 3:匯總的信息經(jīng)過(guò)基于機(jī)器學(xué)習(xí)的分類和排序,劃分出每一個(gè)時(shí)刻的熱點(diǎn)新聞。 今日頭條作為數(shù)據(jù)新聞平臺(tái),與一般數(shù)據(jù)新聞的區(qū)別,在于提供一個(gè)媒介平臺(tái),展示匯總的信息,而不是一條信息。 網(wǎng)絡(luò)爬蟲的工作機(jī)制是什么? 網(wǎng)絡(luò)爬蟲的工作機(jī)制依賴于會(huì)聯(lián)網(wǎng)互聯(lián)網(wǎng)上的超鏈接網(wǎng)絡(luò)。 在互聯(lián)網(wǎng)上多數(shù)網(wǎng)頁(yè),都有超鏈接存在。這些超鏈接將各個(gè)網(wǎng)頁(yè)鏈接起來(lái)構(gòu)成了一個(gè)龐大的網(wǎng)絡(luò),也就是超鏈接網(wǎng)絡(luò)。爬蟲作為一種網(wǎng)絡(luò)程序從一些網(wǎng)頁(yè)出發(fā),保存網(wǎng)頁(yè)的內(nèi)容,尋找網(wǎng)頁(yè)當(dāng)中的超鏈接,然后訪問(wèn)這些超鏈接,并重復(fù)以上過(guò)程,這個(gè)過(guò)程可以不斷進(jìn)行下去。如圖所示: “今日頭條”怎么計(jì)算:“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運(yùn)作流程 STEP 1:爬蟲從一個(gè)種子節(jié)點(diǎn)0開始爬取網(wǎng)頁(yè)內(nèi)容, STEP 2:抓取的同時(shí)發(fā)現(xiàn)兩個(gè)超鏈接,并爬取第一級(jí)節(jié)點(diǎn), STEP 3:從第一級(jí)節(jié)點(diǎn)開始又發(fā)現(xiàn)第二級(jí)節(jié)點(diǎn),這個(gè)過(guò)程不斷進(jìn)行下去。 這個(gè)過(guò)程當(dāng)中有兩種策略: 1、只有窮盡一個(gè)層級(jí)的所有頁(yè)面才爬取下一個(gè)層級(jí),這種策略叫做“廣度優(yōu)先”; 2、發(fā)現(xiàn)一個(gè)超鏈接后,立刻就開始爬取這個(gè)網(wǎng)頁(yè),并持續(xù)深入下去,這種過(guò)程叫做“深度優(yōu)先”。 補(bǔ)充說(shuō)明: 上圖是一個(gè)樹狀網(wǎng)絡(luò),現(xiàn)實(shí)的網(wǎng)絡(luò)不是這么簡(jiǎn)單的,里面充滿了“回路”,即新發(fā)現(xiàn)的網(wǎng)頁(yè)里的超鏈接指向的是已經(jīng)爬取的老節(jié)點(diǎn)。這個(gè)時(shí)候就需要甄別那些網(wǎng)頁(yè)已經(jīng)被成功抓取。 舉個(gè)栗子—— 以今日頭條為例說(shuō)明一下網(wǎng)絡(luò)爬蟲在新聞抓取中的工作流程: STEP 1:工作人員先要在后臺(tái)設(shè)置新聞來(lái)源的字典,比如“網(wǎng)易新聞”、“新浪新聞”、“鳳凰新聞”、“浙江新聞”等等, STEP 2:通過(guò)這些字典,網(wǎng)絡(luò)爬蟲將會(huì)鎖定到這些網(wǎng)站的超鏈接,從中抓取新聞。 補(bǔ)充說(shuō)明: 如果這條新聞是在這些新聞平臺(tái)相關(guān)的博客當(dāng)中的內(nèi)容,而不是新聞平臺(tái)本身的新聞,網(wǎng)絡(luò)爬蟲就抓不到了。 聚合媒體的概念并非如此簡(jiǎn)單,除了匯聚來(lái)自不同媒體的內(nèi)容之外,聚合媒體更重要的特征是對(duì)不同信息進(jìn)行分類并排序,得到一個(gè)信息匯總界面(aggregator),這種信息匯總往往表現(xiàn)為某種排行榜。這種排行榜在傳播機(jī)制上滿足網(wǎng)絡(luò)科學(xué)中所說(shuō)的“優(yōu)先鏈接機(jī)制”,即用戶的注意力更傾向于投向那些排名靠前的信息,這個(gè)過(guò)程可以被經(jīng)典的傳播學(xué)發(fā)現(xiàn):“樂隊(duì)花車效應(yīng)”。這個(gè)發(fā)現(xiàn)起源于美國(guó)的選舉過(guò)程。候選人會(huì)站在樂隊(duì)花車上拉選票,贊同者會(huì)站到他的車上。研究發(fā)現(xiàn),人們傾向于登上那些站滿了人的花車,而非那些只有很少人的花車。 個(gè)性化推薦在今日頭條當(dāng)中發(fā)揮著重要作用。 今日頭條的用戶登錄非常人性化。作為一個(gè)后起之秀,今日頭條非常具有策略性地允許用戶使用微博、QQ等社交賬號(hào)登錄。這個(gè)過(guò)程實(shí)際上授權(quán)今日頭條挖掘個(gè)人社交網(wǎng)絡(luò)的基本信息。因而,便于獲取用戶的個(gè)性化信息,比如用戶的興趣、用戶屬性。越用越懂用戶,從而進(jìn)行精準(zhǔn)的閱讀內(nèi)容推薦。 個(gè)性化推薦的基礎(chǔ)是構(gòu)建推薦系統(tǒng) 推薦系統(tǒng)廣泛地應(yīng)用于用戶沒有明確需求的場(chǎng)景。推薦系統(tǒng)就算法而言,可以分為: 社會(huì)化推薦(Social recommendation, 比如向朋友咨詢); 基于內(nèi)容的推薦(content-based filtering, 例如根據(jù)用戶觀看過(guò)的電影推薦其他與之相似的電影); 基于協(xié)同過(guò)濾的推薦(collaborative filtering,例如查看排行榜,或者找到和自己興趣相似的用戶,看看他們最近看什么電影)。 所以,可以用于構(gòu)建推薦系統(tǒng)的信息也分為三類:好友、歷史興趣、注冊(cè)信息。 推薦系統(tǒng)就是可以關(guān)聯(lián)用戶和物品的一種自動(dòng)化工具。除了這些信息之外,時(shí)間、地點(diǎn)等信息均可加入到推薦系統(tǒng)的構(gòu)建中來(lái)?,F(xiàn)在,推薦系統(tǒng)已經(jīng)廣泛地應(yīng)用于新聞推薦、圖書推薦、音樂推薦、電影推薦、朋友推薦等領(lǐng)域,作為人工智能的一種形式,極大地方便了人們的生活和交往。 推薦系統(tǒng)算法的基礎(chǔ)就是要構(gòu)造相似性矩陣 這種相似性矩陣可以是物與物的相似性,例如書籍之間的相似性、音樂之間的相似性。以下以基于物品的協(xié)同過(guò)濾算法(item-based collaborative filtering, ItemCF)為例?;谖锲返膮f(xié)同過(guò)濾算法可以利用用戶的歷史行為,因而可以使得推薦結(jié)果具有很強(qiáng)解釋性。比如,可以給喜歡讀足球新聞的用戶推薦其它相似的新聞?;谖锲返膮f(xié)同過(guò)濾算法主要分為兩步: STEP 1:計(jì)算物品之間的相似度。 STEP 2: 根據(jù)用戶的歷史行為生成用戶的推薦列表。 假設(shè)有四個(gè)用戶: 用戶1在今日頭條的瀏覽記錄是[a、b、d], 用戶2的瀏覽記錄是[b、c], 用戶3的瀏覽記錄是[c、d], 用戶4的瀏覽記錄是[b、c、d]; 可將這四個(gè)人的瀏覽行為表達(dá)為以下四個(gè)物品矩陣: 將個(gè)體用戶的物品矩陣相加,可以匯總為所有的新聞矩陣M,M[i][j]表示新聞i和新聞j被多個(gè)人同時(shí)閱讀的次數(shù)。如下所示: 矩陣邏輯 如果兩個(gè)新聞被多個(gè)人同時(shí)瀏覽,那么可以說(shuō)它們之間的相似度更高。 將以上矩陣歸一化就可以對(duì)矩陣進(jìn)行操作并計(jì)算新聞之間的相似度,比如相關(guān)相似度或者余弦相似度。 基于物品間的相似性度,如果有一個(gè)新用戶進(jìn)入系統(tǒng),并且他閱讀了新聞c,那么ItemCF算法可以很快給出與新聞c相似度最高的新聞(b和d),并推薦給這個(gè)新用戶。 在推薦過(guò)程中,推薦系統(tǒng)可以根據(jù)用戶的行為不斷優(yōu)化相似矩陣,使得推薦越來(lái)越準(zhǔn)確。 或者,如果用戶可以手動(dòng)對(duì)每個(gè)新聞的興趣(如喜歡或討厭)標(biāo)出,就可以使得推薦更準(zhǔn)確。 本質(zhì)上來(lái)說(shuō),上面兩個(gè)圖是熱點(diǎn)新聞、以及個(gè)人定制新聞的基礎(chǔ)原理。它分為兩步完成: STEP 1:先找出新聞之間的熱點(diǎn)與相似度 STEP 2:將熱點(diǎn)與相似度高的新聞推送給用戶。 舉個(gè)栗子—— 假設(shè)在抗戰(zhàn)勝利70周年當(dāng)天,有4個(gè)人同時(shí)瀏覽今日頭條的新聞, A是女讀者,她點(diǎn)擊了秋季糖水制作方法、育兒應(yīng)注意的五個(gè)事項(xiàng)、閱兵式、新型武器等新聞, B是中年上班族,他點(diǎn)擊了閱兵式、中國(guó)最新兵器譜等新聞, C是一位年長(zhǎng)者,他點(diǎn)擊了養(yǎng)生、閱兵式、新型武器等新聞, D是一位剛畢業(yè)的男大學(xué)生,他點(diǎn)擊了英雄聯(lián)盟攻略、好萊塢旅行攻略、閱兵式、新型武器等新聞。 熱點(diǎn)和相似度的產(chǎn)生過(guò)程: STEP 1:這四個(gè)人同時(shí)點(diǎn)擊閱兵式和新型武器,系統(tǒng)算法就會(huì)通過(guò)點(diǎn)擊和停留的時(shí)間計(jì)算出閱兵式和新型武器是當(dāng)天的熱點(diǎn)。 STEP 2:閱兵式和新型武器同時(shí)被多人點(diǎn)擊,代表他們之間具有相似性。 STEP 3:當(dāng)新進(jìn)用戶點(diǎn)擊新聞時(shí),今日頭條會(huì)以最快速度分析他點(diǎn)擊的內(nèi)容,并在已經(jīng)排查出的熱點(diǎn)新聞當(dāng)中尋找他所感興趣的相關(guān)內(nèi)容匹配給他,引導(dǎo)他閱讀熱點(diǎn)。 這一系列的行為都由計(jì)算機(jī)自動(dòng)完成。 機(jī)制的缺陷 上面的例子說(shuō)明了定制新聞以泛熱點(diǎn)新聞為基礎(chǔ)數(shù)據(jù)來(lái)完成的事實(shí),這就出現(xiàn)一個(gè)問(wèn)題,即當(dāng)一個(gè)人關(guān)注的新聞不是熱點(diǎn)時(shí),系統(tǒng)得不到相關(guān)的熱點(diǎn),就會(huì)在該新聞當(dāng)中尋找其他信息進(jìn)行再匹配,這樣匹配出的新聞在現(xiàn)有信息的基礎(chǔ)上最大程度吻合了用戶的興趣,但未必會(huì)推送當(dāng)天最熱點(diǎn)的新聞。要想達(dá)到這種長(zhǎng)尾理論所設(shè)想的定制服務(wù),關(guān)鍵是對(duì)新聞的細(xì)分。只有將不同主題細(xì)分成各種子主題,再細(xì)分下設(shè)內(nèi)容,才能達(dá)到真正的私人定制。要做到這一點(diǎn),實(shí)際已經(jīng)脫離了機(jī)械,而在于人對(duì)于事物性質(zhì)的認(rèn)知與把握。正如法國(guó)社會(huì)學(xué)家福柯在《知識(shí)考古學(xué)》當(dāng)中的觀點(diǎn),分類,是一事物區(qū)別于其他事物的根本。而分類,歸根結(jié)底是人的主觀能動(dòng)性的體現(xiàn);當(dāng)系統(tǒng)中累計(jì)的用戶行為越 多,這種分類越準(zhǔn)確,自動(dòng)化的私人定制也會(huì)越貼近用戶需求。 聚合媒體在國(guó)外的應(yīng)用也非常廣闊。信息在聚合媒體的數(shù)據(jù)新聞平臺(tái)上的展現(xiàn),可以是傳統(tǒng)的搜索引擎的平面化展現(xiàn),也可以是可視化展現(xiàn)。后者如日本的新聞地圖網(wǎng)站(http://newsmap.jp)。日本的新聞地圖項(xiàng)目是基于谷歌新聞做的,它采用不同的顏色將新聞?lì)悇e區(qū)分開來(lái),如紅色代表“World”,黃色代表“National”,用戶可以通過(guò)勾選頁(yè)面底部的分類欄進(jìn)行篩選,在頁(yè)面頂部可以按照國(guó)家和地區(qū)進(jìn)行篩選。網(wǎng)站后臺(tái)算法依據(jù)相關(guān)新聞信息的數(shù)量、重要性、點(diǎn)擊量自動(dòng)調(diào)整每個(gè)新聞所占面積的大小。 一個(gè)非常有意思的聚合新聞網(wǎng)站是GDELT。 GDELT項(xiàng)目(The GDELT Project,http://gdeltproject.org/)監(jiān)測(cè)全球100多種語(yǔ)言實(shí)時(shí)的廣播、印刷和網(wǎng)絡(luò)新聞,識(shí)別新聞中的人、地、組織、數(shù)量、主題、來(lái)源、情緒、時(shí)間?;诖?,GDELT推出了全球新聞情緒地圖,數(shù)據(jù)每一個(gè)小時(shí)更新一次。其中綠色表示快樂,黃色表示悲傷。數(shù)據(jù)密度反映了新聞的規(guī)模,見下圖: 另外一個(gè)很好的例子是社交新聞網(wǎng)站,主要以Digg、Reddit等。這種類型的網(wǎng)站允許用戶注冊(cè)、相互關(guān)注、提交新聞并對(duì)新聞進(jìn)行打分。其中,得分高的新聞就會(huì)進(jìn)入到流行新聞的頁(yè)面。在這個(gè)過(guò)程當(dāng)中,各個(gè)用戶充當(dāng)了新聞的把關(guān)人,而這種信息把關(guān)的方式被稱之為群體把關(guān)。 但是,群體把關(guān)的意義主要在于將新聞推到流行頁(yè)面(webpage ofpopular news),也就是公眾面前。這個(gè)階段之后流行信息擴(kuò)散更像是傳統(tǒng)媒體的新聞擴(kuò)散方式。其實(shí),這種基于用戶過(guò)濾的新聞聚合(news aggregation)存在非常普遍,例如新浪微博上的“熱門話題”、推特上的“趨勢(shì)性話題”(trend)等。根據(jù)筆者對(duì)Digg上新聞擴(kuò)散的分析,這種新聞聚合對(duì)于信息擴(kuò)散的影響更大,對(duì)于那些傳播廣泛的Digg新聞,70%以上的信息接觸是通過(guò)熱門新聞被Digg用戶看到的。 從媒體把關(guān)到群體把關(guān)是一個(gè)進(jìn)步,從群體把關(guān)到計(jì)算機(jī)或算法把關(guān)則隱藏著危險(xiǎn)。 過(guò)去由編輯所承擔(dān)的內(nèi)容揀選的工作,現(xiàn)在交給了計(jì)算機(jī)來(lái)處理。其信息把關(guān)機(jī)制發(fā)生了根本的變化。在這個(gè)過(guò)程當(dāng)中,受到最大影響的是傳統(tǒng)的新聞生產(chǎn)邏輯。傳統(tǒng)的新聞?dòng)^重視公眾利益,報(bào)道具有長(zhǎng)遠(yuǎn)影響的事件并提供見解。將這些工作交給機(jī)器和算法將帶來(lái)前所未有的挑戰(zhàn): 首先,算法根據(jù)使用者所表現(xiàn)出來(lái)的“興趣”進(jìn)行分類和推薦信息,往往容易給用戶推薦一些低質(zhì)量但用戶短期內(nèi)喜歡的信息。 其次,不斷地接觸低質(zhì)量的信息使得個(gè)體的新聞素養(yǎng)降低。過(guò)于依賴機(jī)器幫助我們進(jìn)行信息把關(guān),容易導(dǎo)致視角越來(lái)越局限,不再關(guān)注社會(huì)整體利益,容易走向犬儒主義。 再次,主流的新聞操作手法保障了新聞從業(yè)者面對(duì)政治、軍事和社會(huì)力量時(shí)的獨(dú)立和從容。而推薦算法從信息和用戶出發(fā),對(duì)于國(guó)家和社會(huì)整體的關(guān)注不夠,這種新聞推送機(jī)制的偏向容易帶來(lái)攻訐。 從未來(lái)新聞的視角來(lái)思考新聞行業(yè)的轉(zhuǎn)型更加使得我們意識(shí)到回歸新聞本質(zhì)的重要性。 未來(lái)的新聞行業(yè)不僅僅是提供有限的案例訪談,而是系統(tǒng)地獲取、積累并分析數(shù)據(jù),并挖掘隱含其中的信息。在注意力經(jīng)濟(jì)的時(shí)代,向用戶提供這種專業(yè)化的信息、專 業(yè)化的評(píng)論才是媒體的責(zé)任。目前迅速崛起的數(shù)據(jù)新聞?wù)谧呦蜻@個(gè)方向,只不過(guò)在現(xiàn)階段更注重可視化表達(dá)。聚合媒體將信息過(guò)濾自動(dòng)化,體現(xiàn)了未來(lái)新聞的特 點(diǎn)?;趥€(gè)性化的推薦,聚合媒體將人工智能的新聞?wù)瞎δ苓M(jìn)一步帶進(jìn)我們的生活,提供了很多便利。但是,不應(yīng)該忽略的是,要警惕太依賴機(jī)器和算法所潛藏的 危險(xiǎn):算法或計(jì)算機(jī)把關(guān)有損新聞價(jià)值取向。 未來(lái)的新聞業(yè),走向人機(jī)結(jié)合的時(shí)代。網(wǎng)絡(luò)爬蟲:抓取新聞的基本技術(shù)
推薦系統(tǒng):個(gè)性化定制新聞的技術(shù)邏輯
聚合媒體:一種國(guó)際新聞界的潮流
主流新聞?dòng)^與人工智能
未來(lái)新聞業(yè)走向人機(jī)結(jié)合時(shí)代