用2600條文本數(shù)據(jù),為你揭秘TED受歡迎的真正原因!
為什么不超過(guò)18分鐘的TED演講,平均點(diǎn)擊率卻超過(guò)百萬(wàn)次,最高的甚至超過(guò)5000萬(wàn)次?為什么連比爾•蓋茨、史蒂芬•霍金、阿爾•戈?duì)栠@樣的商界、學(xué)界與政界精英都競(jìng)相登上TED的舞臺(tái)?到底是什么原因使得TED演講如此受歡迎?近期Merkle數(shù)據(jù)分析師胡舟對(duì)TED官網(wǎng)爬取了2600余個(gè)演講文本進(jìn)行分析,為大家揭開(kāi)了TED 神秘的面紗。
科譜一下:TED Event知多少?
這次分享主要是想通過(guò)文本分析重新認(rèn)識(shí)TED,探究TED為何如此受歡迎?我將以案例分析形式向大家展示,如何利用自己已有的文本數(shù)據(jù),運(yùn)用NLP(自然語(yǔ)言處理)的方法,從不同維度來(lái)探究TED是一個(gè)怎樣的存在。
誕生于1984年、享譽(yù)世界的TED大會(huì)將“Ideas Worth Spreading”宗旨流傳至今。TED就像一個(gè)“舞臺(tái)”,將TED三個(gè)縮寫(xiě)字母所代表的Technology (技術(shù))、Entertainment (娛樂(lè))、Design (設(shè)計(jì))三個(gè)領(lǐng)域內(nèi)的思想領(lǐng)袖與實(shí)干家聚集起來(lái),講述值得傳播的創(chuàng)意和知識(shí)。從2006年開(kāi)始, 高質(zhì)量的演講視頻被翻譯成100多種語(yǔ)言在全球網(wǎng)絡(luò)免費(fèi)傳播,深受追捧。
TED的最大的特點(diǎn)在于,無(wú)論是多么深?yuàn)W前沿的思想,都會(huì)被立刻濃縮在18分鐘內(nèi),這也是TED大會(huì)創(chuàng)始人克里斯·安德森一直秉持的觀念——讓信息變得清楚易懂。18分鐘的演講既避免了演講因?yàn)闀r(shí)間過(guò)長(zhǎng)顯得拖沓,也迫使演講者更加精心地去準(zhǔn)備演講內(nèi)容。

TED除了一年一度春季的TED大會(huì)之外,下半年還有TED Global大會(huì),每次大會(huì)有4-5天,近百位嘉賓。TED每年還有一些不同獨(dú)立主題的子會(huì)議,如TED Women。此外,TEDx是TED 旗下的是非官方,自發(fā)性的活動(dòng)項(xiàng)目,TED官網(wǎng)會(huì)從全球10000多個(gè)當(dāng)?shù)氐腡EDx活動(dòng)選擇一些優(yōu)質(zhì)的TEDx演講上傳官網(wǎng)。

從TED不同Event的演講文本來(lái)看,可以明顯看出TED Global關(guān)注的主題更加國(guó)際化,如Africa、Country、Social等。
相比之下TEDx就更加貼近生活,關(guān)注更多的是Kids、Love、School之類(lèi)的話(huà)題。而且TEDx票價(jià)相對(duì)便宜,雖然有人說(shuō)TED和TEDx是應(yīng)國(guó)家邀請(qǐng)登天安門(mén)參與閱兵儀式和買(mǎi)票登過(guò)天安門(mén)的區(qū)別,但是TEDx中依然不乏有質(zhì)量很高的演講,而且離我們生活更近,如果可以自己參與其中也是極好的。
同時(shí),從TED Women演講的主題和權(quán)重不難看出這個(gè)會(huì)議的獨(dú)特之處,由此也可以看出TED這個(gè)非盈利組織對(duì)于女性群體的尊重和關(guān)心。
什么是NLP(自然語(yǔ)言處理)?
以往大家對(duì)TED的認(rèn)識(shí)都是演講者生動(dòng)的演說(shuō),而今天的分享,我將從TED演講的文本出發(fā),運(yùn)用NLP(自然語(yǔ)言處理)的方法,換一個(gè)角度帶大家重新認(rèn)識(shí)TED。那么什么是NLP?自然語(yǔ)言就是人們?nèi)粘J褂玫恼Z(yǔ)言,所以通俗的來(lái)說(shuō)NLP就是一門(mén)實(shí)現(xiàn)和計(jì)算機(jī)“說(shuō)人話(huà)”的技術(shù)。其實(shí),不管是讓計(jì)算機(jī)聽(tīng)懂人話(huà),也就是所謂的自然語(yǔ)言理解;還是讓計(jì)算機(jī)“說(shuō)人話(huà)”,也就是自然語(yǔ)言生成,都比想象中來(lái)得困難。但是作為人工智能的重要方向,NLP也是越來(lái)越受到大家的關(guān)注。
從下圖中,大家可以看到NLP的一些基礎(chǔ)算法和業(yè)務(wù)應(yīng)用。

實(shí)際上NLP技術(shù)離我們生活并不遠(yuǎn),它運(yùn)用的覆蓋面非常之廣,從一句話(huà)的詞性標(biāo)注到整個(gè)搜索引擎的應(yīng)用,都有涉及到NLP技術(shù),如大家比較熟悉的垃圾郵件分類(lèi)、谷歌百度的機(jī)器翻譯,甚至機(jī)器客服也都會(huì)運(yùn)用到NLP技術(shù)。
這次分享主要是想實(shí)現(xiàn)NLP眾多技術(shù)中的信息提取,大家都知道TED的演講那么多,并且包含各種不同領(lǐng)域的知識(shí),如何快速的知道這些TED的文本到底在說(shuō)什么?重點(diǎn)是什么?這就是信息提取要幫我們做的事情。
信息提取的方法有很多,其中一種是統(tǒng)計(jì)類(lèi)方法,另外還有像機(jī)器學(xué)習(xí)的方法等等,也就是用模型來(lái)提取文本的核心內(nèi)容。統(tǒng)計(jì)類(lèi)的方法很好理解,就是通過(guò)統(tǒng)計(jì)計(jì)算的方法評(píng)估出文本中不同詞語(yǔ)的重要程度,從而判斷文本的關(guān)鍵詞是什么。這邊我以TED在數(shù)據(jù)科學(xué)和人工智能方面Top10的演講文本來(lái)舉一個(gè)使用統(tǒng)計(jì)方法提取關(guān)鍵詞的例子。

左邊這張是由大大小小的單詞組成TED字樣的圖,這其實(shí)是一張?jiān)~頻統(tǒng)計(jì)的詞云圖。大家可以看到圖中像Intelligence、Human等字樣很大,也就是說(shuō)這些詞在這十篇文章中出現(xiàn)的頻率最多。
右邊這張圖是運(yùn)用TF-IDF算法,對(duì)同一組詞統(tǒng)計(jì)計(jì)算得出的關(guān)鍵詞和權(quán)重。TF-IDF算法與詞頻統(tǒng)計(jì)不同在于,詞頻統(tǒng)計(jì)只通過(guò)簡(jiǎn)單地看某個(gè)詞出現(xiàn)的多少,就判斷這個(gè)詞是否重要。而TF-IDF算法不僅會(huì)考慮到某個(gè)詞出現(xiàn)在一篇文章里的次數(shù),也會(huì)考慮到這個(gè)詞是不是在所有文章里都提到,如果是,那說(shuō)明這個(gè)詞可能并不具有代表性,從而權(quán)重會(huì)下降。
另一種我想分享的是運(yùn)用無(wú)監(jiān)督機(jī)器學(xué)習(xí)的方法來(lái)提取文本主題的方法,也就是這次我對(duì)TED文本分析主要運(yùn)用的方法——主題模型(LDA)。

在說(shuō)LDA主題模型之前,我先舉一個(gè)例子,比如說(shuō)你在文本中看到了大量“科比”的字眼,很容易聯(lián)想到文本的主題可能是體育、籃球。
但你仔細(xì)一看,發(fā)現(xiàn)文章中全部都是關(guān)于科比的八卦,這時(shí)候你就會(huì)判斷文本的主題可能是娛樂(lè)八卦。這就是LDA想解決的問(wèn)題,它認(rèn)為不同詞語(yǔ)在不同主題里的權(quán)重是不一樣的,所以一個(gè)詞并不能代表一個(gè)主題。那用什么代表主題呢?
機(jī)智的LDA采用的是一組帶權(quán)重的關(guān)鍵詞組合來(lái)表示文本的主題。比如上PPT上的例子,兩組詞語(yǔ)雖然一樣,但由于每個(gè)詞語(yǔ)的權(quán)重不同,所以?xún)山M詞語(yǔ)組合體現(xiàn)的主題并不一樣,明顯可以看出第一個(gè)主題中,NBA、科比和裁判權(quán)重更大,那它的主題可能更偏向于體育,而第二個(gè)主題則明顯偏向于娛樂(lè)八卦。
TED 在講什么?
一直以來(lái),各個(gè)領(lǐng)域的前沿思想者被邀請(qǐng)到TED 來(lái)分享他們獨(dú)特的觀點(diǎn)。TED 演講涉及的主題從宇宙起源到未來(lái)科技,從奇妙自然到生活感悟… 可說(shuō)是包羅萬(wàn)象。然而,從演講的文本內(nèi)容出發(fā),TED的主題又有何特點(diǎn)呢?下面我將會(huì)分享在TED文本

數(shù)據(jù)分析中的發(fā)現(xiàn)和經(jīng)驗(yàn)。這次分析的數(shù)據(jù)是從官網(wǎng)爬取下來(lái)截止到2017年9月的數(shù)據(jù)內(nèi)容,包括演講標(biāo)題、演講者信息發(fā)布、錄制時(shí)間、瀏覽評(píng)論量以及最重要的演講文本內(nèi)容,一共是2600多條數(shù)據(jù)。
從上圖可以看到對(duì)不同錄制時(shí)間的演講視頻建立LAD主題模型的結(jié)果,其中People、Time和Life是每年TED眾多主題中的“常客”,而且所占權(quán)重很大。從結(jié)果看來(lái),TED并不像很多人認(rèn)為如神壇一般遙遠(yuǎn),相反它更側(cè)重人文,也非常貼近生活,關(guān)注愛(ài)和孩子;其次,科技創(chuàng)意和故事的講述同樣是TED的重頭戲,演講者往往以幽默風(fēng)趣的方式與大家分享自己的親身經(jīng)歷,感悟和觀點(diǎn)。
此外,隨著時(shí)代的變遷,TED的主題也隨之變化著。

數(shù)據(jù)和信息爆炸的年代,TED的話(huà)題同樣更多集中在數(shù)據(jù),社交方面。與過(guò)去更加側(cè)重一些個(gè)人,狹窄的主題不同,近些年的TED 更多關(guān)注國(guó)家政府,健康和家庭的主題。此外,女性的話(huà)題越來(lái)越受到演講者們的關(guān)注。
TED有著不同領(lǐng)域的新創(chuàng)意和想法的碰撞,同時(shí)也關(guān)心著時(shí)下的最新訊息。

例如從歷年TED演講文本主題中發(fā)現(xiàn),相較其他年份,2008年除了“老生常談”的話(huà)題之外,其他有很多和太空、宇宙、星球之類(lèi)相關(guān)的主題。2008年關(guān)于太空發(fā)生了什么呢?從Google Trend 上來(lái)看,其中關(guān)鍵詞Earth在2008年的搜索率非常高,而且,關(guān)聯(lián)搜索“earth-like planet”出現(xiàn)頻率非常高。
我們搜索了該年太空大事件新聞,發(fā)現(xiàn)08年美國(guó)專(zhuān)家借助 “鳳凰” 號(hào)著陸探測(cè)器發(fā)現(xiàn)火星土壤里有冰凍水,掀起了學(xué)術(shù)和媒體界關(guān)于人類(lèi)移居去火星的激烈討論,“earth-like planet”也成了人們移居其他星球的夢(mèng)想指南,Mars和NASA在Google的搜獲同樣在2008年達(dá)到高峰: 某種程度上這也說(shuō)明TED和時(shí)下最新的熱點(diǎn)也是關(guān)系緊密。
一直以來(lái),TED在啟發(fā)思考和鼓舞人心方面扮演著重要的角色。從歷年演講文本的情感分析結(jié)果上來(lái)看,TED果然是正能量的存在。

TED的情感分析得分一直在0.13上下波動(dòng),說(shuō)明總體來(lái)看TED演講內(nèi)容是積極向上的。同時(shí),從主客觀度來(lái)看,TED演講文本的得分穩(wěn)定在0.45到0.5,可見(jiàn)雖然TED是一個(gè)觀點(diǎn)的傳播,但并非雞湯式,情感類(lèi)的傳播,從文本內(nèi)容來(lái)看,TED還是相對(duì)客觀的。(polarity的分?jǐn)?shù)是一個(gè)范圍為[-1.0, 1.0] 浮點(diǎn)數(shù), 正數(shù)表示積極,負(fù)數(shù)表示消極。subjectivity是一個(gè) 范圍為 [0.0, 1.0] 的浮點(diǎn)數(shù),其中 0.0 表示 客觀,1.0表示主觀的。)
值得一提的是2004年的情感分析得分異常之高,而將此年的主題單獨(dú)拿出來(lái)看,不難發(fā)現(xiàn),happy、glamorous等非常正向的主題出現(xiàn)的權(quán)重很高。此外System、Money也出現(xiàn)在2004年TED演講時(shí)主題中,不免讓人猜想,莫非TED的情感得分與經(jīng)濟(jì)有關(guān)聯(lián)?也許!下圖是密歇根大學(xué)消費(fèi)者信心指數(shù)圖:

其中2004年該指數(shù)總體偏高,并在2004年一月達(dá)到103.8,此后該值直到2017年十月才突破100??梢钥吹剑?008年經(jīng)濟(jì)危機(jī)時(shí),TED的得分同樣出現(xiàn)低谷??梢?jiàn),經(jīng)濟(jì)形勢(shì)或許對(duì)演講者的心態(tài)有著一定的影響。
以上就是我分析的第一部分,利用它自身的數(shù)據(jù),主要從時(shí)間維度、不同事件維度對(duì)TED的主題進(jìn)行提取和分析,并從情感角度對(duì)TED進(jìn)行了解剖。
TED為何如此受歡迎?
第二個(gè)部分主要是針對(duì)TED觀看者的反饋信息來(lái)揭開(kāi)TED如此受歡迎的原因,其中主要涉及到的數(shù)據(jù)包括TED官網(wǎng)截止到2017年9月各個(gè)演講的瀏覽數(shù)、一級(jí)評(píng)論數(shù)以及觀看者對(duì)于評(píng)論的打分情況。

從上圖中可以觀察到我們選取的2600余個(gè)視頻的瀏覽量、評(píng)論量和評(píng)分?jǐn)?shù)量的分布,這些樣本的瀏覽量大概都集中在100萬(wàn)到500萬(wàn),但其中也不乏千萬(wàn)瀏覽量級(jí)的經(jīng)典視頻??梢悦黠@地看到,圖中有六個(gè)點(diǎn)異常突出,也就是觀眾反饋?zhàn)詈玫牧鶄€(gè)演講。
所以我將這六個(gè)最受歡迎的演講單獨(dú)找了出來(lái):

其中“Thinkers 50頂尖思想家”與“創(chuàng)造力和創(chuàng)新領(lǐng)域的全球杰出思想家”Ken Robinson用風(fēng)趣而睿智的創(chuàng)新案例告訴我們應(yīng)培養(yǎng)創(chuàng)造力而不是去破壞它,成為瀏覽量最高的演講。
另外,很特殊的是《自私的基因》作者,演化生物學(xué)家Richard Dawkins的演講,雖然瀏覽次數(shù)不及其他幾個(gè),但其直言不諱地對(duì)無(wú)神論和演化論的擁護(hù),以及對(duì)上帝和宗教信仰的質(zhì)疑和批判引起觀眾大量的評(píng)論。
此外其他幾個(gè)很受歡迎的演講基本上都是在圍繞人類(lèi)自身生理或心理的主題,看來(lái)觀眾們對(duì)于探索人類(lèi)自身的潛能和奧秘有著極大的興趣。

從觀眾對(duì)這幾個(gè)高分視頻的評(píng)價(jià)狀況來(lái)看,觀眾普遍非常強(qiáng)烈地感受到被激勵(lì)和啟發(fā),這可能也是TED帶給大家最直接和有力的感受。同時(shí)吸引力和信息量同樣是這幾個(gè)高分視頻受到大家追捧的重要原因??梢园l(fā)現(xiàn)大家之所以會(huì)喜歡TED很大的原因在于觀眾會(huì)對(duì)內(nèi)容產(chǎn)生共鳴,雖然僅僅只有18分鐘的時(shí)間,但是演講者生動(dòng)的演說(shuō),無(wú)論是從知識(shí)的獲取上還是精神的激勵(lì)上都得到了觀眾的好評(píng)。

除了上面提到的6個(gè)最受歡迎的演講,我對(duì)其余的視頻進(jìn)行了聚類(lèi)分析,從下圖可以看到,在觀眾的喜愛(ài)程度上,兩千余個(gè)視頻被劃分成了4類(lèi)。
從文本主題上來(lái)看,這四類(lèi)視頻有著明顯的區(qū)別。更受歡迎的演講更多的提到前沿和高新的科技,以及貼近生活的主題,而相對(duì)受關(guān)注低的演講可能更多涉及到一些相對(duì)枯燥的內(nèi)容,如法律、物理、工業(yè)制造等。
看來(lái)人們?cè)赥ED上更多是去選擇一些前沿新奇、輕松和貼近生活的演講,然而對(duì)于尋找一些專(zhuān)業(yè)性更強(qiáng)的內(nèi)容,TED可能不是一個(gè)最佳的去處。
回到TED的宗旨:“Ideas Worth Spreading”,為了要讓想法更容易擴(kuò)散,我們從TED視頻背后的數(shù)據(jù)發(fā)現(xiàn),這些內(nèi)容必須貼近人,從人的角度出發(fā),和當(dāng)下時(shí)事產(chǎn)生共鳴,才有可能更將想法傳遞給更多的人!