自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用2600條文本數(shù)據(jù),為你揭秘TED受歡迎的真正原因!

大數(shù)據(jù)
這次分享主要是想通過(guò)文本分析重新認(rèn)識(shí)TED,探究TED為何如此受歡迎?我將以案例分析形式向大家展示,如何利用自己已有的文本數(shù)據(jù),運(yùn)用NLP(自然語(yǔ)言處理)的方法,從不同維度來(lái)探究TED是一個(gè)怎樣的存在。

為什么不超過(guò)18分鐘的TED演講,平均點(diǎn)擊率卻超過(guò)百萬(wàn)次,最高的甚至超過(guò)5000萬(wàn)次?為什么連比爾•蓋茨、史蒂芬•霍金、阿爾•戈?duì)栠@樣的商界、學(xué)界與政界精英都競(jìng)相登上TED的舞臺(tái)?到底是什么原因使得TED演講如此受歡迎?近期Merkle數(shù)據(jù)分析師胡舟對(duì)TED官網(wǎng)爬取了2600余個(gè)演講文本進(jìn)行分析,為大家揭開(kāi)了TED 神秘的面紗。

科譜一下:TED Event知多少?

這次分享主要是想通過(guò)文本分析重新認(rèn)識(shí)TED,探究TED為何如此受歡迎?我將以案例分析形式向大家展示,如何利用自己已有的文本數(shù)據(jù),運(yùn)用NLP(自然語(yǔ)言處理)的方法,從不同維度來(lái)探究TED是一個(gè)怎樣的存在。

誕生于1984年、享譽(yù)世界的TED大會(huì)將“Ideas Worth Spreading”宗旨流傳至今。TED就像一個(gè)“舞臺(tái)”,將TED三個(gè)縮寫(xiě)字母所代表的Technology (技術(shù))、Entertainment (娛樂(lè))、Design (設(shè)計(jì))三個(gè)領(lǐng)域內(nèi)的思想領(lǐng)袖與實(shí)干家聚集起來(lái),講述值得傳播的創(chuàng)意和知識(shí)。從2006年開(kāi)始, 高質(zhì)量的演講視頻被翻譯成100多種語(yǔ)言在全球網(wǎng)絡(luò)免費(fèi)傳播,深受追捧。

TED的最大的特點(diǎn)在于,無(wú)論是多么深?yuàn)W前沿的思想,都會(huì)被立刻濃縮在18分鐘內(nèi),這也是TED大會(huì)創(chuàng)始人克里斯·安德森一直秉持的觀念——讓信息變得清楚易懂。18分鐘的演講既避免了演講因?yàn)闀r(shí)間過(guò)長(zhǎng)顯得拖沓,也迫使演講者更加精心地去準(zhǔn)備演講內(nèi)容。

 

TED除了一年一度春季的TED大會(huì)之外,下半年還有TED Global大會(huì),每次大會(huì)有4-5天,近百位嘉賓。TED每年還有一些不同獨(dú)立主題的子會(huì)議,如TED Women。此外,TEDx是TED 旗下的是非官方,自發(fā)性的活動(dòng)項(xiàng)目,TED官網(wǎng)會(huì)從全球10000多個(gè)當(dāng)?shù)氐腡EDx活動(dòng)選擇一些優(yōu)質(zhì)的TEDx演講上傳官網(wǎng)。

 

從TED不同Event的演講文本來(lái)看,可以明顯看出TED Global關(guān)注的主題更加國(guó)際化,如Africa、Country、Social等。

相比之下TEDx就更加貼近生活,關(guān)注更多的是Kids、Love、School之類(lèi)的話(huà)題。而且TEDx票價(jià)相對(duì)便宜,雖然有人說(shuō)TED和TEDx是應(yīng)國(guó)家邀請(qǐng)登天安門(mén)參與閱兵儀式和買(mǎi)票登過(guò)天安門(mén)的區(qū)別,但是TEDx中依然不乏有質(zhì)量很高的演講,而且離我們生活更近,如果可以自己參與其中也是極好的。

同時(shí),從TED Women演講的主題和權(quán)重不難看出這個(gè)會(huì)議的獨(dú)特之處,由此也可以看出TED這個(gè)非盈利組織對(duì)于女性群體的尊重和關(guān)心。

什么是NLP(自然語(yǔ)言處理)?

以往大家對(duì)TED的認(rèn)識(shí)都是演講者生動(dòng)的演說(shuō),而今天的分享,我將從TED演講的文本出發(fā),運(yùn)用NLP(自然語(yǔ)言處理)的方法,換一個(gè)角度帶大家重新認(rèn)識(shí)TED。那么什么是NLP?自然語(yǔ)言就是人們?nèi)粘J褂玫恼Z(yǔ)言,所以通俗的來(lái)說(shuō)NLP就是一門(mén)實(shí)現(xiàn)和計(jì)算機(jī)“說(shuō)人話(huà)”的技術(shù)。其實(shí),不管是讓計(jì)算機(jī)聽(tīng)懂人話(huà),也就是所謂的自然語(yǔ)言理解;還是讓計(jì)算機(jī)“說(shuō)人話(huà)”,也就是自然語(yǔ)言生成,都比想象中來(lái)得困難。但是作為人工智能的重要方向,NLP也是越來(lái)越受到大家的關(guān)注。

從下圖中,大家可以看到NLP的一些基礎(chǔ)算法和業(yè)務(wù)應(yīng)用。

 

實(shí)際上NLP技術(shù)離我們生活并不遠(yuǎn),它運(yùn)用的覆蓋面非常之廣,從一句話(huà)的詞性標(biāo)注到整個(gè)搜索引擎的應(yīng)用,都有涉及到NLP技術(shù),如大家比較熟悉的垃圾郵件分類(lèi)、谷歌百度的機(jī)器翻譯,甚至機(jī)器客服也都會(huì)運(yùn)用到NLP技術(shù)。

這次分享主要是想實(shí)現(xiàn)NLP眾多技術(shù)中的信息提取,大家都知道TED的演講那么多,并且包含各種不同領(lǐng)域的知識(shí),如何快速的知道這些TED的文本到底在說(shuō)什么?重點(diǎn)是什么?這就是信息提取要幫我們做的事情。

信息提取的方法有很多,其中一種是統(tǒng)計(jì)類(lèi)方法,另外還有像機(jī)器學(xué)習(xí)的方法等等,也就是用模型來(lái)提取文本的核心內(nèi)容。統(tǒng)計(jì)類(lèi)的方法很好理解,就是通過(guò)統(tǒng)計(jì)計(jì)算的方法評(píng)估出文本中不同詞語(yǔ)的重要程度,從而判斷文本的關(guān)鍵詞是什么。這邊我以TED在數(shù)據(jù)科學(xué)和人工智能方面Top10的演講文本來(lái)舉一個(gè)使用統(tǒng)計(jì)方法提取關(guān)鍵詞的例子。

 

左邊這張是由大大小小的單詞組成TED字樣的圖,這其實(shí)是一張?jiān)~頻統(tǒng)計(jì)的詞云圖。大家可以看到圖中像Intelligence、Human等字樣很大,也就是說(shuō)這些詞在這十篇文章中出現(xiàn)的頻率最多。

右邊這張圖是運(yùn)用TF-IDF算法,對(duì)同一組詞統(tǒng)計(jì)計(jì)算得出的關(guān)鍵詞和權(quán)重。TF-IDF算法與詞頻統(tǒng)計(jì)不同在于,詞頻統(tǒng)計(jì)只通過(guò)簡(jiǎn)單地看某個(gè)詞出現(xiàn)的多少,就判斷這個(gè)詞是否重要。而TF-IDF算法不僅會(huì)考慮到某個(gè)詞出現(xiàn)在一篇文章里的次數(shù),也會(huì)考慮到這個(gè)詞是不是在所有文章里都提到,如果是,那說(shuō)明這個(gè)詞可能并不具有代表性,從而權(quán)重會(huì)下降。

另一種我想分享的是運(yùn)用無(wú)監(jiān)督機(jī)器學(xué)習(xí)的方法來(lái)提取文本主題的方法,也就是這次我對(duì)TED文本分析主要運(yùn)用的方法——主題模型(LDA)。

 

在說(shuō)LDA主題模型之前,我先舉一個(gè)例子,比如說(shuō)你在文本中看到了大量“科比”的字眼,很容易聯(lián)想到文本的主題可能是體育、籃球。

但你仔細(xì)一看,發(fā)現(xiàn)文章中全部都是關(guān)于科比的八卦,這時(shí)候你就會(huì)判斷文本的主題可能是娛樂(lè)八卦。這就是LDA想解決的問(wèn)題,它認(rèn)為不同詞語(yǔ)在不同主題里的權(quán)重是不一樣的,所以一個(gè)詞并不能代表一個(gè)主題。那用什么代表主題呢?

機(jī)智的LDA采用的是一組帶權(quán)重的關(guān)鍵詞組合來(lái)表示文本的主題。比如上PPT上的例子,兩組詞語(yǔ)雖然一樣,但由于每個(gè)詞語(yǔ)的權(quán)重不同,所以?xún)山M詞語(yǔ)組合體現(xiàn)的主題并不一樣,明顯可以看出第一個(gè)主題中,NBA、科比和裁判權(quán)重更大,那它的主題可能更偏向于體育,而第二個(gè)主題則明顯偏向于娛樂(lè)八卦。

TED 在講什么?

一直以來(lái),各個(gè)領(lǐng)域的前沿思想者被邀請(qǐng)到TED 來(lái)分享他們獨(dú)特的觀點(diǎn)。TED 演講涉及的主題從宇宙起源到未來(lái)科技,從奇妙自然到生活感悟… 可說(shuō)是包羅萬(wàn)象。然而,從演講的文本內(nèi)容出發(fā),TED的主題又有何特點(diǎn)呢?下面我將會(huì)分享在TED文本

 

數(shù)據(jù)分析中的發(fā)現(xiàn)和經(jīng)驗(yàn)。這次分析的數(shù)據(jù)是從官網(wǎng)爬取下來(lái)截止到2017年9月的數(shù)據(jù)內(nèi)容,包括演講標(biāo)題、演講者信息發(fā)布、錄制時(shí)間、瀏覽評(píng)論量以及最重要的演講文本內(nèi)容,一共是2600多條數(shù)據(jù)。

從上圖可以看到對(duì)不同錄制時(shí)間的演講視頻建立LAD主題模型的結(jié)果,其中People、Time和Life是每年TED眾多主題中的“常客”,而且所占權(quán)重很大。從結(jié)果看來(lái),TED并不像很多人認(rèn)為如神壇一般遙遠(yuǎn),相反它更側(cè)重人文,也非常貼近生活,關(guān)注愛(ài)和孩子;其次,科技創(chuàng)意和故事的講述同樣是TED的重頭戲,演講者往往以幽默風(fēng)趣的方式與大家分享自己的親身經(jīng)歷,感悟和觀點(diǎn)。

此外,隨著時(shí)代的變遷,TED的主題也隨之變化著。

 

數(shù)據(jù)和信息爆炸的年代,TED的話(huà)題同樣更多集中在數(shù)據(jù),社交方面。與過(guò)去更加側(cè)重一些個(gè)人,狹窄的主題不同,近些年的TED 更多關(guān)注國(guó)家政府,健康和家庭的主題。此外,女性的話(huà)題越來(lái)越受到演講者們的關(guān)注。

TED有著不同領(lǐng)域的新創(chuàng)意和想法的碰撞,同時(shí)也關(guān)心著時(shí)下的最新訊息。

 

例如從歷年TED演講文本主題中發(fā)現(xiàn),相較其他年份,2008年除了“老生常談”的話(huà)題之外,其他有很多和太空、宇宙、星球之類(lèi)相關(guān)的主題。2008年關(guān)于太空發(fā)生了什么呢?從Google Trend 上來(lái)看,其中關(guān)鍵詞Earth在2008年的搜索率非常高,而且,關(guān)聯(lián)搜索“earth-like planet”出現(xiàn)頻率非常高。

我們搜索了該年太空大事件新聞,發(fā)現(xiàn)08年美國(guó)專(zhuān)家借助 “鳳凰” 號(hào)著陸探測(cè)器發(fā)現(xiàn)火星土壤里有冰凍水,掀起了學(xué)術(shù)和媒體界關(guān)于人類(lèi)移居去火星的激烈討論,“earth-like planet”也成了人們移居其他星球的夢(mèng)想指南,Mars和NASA在Google的搜獲同樣在2008年達(dá)到高峰: 某種程度上這也說(shuō)明TED和時(shí)下最新的熱點(diǎn)也是關(guān)系緊密。

一直以來(lái),TED在啟發(fā)思考和鼓舞人心方面扮演著重要的角色。從歷年演講文本的情感分析結(jié)果上來(lái)看,TED果然是正能量的存在。

 

TED的情感分析得分一直在0.13上下波動(dòng),說(shuō)明總體來(lái)看TED演講內(nèi)容是積極向上的。同時(shí),從主客觀度來(lái)看,TED演講文本的得分穩(wěn)定在0.45到0.5,可見(jiàn)雖然TED是一個(gè)觀點(diǎn)的傳播,但并非雞湯式,情感類(lèi)的傳播,從文本內(nèi)容來(lái)看,TED還是相對(duì)客觀的。(polarity的分?jǐn)?shù)是一個(gè)范圍為[-1.0, 1.0] 浮點(diǎn)數(shù), 正數(shù)表示積極,負(fù)數(shù)表示消極。subjectivity是一個(gè) 范圍為 [0.0, 1.0] 的浮點(diǎn)數(shù),其中 0.0 表示 客觀,1.0表示主觀的。)

值得一提的是2004年的情感分析得分異常之高,而將此年的主題單獨(dú)拿出來(lái)看,不難發(fā)現(xiàn),happy、glamorous等非常正向的主題出現(xiàn)的權(quán)重很高。此外System、Money也出現(xiàn)在2004年TED演講時(shí)主題中,不免讓人猜想,莫非TED的情感得分與經(jīng)濟(jì)有關(guān)聯(lián)?也許!下圖是密歇根大學(xué)消費(fèi)者信心指數(shù)圖:

 

其中2004年該指數(shù)總體偏高,并在2004年一月達(dá)到103.8,此后該值直到2017年十月才突破100??梢钥吹剑?008年經(jīng)濟(jì)危機(jī)時(shí),TED的得分同樣出現(xiàn)低谷??梢?jiàn),經(jīng)濟(jì)形勢(shì)或許對(duì)演講者的心態(tài)有著一定的影響。

以上就是我分析的第一部分,利用它自身的數(shù)據(jù),主要從時(shí)間維度、不同事件維度對(duì)TED的主題進(jìn)行提取和分析,并從情感角度對(duì)TED進(jìn)行了解剖。

TED為何如此受歡迎?

第二個(gè)部分主要是針對(duì)TED觀看者的反饋信息來(lái)揭開(kāi)TED如此受歡迎的原因,其中主要涉及到的數(shù)據(jù)包括TED官網(wǎng)截止到2017年9月各個(gè)演講的瀏覽數(shù)、一級(jí)評(píng)論數(shù)以及觀看者對(duì)于評(píng)論的打分情況。

 

從上圖中可以觀察到我們選取的2600余個(gè)視頻的瀏覽量、評(píng)論量和評(píng)分?jǐn)?shù)量的分布,這些樣本的瀏覽量大概都集中在100萬(wàn)到500萬(wàn),但其中也不乏千萬(wàn)瀏覽量級(jí)的經(jīng)典視頻??梢悦黠@地看到,圖中有六個(gè)點(diǎn)異常突出,也就是觀眾反饋?zhàn)詈玫牧鶄€(gè)演講。

所以我將這六個(gè)最受歡迎的演講單獨(dú)找了出來(lái):

 

其中“Thinkers 50頂尖思想家”與“創(chuàng)造力和創(chuàng)新領(lǐng)域的全球杰出思想家”Ken Robinson用風(fēng)趣而睿智的創(chuàng)新案例告訴我們應(yīng)培養(yǎng)創(chuàng)造力而不是去破壞它,成為瀏覽量最高的演講。

另外,很特殊的是《自私的基因》作者,演化生物學(xué)家Richard Dawkins的演講,雖然瀏覽次數(shù)不及其他幾個(gè),但其直言不諱地對(duì)無(wú)神論和演化論的擁護(hù),以及對(duì)上帝和宗教信仰的質(zhì)疑和批判引起觀眾大量的評(píng)論。

此外其他幾個(gè)很受歡迎的演講基本上都是在圍繞人類(lèi)自身生理或心理的主題,看來(lái)觀眾們對(duì)于探索人類(lèi)自身的潛能和奧秘有著極大的興趣。

 

從觀眾對(duì)這幾個(gè)高分視頻的評(píng)價(jià)狀況來(lái)看,觀眾普遍非常強(qiáng)烈地感受到被激勵(lì)和啟發(fā),這可能也是TED帶給大家最直接和有力的感受。同時(shí)吸引力和信息量同樣是這幾個(gè)高分視頻受到大家追捧的重要原因??梢园l(fā)現(xiàn)大家之所以會(huì)喜歡TED很大的原因在于觀眾會(huì)對(duì)內(nèi)容產(chǎn)生共鳴,雖然僅僅只有18分鐘的時(shí)間,但是演講者生動(dòng)的演說(shuō),無(wú)論是從知識(shí)的獲取上還是精神的激勵(lì)上都得到了觀眾的好評(píng)。

 

除了上面提到的6個(gè)最受歡迎的演講,我對(duì)其余的視頻進(jìn)行了聚類(lèi)分析,從下圖可以看到,在觀眾的喜愛(ài)程度上,兩千余個(gè)視頻被劃分成了4類(lèi)。

從文本主題上來(lái)看,這四類(lèi)視頻有著明顯的區(qū)別。更受歡迎的演講更多的提到前沿和高新的科技,以及貼近生活的主題,而相對(duì)受關(guān)注低的演講可能更多涉及到一些相對(duì)枯燥的內(nèi)容,如法律、物理、工業(yè)制造等。

看來(lái)人們?cè)赥ED上更多是去選擇一些前沿新奇、輕松和貼近生活的演講,然而對(duì)于尋找一些專(zhuān)業(yè)性更強(qiáng)的內(nèi)容,TED可能不是一個(gè)最佳的去處。

回到TED的宗旨:“Ideas Worth Spreading”,為了要讓想法更容易擴(kuò)散,我們從TED視頻背后的數(shù)據(jù)發(fā)現(xiàn),這些內(nèi)容必須貼近人,從人的角度出發(fā),和當(dāng)下時(shí)事產(chǎn)生共鳴,才有可能更將想法傳遞給更多的人!

責(zé)任編輯:未麗燕 來(lái)源: DT財(cái)經(jīng)
相關(guān)推薦

2019-04-10 09:14:26

人工智能AI機(jī)器學(xué)習(xí)

2020-11-17 11:39:00

JavaScript前端編程語(yǔ)言

2024-09-05 11:46:08

2009-02-04 10:49:08

IT求職揭秘技能

2012-05-05 08:52:14

iPhone

2018-04-23 10:05:41

Java Web框架Spring

2024-06-21 08:06:08

2013-01-06 13:30:27

2014-12-02 09:57:41

Node.js

2014-12-03 10:14:11

Node.js

2018-03-02 11:59:06

湯圓大數(shù)據(jù)京東

2023-06-06 10:07:21

CIO數(shù)據(jù)技能

2020-07-24 08:51:54

Java編程語(yǔ)言開(kāi)發(fā)

2018-08-03 10:21:36

GitHub攻略Git

2023-09-21 13:43:54

2018-06-12 15:01:17

Splunk解決方案機(jī)制

2020-04-23 16:04:25

代碼編輯器工具程序員

2022-05-16 14:07:23

微軟GitHub開(kāi)源

2024-02-19 09:02:00

Rust庫(kù)編碼

2018-05-24 14:15:06

Python 開(kāi)源GitHub
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)