AI眼中的歷史:用人工智能挖掘舊報(bào)紙里的英國(guó)現(xiàn)代史
編譯|Sophie 劉曉莉
試問,哪位歷史學(xué)家有時(shí)間閱讀跨越一個(gè)多世紀(jì)英國(guó)歷史的數(shù)千萬份報(bào)紙?沒人可以。所以,計(jì)算機(jī)科學(xué)家和歷史學(xué)家一起,教會(huì)了計(jì)算機(jī)做這件事——分析新聞報(bào)道中的數(shù)十億個(gè)詞,讓我們重新認(rèn)識(shí)19世紀(jì)到20世紀(jì)初的英國(guó)歷史。
這項(xiàng)研究發(fā)表在PNAS上(http://www.pnas.org/content/early/2017/01/03/1606380114),是對(duì)“文化組學(xué)”這一新興學(xué)科的實(shí)踐。
(注:文化組學(xué)culturomics,指通過數(shù)字化文本的定量分析研究人類行為和文化趨勢(shì)的計(jì)算詞匯學(xué))
計(jì)算機(jī)分析了1800年至1950年間的3500萬份英國(guó)地區(qū)新聞報(bào)道中的286億詞匯,約占該時(shí)期英國(guó)地區(qū)報(bào)刊總量的14%。
作為對(duì)比,一個(gè)成年人的平均閱讀速度為大約每分鐘300字。按照這個(gè)速度,一個(gè)人需要整整180年來完成所有的閱讀。如果算上人類的休息時(shí)間,閱讀需要的時(shí)間就更長(zhǎng)了。而計(jì)算機(jī)算法用大約8周完成了所有的工作,該項(xiàng)目研究員英國(guó)布里斯托大學(xué)計(jì)算機(jī)科學(xué)家Nello Cristianini稱。
這項(xiàng)研究的第一步是人工檢查,以確保計(jì)算機(jī)可以從報(bào)紙中提取真實(shí)的歷史事件。檢查的內(nèi)容為計(jì)算機(jī)是否能準(zhǔn)確地找到諸如加冕,已知的疾病流行和戰(zhàn)爭(zhēng)等事件。
有趣的部分發(fā)生在下一步:研究計(jì)算機(jī)算法是否可以找到歷史學(xué)家使用傳統(tǒng)方法不能找到的歷史事件。
“我們正在尋找一些不太明顯的歷史進(jìn)程——例如,技術(shù)的興起,”Cristianini說。“我們看到1900年左右,技術(shù)發(fā)生了變化。我們還能進(jìn)一步解讀更微妙的信號(hào):我們可以看到電報(bào),電話和廣播被公眾接受的速度有多快。這個(gè)速度在不斷加快?,F(xiàn)在,人們接受Twitter或Facebook只需要一年。”
人工智能分析不僅僅是簡(jiǎn)單的字?jǐn)?shù)統(tǒng)計(jì)(這是曾經(jīng)大量數(shù)字化文學(xué)研究的做法)。這一次,研究人員使用AI技術(shù),如自然語言處理,以獲得對(duì)上下文和文本含義的理解。你可以認(rèn)為它是終極的快速閱讀。
他們發(fā)現(xiàn)了什么?這是AI眼中的英國(guó)歷史:
電力什么時(shí)候趕超了蒸汽?
1898年。這一年,電在新聞中出現(xiàn)的頻率開始超過蒸汽,電能逐漸取代了蒸汽。
圖:20世紀(jì)來臨時(shí),電力取代了蒸汽(來源Nello Cristianini / PNAS)
火車什么時(shí)候趕超了馬車?
僅僅四年后的1902年?;疖嚨臅r(shí)代開始于19世紀(jì)40年代,那時(shí)英國(guó)開始發(fā)展國(guó)家鐵路系統(tǒng)。但就新聞方面而言,火車在半個(gè)多世紀(jì)后才變得比馬車更重要。
圖:“鐵馬”(來源New York Public Library / Flickr)
人們什么時(shí)候開始不再討論奴隸制?
對(duì)奴隸制的報(bào)道高峰出現(xiàn)于1830-1870年廢奴運(yùn)動(dòng)時(shí)期和1861-1865年美國(guó)南北戰(zhàn)爭(zhēng)期間。1870年后,報(bào)紙幾乎不再提及奴隸制。
圖:1830年到1870年,奴隸制出現(xiàn)在新聞中(來源Nello Cristianini / PNAS)
記者什么時(shí)候開始報(bào)道婦女參政權(quán)運(yùn)動(dòng)?
1906年。一個(gè)戲劇性的報(bào)道高峰出現(xiàn)在1913年,在女性參政倡議者Emily Wilding Davison試圖在賽馬會(huì)上阻攔英國(guó)國(guó)王的馬之后。
圖:Emily Davison倒在英國(guó)國(guó)王的馬前,四天后她死于頭部創(chuàng)傷(來源Hulton Archive)
注:女權(quán)運(yùn)動(dòng)還有這段歷史!今天的一切來之不易啊!
女性什么時(shí)候得到了和男性相同數(shù)量的報(bào)道?
從來沒有過。20世紀(jì)開始,對(duì)女性的報(bào)道率有上升趨勢(shì),且在二戰(zhàn)時(shí)期突然增加。但在整個(gè)分析覆蓋的時(shí)期,新聞中每提到一個(gè)女性大約會(huì)提到三個(gè)男性。在21世紀(jì),這個(gè)數(shù)字更接近男女比2:1,但這種轉(zhuǎn)變并不大。
圖:戰(zhàn)爭(zhēng)時(shí)期,女性得到了更多的報(bào)道(來源Wikime)
勇氣什么時(shí)候最重要?
毫不意外,在第一次和第二次世界大戰(zhàn)期間勇氣被提到最多。維多利亞時(shí)代的價(jià)值觀,例如毅力,在整個(gè)分析覆蓋時(shí)期表現(xiàn)出報(bào)道頻率的穩(wěn)步下降。但在戰(zhàn)爭(zhēng)年代,對(duì)耐力和勇氣等價(jià)值觀的報(bào)道出現(xiàn)了明顯的增加。
英國(guó)和英國(guó)人的概念(Britishness)是何時(shí)出現(xiàn)的?
注:英國(guó)全稱為大不列顛及北愛爾蘭聯(lián)合王國(guó)United Kingdom of Great Britain and Northern Ireland。不列顛Britain/British是對(duì)英國(guó)和英國(guó)人的統(tǒng)稱,相較于對(duì)英國(guó)某部分的特指例如England/English是指英格蘭和英格蘭人,或Scotland/Scottish是指蘇格蘭和蘇格蘭人。
對(duì)“不列顛”的報(bào)道出現(xiàn)于20世紀(jì)早期,1900年左右出現(xiàn)第一個(gè)峰值,一戰(zhàn)和二戰(zhàn)期間出現(xiàn)了兩個(gè)更大的峰值。這個(gè)發(fā)現(xiàn)和很多歷史學(xué)家的觀點(diǎn)不同——很多歷史學(xué)家認(rèn)為“不列顛”在更早前就已經(jīng)是一個(gè)活躍的概念了。
圖:“不列顛”的概念在20世紀(jì)早期開始活躍,而傳統(tǒng)上,歷史學(xué)家認(rèn)為“不列顛”出現(xiàn)得更早(來源Nello Cristianini / PNAS)
經(jīng)濟(jì)什么時(shí)候成為了口號(hào)?
與“經(jīng)濟(jì)”相比,“政治經(jīng)濟(jì)”一直是更為常用的術(shù)語,直到1900年左右,這兩個(gè)詞的用法變得更加模糊。20世紀(jì)初,這兩個(gè)術(shù)語在約十年間的使用頻率大致相似,之后,“經(jīng)濟(jì)”開始成為更受歡迎的用語,在幾個(gè)劇烈的峰值后使用頻率開始穩(wěn)步上升。
圖:“政治經(jīng)濟(jì)”的使用被“經(jīng)濟(jì)”取代(來源Nello Cristianini / PNAS)
原文:
http://www.ibtimes.co.uk/here-are-top-moments-modern-british-history-according-artificial-intelligence-1600122
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】