自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

玩笑到現(xiàn)實,大數(shù)據(jù)涉足文學研究–用數(shù)據(jù)模型分析莎翁著作

大數(shù)據(jù) 數(shù)據(jù)分析
自然語言研究一直以來都是計算機研究的一個重要方向。隨著大數(shù)據(jù)時代的到來,人們也越來越關注自然語言這方面的進展。而文學是自然語言這個皇冠上的明珠。人們都拭目以待大數(shù)據(jù)摘下這顆明珠的那一天。

自然語言研究一直以來都是計算機研究的一個重要方向。隨著大數(shù)據(jù)時代的到來,人們也越來越關注自然語言這方面的進展。而文學是自然語言這個皇冠上的明珠。人們都拭目以待大數(shù)據(jù)摘下這顆明珠的那一天。

幾十年來,文學作品中的統(tǒng)計分析已經從單純的破譯理論發(fā)展到更尖端的研究 

 

 

 

1993年,Tom Stoppard的戲劇《世外桃源》(Arcadia)正式上演。在這部腦洞大開的戲劇中那些用數(shù)據(jù)統(tǒng)計進行文學評論的橋段成為圈內人的笑料。劇中一位傻乎乎的詩歌教師,Bernard Nightingale,嘲笑他的同事用計算機程序來斷定一個沒有署名的故事出自于勞倫斯(D.H. Lawrence)之手。并且還得意的指出“在同樣的統(tǒng)計基礎上,竟然有百分之九十的可能性,Lawrence還撰寫了《淘氣小威廉》(“Just William”.作者是里奇馬爾Richmal Crompton)這本書以及前一天的《百眼巨人報》(英國布萊頓市的一份地方報紙)。雖然這只是該劇中的幾個笑話,但現(xiàn)在突然變得令人“細思恐極”了。 隨著《新牛津莎士比亞》系列的出版,人們開始了一場關于伊麗莎白時期劇作家身份的討論。

《新牛津莎士比亞》全集的最新版登上了去年10月份的頭條新聞。因為書中指出莎士比亞的44部戲劇作品有17部是和別人共同完成的(相比之下,1986版中僅列出了8部)。 而其中一個新出現(xiàn)的人名,馬洛(Christopher Marlowe),更讓人們興奮不已。這個名字的出現(xiàn)似乎佐證了之前一些關于作者身份被駁回的陰謀論。 然而,更吸引人眼球的是得出這個論斷背后的技術。人們已不再是根據(jù)編輯觀察等傳統(tǒng)的方式,而是通過計算分析來做出這樣的結論。 那么今天的數(shù)據(jù)語言學家是如何在不受作者影響力的前提下,弄清楚作者與作品的關系的呢? 同時我們更需要思考為什么做到這點很重要?

計算機和人類都可以通過一些“附加詞”來識別是不是莎士比亞的作品,比如他會經常在自己的作品中使用 “gentle”, “answer”, “beseech”, “tonight”。 顯然用這種方法來判斷是不是莎翁作品已經變得不那么準確了,因為那時候的作家常常會模仿其他人的行文風格。 早期的劇作家是非常緊密的一個團體,而與此同時16世紀的觀眾似乎并不是很在意作品的獨創(chuàng)性?!短緝骸?Tamburlaine),馬洛的一部非常受歡迎的戲劇,當時被許多人模仿衍生出各種續(xù)作。以至于當時著名的劇作家本·瓊森(Ben Jonson)對該劇被無休止的模仿而發(fā)出了哀嘆。 莎士比亞也和其他人一樣沒能免俗。 《馬耳他島的猶太人》(“The Jew of Malta” ,1589)中, 馬洛筆下的巴拉巴斯將他的女兒阿比蓋爾隔離在一個陽臺上:

“But stay! What star shines yonder in the east?

The lodestar of my life, if Abigail!”

(“看! 哪顆星星在東方發(fā)光?就是我生命中北極星,阿比蓋爾!“)

如果這段臺詞聽起來很熟悉,那是因為十年后莎士比亞筆下的羅密歐有著類似的臺詞:

“But soft! What light through yonder window breaks?

It is the East, and Juliet is the sun!” (“輕聲!那邊窗子里亮起來的是什么光?這是東方,而朱麗葉就是太陽!“)

在這種相互影響的情況下,電腦如何能夠分辨出馬洛和莎士比亞本人的作品以及他們作品中相互借鑒的區(qū)別?根據(jù)《新牛津莎士比亞》的編輯,其中的關鍵在于“功能詞”, 就是 “to”或“a”這類能夠為句子提供語法支撐的單詞。 他們的理論認為作家們都會無意識地以自己獨特的方式使用這些詞。例如,莎士比亞經常把“and”與 “with”連在一起用 – 克勞狄斯與喬特魯?shù)禄槎Y中的“With mirth in funeral and with dirge in marriage” (“葬禮中的挽歌和婚禮中有歡歌”),老哈姆雷特的鬼魂說到“緩慢而莊嚴得出現(xiàn)在他們面前”( “Appears before them, and with solemn march。Goes slow and stately”)。 因此即使作家們試圖模仿他人的寫作風格,功能詞的使用仍然能夠揭示他們真實的身份。 通過分析作家如何使用那些功能詞,計算機可以初步地識別他們獨特的語言指紋。

在莎士比亞作品的研究中,能夠獲知作品作者,作品內容以及寫作時間是非常關鍵的,通過這些信息能有助于說服那些唯莎士比亞論者,因為在他們眼里莎翁就是一個孤傲的天才。 之前之所以人們會認為莎士比亞少有與人合作,主要原因還是那些與他合作的作家并不是非常出色。盡管計算機模型不是絕對準確的,但是以證據(jù)而非作品質量來判定作品的歸屬還是令人信服的。

其次,正確的作品歸屬讓我們更好的了解戲劇作品本身。 當我們打開一部歷史戲劇作品的第一頁,就像開始了一部關于這段歷史的電影。 由于《亨利六世》第二章的大部分可能是馬洛撰寫的,這就打破了這個歷史劇作的統(tǒng)一性。 馬洛更多的表現(xiàn)出對普通百姓角色(比如低調的杰克·凱德)的興趣,而不是那些無所不能的君主;相反, 莎士比亞更喜歡“國王之死”類似的故事。 知道同一部作品出自他們兩人之手,了解到其中的爭議和共生,我們可以更好地理解戲劇本身。

據(jù)《新牛津莎士比亞》編輯之一加布里埃爾·埃根(Gabriel Egan)所說,歸因模型越來越準確,主要的原因就是“計算機研究人員越來越多地將研究精力轉向自然語言,而自然語言研究是計算機發(fā)展方向中最難的問題之一 。“在《世外桃源》中,Bernard Nightingale曾堅持認為”你不能把拜倫的思想放進筆記本電腦里“。但就現(xiàn)在的情況來看,他的觀點仍然可能是正確的。 在控制測試中,即使像《新牛津莎士比亞》所使用的高級模式,有時也會有明顯的誤判,把作品張冠李戴。統(tǒng)計分析仍將是重要的分析工具之一。因為它有著學術的客觀性,只是之前人們在莎士比亞研究領域很少用到。 

責任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關推薦

2013-06-21 10:16:44

2011-08-30 17:22:50

研究報告大數(shù)據(jù)時代數(shù)據(jù)集成

2024-07-15 09:13:48

2010-05-26 14:37:56

Cassandra數(shù)據(jù)

2021-02-28 22:20:25

2023-02-26 17:46:03

2024-11-15 11:43:21

2012-12-25 09:36:11

Storm大數(shù)據(jù)分析

2021-04-16 15:03:56

數(shù)字化轉型IT技術

2013-01-15 13:04:26

駕馭大數(shù)據(jù)大數(shù)據(jù)

2019-07-31 14:16:35

大數(shù)據(jù)人工智能算法

2017-06-27 10:08:29

數(shù)據(jù)倉庫模型

2009-09-18 14:07:51

LINQ to SQL

2012-03-05 10:54:03

NoSQL

2018-05-08 10:00:00

大數(shù)據(jù)模型技巧

2022-10-28 15:30:27

大數(shù)據(jù)大數(shù)據(jù)模型

2021-01-27 05:34:33

Python對象模型

2013-01-15 16:07:03

Teradata 大數(shù)據(jù)天睿

2013-01-21 10:55:52

大數(shù)據(jù)Ayasdi拓撲數(shù)據(jù)

2022-01-04 18:40:54

數(shù)據(jù)模型波動
點贊
收藏

51CTO技術棧公眾號