大數(shù)據(jù)抓“馬甲”
2013年4月,一本普通的破案小說“The Cuckoo's Calling”(中文譯名:《布谷鳥的呼喚》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下軍裝,進(jìn)入私人保安行業(yè)。直到7月中,還幾乎沒有什么人知道Robert Galbraith是誰,這本書在整個(gè)英國零售書商上也只賣出了449本,在全球知名的網(wǎng)上書店亞馬遜英國站只排名5076位。書評(píng)商們對(duì)該書的評(píng)價(jià)是:“文筆不錯(cuò),故事也吸引人,但是并不突出”,又有出版社之前拒絕了這本書。
然而一夜之間,一個(gè)消息改變了一切,在亞馬遜網(wǎng)站上這本書已經(jīng)迅速爬到暢銷書的前幾位,這個(gè)消息就是這個(gè)男性作者Robert Galbraith,其實(shí)不僅是一位女性,而且就是寫過7集《哈利波特》,并且以此書成為歷史上***位靠寫作收入超過10億美元的作家,J.K.Rowling(J.K.羅琳)。以羅琳的知名度和在寫作上的成功,她的小說攀升到暢銷榜前幾位不稀奇,但是這里面有兩個(gè)有趣的地方:1,羅琳為什么要隱姓埋名以男人的身份來發(fā)表新作呢,2,外界如何發(fā)現(xiàn)羅琳是真正的作者的。
關(guān)于***個(gè)問題,我想并不難理解,做為一個(gè)從不名一文開始寫起,最終在寫作上無可附加地成功,在經(jīng)濟(jì)上更是前無古人的作家,繼續(xù)寫作的動(dòng)力可能并不大,然而重新開始的樂趣反而遠(yuǎn)遠(yuǎn)大于靠寫作賺錢了。這也從羅琳后來的解釋中得到印證,“我一直希望這個(gè)秘密能夠保持更久一些,因?yàn)樽鰹镽obert Galbraith是這樣一種自由的體驗(yàn),以另一個(gè)名字發(fā)表,沒有任何期望值和吹噓是如此地美妙”。
第二個(gè)問題,才是我今天要寫的要點(diǎn),而這個(gè)發(fā)現(xiàn)恰恰與大數(shù)據(jù)有一些關(guān)系。這起源于英國《星期日泰晤士報(bào)》美術(shù)編輯理查德布魯克斯(Richard Brooks)收到了一條匿名的Twitter消息,透露羅琳才是《布谷鳥的呼喚》一書的作者。為了證明這條情報(bào)的真實(shí)性,布魯克斯先生甚至雇傭了私家偵探,而這一動(dòng)作恰恰和《布谷鳥的呼喚》中描述的一模一樣。
最終,恰恰是大數(shù)據(jù)技術(shù)幫助理查德破譯了這里面的一切秘密,理查德請(qǐng)到兩位計(jì)算機(jī)語言學(xué)家來幫助他,而使用的類似法醫(yī)的方法就是對(duì)《布谷鳥的呼喚》、羅琳的另外兩部小說《臨時(shí)空缺》(The Casual Vacancy)和哈利波特的***一部《哈利波特與死亡圣器》進(jìn)行科學(xué)地比對(duì),比對(duì)的內(nèi)容包括:
1, 在每一本書里對(duì)比所有的詞組,或者相連續(xù)的短語集
2, 通過一種稱為“N-gram”的算法做語言模型來分析用詞或字符的序列關(guān)系,例如:對(duì)“to be or not to be”這一名句的基于詞的2-gram序列包括“to be, be or,or not, not to, to be”
3, 對(duì)每本書中使用最頻繁的100個(gè)詞進(jìn)行比較,對(duì)比它們出現(xiàn)頻率的細(xì)微差別
4, 簡單分析詞的長度,排除詞義的因素
5, 主成份分析,對(duì)比每本書中的六大特點(diǎn):單詞長度,句子長度,段落長度,字符頻率,標(biāo)點(diǎn)頻率,及詞用法。
5個(gè)小時(shí)后,這些計(jì)算機(jī)語言學(xué)家們利用這些大數(shù)據(jù)的分析技術(shù)“證明”了Robert Galbraith正是J.K. Rowling。
當(dāng)然,當(dāng)這些文本分析的技術(shù)用于中文的時(shí)候,會(huì)遇到一個(gè)完全不同的挑戰(zhàn),及“中文分詞”,而這個(gè)中文分詞的技術(shù)恰恰反映了中文作為一種語言的獨(dú)特的特點(diǎn),因?yàn)橹形牟幌袼械奈鞣窖哉Z那樣有空格來區(qū)分詞與詞,必須要通過前后字與字的關(guān)系,加以上下文的關(guān)系,來分析文本中的“詞”,而這也是中文世界中大數(shù)據(jù)的有趣領(lǐng)域,更是中國的計(jì)算機(jī)語言學(xué)家們發(fā)揮的巨大空間。