不同的語言,相同的信息:17種語言研究揭示如何以相似的速度交流
大數(shù)據(jù)文摘出品
編譯:李世林、劉俊寰
如果準(zhǔn)備去另一個國家旅行,最令人頭大的肯定是語言不通的問題,有時甚至還會抱怨語言的分類過于細(xì)化。
但是,里昂大學(xué)研究人員的一項新研究表明,語言之間的差異可能比想象的要小。
“語言在音節(jié)所包含的信息以及說話的速度方面差異很大。但有趣的是,這兩種語言是相互平衡的,因此信息密集的語言說得慢,而信息較少的語言說得快。這意味著不同語言之間有一個非常相似的穩(wěn)定的信息率。”該研究的共同作者,來自里昂大學(xué)的語言動力學(xué)實(shí)驗(yàn)室研究員Dediu說道。
通用常數(shù)的探尋
在試圖為語言找到一個“通用”常數(shù)的過程中,Dediu的團(tuán)隊面臨著相當(dāng)大的挑戰(zhàn)。世界上有超過7000種不同的語言,它們之間的聯(lián)系非常少。這甚至擴(kuò)展到信息如何用文字編碼的基本度量。
例如,不同語言中每個單詞的音節(jié)數(shù)量差別很大,這意味著香農(nóng)信息率也不同。然而,Dediu和他的團(tuán)隊很有遠(yuǎn)見,不僅考慮了單詞,也考慮了單詞的使用頻率。
Dediu和他的同事使用了來自歐洲和亞洲17種不同語言的170名成年人的錄音。每位演講者的任務(wù)是閱讀一組15個大段的文本,大約由24萬個音節(jié)組成。
一秒鐘有幾個音節(jié)?
研究人員選擇音節(jié)作為他們唯一的信息單位,這是基于在另外兩種選擇上采用的:
- 音素:幫助我們區(qū)分單個單詞的聲音單位,被排除在外,因?yàn)榈碌蠚W的團(tuán)隊意識到,它們在講話中很容易被省略
- 詞匯:被認(rèn)為是過于語言特異性,不便于比較
有了數(shù)據(jù)集和度量標(biāo)準(zhǔn)之后,科學(xué)家們檢驗(yàn)了他們的結(jié)果,由此揭示了世界語言之間的一些有趣的差異:
- 英語中有近7000個音節(jié),而日語只有幾百個
- 語速從4.3個音節(jié)到每秒9.1個音節(jié)不等
- 元音和諧(一種引人入勝的語言創(chuàng)新,要求后綴與所連接的單詞保持“和諧”)出現(xiàn)在四種語言中
簡而言之,這些語言聽起來完全不同。
盡管如此,Dediu的團(tuán)隊注意到,考慮到書面文本的語速和信息密度,所有記錄的語言信息率基本一致;信息豐富的文本閱讀速度較慢,而信息較少的語言閱讀速度更快。
語言就像姜餅人和馴鹿:這兩個B/W版本使用不同的分辨率和灰度級別,但編碼的信息相同,就像語言交換不同的策略,但同樣有效。資料來源:丹·德迪歐,里昂第二大學(xué)。
研究人員確定了一個數(shù)字——39.15位/秒,作為17種語言的平均信息率,這就又引出一些有趣的發(fā)現(xiàn),例如,女性演講者的演講和信息率較低。
研究小組發(fā)現(xiàn),書面文本的差異對信息率幾乎沒有影響,這表明研究結(jié)果可以推廣到本文基于文本的研究之外。語音速率和音節(jié)數(shù)的變化明顯大于信息速率,信息速率是有效的跨語言連接手段。
這對我們的大腦意味著什么?
研究人員認(rèn)為,這一發(fā)現(xiàn)意味著信息率必須穩(wěn)定在一個較緊的平均值附近,因?yàn)檫^高的信息率會阻礙大腦處理數(shù)據(jù)和清晰表達(dá)語言的能力;另一方面,低信息率要求大腦在提取意思之前記住太多的單詞。
這突出了語言的雙重角色, Dediu總結(jié)道:“就如同硬幣的兩面性,談及語言也有兩面性,一個是文化上,一個是生物性的,當(dāng)說一門語言的信息變得更加密集,說話者也會開始放慢語速。”
相關(guān)報道:
https://www.technologynetworks.com/neuroscience/news/different-tongue-same-information-17-language-study-reveals-how-we-all-communicate-at-a-similar-323584
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】