自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

新聞 人工智能
漫漫塵埃下,掩藏了許多曾經(jīng)輝煌燦爛古代文明,但我們現(xiàn)在卻無(wú)法清晰地知道,這些地方究竟發(fā)生了什么。搞懂這些歷史的最佳方式,就是找到他們的文字記載。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

漫漫塵埃下,掩藏了許多曾經(jīng)輝煌燦爛古代文明,但我們現(xiàn)在卻無(wú)法清晰地知道,這些地方究竟發(fā)生了什么。

搞懂這些歷史的***方式,就是找到他們的文字記載。However,記載文字的石碑可以被考古學(xué)家們挖出來(lái),但這些古文字究竟啥意思,現(xiàn)代的人們看不懂,需要語(yǔ)言學(xué)家們耗盡青春來(lái)推測(cè)。

現(xiàn)在,MIT CSAIL和谷歌大腦的研究者出手了,他們用機(jī)器學(xué)習(xí)破譯了烏加里特文線性文字B。

[[270013]]

△ 烏加里特王宮

烏加里特文,Ugaritic,是一種楔形文字,屬于閃米特語(yǔ)族。從字面上來(lái)看,就知道它是一個(gè)叫做烏加里特(Ugarit)的文明使用的語(yǔ)言,這個(gè)文明位于當(dāng)今地中海沿岸的敘利亞,在公元前6000年前后就初現(xiàn)蹤跡,在公元前1190年前后滅亡。

[[270014]]

△ 烏加里特文

線性文字B,Linear B,由一種人類還沒(méi)有破譯出來(lái)的線性文字A演化而來(lái),主要存活于公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語(yǔ)的一種古代書寫形式。

[[270015]]

△ 線性文字B

研究者們利用同一語(yǔ)族內(nèi)不同語(yǔ)言之間的聯(lián)系,用機(jī)器學(xué)習(xí)的方法來(lái)破譯這兩種失傳的語(yǔ)言,這是破譯古代語(yǔ)言的新方法,也將對(duì)羅曼語(yǔ)族的語(yǔ)言學(xué)研究有巨大的影響和提升。

這個(gè)方法讓許多人驚嘆:

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

簡(jiǎn)直是現(xiàn)代版的羅塞塔石碑!

PS,羅塞塔石碑是一塊用3種語(yǔ)言寫了同一個(gè)內(nèi)容的石碑,幫助語(yǔ)言學(xué)家們讀懂古文字。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

希望能先把動(dòng)物和植物的語(yǔ)言破譯了,可以發(fā)現(xiàn)打開新世界的大門。

人類語(yǔ)言總相通

這項(xiàng)研究的核心方法,是借助人類語(yǔ)言的相似性。

比如,知乎用戶@拉隊(duì)短 在介紹歐洲語(yǔ)言相似性的時(shí)候,舉了這么個(gè)栗子:

句子“那是六月末潮濕陰沉的一個(gè)夏日。”

英語(yǔ):It was a humid, grey summer day at the end of June.

丹麥語(yǔ):Det var en fugtig, grå sommerdag i slutningen af juni.

瑞典語(yǔ):Det var en fuktig, grå sommardag i slutet av juni.

挪威語(yǔ):Det var en fuktig, grå sommerdag i slutten av juni.

冰島語(yǔ):Það var rakur, grár sumardagur í lok júní.

看,長(zhǎng)得差不多嘛,畢竟同屬印歐語(yǔ)系日耳曼語(yǔ)族,單詞的分布位置、句子的結(jié)構(gòu)都很相似,如果你能看懂一種語(yǔ)言,就能大致猜測(cè)和它“血緣”關(guān)系近的另一種語(yǔ)言。

模型訓(xùn)練

為了破解這兩種文字,研究者們提出了一個(gè)基于字符的seq2seq模型。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

模型主要包含通用字符嵌入、剩余連接、單調(diào)排列正則化幾個(gè)部分。

其中,線性文字B的字母和希臘文需要進(jìn)行對(duì)應(yīng)。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

之后,借助神經(jīng)解密算法,在具有不同語(yǔ)言特征的多種語(yǔ)言中提供強(qiáng)大的性能。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

你懂的語(yǔ)言,和你不懂的語(yǔ)言

在算法模型的基礎(chǔ)之下,需要的語(yǔ)料庫(kù)除了待破解的烏加里特文和線性文字B,還需要一些現(xiàn)在的人類能看懂的語(yǔ)言。

研究團(tuán)隊(duì)選擇了羅曼語(yǔ)族的數(shù)據(jù)庫(kù),包含意大利語(yǔ)、西班牙語(yǔ)和葡萄牙語(yǔ)三種語(yǔ)言的同源語(yǔ)音轉(zhuǎn)錄,需要對(duì)它們進(jìn)行同源檢測(cè)。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

因此,數(shù)據(jù)集就用到上面這些,Symbols指的是語(yǔ)言中的字符,Token則是語(yǔ)言學(xué)中類似于單詞的存在。

準(zhǔn)確率

運(yùn)行成果還不錯(cuò),烏加里特文在無(wú)噪聲條件下優(yōu)于現(xiàn)有方法3.1%,在有噪聲條件下優(yōu)于現(xiàn)在的貝葉斯方法5.5%。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

而線性文字B,在無(wú)噪聲條件下準(zhǔn)確率高達(dá)84.7%,在更具挑戰(zhàn)性的LinearB名稱數(shù)據(jù)集中達(dá)到67.3%的準(zhǔn)確度。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

在羅曼語(yǔ)族同源識(shí)別任務(wù)中,西班牙語(yǔ)準(zhǔn)確度提升3.4%,葡萄牙語(yǔ)提升1.6%。

MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”

線性文字B的祖先,線性文字A還沒(méi)有被人類破譯,它被譽(yù)為考古界圣杯。

未來(lái),在這項(xiàng)研究起作用的情況下,或許可以像借助羅曼語(yǔ)族三種語(yǔ)言的數(shù)據(jù)庫(kù)一樣,直接用機(jī)器借助其他已知的人類語(yǔ)言,實(shí)現(xiàn)暴力破解。

想破腦殼的語(yǔ)言學(xué)家們,可以把工作重心放到別的事情上了。

作者介紹

[[270018]]

這項(xiàng)研究的一作Jiaming Luo,正在MIT CSAIL讀博,專注NLP研究,此前他也曾在北大從事情緒分析方面的研究。

[[270019]]

Luo同學(xué)的導(dǎo)師,也是這項(xiàng)研究的第三位作者Regina Barzilay,她是MIT CSAIL的教授,2017曾因NLP方面的研究獲得麥克阿瑟獎(jiǎng)金,除了NLP之外,她還研究深度學(xué)習(xí)在化學(xué)和腫瘤學(xué)方面的應(yīng)用。

傳送門

論文:

Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B

Jiaming Luo, Yuan Cao, Regina Barzilay

https://arxiv.org/abs/1906.06718

代碼及數(shù)據(jù)集:

https://github.com/j-luo93/NeuroDecipher

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2018-01-26 13:20:12

滴滴AI技術(shù)交通難題

2018-11-30 17:59:06

華為

2018-03-26 10:19:09

互聯(lián)網(wǎng)大數(shù)據(jù)網(wǎng)絡(luò)

2011-05-25 16:54:11

2018-03-26 15:09:35

區(qū)塊鏈大數(shù)據(jù)互聯(lián)網(wǎng)

2014-04-08 11:28:52

驗(yàn)證碼破解

2015-10-19 11:44:00

2012-03-09 11:17:38

iOSiPhoto谷歌地圖

2023-02-28 15:16:04

AI人工智能

2018-07-06 10:05:22

2018-07-12 11:39:36

2025-01-03 13:00:00

AI訓(xùn)練數(shù)據(jù)

2022-06-15 14:59:11

AIMIT

2021-12-23 09:38:07

微軟圖像加密

2018-02-25 12:14:20

MITAI技術(shù)卡頓

2015-11-18 17:46:37

軟件工程

2019-07-18 08:54:42

谷歌Android開發(fā)者

2023-06-30 13:01:26

2022-06-15 18:57:43

人工智能

2025-03-31 08:30:00

AI模型技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)