AI破譯2000年前「上古卷軸」登Nature頭版!21歲計(jì)算機(jī)天才,谷歌華人工程師共獲大獎(jiǎng)
2000年前碳化的古卷軸,如今成功被AI破譯!背后三人團(tuán)隊(duì)還拿下70萬(wàn)美元大獎(jiǎng)!
AI在考古領(lǐng)域的重大進(jìn)步,甚至登上了今天Nature的頭版。
要說(shuō)這件事的起源,還得追溯到公元79年一次火山爆發(fā), 直接將一座珍藏古老的紙莎草卷軸——Herculaneum Papyri的圖書(shū)館埋葬。
而這些卷軸,直到18世紀(jì)才被挖出,卻早已成為炭焦的木塊。由于太過(guò)脆弱,根本無(wú)法輕易展開(kāi)。
今天,正式獲獎(jiǎng)的作品,展示了超過(guò)15欄的數(shù)百個(gè)單詞,相當(dāng)于整個(gè)卷軸的5%的內(nèi)容。
值得一提的是,三人拔得頭籌的團(tuán)隊(duì)中,有一位年僅21歲計(jì)算機(jī)天才少年Luke Farritor,成功用AI從圖像裂縫中破譯內(nèi)容。
當(dāng)時(shí),他還在SpaceX暑期實(shí)習(xí),偶然發(fā)現(xiàn)這場(chǎng)挑戰(zhàn)賽的英雄貼。
另外,這場(chǎng)AI破譯卷軸的大賽還有3個(gè)團(tuán)隊(duì)獲得亞軍,包括一位谷歌華人工程師單獨(dú)獲5萬(wàn)美元大獎(jiǎng)。
從破譯文字轉(zhuǎn)錄后可以讀出,古代哲學(xué)家對(duì)「如何享受生活」「快樂(lè)」的探討與爭(zhēng)辯,還揭示了人們對(duì)音樂(lè)和冒險(xiǎn)的沉思。
這一壯舉為AI完整破譯其余古卷鋪平了道路,研究人員表示,這可能會(huì)對(duì)我們對(duì)古代世界的理解產(chǎn)生革命性的影響。
谷歌DeepMind的首席執(zhí)行官:我迫不及待地想閱讀這些被認(rèn)為已經(jīng)失傳的古籍!
2000年后,我們終于可以閱讀卷軸了!
下圖3D還原了,巖漿吞噬圖書(shū)館的情境。
這些卷軸在公元79年維蘇威火山的爆發(fā)中被碳化
直到18世紀(jì),這些卷軸被挖掘出來(lái)。
目前,有800多卷被保存在意大利那不勒斯的一個(gè)圖書(shū)館中。
一位藝術(shù)家對(duì)珍藏卷軸圖書(shū)館的渲染
然而,這些碳化的卷軸無(wú)法在不損害的情況下展開(kāi)。
一份卷軸不同的拍攝視角,看得出已經(jīng)完全碳化,像一個(gè)木頭塊。
當(dāng)任何人嘗試展開(kāi)卷軸,結(jié)果就是支離破碎。
那么,問(wèn)題來(lái)了,我們?cè)撊绾伍喿x這些卷軸?
2023年3月15日,Nat Friedman、Daniel Gross和Brent Seales發(fā)起了Vesuvius Challenge,就是為了解決這一世紀(jì)難題。
十個(gè)月前,我們發(fā)起了Vesuvius Challenge,旨在解決赫庫(kù)蘭尼姆莎草紙書(shū)卷這一古老問(wèn)題。這是一批在公元79年維蘇威火山爆發(fā)時(shí)被高溫烤焦的莎草紙卷軸圖書(shū)館。
今天,我們欣喜若狂地宣布,我們瘋狂的項(xiàng)目成功了。2000年后,我們終于可以閱讀卷軸了!
這場(chǎng)挑戰(zhàn)賽,要求參賽者在卷軸的4平方厘米區(qū)域內(nèi),至少找到10個(gè)字母。
最誘人的是,挑戰(zhàn)賽為成功破譯者提供超100萬(wàn)美元的獎(jiǎng)金。
來(lái)自法國(guó)科學(xué)院的卷軸在牛津附近的Diamond Light Source粒子加速器進(jìn)行了成像,然后公布了這些卷軸的高分辨率CT掃描圖像。
以藝術(shù)化的方式構(gòu)建3D卷軸
古卷是如何展開(kāi)的?
大體說(shuō),虛擬展開(kāi)卷軸分三個(gè)步驟進(jìn)行:
- 掃描:利用X射線斷層掃描技術(shù)對(duì)卷軸或碎片進(jìn)行3D掃描。
- 分割:在3D掃描圖像中追蹤卷曲的紙莎草層,隨后將其展開(kāi)或鋪平。
- 墨跡檢測(cè):借助機(jī)器學(xué)習(xí)模型,識(shí)別鋪平后段落中的墨跡區(qū)域。
這些卷軸是在位于英格蘭牛津附近的Diamond Light Source(一種粒子加速器)掃描的。
該機(jī)器可以產(chǎn)生的高強(qiáng)度平行X射線束,使得成像快速、準(zhǔn)確且分辨率高。通過(guò)斷層重建算法,X射線圖片被轉(zhuǎn)化為3D體素體積,形成一系列的切片圖像。
接下來(lái),需要在3D空間中識(shí)別出單獨(dú)的紙莎草紙張,這一步驟主要依賴(lài)于一個(gè)名為Volume Cartographer的工具。
Seth Parker在Diamond Light Source粒子加速器掃描卷軸
如下動(dòng)畫(huà)向我們展示了在Volume Cartographer中如何進(jìn)行手動(dòng)和自動(dòng)分割操作。
最終步驟是,墨跡檢測(cè)。
對(duì)于完整卷軸的大規(guī)模掃描,墨跡檢測(cè)一直是個(gè)挑戰(zhàn),直到最近挑戰(zhàn)賽發(fā)起團(tuán)隊(duì)在兩個(gè)方向上取得了突破:
- 裂紋模式
去年夏天,Casey Handmer在檢查平鋪后的表面體積時(shí),發(fā)現(xiàn)了一種奇特的裂紋模式,這些裂紋似乎組成了文字。
Casey因這一發(fā)現(xiàn)贏得了首個(gè)墨跡獎(jiǎng),并與社區(qū)共享了他的發(fā)現(xiàn),隨后引發(fā)了一系列的研究活動(dòng)。
- Kaggle競(jìng)賽
與此同時(shí),數(shù)百支團(tuán)隊(duì)在Kaggle競(jìng)賽中努力構(gòu)建出最佳的機(jī)器學(xué)習(xí)模型,目標(biāo)是檢測(cè)那些在幾百年前卷軸物理解卷過(guò)程中脫落的碎片上的墨跡。
與之前不同的是,他們利用了這些碎片照片上的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,而不是標(biāo)記尚未發(fā)現(xiàn)的裂紋。
雖然這些努力產(chǎn)生了一些優(yōu)秀的模型,但它們?cè)诜指顖F(tuán)隊(duì)處理的平鋪圖像上似乎并不奏效。
直到谷歌華人工程師Youssef Nader應(yīng)用了領(lǐng)域適應(yīng)技術(shù),這一技術(shù)最終幫他贏得了第一字母獎(jiǎng)的亞軍。
在得到訓(xùn)練數(shù)據(jù)后,全球眾多參與者通過(guò)計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)不懈努力,不到一年時(shí)間,立刻攻克破解古卷閱讀這一難題。
10個(gè)月的時(shí)間,他們?nèi)〉昧顺晒Α?/span>
終于,在經(jīng)過(guò)275年漫長(zhǎng)的時(shí)間中,我們有能力閱讀這些卷軸:
下圖是PHerc.Paris. 4(法國(guó)科學(xué)院)的部分文本,2000年來(lái)首次被人閱讀。大約95%的卷軸內(nèi)容仍待揭曉。
卷軸字體被揭曉那刻,就會(huì)發(fā)現(xiàn),被兩千年的泥土和灰燼封存的祖先思維再次展現(xiàn)在世人面前!
那么,都有誰(shuí)拿下了這次的大獎(jiǎng)?
三人團(tuán)隊(duì),斬獲70萬(wàn)美元大獎(jiǎng)
在眾多參賽作品中,有一份作品非常突出。
評(píng)審結(jié)果公布,三人團(tuán)隊(duì)獲得了Vesuvius Challenge 70萬(wàn)美元大獎(jiǎng),他們分別是Youssef Nader、Luke Farritor和Julian Schilliger。
這三位成員的名頭可不小,而且是這場(chǎng)挑戰(zhàn)賽中最重要的貢獻(xiàn)者。
值得一提是,21歲的Luke Farritor是一名計(jì)算機(jī)學(xué)生,曾在SpaceX實(shí)習(xí),是史上第一位從赫庫(kù)蘭尼姆卷軸讀出整個(gè)單詞ΠΟΡΦΥΡΑ?(意為紫色)的人,并贏得了首字母獎(jiǎng)的第一名。
就連他的個(gè)人主頁(yè),字體都有種年代久遠(yuǎn)的感覺(jué)。
柏林自由大學(xué)的博士生Youssef Nader在去年10月就讀出了幾列文本,并贏得了第二名的首字母獎(jiǎng)。他的成果特別清晰易讀,自然成為了團(tuán)隊(duì)的lead。
還有Julian Schilliger,是來(lái)自蘇黎世聯(lián)邦理工學(xué)院(ETH Zürich)機(jī)器人學(xué)學(xué)生,因其在Volume Cartographer上的卓越工作而贏得了三個(gè)分割工具獎(jiǎng),讓我們能夠看到如今的紙莎草區(qū)域3D映射。
為了拿下最終的大獎(jiǎng),三人組建了一個(gè)強(qiáng)大的團(tuán)隊(duì),并向評(píng)審提交了一份,如今被評(píng)為最易讀的作品。
提交的文件中,包含了三種不同的模型架構(gòu)的結(jié)果,互相印證。其中基于TimeSformer的模型輸出了最佳圖像。
為了防止過(guò)擬合和數(shù)據(jù)幻讀,他們采取了多種措施,包括采用多架構(gòu)結(jié)果、研究不同的輸入/輸出窗口大小、應(yīng)用標(biāo)簽平滑和多樣化的驗(yàn)證方法。
這個(gè)墨水檢測(cè)代碼已經(jīng)在GitHub上開(kāi)源。
獲獎(jiǎng)?wù)叩闹魈峤粓D片(TimeSformer 64x64)
除了卓越的墨跡檢測(cè)能力,這份作品還展示了迄今為止,我們見(jiàn)過(guò)的最強(qiáng)大的自動(dòng)分割技術(shù)。
便是由Julian開(kāi)發(fā)的ThaumatoAnakalyptor(大致意為「奇跡揭示者」)能夠從多個(gè)卷軸中生成大量紙莎草片段。
對(duì)已知區(qū)域的重新分割驗(yàn)證了之前的墨跡發(fā)現(xiàn),全新的分割則揭示了如卷軸最外層包裹等其他地方的文字。
來(lái)自自動(dòng)分段的輸出。頂行與提交圖像重疊,底行有新的分段。
谷歌華人工程師拿下亞軍
此外,除了第一名拿下大獎(jiǎng),Vesuvius Challenge還評(píng)出了三個(gè)并列的亞軍,將各自獲得50,000美元獎(jiǎng)金。
這些團(tuán)隊(duì)在墨跡標(biāo)記和采樣的細(xì)節(jié)處理上各有創(chuàng)新。
谷歌華人工程師Shao-Qian Mah
技術(shù)細(xì)節(jié)是對(duì)UNETR++模型進(jìn)行了定制調(diào)整。這是一種基于變壓器的 UNET 衍生工具,在醫(yī)學(xué)成像中用作3D特征提取器,對(duì)深度層進(jìn)行最大池化處理,然后使用基于Segformer B-5的最終特征提取器。
另外,還有2個(gè)團(tuán)隊(duì)共同獲得亞軍。
團(tuán)隊(duì)二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, Jo?o Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。
團(tuán)隊(duì)三:Louis Schlessinger和Arefeh Sherafati。
5%的卷軸,寫(xiě)了什么?
到目前為止,研究團(tuán)隊(duì)已經(jīng)成功展開(kāi),并閱讀了第一卷卷軸的約5%,并對(duì)露出的文字進(jìn)行了初步轉(zhuǎn)錄。
初步的閱讀提供了這篇哲學(xué)文本的一瞥,根據(jù)學(xué)者的解讀:
這篇文本主要探討的是快樂(lè),正確地理解快樂(lè),在伊壁鳩魯哲學(xué)中是最高的善。在卷軸的兩段連續(xù)的文字中,作者探討了食物等商品的可用性是否,以及如何影響它們提供的愉悅。
那些稀缺的東西是否比大量存在的東西帶來(lái)更多的快樂(lè)?作者認(rèn)為不是:「就像食物一樣,我們不會(huì)馬上相信稀缺的東西絕對(duì)比豐富的東西更令人愉快。但是,我們是不是更容易放棄那些大量存在的東西呢?這樣的問(wèn)題經(jīng)常會(huì)被頻繁地提出討論。
由于這是卷軸的結(jié)尾,這種表述可能意味著在同一系列作品的后續(xù)書(shū)籍中還有更多內(nèi)容。在文本的開(kāi)頭,提到了一位名叫Xenophantos的人,可能是同一位人物——假設(shè)是一位音樂(lè)家——也在Philodemus的《關(guān)于音樂(lè)》一作中被提及。
Philodemus,作為伊壁鳩魯學(xué)派的一員,被認(rèn)為是別墅中的常駐哲學(xué)家,在那里發(fā)現(xiàn)卷軸的小圖書(shū)館里工作。
初步、粗略的轉(zhuǎn)錄草稿如下:
在卷軸的后面:
在文本的結(jié)尾部分,作者對(duì)他的對(duì)手進(jìn)行了尖銳的批評(píng),他們「在定義快樂(lè)的問(wèn)題上,無(wú)論是從總體上還是具體上,都無(wú)話可說(shuō)」。
最后,卷軸以這樣的話結(jié)束:
……我們不是不對(duì)某些事情提出質(zhì)疑,而是對(duì)其他事情有所理解/記憶。并且,當(dāng)這些事情經(jīng)常顯露出來(lái)那樣,我們明白說(shuō)出真相是很重要的!
學(xué)者們或許會(huì)將其稱(chēng)之為一篇哲學(xué)論文。
但對(duì)我們而言,是如此地熟悉,古軸的第一篇竟是講述「如何享受生活」的兩千年前的文章。
在結(jié)尾段落里,Philodemus是否在批評(píng)斯多葛學(xué)派,聲稱(chēng)斯多葛主義是一個(gè)不完整的哲學(xué)。因?yàn)樗笇?duì)于快樂(lè)一無(wú)所知」?
他似乎在討論的問(wèn)題——生活的快樂(lè)以及什么讓生活變得有價(jià)值——仍然是我們今天思考的話題。
圖片識(shí)別準(zhǔn)確度如何?
人人皆知,機(jī)器學(xué)習(xí)模型通常會(huì)產(chǎn)生「幻覺(jué)」,即輸出與其訓(xùn)練數(shù)據(jù)相似、但實(shí)際上是虛構(gòu)的文本或圖片。
同樣,參賽者可能通過(guò)自己編造圖像來(lái)作弊,例如將圖像嵌入到模型權(quán)重中。
那么,如何確保這件事不會(huì)發(fā)生?這里有幾種驗(yàn)證方法:
- 技術(shù)復(fù)現(xiàn)
Vesuvius Challenge技術(shù)審查團(tuán)隊(duì)親手復(fù)現(xiàn)了獲獎(jiǎng)作品,確保完全理解了代碼的每個(gè)細(xì)節(jié),并獨(dú)立運(yùn)行代碼時(shí),得到了與原作品相似的圖像。
- 多次提交相同區(qū)域的圖片
你可能注意到,所有提交的圖片都展示了卷軸的同一區(qū)域。Vesuvius Challenge向所有參賽者提供了分割團(tuán)隊(duì)用CT掃描創(chuàng)建的3D映射的紙莎草片段。
- 小范圍的輸入/輸出
墨跡檢測(cè)模型并不是基于希臘字母、光學(xué)字符識(shí)別(OCR)或語(yǔ)言模型。它們是獨(dú)立地識(shí)別CT掃描中的微小墨點(diǎn),這些墨點(diǎn)聚集起來(lái)后才形成了文字。因此,圖片中顯示的文本并非機(jī)器學(xué)習(xí)模型虛構(gòu)出來(lái)的,而是直接基于CT掃描中的實(shí)際數(shù)據(jù)。
模型采用了較小的數(shù)據(jù)處理窗口:在一些情況下,它的輸出結(jié)果甚至僅限于兩種狀態(tài):「有墨跡」和「無(wú)墨跡」,這極大地降低了模型錯(cuò)誤地生成類(lèi)似字母形狀的可能性
下一步是破譯一部完整的作品。
Nat Friedman宣布了下一輪2024年Vesuvius Challenge獎(jiǎng),目標(biāo)是在年底前閱讀85%的卷軸。
與此同時(shí),他表示,僅僅是走到這一步就「感覺(jué)像是一個(gè)奇跡,我不敢相信它竟成功了」。