Nougat:一種用于科學(xué)文檔OCR的Transformer 模型
隨著人工智能領(lǐng)域的不斷進(jìn)步,其子領(lǐng)域,包括自然語(yǔ)言處理,自然語(yǔ)言生成,計(jì)算機(jī)視覺(jué)等,由于其廣泛的用例而迅速獲得了大量的普及。光學(xué)字符識(shí)別(OCR)是計(jì)算機(jī)視覺(jué)中一個(gè)成熟且被廣泛研究的領(lǐng)域。它有許多用途,如文檔數(shù)字化、手寫(xiě)識(shí)別和場(chǎng)景文本識(shí)別。數(shù)學(xué)表達(dá)式的識(shí)別是OCR在學(xué)術(shù)研究中受到廣泛關(guān)注的一個(gè)領(lǐng)域。
PDF是最廣泛使用的格式之一,它通常保存在書(shū)籍中或發(fā)表在學(xué)術(shù)期刊上。pdf是互聯(lián)網(wǎng)上第二大使用的數(shù)據(jù)格式,占信息的2.4%,經(jīng)常用于文檔傳遞。盡管它們被廣泛使用,但從PDF文件中提取信息可能很困難,特別是在處理像科學(xué)研究文章這樣高度專業(yè)化的材料時(shí)。因?yàn)榘撕芏嗟臄?shù)學(xué)公式,而現(xiàn)階段的OCR可能會(huì)導(dǎo)致數(shù)學(xué)表達(dá)式的語(yǔ)義信息丟失。
Meta AI的一組研究人員推出了一種名為Nougat的解決方案,它代表“Neural Optical Understanding for Academic Documents”。為了對(duì)科學(xué)文本進(jìn)行光學(xué)字符識(shí)別(OCR),Nougat是一種VIT模型。它的目標(biāo)是將這些文件轉(zhuǎn)換為標(biāo)記語(yǔ)言,以便更容易訪問(wèn)和機(jī)器可讀。
為了顯示該方法的有效性,該團(tuán)隊(duì)還制作了一個(gè)新的學(xué)術(shù)論文數(shù)據(jù)集。這種方法為提高數(shù)字時(shí)代科學(xué)知識(shí)的可及性提供了可行的答案。它填補(bǔ)了人們易于閱讀的書(shū)面材料與計(jì)算機(jī)可以處理和分析的文本之間的空白。Nougat基本上是一個(gè)基于Transformer的模型,用于將文檔頁(yè)面的圖像(特別是來(lái)自pdf的圖像)轉(zhuǎn)換為格式化的標(biāo)記文本。
該團(tuán)隊(duì)總結(jié)了他們的主要貢獻(xiàn)如下-
發(fā)布預(yù)訓(xùn)練模型:創(chuàng)建可以將pdf轉(zhuǎn)換為簡(jiǎn)單的標(biāo)記語(yǔ)言的預(yù)訓(xùn)練模型。這個(gè)預(yù)訓(xùn)練的模型在GitHub上公開(kāi),任何人都可以訪問(wèn)它以及相關(guān)代碼。
數(shù)據(jù)集創(chuàng)建管道:描述了一種構(gòu)建數(shù)據(jù)集的方法,將PDF文檔與其相關(guān)的源代碼配對(duì)。這種數(shù)據(jù)集開(kāi)發(fā)方法對(duì)于測(cè)試和改進(jìn)Nougat模型至關(guān)重要,也可能對(duì)未來(lái)的文檔分析研究和應(yīng)用有用。
僅依賴于頁(yè)面的圖像:也就是說(shuō)這個(gè)模型只要pdf的截圖就可以了,這使得它成為一種靈活的工具,可以從各種來(lái)源提取內(nèi)容,即使原始文檔沒(méi)有數(shù)字文本格式,也可以使用掃描的紙張和書(shū)籍進(jìn)行處理。
可以說(shuō)Nougat通過(guò)利用VIT模型的功能,開(kāi)創(chuàng)了OCR的新時(shí)代。它具有理解復(fù)雜科學(xué)文檔并將其轉(zhuǎn)換為結(jié)構(gòu)化標(biāo)記語(yǔ)言的能力,為無(wú)縫的信息可訪問(wèn)性鋪平了道路,彌合了人類理解和機(jī)器分析之間的差距。這一創(chuàng)新為學(xué)術(shù)研究及其他領(lǐng)域帶來(lái)了巨大的希望,體現(xiàn)了數(shù)字時(shí)代人工智能驅(qū)動(dòng)的解決方案的變革力量。
以上截圖來(lái)自官網(wǎng),左圖為圖片文件,右圖為L(zhǎng)atex語(yǔ)法生成的公式
論文和官方網(wǎng)頁(yè)在這里:
https://facebookresearch.github.io/nougat/
小吐槽:FB的項(xiàng)目管理一如既往的混亂
- Nougat 只配一個(gè)github的頁(yè)面
- segment-anything 有一個(gè)單獨(dú)的域名,更新動(dòng)態(tài)的博客是ai.meta下面的
- llama只有一個(gè)ai.meta的二級(jí)目錄,但是在ai.meta首頁(yè)置頂,也算重視
- dinov2又跑去了metademolab的另外一個(gè)域名
可見(jiàn)前幾天的內(nèi)斗和算力競(jìng)爭(zhēng)新聞是肯定了。