自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="pj6jn"><i id="pj6jn"></i></sub>

<style id="pj6jn"></style>

<sup id="pj6jn"><rt id="pj6jn"></rt></sup>

<blockquote id="pj6jn"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

免費科研利器！Meta祭出Nougat，PDF格式轉(zhuǎn)換，公式表格精準(zhǔn)識別，掃描版文檔也可以

作者：新智元 2023-09-04 13:15:00

Meta的研究人員基于Vision Transformer架構(gòu)，為處理科學(xué)文檔量身訂制定制了一款光學(xué)字符識別（OCR）——Nougat。與傳統(tǒng)OCR不同之處在于，Nougat可以處理整個頁面，并且輸出格式是MultiMarkdown，適合于學(xué)術(shù)文檔寫作。

做研究的童鞋們簡直要狂喜！

近來，Meta AI研究人員推出一款OCR神器Nougat，能夠分分鐘把PDF轉(zhuǎn)換為MultiMarkdown。

各種復(fù)雜數(shù)學(xué)公式、表格、文字、甚至是掃描版的PDF通通可以提取出來。

真有這么神？不如上圖說話。

拿出一本很有年代感的書籍，每個公示都可以清晰地識別。

圖片

圖片

即便文檔凹凸不平，也不礙事，公示格式照樣重現(xiàn)。

圖片

還有PDF中的表格，也能原模原樣搬過來。

圖片

不過有柱狀圖的文檔，Nougat暫時還不能呈現(xiàn)。

圖片

這么神的科研利器，究竟是什么來頭？

科研OCR神器，怎么來？

要知道，除了HTML之外，PDF是互聯(lián)網(wǎng)上第二大重要的數(shù)據(jù)格式，訪問量占比為2.4%。

然而，對于科研人員最不便的是，存儲在這些文件中的信息很難提取為任何其他格式。

對于高度專業(yè)化的文檔更是如此，例如科學(xué)研究論文中數(shù)學(xué)表達(dá)式的語義信息會丟失。

對此，Meta的研究人員基于Vision Transformer架構(gòu)，為處理科學(xué)文檔量身訂制定制了一款光學(xué)字符識別（OCR）——Nougat。

與傳統(tǒng)OCR不同之處在于，Nougat可以處理整個頁面，并且輸出格式是MultiMarkdown，適合于學(xué)術(shù)文檔寫作。

尤其重要的是，它在處理數(shù)學(xué)公式中的上標(biāo)和下標(biāo)等變得非常容易。

圖片

論文地址：https://arxiv.org/pdf/2308.13418.pdf

具體來說，Nougat是一個編碼器-解碼器的Transformer架構(gòu)，允許端到端的訓(xùn)練，主要建立在Donut架構(gòu)之上。

這一模型不需要任何OCR相關(guān)的輸入或模塊，文本由網(wǎng)絡(luò)隱式識別。

圖片

編碼器

視覺編碼器接收文檔圖像，裁剪邊距并調(diào)整圖像大小，以適合大小（H，W）的固定矩形。

如果圖像小于矩形，則會添加額外的填充，以確保每個圖像具有相同的維度。

這里，研究人員使用Swin Transformer Swin，可將圖像分割成固定大小的非重疊窗口，并應(yīng)用一系列自注意力層來聚合這些窗口的信息。

該模型輸出一個嵌入補丁的序列，其中d是潛在維度，N是補丁的數(shù)量。

解碼器

使用具有交叉注意力的Transformer解碼器架構(gòu)將編碼圖像z解碼為token序列。

token以自回歸方式生成，使用自注意力和交叉注意力分別關(guān)注輸入序列R和編碼器輸出的不同部分。最后，輸出被投影到詞匯量v的大小，產(chǎn)生對數(shù)。

數(shù)據(jù)增強(qiáng)

在圖像識別任務(wù)中，使用數(shù)據(jù)增強(qiáng)來提高泛化能力通常是有益的。

由于研究僅使用數(shù)字生成的學(xué)術(shù)研究論文，因此需要采用多種變換來模擬掃描文檔的缺陷和可變性。

這些變換包括腐蝕、膨脹、高斯噪聲、位圖轉(zhuǎn)換、圖像壓縮、網(wǎng)格畸變和彈性變換。每個都有應(yīng)用于給定圖像的固定概率。這些轉(zhuǎn)換在Albumentations庫中實現(xiàn)。

圖片

為了訓(xùn)練模型，團(tuán)隊使用了來自arxiv、PubMed Central等平臺的科學(xué)論文PDF數(shù)據(jù)集，以及來自作者的相應(yīng)LaTeX源代碼。

這一數(shù)據(jù)集總共超過800萬頁組成。

收集到數(shù)據(jù)后，研究人員進(jìn)行了數(shù)據(jù)處理，首先將原文檔轉(zhuǎn)換為HTML，然后再轉(zhuǎn)換為Markdown格式。

圖片

具體來說，研究人員根據(jù)PDF文件中的分頁符拆分Markdown文件，并將每個頁面柵格化為圖像以創(chuàng)建最終的配對數(shù)據(jù)集。

編譯過程中，LaTeX 編譯器會自動確定PDF文件的分頁符。

實驗結(jié)果

測試中，Nougat從科學(xué)論文中提取文本、公式和表格的準(zhǔn)確率很高。

圖片

對于連續(xù)文本，它在BLEU分?jǐn)?shù)超過91%，準(zhǔn)確率超過96%。

公式和表格的性能較低，略高于75%，但仍然比GROBID等替代品可靠得多，后者的數(shù)學(xué)公式準(zhǔn)確率略低于11%。

圖片

不過，在管理跨文檔一致性和避免生成過程中重復(fù)文本循環(huán)方面，仍面臨一些挑戰(zhàn)。

圖片

根據(jù)實驗結(jié)果，logits重復(fù)檢測示例如下：

圖片

Meta團(tuán)隊表示，Nougat是將PDF研究論文轉(zhuǎn)換為結(jié)構(gòu)化的機(jī)器可讀文本，從而改善科學(xué)知識獲取的一種有前途的解決方案。

通過彌合PDF與文本之間的鴻溝，這將使數(shù)百萬篇科學(xué)論文更易于獲取。

參考資料：

https://the-decoder.com/nougat-metas-latest-ai-model-makes-scientific-pdfs-machine-readable/

責(zé)任編輯：武曉燕來源：新智元

Meta Vision 架構(gòu)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="m66hb"></blockquote>}