自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="qiji2"></abbr>

<pre id="qiji2"><fieldset id="qiji2"><input id="qiji2"></input></fieldset></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

以識別西夏文為例，看人工智能如何幫我們認識歷史

作者：佚名 2017-09-11 20:12:21

梁啟超說“學術(shù)乃天下之公器”，不僅是說學術(shù)天下人共有，同時也是說學術(shù)天下共致。作為一種基礎(chǔ)工具的人工智能，往往能夠在意想不到地方發(fā)生效用。比如說今天為大家介紹的借助人工智能技術(shù)，自動識別西夏文——一個純粹中國的人文社科領(lǐng)域。

曾記得有一次聊天，有個朋友描述他對人工智能的印象，總結(jié)成三個詞：西方的、商業(yè)的、未來的。

我當即表示你說的很好，唯一的問題是一條都沒說對……

按下我們倆怎么展開斗毆暫且不提。這里希望破除的是大家對人工智能的某種固有印象。事實上，人工智能作為一種很早就發(fā)展起來的通用技術(shù)，絕不是西方的專利，也絕不僅僅能夠創(chuàng)造商業(yè)價值。

甚至在某些機緣巧合下，人工智能能夠成為我們用以認識歷史、認識自身民族、認識祖先與過去的利器。

梁啟超說“學術(shù)乃天下之公器”，不僅是說學術(shù)天下人共有，同時也是說學術(shù)天下共致。作為一種基礎(chǔ)工具的人工智能，往往能夠在意想不到地方發(fā)生效用。比如說今天為大家介紹的借助人工智能技術(shù)，自動識別西夏文——一個純粹中國的人文社科領(lǐng)域。

(美感奇特的西夏文)

雖然這項技術(shù)大多數(shù)人永遠不會涉足，但這個案例的價值在于可以打破我們對AI的某些偏見。AI不只是集中在那幾個領(lǐng)域，也不是歐美寡頭的玩具，它甚至可能無處不在。

為什么要識別西夏文?其中隱含著哪些困難?

我們知道，西夏是與北宋、遼、金先后對峙的黨項族國家，曾經(jīng)統(tǒng)治河西地區(qū)超過二百年。

與大眾認知中不同，西夏不是個茹毛飲血的野蠻文明。他們曾經(jīng)創(chuàng)立過驚人的文化、藝術(shù)與宗教文明，但隨著1227年蒙古滅西夏，蒙元不為西夏立史，關(guān)于這個政權(quán)的記錄快速消亡，李元昊立國時創(chuàng)立的西夏文也隨之湮滅。

西夏文又名河西字、番文、唐古特文，曾在西夏王朝統(tǒng)轄的今寧夏、甘肅、陜西北部、內(nèi)蒙古南部地區(qū)盛行了約兩個世紀。但在西夏滅國后，這種參考漢字創(chuàng)立的奇特文字逐漸失傳，最終成為了一種死文字。

直到1804年，武威大云寺發(fā)現(xiàn)了著名的《重修涼州護國寺感通塔碑》，西夏文才在埋藏了數(shù)百年后重現(xiàn)人世。從此識讀西夏文開始成為了學界的重要工作。

[[203170]]
(《重修涼州護國寺感通塔碑》局部)

二百年以來，出土的西夏文文獻不斷增多，其中大部分都被英、俄探險家?guī)У搅司惩?。但各國學者努力下，西夏文的基礎(chǔ)文字識別已經(jīng)完成，現(xiàn)階段的工作重點是依據(jù)文字列表，去識讀大量西夏文文獻的具體內(nèi)容，揭開西夏以及當時中原、西域各國的歷史迷霧。

但在這個過程里，研究人員認讀西夏文必須通過手工翻閱查找，耗費時間異常辛苦不說，由于西夏文是一種相似度極高的文字，人工識別還可能存在很大的錯誤率。

所以就有學者提出，利用計算機來自動識別西夏文。這種設想很好，但在具體操作中還是有巨大問題。比如西夏文結(jié)構(gòu)復雜、組成字符各部分要素高度相似，并且平均筆畫達到25畫，計算機識別難以入手。

此外，西夏時期雖然已有印刷術(shù)，但出土文獻還是以手抄本和刻版文字為主，同一個字的在不同文獻上的位置不固定、整體布局會發(fā)生偏移，都給機器識別帶來巨大困難。

于是有意思的事出現(xiàn)了，寧夏大學相關(guān)研究機構(gòu)為代表的學術(shù)力量，選擇了以人工智能技術(shù)解決西夏文的自動識別。

并且這個工作很早就已經(jīng)開始，不斷有成果涌現(xiàn)。從時間上看，絕不是趕這波AI熱的產(chǎn)物。

人工智能完成西夏文自動識別

其實，用計算機技術(shù)處理西夏文很早就已經(jīng)開始。

早在1996年，日本國立亞非語言文化研究所就制作了西夏文字庫和排版系統(tǒng)。1997 年中國學者李范文和日本學者中島干起利用該排版系統(tǒng)合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應該也都有西夏文數(shù)據(jù)化和計算機處理的項目與研究成果。

而使用彈性網(wǎng)絡、神經(jīng)網(wǎng)絡、AI算法以及深度學習來識別西夏文，則是中國領(lǐng)先完成的一個創(chuàng)舉。

[[203171]]
(紀錄片《神秘的西夏》創(chuàng)立文字片段)

用AI識別西夏文，主要依托的是計算機字符識別( optical character recognition，OCR) 技術(shù)，這種技術(shù)上世紀60年代就成為了人工智能研究的主要領(lǐng)域之一。

它的核心技術(shù)主張是基于人工智能運算來識別文字符號的數(shù)字影像，并將其轉(zhuǎn)換為對應的數(shù)字文本，達到可識別、可編輯、可轉(zhuǎn)化的目的。

OCR技術(shù)目前在很多領(lǐng)域已經(jīng)相當成熟，比如我們經(jīng)常用到的印刷文件文字提取。在OCR識別領(lǐng)域，更多的應用是手寫體內(nèi)容的精準識別，而利用OCR識別考古文獻中的非廣泛使用文字卻基本處于空白。

這里可以結(jié)合論文簡單介紹兩種AI識別西夏文的案例。

比如在《基于彈性網(wǎng)絡的西夏文識別》當中，研究人員利用彈性網(wǎng)絡技術(shù)，將西夏文中的筆畫特征進行網(wǎng)格化提取。再統(tǒng)計像素點在每個網(wǎng)格內(nèi)的概率分布，形成一種可讀取的特征模型。***使用文檔主題模型方法對提取的特征降維處理，結(jié)合數(shù)據(jù)庫對文獻進行識別。

根據(jù)論文這種方法現(xiàn)實，這種方法平均識別率可達87.99 %。

再比如《基于Mean Shift算法的西夏文字筆形識別》，Mean Shift算法，即偏移均值向量，是機器學習領(lǐng)域的一種基本算法。其基礎(chǔ)理論是利用信息密度來完成聚類、圖像分割、跟蹤任務，可應對相似但界限模糊的圖像處理應用。利用這種算法，研究人員將原始資料生成概率統(tǒng)計直方圖，通過相似度來判斷歸類具體的西夏文筆形。

(西夏文智能識別算法流程)

這里僅僅是兩個具體應用案例，利用深度學習等前沿人工智能技術(shù)識別西夏文的應用還在不斷發(fā)展。

文獻與考古領(lǐng)域的人工智能應用

可能識別西夏文距離我們的日常生活還相對較遠，但推廣當整個人文社科領(lǐng)域，AI的應用可能就會從另一個角度***貼近我們的生活。

從近處來說，AI推動學術(shù)效率，可能會影響我們的學科配置、學術(shù)訓練甚至高等教育體系，從遠處來看，AI推動的進一步識別歷史與文獻的能力，是我們窺探自身過去，了解“中國”為何是“中國”的全新工具。

在我們沉浸于未來帶來的快感時，人工智能卻可能在歷史領(lǐng)域快速發(fā)揮它的價值。通過西夏文識別的例子，不難發(fā)現(xiàn)在文獻與考古這些社科領(lǐng)域當中，人工智能至少可以發(fā)揮以下幾種功效：

考古圖像的識別與歸檔，比如基于算法的文物識別、文物數(shù)據(jù)化、考古現(xiàn)場數(shù)據(jù)化。
文獻文本的識別與轉(zhuǎn)碼，比如原始文獻的文字識別讀取、文獻聚類、文獻數(shù)據(jù)化。
文獻數(shù)據(jù)庫的知識圖譜化與機器學習應用。比如學科文獻圖譜化、時代文獻圖譜化、科研項目數(shù)據(jù)圖譜化，以及基于知識圖譜訓練的人文社科領(lǐng)域智能體。

這一點尤其重要，想象力也最為充沛。就像金融、翻譯等領(lǐng)域很可能被AI替代一樣，文獻學與歷史研究領(lǐng)域大部分依賴考證、?？?、資料爬梳的工作，也完全可以被AI取代。

類似的人文領(lǐng)域與AI跨界還有很多，有些甚至涉及哲學與倫理層面的技術(shù)與人文互搏，以后我們會陸續(xù)介紹。

也許AI就像風，當它是一場風暴的時候，家家戶戶都會門窗緊鎖小心防護。但當它是清風徐來穿屋而過的時候，在我們不知覺間，AI就已經(jīng)無孔不入了。

責任編輯：未麗燕來源：鈦媒體

人工智能西夏文 AI

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="w7mbw"></sub>