自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

表征學(xué)習(xí):為自然語言而生的高級(jí)深度學(xué)習(xí)

原創(chuàng)
人工智能 深度學(xué)習(xí)
在高級(jí)機(jī)器學(xué)習(xí)領(lǐng)域中,表征學(xué)習(xí)(Representation Learning)處理自然語言的優(yōu)勢(shì)是無可爭(zhēng)辯的。在深度學(xué)習(xí)規(guī)模和計(jì)算的影響下,表征學(xué)習(xí)在人工智能領(lǐng)域取得了一系列的成就,不僅包括處理人類語言,而且涉及到統(tǒng)計(jì)人工智能的方面。

通過半監(jiān)督學(xué)習(xí)和自我監(jiān)督學(xué)習(xí)的某些特征,表征學(xué)習(xí)大大減少了訓(xùn)練模型所需的數(shù)據(jù)量,更重要的是,它更加重視阻礙傳統(tǒng)監(jiān)督學(xué)習(xí)中帶注釋的訓(xùn)練數(shù)據(jù)。

它也促進(jìn)了多任務(wù)學(xué)習(xí)(multitask learning)、零次學(xué)習(xí)(zero-shot learning)、流形布局技術(shù)(manifold layout techniques)和數(shù)據(jù)倍數(shù)概念(data multiple concept)等技術(shù)的發(fā)展,成為連接這些技術(shù)的基石。上面提到的這些技術(shù)對(duì)深度學(xué)習(xí)在自然語言技術(shù)中的應(yīng)用產(chǎn)生了巨大價(jià)值和重大影響。

由于表征學(xué)習(xí),不僅使自然語言處理更快、更易于組織使用,而且更適用于廣泛的用例,而這些用例在表征學(xué)習(xí)出現(xiàn)之前是無法實(shí)現(xiàn)的。

“這些是我們?cè)?Indico 使用的技術(shù),谷歌、Facebook 等其他組織顯然也在使用這些技術(shù),” Indico Data首席技術(shù)官 Slater Victoroff 如是說?!暗?,表征學(xué)習(xí)在這些組織中只是小范圍使用,同時(shí)使用效果和理想也相差甚遠(yuǎn),在具體應(yīng)用方面也是困難重重,并不能代表機(jī)器學(xué)習(xí)的主流?!?/p>

但是,如果用發(fā)展的眼光看問題,為了獲取長(zhǎng)遠(yuǎn)受益,他們必須現(xiàn)在就行動(dòng)起來。

字節(jié)對(duì)編碼(byte pair encoder)

從廣義上講,表征學(xué)習(xí)的工作方式與鍵值對(duì)的概念沒有什么不同。它使用類似于密鑰的字節(jié)對(duì)編碼,Victoroff 觀察到,每個(gè)鍵都有一個(gè)表示它的數(shù)值,“就像字典或查找表一樣”。字節(jié)對(duì)編碼是表征學(xué)習(xí)的核心內(nèi)容,字節(jié)對(duì)編碼是為語言中“有意義的塊”(meaningful chunks)而生成的。例如:“'ing [ing] space' 可能是一個(gè)塊,或者'space um [um]' 可能是一個(gè)塊,”同時(shí),Victoroff 提到字節(jié)對(duì)編碼時(shí)如是說:“每個(gè)塊大約是 1 到 10 個(gè)字母長(zhǎng)度……大多數(shù)情況下是 1 到 3 個(gè)字母長(zhǎng)?!?/p>

這種學(xué)習(xí)模式有兩個(gè)值得注意的地方。首先是它的語言價(jià)值,對(duì)于單詞來說,表征可以識(shí)別:這些事物是否是同義詞?這些東西在語義上是否相關(guān)?這些東西在句法上是否有聯(lián)系。其次,這種表征可以針對(duì)單個(gè)單詞、句子甚至段落,以及用戶需求提供更多的應(yīng)用場(chǎng)景。

零次學(xué)習(xí)(zero-shot learning)

表征學(xué)習(xí)以多種方式對(duì)深度學(xué)習(xí)產(chǎn)生深遠(yuǎn)影響,其中最值得注意的是減少了訓(xùn)練數(shù)據(jù)(標(biāo)記)的數(shù)量,這恰恰是高級(jí)機(jī)器學(xué)習(xí)模型提升準(zhǔn)確率的必備條件?!叭绻愕谋硎咀銐蚝?,你可以用來制作模型,他們稱之為零次學(xué)習(xí)(zero-shot learning),”Victoroff 指出。使用這種技術(shù),數(shù)據(jù)科學(xué)家可以利用標(biāo)簽作為訓(xùn)練模型的唯一示例。

例如,在構(gòu)建預(yù)測(cè)飛機(jī)模型時(shí),統(tǒng)計(jì) AI 的方法會(huì)使用“airplane as your one example”這個(gè)標(biāo)簽,然后得出推論:“a few shots,[a] single shot?!逼浣Y(jié)果存在各種各樣的變化。 這一原則會(huì)提升企業(yè)在自然語言應(yīng)用領(lǐng)域的適用性,因?yàn)榇蠖鄶?shù)高級(jí)機(jī)器學(xué)習(xí)用例都需要高標(biāo)準(zhǔn)的訓(xùn)練數(shù)據(jù),而這一點(diǎn)往往令人望而卻步。

多任務(wù)學(xué)習(xí)(multitask learning)

如果說減少訓(xùn)練數(shù)據(jù)是表征學(xué)習(xí)相對(duì)于深度學(xué)習(xí)應(yīng)用模式的突破,那么另一個(gè)突破就是多個(gè)任務(wù)訓(xùn)練模型。借助更廣泛使用的監(jiān)督和非監(jiān)督學(xué)習(xí)方法,即使針對(duì)特定模型的機(jī)器學(xué)習(xí)任務(wù)(例如在針對(duì)銷售用例進(jìn)行訓(xùn)練之后,再對(duì)營銷數(shù)據(jù)執(zhí)行智能處理以及自動(dòng)化的實(shí)體提取),建模者再一次使用相關(guān)任務(wù)時(shí)也必須從頭開始創(chuàng)建新模型。以表征學(xué)習(xí)、多任務(wù)學(xué)習(xí)為基礎(chǔ)可能會(huì)使這種方式成為過去。

“假設(shè)你對(duì)【情感分析】創(chuàng)建一個(gè)模型任務(wù),同時(shí)為【文本分析】創(chuàng)建第二個(gè)模型任務(wù),如果想要知道這兩個(gè)模型之間的關(guān)聯(lián),就可以針對(duì)一個(gè)模型創(chuàng)建兩個(gè)任務(wù)進(jìn)行訓(xùn)練,兩個(gè)任務(wù)共享一個(gè)模型,關(guān)聯(lián)任務(wù)通過共享信息,相互補(bǔ)充,提升彼此的表現(xiàn)?!盫ictoroff 指出。

這種做法對(duì)模型使用效率的提高以及對(duì)自然語言分析的價(jià)值是顯而易見的。建模的執(zhí)行多任務(wù)處理能力在基于向量的 NLP(自然語言處理 Natural Language Processing)領(lǐng)域中得到了充分的認(rèn)可。在一些競(jìng)賽中就要求模型必須解決 10 種不同類型的 NLP 問題,并且有證據(jù)表明模型實(shí)際上可以將從一項(xiàng) NLP 任務(wù)(例如理解一門外語)中學(xué)到的知識(shí)應(yīng)用到另一項(xiàng) NLP 任務(wù)中,以理解英語為例“我們可以證明這種方式創(chuàng)建的 [模型] 正在跨語言交叉學(xué)習(xí)中利用了更多的信息,”Victoroff 評(píng)論道?!斑@種現(xiàn)象被稱為伸縮效應(yīng)。例如在訓(xùn)練機(jī)器學(xué)習(xí)英文之后,再訓(xùn)練其學(xué)習(xí)中文,會(huì)比一開始就直接訓(xùn)練機(jī)器學(xué)習(xí)中文要容易得多。“

數(shù)據(jù)倍數(shù)(data multiple)

“better”這個(gè)詞表達(dá)的含義具有相對(duì)性,因此針對(duì)不同的人具有不同的含義,而含義取決于通過 NLP 實(shí)現(xiàn)的目標(biāo)?,F(xiàn)實(shí)情況是,從深度學(xué)習(xí)的計(jì)算能力以及可擴(kuò)展性方面來看,只要數(shù)據(jù)量足夠大,即使是糟糕的深度神經(jīng)網(wǎng)絡(luò)也可以達(dá)到較好的效果。然而,數(shù)據(jù)倍數(shù)原則是在數(shù)據(jù)量不大的情況下集中于精確定位,提升評(píng)估模型性能從而讓深度神經(jīng)網(wǎng)絡(luò)達(dá)到好的效果。正如Victoroff提到的,對(duì)于特定模型而言可以明顯看到,“在 100 個(gè)數(shù)據(jù)點(diǎn)上的工作情況如何;在 1,000 個(gè)數(shù)據(jù)點(diǎn)上的工作情況如何;在 10,000 個(gè)數(shù)據(jù)點(diǎn)上的效果如何?”

Victoroff 指出,高級(jí)機(jī)器學(xué)習(xí)模型的性能取決于數(shù)據(jù)倍數(shù),對(duì)于上述表征學(xué)習(xí)技術(shù)(數(shù)據(jù)倍數(shù)),通常可以達(dá)到“至少 2 到 4 倍的數(shù)據(jù)倍數(shù)”。Victoroff 指出,“模型的4倍數(shù)據(jù)倍數(shù)就意味著該模型的形成減少了 4 倍的訓(xùn)練數(shù)據(jù)量”。使用數(shù)據(jù)倍數(shù)方式建模,可以在數(shù)據(jù)量不夠的情況下達(dá)到相對(duì)滿意的效果。用Victoroff的話就是“利用你手上現(xiàn)有的數(shù)據(jù)就可以達(dá)到幾乎翻倍的準(zhǔn)確性。”

流形布局技術(shù)(manifold layout techniques)

對(duì)于自然語言技術(shù)而言,其表征就是一個(gè)數(shù)字列表,數(shù)據(jù)科學(xué)家可以應(yīng)用不同的數(shù)學(xué)概念來讓機(jī)器理解單詞的含義。在自然語言處理中可以通過One-hot方式將詞用數(shù)字列表的方式表示,這個(gè)數(shù)字列表可以想象成一個(gè)詞典,需要處理的自然語言內(nèi)容越多,這個(gè)列表就越大。每個(gè)詞的表示都需要通過一個(gè)很大的數(shù)字列表來完成,這樣生成的向量維度高也稀疏,使計(jì)算效率大打折扣。因此,可以通過流形布局技術(shù)將數(shù)字列表中創(chuàng)造意義的部分,轉(zhuǎn)移到嵌入(Embedding)中,也就是將高維空間的數(shù)據(jù)轉(zhuǎn)換到低維空間。

嵌入(Embedding)是一個(gè)將離散變量轉(zhuǎn)化為連續(xù)向量的方式,它不光可以減少離散變量的空間維數(shù),也可以有意義的表示該變量。Victoroff 透露,嵌入(Embedding)是一種將表征置于明確結(jié)構(gòu)中的方法,在這個(gè)過程中為這些表征賦予意義。流形是自然語言技術(shù)中最受歡迎的嵌入類型之一,因?yàn)樗鼈兙哂小捌渌Y(jié)構(gòu)可能沒有的東西,就是距離的概念?!盫ictoroff 透露。

距離,對(duì)于高級(jí)機(jī)器學(xué)習(xí)模型在語言精細(xì)理解領(lǐng)域至關(guān)重要。根據(jù) Victoroff 的說法,“當(dāng)你閱讀一個(gè)句子時(shí),存在同義詞和反義詞以及解析樹的概念??梢园言~與詞之間的關(guān)系看成是距離,所以我們有了這個(gè)距離的概念:兩個(gè)物體?!? 流形就是在做降維的事情,允許表征從高維空間更容易地轉(zhuǎn)換到低維空間。

編者:這里需要解釋一下流形做的事情。加入一個(gè)二維空間,兩個(gè)點(diǎn)之間的距離通過兩個(gè)點(diǎn)的x、y的坐標(biāo)就可以算出來。如果一個(gè)多維空間例如一個(gè)地球儀上面有兩個(gè)點(diǎn),需要知道這兩個(gè)點(diǎn)的距離,就必須用一個(gè)軟尺連接兩個(gè)點(diǎn),獲取距離。而錯(cuò)誤的計(jì)算方式,就是用一根線切過地球表面連接兩個(gè)點(diǎn)。

流形布局測(cè)量的距離,就好像這一把軟尺,順著地球的表面量?jī)牲c(diǎn)的距離。在神經(jīng)網(wǎng)絡(luò)的多維空間中測(cè)量?jī)蓚€(gè)點(diǎn)的距離的時(shí)候就需要用到這個(gè)技術(shù),我們可以把這兩個(gè)點(diǎn)想象成兩個(gè)詞,距離就是兩個(gè)詞的關(guān)系。離得近說明詞的含義相近,如下圖所示。同時(shí)Embedding 還做了一個(gè)事情就是降維,將高維的向量變成低維的,容易分析和展示。

成長(zhǎng)與發(fā)展

深度學(xué)習(xí)空間正在繼續(xù)快速增長(zhǎng)。表征學(xué)習(xí)可以減少自然語言技術(shù)應(yīng)用中訓(xùn)練數(shù)據(jù)數(shù)量,并提升訓(xùn)練效率。同時(shí)使多任務(wù)學(xué)習(xí)的底層模型效用多樣化。其結(jié)果是組織可以通過這些模型實(shí)現(xiàn)更多目標(biāo),減少構(gòu)建它們所需的時(shí)間和精力,并且提高它們?cè)? NLP 或其他應(yīng)用場(chǎng)景中的準(zhǔn)確性。

作者介紹

崔皓,??51CTO社區(qū)編輯??,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。曾任惠普技術(shù)專家。樂于分享,撰寫了很多熱門技術(shù)文章,閱讀量超過60萬。??《分布式架構(gòu)原理與實(shí)踐》??作者。

參考

https://insidebigdata.com/2022/02/04/elite-deep-learning-for-natural-language-technologies-representation-learning/

https://www.jiqizhixin.com/articles/2019-03-27-7

https://www.zhihu.com/question/32275069

https://zhuanlan.zhihu.com/p/46016518


責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2017-04-10 16:15:55

人工智能深度學(xué)習(xí)應(yīng)用

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2017-05-05 15:34:49

自然語言處理

2017-08-23 09:36:21

2017-07-28 10:20:47

深度學(xué)習(xí)自然語言神經(jīng)機(jī)器

2021-08-17 15:47:12

機(jī)器學(xué)習(xí)自然語言神經(jīng)網(wǎng)絡(luò)

2017-01-12 16:13:28

自然語言深度學(xué)習(xí)系統(tǒng)

2017-07-28 15:45:43

深度學(xué)習(xí)自然語言神經(jīng)網(wǎng)絡(luò)

2017-02-20 14:12:49

自然語言處理研究

2018-08-05 07:50:22

自然語言Word2Vec深度學(xué)習(xí)

2019-10-16 14:10:24

人工智能深度學(xué)習(xí)技術(shù)

2020-09-27 10:22:20

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-12-09 08:45:00

模型AI

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-05-18 18:31:28

機(jī)器人自然語言編程

2024-04-24 11:38:46

語言模型NLP人工智能

2009-11-25 14:25:14

PHP自然語言排序

2018-04-23 14:49:31

表征句子深度學(xué)習(xí)自然語言

2021-05-17 09:00:00

自然語言人工智能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)