自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解讀AI大模型,從了解token開始

發(fā)布于 2024-10-25 14:29
瀏覽
0收藏

什么是Transformer?

解讀AI大模型,從了解token開始-AI.x社區(qū)

Transformer是一種新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu),它在2017年由Google的研究人員提出,用于解決機(jī)器翻譯等自然語(yǔ)言處理的任務(wù)。Transformer的特點(diǎn)是,它完全摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),而是采用了一種稱為自注意力機(jī)制(Self-Attention)的方法,來(lái)捕捉文本中的長(zhǎng)距離依賴關(guān)系,提高了模型的效率和準(zhǔn)確性。

今天本文將圍繞自注意力機(jī)制,介紹Transformer 的三個(gè)主要概念,位置編碼、注意力機(jī)制和自注意力機(jī)制。

位置編碼(Positional Encodings)

在自然語(yǔ)言處理任務(wù)中,詞語(yǔ)的順序尤為重要。以“小明喜歡小紅”和“小紅喜歡小明”為例,這兩句話的詞語(yǔ)組成完全一樣,僅僅是順序不同,所表達(dá)的意思卻南轅北轍。因此,語(yǔ)言模型必須具備把握詞語(yǔ)順序的能力。

然而,Transformer采用的自注意力機(jī)制是通過(guò)單元之間的相關(guān)性來(lái)進(jìn)行文本序列的編碼,也就是說(shuō)模型本身并不能感知詞語(yǔ)的順序信息。為了克服這個(gè)困難,Transformer引入了一種稱為位置編碼(Positional Encoding)的技巧。

位置編碼的思路很簡(jiǎn)單,就是在輸入序列中的每個(gè)詞語(yǔ)后面追加一個(gè)位置標(biāo)記,用不同的數(shù)字表示它在句子中的位置。以句子“我愛吃蘋果”為例:

我 1 愛 2 吃 3 蘋果 4

這樣一來(lái),Transformer模型就可以區(qū)分詞語(yǔ)的順序了。這種方法極大地增強(qiáng)了模型處理自然語(yǔ)言的能力。事實(shí)上,位置編碼使得Transformer可以類比人類大腦處理語(yǔ)言的方式——人腦可以輕松地記住詞語(yǔ)出現(xiàn)的時(shí)間順序。Transformer通過(guò)位置編碼實(shí)現(xiàn)了類似的效果。

類比來(lái)說(shuō),當(dāng)我們看一篇長(zhǎng)篇小說(shuō)時(shí),當(dāng)我們想搞清楚核心情節(jié)的發(fā)生順序時(shí),我們往往不是翻看原文,而是在閱讀中就記錄下一條時(shí)間線,當(dāng)發(fā)生關(guān)鍵劇情時(shí),將其記錄在整個(gè)時(shí)間線的節(jié)點(diǎn)之上。之前大火的電影《信條》,相信很多小伙伴也都是通過(guò)時(shí)間線的方式才真正搞清楚劇情是如何發(fā)展的。

解讀AI大模型,從了解token開始-AI.x社區(qū)

位置編碼也好,時(shí)間線也罷,其實(shí)這部分信息原本就是隱式的存在原始數(shù)據(jù)之中。我們的標(biāo)記是將這部分隱式的結(jié)構(gòu)數(shù)據(jù)顯示的表現(xiàn)出來(lái),使得大模型在編解碼數(shù)據(jù)的過(guò)程中,把詞語(yǔ)在句子中的相對(duì)位置納入進(jìn)來(lái),進(jìn)而將這一部分信息嵌入到維度向量中(或者準(zhǔn)確說(shuō)對(duì)某些維度產(chǎn)生影響)。

這與人類大腦以時(shí)間順序來(lái)認(rèn)知事物或者組織語(yǔ)言的本能是類似的,而大模型的優(yōu)勢(shì)在于擁有更大的存儲(chǔ),因而不需要如同人類大腦一般需要進(jìn)行關(guān)鍵節(jié)點(diǎn)的抽象,只要平等的對(duì)每一個(gè)詞語(yǔ)單元進(jìn)行位置編碼即可。(我在這里做了一點(diǎn)過(guò)度簡(jiǎn)化——最初的作者使用正弦函數(shù)來(lái)進(jìn)行位置編碼,而不是簡(jiǎn)單的整數(shù) 1、2、3、4——但要點(diǎn)是相同的。)

注意力機(jī)制(Attention)

在Transformer模型中,位置編碼為模型提供了詞語(yǔ)順序信息。而注意力機(jī)制則讓模型能更智能地使用這些信息。

什么是注意力機(jī)制呢?簡(jiǎn)單來(lái)說(shuō),它就是允許Transformer模型在生成輸出時(shí),參考輸入序列中的所有詞語(yǔ),并判斷哪些詞對(duì)當(dāng)前步驟更重要、更相關(guān)。以英譯法翻譯為例,當(dāng)Transformer要翻譯一個(gè)英文單詞時(shí),它會(huì)通過(guò)注意力機(jī)制快速“掃視”整個(gè)英文輸入序列,判斷應(yīng)該翻譯成什么法文詞語(yǔ)。如果輸入序列中有多個(gè)相關(guān)詞語(yǔ),注意力機(jī)制會(huì)讓模型關(guān)注最相關(guān)的那個(gè),忽略其它不太相關(guān)的詞語(yǔ)。

解讀AI大模型,從了解token開始-AI.x社區(qū)

標(biāo)注翻譯輸入與輸出關(guān)注度的熱力圖

從人類行為的角度來(lái)看,注意力機(jī)制就更容易理解了。當(dāng)我們閱讀一段文字時(shí),基于基因本能以及歷史經(jīng)驗(yàn),篩選重點(diǎn)關(guān)注的目標(biāo)區(qū)域,得到注意力焦點(diǎn)的能力,從而利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息。大模型的注意力機(jī)制的形成就是類似的方式,類比大腦,大模型的本能與經(jīng)驗(yàn)則來(lái)源于詞嵌入形成的詞語(yǔ)向量親密度。通過(guò)觀察成千上萬(wàn)的法語(yǔ)和英語(yǔ)句子,模型積累了什么類型的單詞是相互依賴的。

具體來(lái)說(shuō),Transformer中的注意力機(jī)制可以分為兩步:

  • 第一步,計(jì)算詞語(yǔ)間的相關(guān)性。對(duì)輸入序列中每一對(duì)詞語(yǔ),模型計(jì)算它們的相關(guān)性分?jǐn)?shù),分?jǐn)?shù)越高表示兩者語(yǔ)義上越相關(guān)。
  • 第二步,生成注意力分布。根據(jù)詞語(yǔ)間相關(guān)性的計(jì)算,得到一個(gè)注意力分布,它給每個(gè)詞語(yǔ)賦予一個(gè)權(quán)重,權(quán)重越大表示對(duì)當(dāng)前步驟越重要。
  • 最后,模型會(huì)依據(jù)這個(gè)注意力分布,對(duì)輸入序列進(jìn)行加權(quán),從而聚焦到相關(guān)詞語(yǔ)上。這就實(shí)現(xiàn)了注意力機(jī)制的作用。

相比于RNN等早期序列模型逐步處理輸入、無(wú)法捕捉長(zhǎng)距離依賴的方式,注意力機(jī)制實(shí)現(xiàn)了全局感知,使Transformer可以并行地看到全部輸入,這極大地提升了其建模能力。正因如此,Transformer才可以勝任更難的語(yǔ)言理解任務(wù)。

自注意力機(jī)制(Self-Attention)

在Transformer模型中,除了注意力機(jī)制,還有一個(gè)更加強(qiáng)大的機(jī)制叫做自注意力(Self-Attention)。 首先我們說(shuō)說(shuō)注意力與自注意力的區(qū)別。

可以參考這個(gè)例子。比如說(shuō)一條像蛇的井繩,會(huì)快速抓住人的眼球,讓人提高警惕,這描述的是注意力。而通過(guò)這條井繩出現(xiàn)在水井邊,并且一端系在水桶上,我們判斷它是一條井繩而不是蛇,則可類比為自注意力。

自注意力機(jī)制的核心思想是,允許模型學(xué)習(xí)詞語(yǔ)之間的相關(guān)性,也就是詞語(yǔ)與詞語(yǔ)之間的依賴關(guān)系。以句子“我愛吃蘋果”為例,通過(guò)自注意力,模型會(huì)學(xué)習(xí)到:

  • “我”與“愛”有關(guān)
  • “愛”與“吃”有關(guān)
  • “吃”與“蘋果”有關(guān)

然后在處理時(shí),模型會(huì)優(yōu)先關(guān)注這些相關(guān)詞語(yǔ),而不是簡(jiǎn)單按照順序一個(gè)字一個(gè)字翻譯。

人類對(duì)一個(gè)事物的認(rèn)知不是僅在于事物本身,往往會(huì)結(jié)合事物所處的環(huán)境,并結(jié)合與認(rèn)知事物相關(guān)的其他事物作為一個(gè)整體來(lái)形成最終的認(rèn)知。自注意力機(jī)制在文本中的應(yīng)用也一樣,主要是通過(guò)計(jì)算單詞間的互相影響,來(lái)解決長(zhǎng)距離依賴問(wèn)題。

從認(rèn)知角度來(lái)看,自注意力更貼近人類處理語(yǔ)言的方式。自注意力機(jī)制克服了傳統(tǒng)序列模型在處理長(zhǎng)距離依賴時(shí)的局限性。正因如此,自注意力機(jī)制成為Transformer模型的“引擎”,可以處理更復(fù)雜的語(yǔ)言結(jié)構(gòu),達(dá)到更高的性能。自注意力讓Transformer不僅可以并行計(jì)算,更可以建模非連續(xù)的依賴關(guān)系,這對(duì)處理語(yǔ)言意義至關(guān)重要。

總結(jié)

Transformer模型之所以能夠在自然語(yǔ)言處理任務(wù)上取得巨大突破,關(guān)鍵在于其三大核心機(jī)制:

  • 位置編碼提供了詞語(yǔ)順序信息
  • 注意力機(jī)制讓模型可以關(guān)注關(guān)鍵詞語(yǔ)
  • 自注意力機(jī)制幫助模型學(xué)習(xí)詞語(yǔ)間的依賴關(guān)系

這三者相輔相成,使得Transformer模型得以模擬人類語(yǔ)言處理的方式,達(dá)到了傳統(tǒng)RNN模型難以企及的效果。

未來(lái),如何使Transformer模型更易于訓(xùn)練,并能夠真正理解語(yǔ)言的深層語(yǔ)義,而不僅是表面形式,仍將是自然語(yǔ)言處理領(lǐng)域的核心挑戰(zhàn)。

本文轉(zhuǎn)載自 ??AI小智??,作者: AI小智

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦