自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI圈炸了!微軟解封Transformer,序列長度擴(kuò)展10億+

人工智能
LONGNET并非沒有局限,例如雖然擴(kuò)張注意力機(jī)制將計算復(fù)雜性降低到低于標(biāo)準(zhǔn) Transformer 模型的水平,但處理超過 10 億個標(biāo)記的序列仍然需要大量資源。此外,雖然有強(qiáng)大的性能,但可能仍需要進(jìn)行更多的測試和驗證。

大數(shù)據(jù)文摘出品

AI圈炸了!微軟推出的 LONGNET 成功將Transformer的Token處理能力擴(kuò)展到了10億+。

圖片圖片

要知道,之前大家一直夸Transformer的理解能力和短序列生成能力,對長序列一直“有心無力”。

微軟這一次操作相當(dāng)于讓一個短跑冠軍擁有了極速跑馬拉松的能力。畢竟,處理長序列的同時,處理短序列任務(wù)時依然保持優(yōu)秀的性能。

LONGNET is a Transformer variant that can scale sequence length to more than 1 billion tokens, with no loss in shorter sequences.

圖片圖片

對此,網(wǎng)友評論:這是一場革命!

因為,這項工作為建模長序列提供了新的思路和可能,未來,甚至有望將整個互聯(lián)網(wǎng)語料視為一個Token。同時,意味著更復(fù)雜的 AI 互動成為可能。

LONGNET解封序列長度

Transformer 模型是許多AI系統(tǒng)的核心架構(gòu),工作原理是處理由Tokens組成的信息序列,從而理解或生成文本。

注:Token可以是簡短的單詞或者完整的句子。

全局注意力機(jī)制全局注意力機(jī)制

全局注意力(global attention)是Transformer理解能力的關(guān)鍵所在,它允許一個Token與其他所有Token進(jìn)行“互動”。序列一旦變得越長,互動次數(shù)呈指數(shù)級增長,大大增加了計算復(fù)雜性。

上段內(nèi)容有點抽象,解釋一下:想象一下,你試圖與房間里的每一個人分別進(jìn)行對話。如果只有幾個人,這是可以應(yīng)對的。但隨著人數(shù)的增加,很快就變得難以承受。

ChatGPT就是 OpenAI 基于Transformer開發(fā)的,大家在使用它進(jìn)行上下文對話的時候,會發(fā)現(xiàn)它會經(jīng)?!巴绷四阒敖o他說過的話。

以后,有了LONGNET 就解鎖了ChatGPT無限對話能力,它會記起你最開始的提問。

LONGNET的核心:擴(kuò)張注意力的力量


圖片圖片

在LONGNET這項工作中,微軟的研究員將一種稱為“擴(kuò)張注意力”(dilated attention)的新穎概念引入到Transformer 模型中,從根本上改變了模型處理序列的方式。

擴(kuò)張注意力的妙用在于,距離增大時能夠關(guān)注更多的Token,而無需讓每個序列與其他所有序列互動。

就像,在人群中既能關(guān)注到附近的人,也能關(guān)注到遠(yuǎn)離的人,但不需要與每個人單獨交談。

圖片

圖注:擴(kuò)張注意力在 LONGNET 中使用的構(gòu)建模塊。包括一系列用于建模短程和長程依賴關(guān)系的注意力模式。注意力模式的數(shù)量可以根據(jù)序列長度進(jìn)行擴(kuò)展。

這和稀疏注意力模式很像,但借鑒了線段樹的思想。能讓與序列長度成指數(shù)關(guān)系增長的互動次數(shù)變?yōu)榫€性增長。話句話說,隨著序列變得越來越長,計算工作量的增加變得更容易應(yīng)對。

擴(kuò)張注意力不僅讓 LONGNET 更高效,還讓其更具靈活性。因為不需要與每個序列互動,還可以根據(jù)任務(wù)調(diào)整關(guān)注焦點,這使得它能夠有效處理短序列和長序列。

LONGNET在通用語言任務(wù)方面也表現(xiàn)出色。這意味著它不僅是一種專門用于長序列的工具,而且是一種能夠處理許多任務(wù)的穩(wěn)健且靈活的模型。

圖片


圖注:不同方法之間計算復(fù)雜性的比較。N 是序列長度,d 是隱藏層的維度。

此外,研究人員將 LONGNET 與傳統(tǒng)的 Transformer 和稀疏 Transformer 進(jìn)行了對比。為了進(jìn)行比較,他們將這些模型的序列長度從 2,000 個標(biāo)記(2K)擴(kuò)展到 32,000 個標(biāo)記(32K)。為了確保比較的公平性,他們調(diào)整了各模型的參數(shù)。盡管在計算上有一定限制,但實驗結(jié)果仍然非常出色。

同時,增加模型參數(shù)從1.2億到27億,隨著LongNet的計算量增加,在測試集上的PPL也隨之降低。這體現(xiàn)出,LongNet同樣滿足scaling law。訓(xùn)練更大的語言模型可能能取得更好的表現(xiàn)。

LONGNET并非沒有局限,例如雖然擴(kuò)張注意力機(jī)制將計算復(fù)雜性降低到低于標(biāo)準(zhǔn) Transformer 模型的水平,但處理超過 10 億個標(biāo)記的序列仍然需要大量資源。此外,雖然有強(qiáng)大的性能,但可能仍需要進(jìn)行更多的測試和驗證。

微軟也提出了關(guān)于LONGNET的未來研究方向:如何進(jìn)一步優(yōu)化擴(kuò)張注意力機(jī)制?是否有其他序列處理技術(shù)可以與擴(kuò)張注意力相輔相成?如何將LONGNET 有效地整合到現(xiàn)有的 AI 系統(tǒng)(如 ChatGPT)中?

論文地址:

https://arxiv.org/abs/2307.02486

參考來源:

https://thetechpencil.com/revolutionizing-ai-with-longnet-microsofts-breakthrough-in-handling-billion-token-sequences-59b05ef7d6e8

https://mp.weixin.qq.com/s/Qns4Oi8-YHWb7WP3_gGZUA

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2023-07-07 09:55:23

互聯(lián)網(wǎng)論文

2023-05-29 07:19:11

2023-05-26 07:37:13

2023-05-18 14:08:31

AI開源

2012-02-24 09:42:48

微軟數(shù)據(jù)中心

2012-02-24 09:09:46

微軟數(shù)據(jù)中心云計算

2022-02-16 10:35:19

IBM

2021-01-20 10:58:09

比特幣加密貨幣區(qū)塊鏈

2025-02-13 09:00:00

2023-05-06 08:23:36

ChatGPT自然語言技術(shù)

2023-03-27 09:50:16

RocketMQ中間件

2013-11-04 09:47:43

微軟Windows

2019-04-25 10:20:24

Transformer神經(jīng)網(wǎng)絡(luò)模型

2019-09-26 10:03:00

微軟Windows 10操作系統(tǒng)

2024-10-14 13:45:00

AI模型

2024-03-04 08:20:00

谷歌架構(gòu)AI

2023-06-25 07:45:52

2013-01-23 09:18:51

微軟戴爾

2022-08-12 10:02:24

數(shù)據(jù)中心谷歌
點贊
收藏

51CTO技術(shù)棧公眾號