自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華為改進Transformer架構(gòu)!盤古-π解決特征缺陷問題,同規(guī)模性能超LLaMA

人工智能 新聞
目前常見大模型基本都采用Transformer架構(gòu),比如GPT、LLaMA等。它的核心構(gòu)成包括多頭自注意力機制(MSA)和前饋網(wǎng)絡(luò)(FFN)。

華為盤古系列,帶來架構(gòu)層面上新!

量子位獲悉,華為諾亞方舟實驗室等聯(lián)合推出新型大語言模型架構(gòu):盤古-π

圖片

它通過增強非線性,在傳統(tǒng)Transformer架構(gòu)上做出改進,由此可以顯著降低特征塌陷問題。

帶來的直接效果就是模型輸出表達能力更強。

在使用相同數(shù)據(jù)訓(xùn)練的情況下,盤古-π(7B)在多任務(wù)上超越LLaMA 2等同規(guī)模大模型,并能實現(xiàn)10%的推理加速。

在1B規(guī)模上可達SOTA

同時還基于這一架構(gòu)煉出了一個金融法律大模型“云山”。

該工作由AI大牛陶大程領(lǐng)銜。

具體如何實現(xiàn)?一起來看。

利用非線性解決特征塌陷

目前常見大模型基本都采用Transformer架構(gòu),比如GPT、LLaMA等。

它的核心構(gòu)成包括多頭自注意力機制(MSA)和前饋網(wǎng)絡(luò)(FFN)。

圖片

MSA的主要功能是計算輸入序列中每個token和其他所有token之間的相關(guān)性,通過學(xué)習(xí)輸入序列中的依賴關(guān)系,可以增強對語言的理解能力。FFN主要對輸入進行非線性轉(zhuǎn)換,增強模型表達能力,使其可以逼近更復(fù)雜的函數(shù)。

不過,華為諾亞方舟實驗室發(fā)現(xiàn),特征崩潰(feature collapse)會影響Transformer架構(gòu)的表現(xiàn),降低其表達能力,使模型難以區(qū)分不同輸入。

以LLaMA為例,在更深層的神經(jīng)網(wǎng)絡(luò)上,特征等級顯著降低,導(dǎo)致了所有token之間的相似性更強。

從機制上來看,自注意力模塊可以看做在完全圖上進行信息聚合,連續(xù)堆疊多層注意力就像連續(xù)多層圖卷積一樣,會產(chǎn)生過度特征平滑效應(yīng)。

另一方面,多層感知器(MLP)中的激活函數(shù)提供的非線性還不夠,抑制特征崩潰的作用有限。

由此,團隊想要提高模型的非線性表達能力,避免特征崩潰,進而提出了本次工作盤古-π

如下是盤古-π的結(jié)構(gòu)示意:

圖片

在FFN中加入串聯(lián)激活函數(shù),在MSA中集成一種增強快捷連接(Aug-S),可以更有效地在Transformer架構(gòu)中引入更多非線性。

圖片

使用了增強快捷連接(Aug-S)的MSA,能將每個token的特征轉(zhuǎn)換為不同表示形式。

基于這一新架構(gòu),通過大規(guī)模訓(xùn)練和微調(diào),研究團隊開發(fā)了一個盤古-π基礎(chǔ)模型

實驗結(jié)果顯示,該模型在多任務(wù)中表現(xiàn)超越其他同規(guī)模模型(分別測試了7B和1B規(guī)模)。

而且盤古-π-7B可以達到約10%的推理加速。

圖片

圖片

同時團隊還以此為基礎(chǔ)開發(fā)了一個金融法律領(lǐng)域大模型“云山”,它同樣在多個benchmark中成績超越其他模型。

圖片
圖片

通訊作者為陶大程

值得關(guān)注的是,本項研究的團隊陣容也非常亮眼。

通訊作者為陶大程。

他是歐洲科學(xué)院外籍院士、澳大利亞科學(xué)院院士。本科就讀于中科大,說是畢業(yè)于港中文MMLab、師從湯曉鷗。

2007年從博士畢業(yè)后,先后在中國香港理工大學(xué)、新加坡南洋理工大學(xué),澳大利亞悉尼科技大學(xué)、悉尼大學(xué)任教。目前是清華大學(xué)智能產(chǎn)業(yè)研究院AIR團隊卓越訪問教授。

與此同時,他還先后加盟過優(yōu)必選、京東,曾是京東最高級別AI科學(xué)家、擔(dān)任京東探索研究院院長。

圖片

一作為王云鶴。

他是2012實驗室諾亞方舟實驗室高級研究員,現(xiàn)任算法應(yīng)用部部長。

王云鶴在華為負責(zé)高效AI算法的創(chuàng)新研發(fā)以及在華為業(yè)務(wù)中的應(yīng)用。他和團隊開發(fā)了高效AI算法,其衍生應(yīng)用在中國天眼FAST觀測工作中,協(xié)助中科院國家天文臺專家找到了數(shù)百個新的快速射電暴樣本。

圖片

論文地址:http://arxiv.org/abs/2312.17276

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-05-23 14:01:29

模型開源

2025-02-14 01:00:00

LLaMALLM模型

2024-02-04 12:22:28

模型數(shù)據(jù)

2024-11-11 10:40:00

模型訓(xùn)練

2024-11-26 13:30:00

2024-11-25 08:54:41

2024-09-19 13:04:03

2017-09-11 16:13:57

2024-09-13 09:14:32

2024-06-26 13:15:40

2020-11-01 17:13:22

DotNET 5語言gRPC

2018-02-08 08:29:08

NFV網(wǎng)絡(luò)分層解耦

2024-08-16 12:46:08

2021-05-21 10:06:01

人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)

2021-11-23 09:30:34

架構(gòu)AI技術(shù)

2010-08-17 11:17:44

TMC架構(gòu)超百G

2024-03-04 08:20:00

谷歌架構(gòu)AI

2021-12-01 15:16:32

自然語言神經(jīng)網(wǎng)絡(luò)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號