自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何提升深度學(xué)習(xí)算法效率,谷歌有這些絕招

人工智能 新聞
大型機器學(xué)習(xí)模型在多個領(lǐng)域展現(xiàn)出具有變革性的結(jié)果,但在現(xiàn)實世界中,訓(xùn)練和推理效率正在成為關(guān)鍵需求。Google Research 一直在通過開發(fā)新的基礎(chǔ)技術(shù)來提高大型 ML 模型的效率。本文中,谷歌以「提升模型效率」為主題,介紹如何使 ML 模型更加強韌、高效。

十年前,深度學(xué)習(xí)崛起的部分原因在于新算法和架構(gòu)的融合、數(shù)據(jù)的顯著增加以及計算能力方面的提升。過去 10 年里,AI 和 ML 模型更加深入、復(fù)雜、有了更多的參數(shù)和訓(xùn)練數(shù)據(jù),也因而變得更大、更繁瑣,這也為機器學(xué)習(xí)歷史帶來了最具變革性的成果。

這些模型越來越多地應(yīng)用于生產(chǎn)和業(yè)務(wù)應(yīng)用程序中,與此同時,其效率和成本已經(jīng)從次要的考慮因素演變?yōu)橹饕南拗啤榱藨?yīng)對在高效架構(gòu),訓(xùn)練效率,數(shù)據(jù)效率和推理效率四個層面的重大挑戰(zhàn),谷歌繼續(xù)在 ML 效率上投入大量資金。除了效率之外,這些模型還面臨著許多關(guān)于真實性、安全性、隱私性和新鮮度的挑戰(zhàn)。接下來,本文將重點介紹 Google Research 為了應(yīng)對上述挑戰(zhàn),在開發(fā)新算法方面所做的努力。

研究的基本問題在于「是否有更好的方法來參數(shù)化模型以提高效率?」2022 年,研究人員專注于通過檢索上下文、混合專家系統(tǒng),以及提升 Transformer(大型 ML 模型的心)的效率來研發(fā)通過增強模型來注入外部知識的新技術(shù)。 

上下文增強模型

為了追求更高的質(zhì)量和效率,可以使用來自大型數(shù)據(jù)庫或可訓(xùn)練內(nèi)存的外部上下文來增強神經(jīng)模型。通過利用檢索到的上下文,神經(jīng)網(wǎng)絡(luò)無需在其內(nèi)部參數(shù)中廣泛地儲備知識,就能實現(xiàn)更好的參數(shù)效率、可解釋性和真實性。 

一篇名為《用于上下文增強語言建模的解耦上下文處理》(Decoupled Context Processing for Context Augmented Language Modeling)的文章中探索了一種基于解耦編碼器 - 解碼器架構(gòu)的簡單架構(gòu),用于將外部上下文合并到語言模型中。在自回歸語言建模和開放領(lǐng)域問答任務(wù)中,這大大節(jié)省了計算量。然而,預(yù)訓(xùn)練大型語言模型(LLMs)通過在大型訓(xùn)練集上的自監(jiān)督消耗了大量的信息。但是,目前還不清楚這些模型對世界的認(rèn)識是如何與所呈現(xiàn)的上下文相互作用的。通過知識感知微調(diào)(KAFT),研究人員將反事實和不相關(guān)的上下文納入標(biāo)準(zhǔn)監(jiān)督數(shù)據(jù)集,這加強了 LLM 的可控性和魯棒性。

圖片

 論文地址:https://arxiv.org/abs/2210.05758

圖片

用于上下文合并的編碼器 - 解碼器交叉注意機制,允許上下文編碼與語言模型推理解耦,進而提升上下文增強模型的效率。 

在尋求模塊化深度網(wǎng)絡(luò)的過程中,其中一個問題是如何設(shè)計具有相應(yīng)計算模塊的概念數(shù)據(jù)庫。研究人員提出了一種理論體系架構(gòu),將「記憶事件」(remember events)以 sketches 的形式存儲在一個外部 LSH 表中,其中包括一個 pointers 模塊來處理 sketches。

利用加速器從大型數(shù)據(jù)庫中快速檢索信息是上下文增強模型的另一大挑戰(zhàn)。研究人員開發(fā)了一種基于 TPU 的相似度搜索算法,該算法與 TPU 的性能模型保持一致,并對預(yù)期召回率提供了分析保證,實現(xiàn)了峰值性能。搜索算法通常涉及大量的超參數(shù)和設(shè)計選擇,這使得在執(zhí)行新任務(wù)時很難對它們進行調(diào)整。研究人員提出了一種新的約束優(yōu)化算法,用于自動化超參數(shù)調(diào)優(yōu)。將期望的成本或召回率固定為輸入,所提出的算法產(chǎn)生的調(diào)優(yōu)在經(jīng)驗上非常接近速度 - 召回率帕累托邊界(speed-recall Pareto frontier),并在標(biāo)準(zhǔn)基準(zhǔn)測試中提供領(lǐng)先的性能。

混合專家模型

經(jīng)證明,混合專家 (MoE)模型是在不過度增加計算成本的前提下,提高神經(jīng)網(wǎng)絡(luò)模型容量的有效手段。MoE 的基本思想是由許多專家子網(wǎng)絡(luò)構(gòu)建出一個統(tǒng)一網(wǎng)絡(luò),其中每個輸入由一個合適的專家子集處理。因此,與標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)相比,MoE 只調(diào)用了整個模型的一小部分,從而產(chǎn)生了如 GLaM 等語言模型應(yīng)用程序所示的高效率。

圖片

GLaM 體系架構(gòu)中的每個輸入 token 被動態(tài)路由到 64 個專家網(wǎng)絡(luò)中的兩個進行預(yù)測。

對于給定的輸入,路由函數(shù)負(fù)責(zé)決定應(yīng)當(dāng)激活哪些專家,該函數(shù)的設(shè)計具有挑戰(zhàn)性,因為研究者希望避免對每個專家的利用不足和過度利用。最近的一項工作提出了專家選擇路由,這是一種新的路由機制,它不是將每個輸入 token 分配給 top-k 專家,而是將每個專家分配給 top-k token。這將自動確保專家的負(fù)載平衡,同時也自然地允許多個專家處理一個輸入 token。

圖片

專家選擇路由。具有預(yù)定緩沖區(qū)容量的專家被分配 top-k token,從而保證負(fù)載平衡。每個 token 可以由數(shù)量不定的專家處理。

有效的 Transformer

Transformer 是當(dāng)下正火熱的序列到序列模型,在從視覺到自然語言理解等一系列具有挑戰(zhàn)性的問題上取得了顯著的成功。這種模型的核心組成部分是注意力層,它識別查詢和鍵之間的相似性,并使用這些相似性構(gòu)造一個適當(dāng)?shù)闹导訖?quán)組合。雖然性能強,但注意力機制的計算效率卻不高,復(fù)雜度通常為輸入序列長度的二次方。

隨著 Transformer 規(guī)模的不斷增長,其中一個問題的研究十分有價值,即是否有任何自然發(fā)生的結(jié)構(gòu)或模式的學(xué)習(xí)模型,可以解決注意力有效的原理。為此,研究人員研究了中間 MLP 層中的學(xué)習(xí)嵌入,并且發(fā)現(xiàn)它們非常稀疏 —— 例如,T5-Large 模型有 1% 的非零項。稀疏性進一步表明,人們可以在不影響模型性能的情況下潛在地降低 FLOPs。

論文地址:https://arxiv.org/pdf/2210.06313.pdf?

最近,有研究推出 Treeformer—— 一種依賴于決策樹的標(biāo)準(zhǔn)注意力計算的替代方案。簡單來說,這可以快速識別與查詢相關(guān)的鍵的一小部分,并且只對該集合執(zhí)行注意力操作。根據(jù)經(jīng)驗,Treeformer 可以將注意力層的 FLOPs 降低 30 倍。除此之外還有序列注意力 —— 一種結(jié)合了注意力和貪婪算法的可微分特征選擇方法。該技術(shù)對線性模型有很強的可證明保證,并可無縫擴展到大型嵌入模型。?

另一種提高 Transformer 效率的方法是在注意力層中加速 softmax 計算。在「low-rank approximation of the softmax kernel」研究基礎(chǔ)上,研究人員提出了一類新的隨機特征,提供了 softmax kernel 的首個「positive and bounded」隨機特征近似,并且在序列長度上的計算是線性的。

訓(xùn)練效率?

高效的優(yōu)化方法是現(xiàn)代 ML 應(yīng)用程序的基石,在大規(guī)模設(shè)置中,這一點尤其重要。在這種設(shè)置下,即使是像 Adam 這樣的一階自適應(yīng)方法通常也很昂貴,并且訓(xùn)練穩(wěn)定性面臨重重挑戰(zhàn)。此外,這些方法通常對神經(jīng)網(wǎng)絡(luò)的架構(gòu)不可知,從而忽略了架構(gòu)的豐富性,導(dǎo)致訓(xùn)練效率低下。這也促使新技術(shù)不斷被提出以更有效地優(yōu)化現(xiàn)代神經(jīng)網(wǎng)絡(luò)模型。研究人員正在開發(fā)新的架構(gòu)感知訓(xùn)練技術(shù),例如,用于訓(xùn)練 Transformer 網(wǎng)絡(luò)的一些研究,包括新的規(guī)模不變的 Transformer 網(wǎng)絡(luò)和新的剪枝方法,并與隨機梯度下降(SGD)結(jié)合使用,以加快訓(xùn)練進程。在該方法的幫助下,研究人員第一次能夠使用簡單的 SGD 有效地訓(xùn)練 BERT,而不需要自適應(yīng)。

圖片

論文地址:https://arxiv.org/pdf/2210.05758.pdf?

 此外,研究人員在 LocoProp 的幫助下提出了一種新的方法 —— 在使用與一階優(yōu)化器相同的計算和內(nèi)存資源的同時,實現(xiàn)與二階優(yōu)化器類似的性能。LocoProp 采用模塊化的神經(jīng)網(wǎng)絡(luò)視圖,將它們分解成層的組合。然后允許每一層都有自己的損失函數(shù)以及輸出目標(biāo)和權(quán)重正則化器。有了這個設(shè)置,經(jīng)過適當(dāng)?shù)那昂髠鬟f后,LocoProp 繼續(xù)對每一層的局部損失進行并行更新。事實上,無論是理論上還是經(jīng)驗上,這些更新可以被證明類似于那些高階優(yōu)化器。在深度自編碼器基準(zhǔn)上,LocoProp 實現(xiàn)了與高階優(yōu)化器相當(dāng)?shù)男阅?,同時更具速度優(yōu)勢。 

論文鏈接:https://proceedings.mlr.press/v151/amid22a.html?

與反向傳播類似,LocoProp 應(yīng)用前向傳遞來計算激活。在向后傳遞中,LocoProp 為每一層設(shè)置每個神經(jīng)元目標(biāo)。最后,LocoProp 將模型訓(xùn)練拆分為跨層的獨立問題,其中幾個本地更新可以并行應(yīng)用于每個層的權(quán)重。

SGD 等優(yōu)化器的核心思想是,每個數(shù)據(jù)點從分布中獨立且相同地采樣??上н@在實際環(huán)境中很難滿足,比如強化學(xué)習(xí),在這種情況下,模型(或智能體)必須從基于自己預(yù)測生成的數(shù)據(jù)中學(xué)習(xí)。研究人員提出了一種新的基于反向經(jīng)驗重放的 SGD 算法,該算法可以在線性動力系統(tǒng)、非線性動力系統(tǒng)和 Q-learning 中找到最優(yōu)解。此外,已經(jīng)有研究證明該方法的增強版本 IER 是目前最先進的版本,并且是在各種流行的 RL 基準(zhǔn)測試中最穩(wěn)定的體驗重放技術(shù)。

圖片

論文地址:https://arxiv.org/pdf/2103.05896.pdf

數(shù)據(jù)效率

在許多任務(wù)中,深度神經(jīng)網(wǎng)絡(luò)嚴(yán)重依賴于大型數(shù)據(jù)集。除了大型數(shù)據(jù)集帶來的存儲成本和潛在的安全 / 隱私問題外,在此類數(shù)據(jù)集上訓(xùn)練現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)還會產(chǎn)生很高的計算成本。解決這個問題的可行方法之一是對數(shù)據(jù)子集進行選擇。?

研究人員分析了子集選擇框架,設(shè)計用于實際批處理設(shè)置中的任意模型族。在這種情況下,學(xué)習(xí)器可以一次采樣一個示例,同時訪問上下文和 true 標(biāo)簽,但為了限制開銷,只有在選擇了足夠多的示例批次后才能更新其狀態(tài)(即進一步的訓(xùn)練模型權(quán)重)。研究人員開發(fā)了一種算法,稱為 IWeS,它通過重要性抽樣來選擇示例,其中分配給每個示例的抽樣概率是基于在先前選擇的批次上訓(xùn)練的模型的熵。研究所提供的理論分析證明了泛化和抽樣率的界限。 

圖片

論文地址:https://arxiv.org/pdf/2301.12052.pdf?

訓(xùn)練大型網(wǎng)絡(luò)的另一個問題是,它們可能對訓(xùn)練數(shù)據(jù)和部署時看到的數(shù)據(jù)之間的分布變化高度敏感,特別是在使用有限數(shù)量的訓(xùn)練數(shù)據(jù)時,這些數(shù)據(jù)可能無法覆蓋所有部署時場景。最近的一項研究假設(shè)「極端簡單性偏差」是神經(jīng)網(wǎng)絡(luò)這種脆弱性背后的關(guān)鍵問題,其使這一假設(shè)成為可行,導(dǎo)致了兩種新的互補方法 ——DAFT 和 FRR—— 結(jié)合在一起時,可以提供明顯更魯棒的神經(jīng)網(wǎng)絡(luò)。特別是,這兩種方法使用對抗性微調(diào)以及反向特征預(yù)測來加強學(xué)習(xí)網(wǎng)絡(luò)。

圖片

論文地址:https://arxiv.org/pdf/2006.07710.pdf

推理效率?

事實證明,增加神經(jīng)網(wǎng)絡(luò)的規(guī)模能夠提高其預(yù)測準(zhǔn)確性,然而,在現(xiàn)實世界中實現(xiàn)這些收益是具有挑戰(zhàn)性的,因為大型模型的推理成本對于部署來說非常高。這促使策略提高服務(wù)效率,而不犧牲準(zhǔn)確性。在 2022 年,專家研究了實現(xiàn)這一目標(biāo)的不同策略,特別是基于知識蒸餾和自適應(yīng)計算的策略。 

蒸餾?

 蒸餾是一種簡單而有效的模型壓縮方法,極大地擴展了大型神經(jīng)模型的潛在適用性。已有研究證明蒸餾能在廣告推薦等一系列實際應(yīng)用中發(fā)揮其作用。蒸餾的大多數(shù)用例涉及基本配方在給定領(lǐng)域的直接應(yīng)用,對何時以及為什么這應(yīng)該起作用的理解有限。谷歌今年的研究著眼于針對特定環(huán)境定制蒸餾,并正式研究了控制蒸餾成功的因素。 ?

在算法方面,研究通過仔細(xì)建模教師標(biāo)簽中的噪聲,開發(fā)出了一項重新加權(quán)訓(xùn)練示例的重要途徑,以及一項有效措施來對數(shù)據(jù)子集進行采樣以獲得教師標(biāo)簽。谷歌在《Teacher Guided Training: An Efficient Framework for Knowledge Transfer》中表明:不是被動地使用教師來注釋固定的數(shù)據(jù)集,而是主動地使用教師來指導(dǎo)選擇要注釋的信息性樣本。這使得蒸餾過程在有限的數(shù)據(jù)或長尾設(shè)置中脫穎而出。

論文地址:https://arxiv.org/pdf/2208.06825.pdf?

除此之外,谷歌還研究了從交叉編碼器 (dual-encoder, 例如 BERT) 到因子雙編碼器(dual-encoder)的新方法,這也是對(query, document)對的相關(guān)性進行評分的重要設(shè)置。研究人員探討了交叉編碼器和雙編碼器之間性能差距的原因,注意到這可能是泛化的結(jié)果,而不是雙編碼器的容量限制。精餾損失函數(shù)的精心構(gòu)造可以緩解這種情況,并減少交叉編碼器和雙編碼器性能之間的差距。隨后,在 embedtitil 中,研究通過匹配教師模型中的嵌入來進一步改進雙編碼器蒸餾。這種策略也可以用于從大到小的雙編碼器模型中提取信息,其中繼承和凍結(jié)教師的文檔嵌入可以證明是非常有效的。

圖片

論文地址:https://arxiv.org/pdf/2301.12005.pdf?

理論方面,研究從監(jiān)督復(fù)雜性角度出發(fā),提供了一個關(guān)于蒸餾的新視角,這是一種衡量學(xué)生預(yù)測教師標(biāo)簽程度的方法。NTK(neural tangent kernel )理論提供了概念性的見解。研究進一步證明,蒸餾會導(dǎo)致學(xué)生不適合教師模型認(rèn)為難以建模的點。直觀地說,這可以幫助學(xué)生將有限的能力集中在那些可以合理建模的樣本上。

圖片

論文地址:https://arxiv.org/pdf/2301.12245.pdf

自適應(yīng)計算?

雖然蒸餾是一種降低推理成本的有效手段,但它在所有樣本上都是一致的。然而,直觀地說,一些簡單(easy)樣本可能天生就比困難(hard)樣本需要更少的計算。自適應(yīng)計算的目標(biāo)是設(shè)計能夠?qū)崿F(xiàn)這種依賴于樣本的計算的機制。?

CALM(Confident Adaptive Language Modeling)為基于 Transformer 的文本生成器(如 T5)引入了受控的早期退出(early-exit)功能。

圖片

論文地址:https://arxiv.org/pdf/2207.07061.pdf

在這種形式的自適應(yīng)計算中,模型動態(tài)地修改每個解碼步驟使用的 Transformer 層數(shù)。早期退出門使用帶有決策閾值的置信度測量,該決策閾值經(jīng)過校準(zhǔn),以滿足統(tǒng)計性能保證。通過這種方式,模型只需要為最具挑戰(zhàn)性的預(yù)測計算解碼器層的完整堆棧。更簡單的預(yù)測只需要計算幾個解碼器層。在實踐中,該模型平均使用大約三分之一的層進行預(yù)測,在保持相同水平的生成質(zhì)量的同時,速度能提升 2-3 倍。

圖片

使用常規(guī)語言模型(top)和 CALM (bottom)生成文本。CALM 試圖做出早期預(yù)測。一旦對生成的內(nèi)容足夠自信(深藍(lán)色調(diào)),它就會跳過來節(jié)省時間。?

一種流行的自適應(yīng)計算機制是兩個或多個基本模型的級聯(lián)。使用級聯(lián)的一個關(guān)鍵問題:是簡單地使用當(dāng)前模型的預(yù)測,還是將預(yù)測推遲到下游模型。學(xué)習(xí)何時延遲需要設(shè)計一個合適的損失函數(shù),它可以利用適當(dāng)?shù)男盘栕鳛檠舆t決策的監(jiān)督。為了實現(xiàn)這一目標(biāo),研究人員正式研究了現(xiàn)有的損失函數(shù),證明由于隱含的標(biāo)簽平滑應(yīng)用,它們可能不適合訓(xùn)練樣本。研究展示了可以通過延遲規(guī)則的 post-hoc 訓(xùn)練來緩解這種情況,這并不需要以任何方式修改模型內(nèi)部。

圖片

論文地址:https://openreview.net/pdf?id=_jg6Sf6tuF7?

對于檢索應(yīng)用,標(biāo)準(zhǔn)語義搜索技術(shù)對大型模型生成的每個嵌入使用固定表示。也就是說,無論下游任務(wù)及其相關(guān)的計算環(huán)境或約束如何,表示的大小和能力基本上是固定的。MRL(Matryoshka representation learning)引入了根據(jù)部署環(huán)境調(diào)整表示法的靈活性。當(dāng)與標(biāo)準(zhǔn)的近似最近鄰搜索技術(shù)(如 ScaNN)結(jié)合使用時,MRL 能夠提供高達(dá) 16 倍的低計算,同時具有相同的召回率和準(zhǔn)確率指標(biāo)。

圖片

論文地址:https://openreview.net/pdf?id=9njZa1fm35

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2017-06-22 09:45:58

阿里云GN5實例深度學(xué)習(xí)

2021-04-16 11:31:24

人工智能深度學(xué)習(xí)

2021-11-22 16:35:59

WiFi 6WiFi 7技術(shù)

2016-02-25 10:07:03

谷歌硬盤數(shù)據(jù)中心

2024-08-30 17:14:34

2015-07-28 10:42:34

DevOpsIT效率

2018-01-19 09:00:37

2024-09-12 17:39:27

2023-09-19 10:31:09

算法數(shù)據(jù)

2023-02-06 07:17:22

2010-04-01 14:35:36

Oracle綁定變量

2016-10-25 13:46:25

深度學(xué)習(xí)機器學(xué)習(xí)性能提升

2021-03-02 13:43:41

人工智能深度學(xué)習(xí)

2018-09-13 10:59:30

Redis鍵值存儲

2022-03-09 09:56:14

深度學(xué)習(xí)算法人工智能

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2017-02-06 14:12:57

機器停車使用

2022-02-09 08:49:37

架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號