自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

百億、千億級參數(shù)的基礎(chǔ)模型之后,我們正在步入以數(shù)據(jù)為中心的時代?

人工智能 新聞
在這篇文章中,我們將由此開始,探討在基礎(chǔ)模型中能看到何種變化,最后將討論我們?nèi)绾慰创A(chǔ)模型與傳統(tǒng)方法相適應(yīng)。

近年來,GPT-3、CLIP、DALL-E 、Imagen、Stabile Diffusion 等基礎(chǔ)模型的出現(xiàn)令人驚嘆。這些模型展現(xiàn)出的強大生成能力和情境學(xué)習(xí)能力,在幾年前都是難以想象的。本文將探討這些大規(guī)模技術(shù)的商業(yè)化。這些模型如今不只是行業(yè)巨頭主宰的領(lǐng)地,其價值越來越體現(xiàn)在對這一領(lǐng)域和關(guān)鍵問題的描述中,而其核心即數(shù)據(jù)?;A(chǔ)模型迅速發(fā)展產(chǎn)生的影響尚無定論,所以很多內(nèi)容是基于推測。

圖片

prompt: "taco cat"(不要太當(dāng)真)

從機器學(xué)習(xí)的角度來看,任務(wù)的概念是絕對的基礎(chǔ) —— 我們創(chuàng)建訓(xùn)練數(shù)據(jù)來指定任務(wù),并通過訓(xùn)練泛化。因此,幾十年來,業(yè)界一直有兩類主要看法:

  • 「無用輸入,無用輸出」,即向模型輸入的數(shù)據(jù) / 特征信息決定模型成敗。
  •  「太多參數(shù)會導(dǎo)致過度擬合」,近 20 余年來,通用、稀疏模型的開發(fā)大行其道。普遍觀念認(rèn)為稀疏模型參數(shù)較少,有助于降低過擬合,因而可以更好地進行泛化。

這些觀點總體來說很有道理,但也存在一定的誤導(dǎo)性。

基礎(chǔ)模型正在改變我們對任務(wù)的理解,因為它可以基于廣泛的數(shù)據(jù)訓(xùn)練且用于多種任務(wù)。即使有些用戶對自己的目標(biāo)任務(wù)理解并不清晰,也可以便捷地應(yīng)用這些模型而不必進行特定的訓(xùn)練。這些模型可以用自然語言或一個接口來控制,領(lǐng)域?qū)<医璐送苿幽P偷氖褂茫瑫r希望馬上在新環(huán)境中體驗各種神奇功能。在這個探索過程中,用戶第一步并不是策劃特定的訓(xùn)練數(shù)據(jù)集,而是玩味、構(gòu)想,迅速迭代他們的想法。有了基礎(chǔ)模型,我們就想進一步了解其如何遷移到一系列任務(wù)上,包括好些我們尚未預(yù)想到的任務(wù)。

為了在下一波人工智能發(fā)展浪潮獲益,我們或許需要重新審視以往主流觀點的局限性(和智慧)。在這篇文章中,我們將由此開始,探討在基礎(chǔ)模型中能看到何種變化,最后將討論我們?nèi)绾慰创A(chǔ)模型與傳統(tǒng)方法相適應(yīng)。

無用輸入,無用輸出——就這?

無任務(wù)基礎(chǔ)模型正在爆炸式發(fā)展,到目前為止,很多都是關(guān)于模型架構(gòu)和工程的,但這些模型相融合的跡象也開始顯露。數(shù)據(jù)成為基礎(chǔ)以及用以區(qū)分的根本點,這方面有先例嗎?我們已經(jīng)見識了在監(jiān)督機器學(xué)習(xí)中,以模型為中心和以數(shù)據(jù)為中心兩種方法之間來回搖擺的狀態(tài)。

在 2010 年代后半段的一系列項目中,特征質(zhì)量是關(guān)鍵。在舊模型中,特征是編碼領(lǐng)域知識的工具。這些特征不太穩(wěn)定,處理的從業(yè)者需要掌握關(guān)于如何表征這些信息以獲得更穩(wěn)定和可靠的預(yù)測的低層次細節(jié)。

深度學(xué)習(xí)之所以成功,是因為人們在這些方面的表現(xiàn)很差。深度學(xué)習(xí)革命正如火如荼,arXiv 上的新模型層出不窮,實為震撼。這些模型沿用之前的手動操作,如特征工程,并將其完全自動化。模型非常優(yōu)秀,能通過深度學(xué)習(xí)將文本和圖像等原始數(shù)據(jù)成功特征化。這是生產(chǎn)力的極大提升。然而,這些模型并不完美,對這一領(lǐng)域的不斷認(rèn)識依然重要。那么,如何將其融入模型呢?

我們可以看到,用戶以訓(xùn)練數(shù)據(jù)為載體,高效輸入信息、解釋應(yīng)用程序并與模型交互。這一切發(fā)生在「黑暗」中,沒有工具、理論也沒有摘要。我們認(rèn)為,用戶應(yīng)該能夠?qū)ψ约旱臄?shù)據(jù)進行一些基本的編程抽象,因此 Snorkel 項目誕生了(然后是公司)。在知識層面,我們由此進入了以數(shù)據(jù)為中心的 AI 和弱監(jiān)督時代。我們可以從中吸取兩個重要教訓(xùn):

  • 一旦某項技術(shù)穩(wěn)定下來,其價值指向就會回到數(shù)據(jù)上。在這種情況下,隨著 TensorFlow、PyTorch、MXNet、Theano 等技術(shù)的出現(xiàn),深度學(xué)習(xí)技術(shù)開始商業(yè)化,但對特定問題的描述沒有給出廣泛的數(shù)據(jù)分布、任務(wù)規(guī)范等。因此,成功與否取決于如何將相關(guān)信息引入模型;
  • 我們可以(也需要)處理噪聲。基礎(chǔ)的數(shù)學(xué)和工程原則上有助于噪聲處理。用戶很難在訓(xùn)練數(shù)據(jù)中完美地表達他們的知識,不同數(shù)據(jù)源的質(zhì)量可能也不盡相同。在研究弱監(jiān)督的基本理論時,我們發(fā)現(xiàn)模型可以從含噪數(shù)據(jù)中學(xué)到很多(并非所有無用數(shù)據(jù)都不好)。也就是說,要避免輸入無用信息 —— 但也不必對數(shù)據(jù)太過吹毛求疵。

prompt: "noisy image". 有沒有從含噪圖像中看到什么有意思的東西?

簡單來說,數(shù)據(jù)將你的問題和分析編碼 —— 就算技術(shù)商品化,數(shù)據(jù)的價值依然存在。所以,不是說無用信息很好,而是不要把這個區(qū)別過于絕對化。數(shù)據(jù)有用或無用,在于是否以最有效的方式對其開發(fā)利用。

基礎(chǔ)模型基于大量數(shù)據(jù)進行訓(xùn)練,廣泛應(yīng)用于各種任務(wù),給數(shù)據(jù)管理帶來全新挑戰(zhàn)。隨著模型 / 架構(gòu)不斷商品化,我們需要了解如何高效管理海量數(shù)據(jù)以保證模型用途的普遍性。

太多參數(shù)會導(dǎo)致過擬合?

為什么我們會看到神奇的上下文特征?建模選擇(架構(gòu)和算法)如何促成了這一點?大型語言模型的神奇特征來自神秘的模型配置嗎?

大約十年前,粗略的機器學(xué)習(xí)泛化理論認(rèn)為,如果一個模型過于簡約(即無法擬合太多虛假特征),那么它就會泛化。人們對此可能有更精準(zhǔn)的描述,這些都是諸如 VC dimension、Rademacher 復(fù)雜度等理論領(lǐng)域的主要成就。在這個過程中,我們發(fā)現(xiàn)似乎少量參數(shù)對于泛化也是必要的。但事實并非如此,過參數(shù)化是一個主要問題,不過現(xiàn)在我們有大模型作為反例:這些大模型(參數(shù)多于數(shù)據(jù)點)可以擬合各種繁雜到讓人頭大的函數(shù),但它們?nèi)匀皇欠夯模词故褂秒S機標(biāo)簽)。

關(guān)于過參數(shù)化的觀點對我們存在誤導(dǎo)性,最近有見解開辟了新方向。我們看到這些大模型中出現(xiàn)了一些神奇特征,但時下的流行觀念認(rèn)為,只有某些經(jīng)機器訓(xùn)練的特定架構(gòu)促成了這些特征,而這些特定架構(gòu)很少有人能接觸到。我們和其他研究工作的一個方向是嘗試以簡單、經(jīng)典的模型來執(zhí)行這些神奇的特征。我們最近的狀態(tài)空間模型基于幾十年的信號處理成果(因此可擬合經(jīng)典模型),展現(xiàn)出一定的上下文能力。

更令人驚喜的是,即便是經(jīng)典的 BERT 雙向模型也具有上下文能力!相信還有很多人在撰寫相關(guān)論文,可以發(fā)給我們,我們會認(rèn)真閱讀并加以引用。我們認(rèn)為,上下文學(xué)習(xí)的神奇特征就在我們身邊,而且宇宙比我們所理解的更為神奇?;蛘吒潇o地看,也許人類只是在理解條件概率方面不盡如人意。

在大模型框架下,事情似乎都運行良好?;A(chǔ)模型的神奇特征看起來穩(wěn)定且可商業(yè)化,數(shù)據(jù)被視為其中造成差異化的點。

現(xiàn)在可能就是以數(shù)據(jù)為中心的基礎(chǔ)模型時代了?

我們是否在重復(fù)以數(shù)據(jù)為中心的監(jiān)督學(xué)習(xí)轉(zhuǎn)變?換言之,模型和工程是否在商品化?

商品化模型和開源信息的興起。我們看到基礎(chǔ)模型正在商品化并投入應(yīng)用 —— 嗯,感覺很「深度學(xué)習(xí)」。對我們而言,模型商品化的最大證據(jù)即其可用率。主要有兩種影響力量:人們有需求(穩(wěn)定等),大公司可利用。開源興起并不是出于業(yè)余愛好者的興趣,而是大型公司和政府之外的其他公司斷定他們需要這種東西(參見 Python 的崛起)。

等待最新的的超級公司推出全新超大模型?

最大的差異來自哪里?數(shù)據(jù)!這些工具越來越容易獲取,但其實基礎(chǔ)模型不一定立即可用。那將如何處理如何部署?坐等新的超級公司推出全新超大模型?這可以說是一個辦法!但我們稱之為虛無主義!這個模型會否開源,很難說 —— 那么,那些無法發(fā)送到 API 的私有數(shù)據(jù)上的基礎(chǔ)模型應(yīng)用程序又會如何?模型會不會有 100 萬億個參數(shù) —— 多少用戶可以訪問和使用?模型的訓(xùn)練內(nèi)容是什么?模型主要基于公共數(shù)據(jù)進行訓(xùn)練…… 

所以幾乎不能保證,它會知道你關(guān)心什么?你會如何維護基礎(chǔ)模型的神奇特征,讓其為你所用?有效管理基礎(chǔ)模型數(shù)據(jù)(數(shù)據(jù)至關(guān)重要!)和在測試時充分利用偉大的開源模型(在測試時調(diào)整輸入和上下文數(shù)據(jù)至關(guān)重要?。┒己苡斜匾?/span>

數(shù)據(jù)管理和以數(shù)據(jù)為中心的標(biāo)度律?預(yù)測:更智能的數(shù)據(jù)集收集方法能造就小而美的模型。那些讓我們大開眼界的標(biāo)度律論文值得關(guān)注:比如最初研究標(biāo)度律的 OpenAI 以及 DeepMind 的 Chinchilla。雖然我們有默認(rèn)的參考架構(gòu)(transforms),但 token 的數(shù)量一定程度上代表了數(shù)據(jù)的信息內(nèi)容。經(jīng)驗告訴我們,數(shù)據(jù)在主題和質(zhì)量上千差萬別。我們預(yù)感,真正重要的應(yīng)該是有重疊和階次的實際信息位 —— 像熵這樣的信息理論概念或能推動大小基礎(chǔ)模型進化。

測試時的信息輸入和計算。基礎(chǔ)模型不一定立即可用,但以新的方式進行測試時計算會大為不同??紤]到使用封閉源代碼模型 API 的成本且缺乏隱私性,我們近期推出了一個開放源代碼基礎(chǔ)模型,該模型的參數(shù)再小 30 倍,通過在測試時高效使用小模型,可以在規(guī)范基準(zhǔn)層面擊敗 OpenAI 的封閉源代碼模型 —— 該方法被稱為 Ask Me Anything(AMA)Prompting。在測試時,用戶通過 prompt 或?qū)ζ涓信d趣任務(wù)的自然語言描述來控制基礎(chǔ)模型,prompt 設(shè)計會對性能產(chǎn)生巨大影響。準(zhǔn)確獲取 prompt 這件事復(fù)雜而艱巨,因此 AMA 建議使用一系列不同質(zhì)量的含噪 prompt,通過統(tǒng)計理論來應(yīng)對噪聲問題。AMA 的靈感來源很多:Maieutic Prompting、Reframing GPT-k、AI chain 等等!關(guān)鍵是我們可以用新的方式在測試時間進行計算 —— 不必只對模型進行一次 prompt!這不僅關(guān)乎訓(xùn)練時的數(shù)據(jù)管理,還涉及在測試時調(diào)整輸入和上下文數(shù)據(jù)。

圖片

prompt: "really small AI model"

從 AMA 中我們看到,小模型已經(jīng)具備了匹配多種任務(wù)的卓越推理能力,而大模型的關(guān)鍵價值似乎在于記憶事實數(shù)據(jù)。小模型在事實方面表現(xiàn)欠佳,那么我們該如何引入數(shù)據(jù)和信息來解決這個問題?奇怪的是,我們用 SGD 將事實存儲在神經(jīng)網(wǎng)絡(luò)中,將其轉(zhuǎn)換為模糊的浮點值…… 與 DRAM 支持的鍵值存儲相比,抽象的效率似乎要低得多。但是,從 AMA 的結(jié)果來看,小模型和大模型之間的差異在時間變化或域?qū)iT化的事實方面要小得多…… 我們在蘋果構(gòu)建自監(jiān)督模型時,要能夠編輯我們返回的事實(出于商業(yè)原因),同時需要擬合運行服務(wù)的其他軟件工具。所以讓模型調(diào)用索引非常重要。時間會證明,以上是否構(gòu)成使用這類模型的充分理由。

這將把我們引向何方?基礎(chǔ)模型與傳統(tǒng)方法并駕齊驅(qū)。假設(shè)以數(shù)據(jù)為中心的模型在探索和部署兩端均有進展,對于快速迭代和任務(wù)無關(guān)的工作流程 —— 探索階段,我們通過數(shù)據(jù)管理 / 測試時間策略使得現(xiàn)成的通用基礎(chǔ)模型更為有用高效。離開探索階段的用戶會帶著更清晰任務(wù)定義,使用以數(shù)據(jù)為中心的 AI 并管理訓(xùn)練數(shù)據(jù)(你自己的數(shù)據(jù)很重要),以 Snorkel 的方式通過利用和組合多個 prompt 和 / 或基礎(chǔ)模型來訓(xùn)練更小、更快的「專有」模型。這些模型可以在實際生產(chǎn)環(huán)境中部署,而且在特定任務(wù)和特定數(shù)據(jù)方面更加準(zhǔn)確!或者還可以利用基礎(chǔ)模型來改進弱監(jiān)督技術(shù) —— 一些實驗室和 Snorkel 成員還為此獲了 UAI 獎。

歸根結(jié)底,數(shù)據(jù)關(guān)乎模型的最終投產(chǎn)。數(shù)據(jù)是唯一沒有商品化的東西。我們?nèi)匀徽J(rèn)為,Snorkel 對數(shù)據(jù)的看法是未來的發(fā)展方向 —— 你需要編程抽象,一種通過表達、組合和反復(fù)糾正不同數(shù)據(jù)源和監(jiān)督信號的方法,為最終任務(wù)訓(xùn)練可部署模型的方法。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-03-31 14:33:49

人工智能數(shù)據(jù)開發(fā)自然語言

2010-04-01 09:18:38

云計算

2021-10-18 10:43:59

數(shù)據(jù)數(shù)據(jù)中心DCIM

2013-07-04 10:10:18

工作負載IT基礎(chǔ)設(shè)施服務(wù)器虛擬化

2021-03-24 14:13:51

數(shù)據(jù)分析架構(gòu)大數(shù)據(jù)

2017-04-11 20:10:56

2020-05-18 09:45:51

邊緣計算云計算物聯(lián)網(wǎng)

2011-08-05 16:36:02

Informatica數(shù)據(jù)中心

2013-04-07 09:59:00

虛擬化數(shù)據(jù)中心

2012-07-30 09:48:32

設(shè)計管理

2020-12-29 10:42:56

CIOIT新冠疫情

2021-05-26 15:03:20

Google物聯(lián)網(wǎng)IOT

2014-07-14 13:58:32

天弘基金大數(shù)據(jù)

2010-11-09 10:22:19

開放數(shù)據(jù)中心云計算

2024-09-12 09:20:48

2013-01-15 10:18:06

云計算云理念實踐醫(yī)藥行業(yè)

2013-08-16 10:14:32

APIWeb應(yīng)用以API為中心的Web

2018-12-14 09:39:07

軟件開發(fā)用戶迭代

2019-09-16 08:12:00

以數(shù)據(jù)為中心的安全DCS數(shù)據(jù)安全

2015-06-10 11:14:31

云計算數(shù)據(jù)安全
點贊
收藏

51CTO技術(shù)棧公眾號