自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="72yba"></blockquote>}

<cite id="72yba"><track id="72yba"><sub id="72yba"></sub></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

百億、千億級參數(shù)的基礎(chǔ)模型之后，我們正在步入以數(shù)據(jù)為中心的時代？

作者：機器之心 2023-01-04 13:03:22

人工智能新聞

在這篇文章中，我們將由此開始，探討在基礎(chǔ)模型中能看到何種變化，最后將討論我們?nèi)绾慰创A(chǔ)模型與傳統(tǒng)方法相適應(yīng)。

近年來，GPT-3、CLIP、DALL-E 、Imagen、Stabile Diffusion 等基礎(chǔ)模型的出現(xiàn)令人驚嘆。這些模型展現(xiàn)出的強大生成能力和情境學(xué)習(xí)能力，在幾年前都是難以想象的。本文將探討這些大規(guī)模技術(shù)的商業(yè)化。這些模型如今不只是行業(yè)巨頭主宰的領(lǐng)地，其價值越來越體現(xiàn)在對這一領(lǐng)域和關(guān)鍵問題的描述中，而其核心即數(shù)據(jù)?；A(chǔ)模型迅速發(fā)展產(chǎn)生的影響尚無定論，所以很多內(nèi)容是基于推測。

prompt: "taco cat"（不要太當(dāng)真）

從機器學(xué)習(xí)的角度來看，任務(wù)的概念是絕對的基礎(chǔ) —— 我們創(chuàng)建訓(xùn)練數(shù)據(jù)來指定任務(wù)，并通過訓(xùn)練泛化。因此，幾十年來，業(yè)界一直有兩類主要看法：

「無用輸入，無用輸出」，即向模型輸入的數(shù)據(jù) / 特征信息決定模型成敗。
「太多參數(shù)會導(dǎo)致過度擬合」，近 20 余年來，通用、稀疏模型的開發(fā)大行其道。普遍觀念認(rèn)為稀疏模型參數(shù)較少，有助于降低過擬合，因而可以更好地進行泛化。

這些觀點總體來說很有道理，但也存在一定的誤導(dǎo)性。

基礎(chǔ)模型正在改變我們對任務(wù)的理解，因為它可以基于廣泛的數(shù)據(jù)訓(xùn)練且用于多種任務(wù)。即使有些用戶對自己的目標(biāo)任務(wù)理解并不清晰，也可以便捷地應(yīng)用這些模型而不必進行特定的訓(xùn)練。這些模型可以用自然語言或一個接口來控制，領(lǐng)域?qū)＜医璐送苿幽Ｐ偷氖褂茫瑫r希望馬上在新環(huán)境中體驗各種神奇功能。在這個探索過程中，用戶第一步并不是策劃特定的訓(xùn)練數(shù)據(jù)集，而是玩味、構(gòu)想，迅速迭代他們的想法。有了基礎(chǔ)模型，我們就想進一步了解其如何遷移到一系列任務(wù)上，包括好些我們尚未預(yù)想到的任務(wù)。

為了在下一波人工智能發(fā)展浪潮獲益，我們或許需要重新審視以往主流觀點的局限性（和智慧）。在這篇文章中，我們將由此開始，探討在基礎(chǔ)模型中能看到何種變化，最后將討論我們?nèi)绾慰创A(chǔ)模型與傳統(tǒng)方法相適應(yīng)。

無用輸入，無用輸出——就這？

無任務(wù)基礎(chǔ)模型正在爆炸式發(fā)展，到目前為止，很多都是關(guān)于模型架構(gòu)和工程的，但這些模型相融合的跡象也開始顯露。數(shù)據(jù)成為基礎(chǔ)以及用以區(qū)分的根本點，這方面有先例嗎？我們已經(jīng)見識了在監(jiān)督機器學(xué)習(xí)中，以模型為中心和以數(shù)據(jù)為中心兩種方法之間來回搖擺的狀態(tài)。

在 2010 年代后半段的一系列項目中，特征質(zhì)量是關(guān)鍵。在舊模型中，特征是編碼領(lǐng)域知識的工具。這些特征不太穩(wěn)定，處理的從業(yè)者需要掌握關(guān)于如何表征這些信息以獲得更穩(wěn)定和可靠的預(yù)測的低層次細節(jié)。

深度學(xué)習(xí)之所以成功，是因為人們在這些方面的表現(xiàn)很差。深度學(xué)習(xí)革命正如火如荼，arXiv 上的新模型層出不窮，實為震撼。這些模型沿用之前的手動操作，如特征工程，并將其完全自動化。模型非常優(yōu)秀，能通過深度學(xué)習(xí)將文本和圖像等原始數(shù)據(jù)成功特征化。這是生產(chǎn)力的極大提升。然而，這些模型并不完美，對這一領(lǐng)域的不斷認(rèn)識依然重要。那么，如何將其融入模型呢？

我們可以看到，用戶以訓(xùn)練數(shù)據(jù)為載體，高效輸入信息、解釋應(yīng)用程序并與模型交互。這一切發(fā)生在「黑暗」中，沒有工具、理論也沒有摘要。我們認(rèn)為，用戶應(yīng)該能夠?qū)ψ约旱臄?shù)據(jù)進行一些基本的編程抽象，因此 Snorkel 項目誕生了（然后是公司）。在知識層面，我們由此進入了以數(shù)據(jù)為中心的 AI 和弱監(jiān)督時代。我們可以從中吸取兩個重要教訓(xùn)：

一旦某項技術(shù)穩(wěn)定下來，其價值指向就會回到數(shù)據(jù)上。在這種情況下，隨著 TensorFlow、PyTorch、MXNet、Theano 等技術(shù)的出現(xiàn)，深度學(xué)習(xí)技術(shù)開始商業(yè)化，但對特定問題的描述沒有給出廣泛的數(shù)據(jù)分布、任務(wù)規(guī)范等。因此，成功與否取決于如何將相關(guān)信息引入模型；
我們可以（也需要）處理噪聲。基礎(chǔ)的數(shù)學(xué)和工程原則上有助于噪聲處理。用戶很難在訓(xùn)練數(shù)據(jù)中完美地表達他們的知識，不同數(shù)據(jù)源的質(zhì)量可能也不盡相同。在研究弱監(jiān)督的基本理論時，我們發(fā)現(xiàn)模型可以從含噪數(shù)據(jù)中學(xué)到很多（并非所有無用數(shù)據(jù)都不好）。也就是說，要避免輸入無用信息 —— 但也不必對數(shù)據(jù)太過吹毛求疵。

prompt: "noisy image". 有沒有從含噪圖像中看到什么有意思的東西？

簡單來說，數(shù)據(jù)將你的問題和分析編碼 —— 就算技術(shù)商品化，數(shù)據(jù)的價值依然存在。所以，不是說無用信息很好，而是不要把這個區(qū)別過于絕對化。數(shù)據(jù)有用或無用，在于是否以最有效的方式對其開發(fā)利用。

基礎(chǔ)模型基于大量數(shù)據(jù)進行訓(xùn)練，廣泛應(yīng)用于各種任務(wù)，給數(shù)據(jù)管理帶來全新挑戰(zhàn)。隨著模型 / 架構(gòu)不斷商品化，我們需要了解如何高效管理海量數(shù)據(jù)以保證模型用途的普遍性。

太多參數(shù)會導(dǎo)致過擬合？

為什么我們會看到神奇的上下文特征？建模選擇（架構(gòu)和算法）如何促成了這一點？大型語言模型的神奇特征來自神秘的模型配置嗎？

大約十年前，粗略的機器學(xué)習(xí)泛化理論認(rèn)為，如果一個模型過于簡約（即無法擬合太多虛假特征），那么它就會泛化。人們對此可能有更精準(zhǔn)的描述，這些都是諸如 VC dimension、Rademacher 復(fù)雜度等理論領(lǐng)域的主要成就。在這個過程中，我們發(fā)現(xiàn)似乎少量參數(shù)對于泛化也是必要的。但事實并非如此，過參數(shù)化是一個主要問題，不過現(xiàn)在我們有大模型作為反例：這些大模型（參數(shù)多于數(shù)據(jù)點）可以擬合各種繁雜到讓人頭大的函數(shù)，但它們?nèi)匀皇欠夯模词故褂秒S機標(biāo)簽）。

關(guān)于過參數(shù)化的觀點對我們存在誤導(dǎo)性，最近有見解開辟了新方向。我們看到這些大模型中出現(xiàn)了一些神奇特征，但時下的流行觀念認(rèn)為，只有某些經(jīng)機器訓(xùn)練的特定架構(gòu)促成了這些特征，而這些特定架構(gòu)很少有人能接觸到。我們和其他研究工作的一個方向是嘗試以簡單、經(jīng)典的模型來執(zhí)行這些神奇的特征。我們最近的狀態(tài)空間模型基于幾十年的信號處理成果（因此可擬合經(jīng)典模型），展現(xiàn)出一定的上下文能力。

更令人驚喜的是，即便是經(jīng)典的 BERT 雙向模型也具有上下文能力！相信還有很多人在撰寫相關(guān)論文，可以發(fā)給我們，我們會認(rèn)真閱讀并加以引用。我們認(rèn)為，上下文學(xué)習(xí)的神奇特征就在我們身邊，而且宇宙比我們所理解的更為神奇?；蛘吒潇o地看，也許人類只是在理解條件概率方面不盡如人意。

在大模型框架下，事情似乎都運行良好?；A(chǔ)模型的神奇特征看起來穩(wěn)定且可商業(yè)化，數(shù)據(jù)被視為其中造成差異化的點。

現(xiàn)在可能就是以數(shù)據(jù)為中心的基礎(chǔ)模型時代了？

我們是否在重復(fù)以數(shù)據(jù)為中心的監(jiān)督學(xué)習(xí)轉(zhuǎn)變？換言之，模型和工程是否在商品化？

商品化模型和開源信息的興起。我們看到基礎(chǔ)模型正在商品化并投入應(yīng)用 —— 嗯，感覺很「深度學(xué)習(xí)」。對我們而言，模型商品化的最大證據(jù)即其可用率。主要有兩種影響力量：人們有需求（穩(wěn)定等），大公司可利用。開源興起并不是出于業(yè)余愛好者的興趣，而是大型公司和政府之外的其他公司斷定他們需要這種東西（參見 Python 的崛起）。

等待最新的的超級公司推出全新超大模型？

最大的差異來自哪里？數(shù)據(jù)！這些工具越來越容易獲取，但其實基礎(chǔ)模型不一定立即可用。那將如何處理如何部署？坐等新的超級公司推出全新超大模型？這可以說是一個辦法！但我們稱之為虛無主義！這個模型會否開源，很難說 —— 那么，那些無法發(fā)送到 API 的私有數(shù)據(jù)上的基礎(chǔ)模型應(yīng)用程序又會如何？模型會不會有 100 萬億個參數(shù) —— 多少用戶可以訪問和使用？模型的訓(xùn)練內(nèi)容是什么？模型主要基于公共數(shù)據(jù)進行訓(xùn)練……

所以幾乎不能保證，它會知道你關(guān)心什么？你會如何維護基礎(chǔ)模型的神奇特征，讓其為你所用？有效管理基礎(chǔ)模型數(shù)據(jù)（數(shù)據(jù)至關(guān)重要！）和在測試時充分利用偉大的開源模型（在測試時調(diào)整輸入和上下文數(shù)據(jù)至關(guān)重要?。┒己苡斜匾?/span>

數(shù)據(jù)管理和以數(shù)據(jù)為中心的標(biāo)度律？預(yù)測：更智能的數(shù)據(jù)集收集方法能造就小而美的模型。那些讓我們大開眼界的標(biāo)度律論文值得關(guān)注：比如最初研究標(biāo)度律的 OpenAI 以及 DeepMind 的 Chinchilla。雖然我們有默認(rèn)的參考架構(gòu)（transforms），但 token 的數(shù)量一定程度上代表了數(shù)據(jù)的信息內(nèi)容。經(jīng)驗告訴我們，數(shù)據(jù)在主題和質(zhì)量上千差萬別。我們預(yù)感，真正重要的應(yīng)該是有重疊和階次的實際信息位 —— 像熵這樣的信息理論概念或能推動大小基礎(chǔ)模型進化。

測試時的信息輸入和計算。基礎(chǔ)模型不一定立即可用，但以新的方式進行測試時計算會大為不同?？紤]到使用封閉源代碼模型 API 的成本且缺乏隱私性，我們近期推出了一個開放源代碼基礎(chǔ)模型，該模型的參數(shù)再小 30 倍，通過在測試時高效使用小模型，可以在規(guī)范基準(zhǔn)層面擊敗 OpenAI 的封閉源代碼模型 —— 該方法被稱為 Ask Me Anything（AMA）Prompting。在測試時，用戶通過 prompt 或?qū)ζ涓信d趣任務(wù)的自然語言描述來控制基礎(chǔ)模型，prompt 設(shè)計會對性能產(chǎn)生巨大影響。準(zhǔn)確獲取 prompt 這件事復(fù)雜而艱巨，因此 AMA 建議使用一系列不同質(zhì)量的含噪 prompt，通過統(tǒng)計理論來應(yīng)對噪聲問題。AMA 的靈感來源很多：Maieutic Prompting、Reframing GPT-k、AI chain 等等！關(guān)鍵是我們可以用新的方式在測試時間進行計算 —— 不必只對模型進行一次 prompt！這不僅關(guān)乎訓(xùn)練時的數(shù)據(jù)管理，還涉及在測試時調(diào)整輸入和上下文數(shù)據(jù)。

prompt: "really small AI model"

從 AMA 中我們看到，小模型已經(jīng)具備了匹配多種任務(wù)的卓越推理能力，而大模型的關(guān)鍵價值似乎在于記憶事實數(shù)據(jù)。小模型在事實方面表現(xiàn)欠佳，那么我們該如何引入數(shù)據(jù)和信息來解決這個問題？奇怪的是，我們用 SGD 將事實存儲在神經(jīng)網(wǎng)絡(luò)中，將其轉(zhuǎn)換為模糊的浮點值…… 與 DRAM 支持的鍵值存儲相比，抽象的效率似乎要低得多。但是，從 AMA 的結(jié)果來看，小模型和大模型之間的差異在時間變化或域?qū)ｉT化的事實方面要小得多…… 我們在蘋果構(gòu)建自監(jiān)督模型時，要能夠編輯我們返回的事實（出于商業(yè)原因），同時需要擬合運行服務(wù)的其他軟件工具。所以讓模型調(diào)用索引非常重要。時間會證明，以上是否構(gòu)成使用這類模型的充分理由。

這將把我們引向何方？基礎(chǔ)模型與傳統(tǒng)方法并駕齊驅(qū)。假設(shè)以數(shù)據(jù)為中心的模型在探索和部署兩端均有進展，對于快速迭代和任務(wù)無關(guān)的工作流程 —— 探索階段，我們通過數(shù)據(jù)管理 / 測試時間策略使得現(xiàn)成的通用基礎(chǔ)模型更為有用高效。離開探索階段的用戶會帶著更清晰任務(wù)定義，使用以數(shù)據(jù)為中心的 AI 并管理訓(xùn)練數(shù)據(jù)（你自己的數(shù)據(jù)很重要），以 Snorkel 的方式通過利用和組合多個 prompt 和 / 或基礎(chǔ)模型來訓(xùn)練更小、更快的「專有」模型。這些模型可以在實際生產(chǎn)環(huán)境中部署，而且在特定任務(wù)和特定數(shù)據(jù)方面更加準(zhǔn)確！或者還可以利用基礎(chǔ)模型來改進弱監(jiān)督技術(shù) —— 一些實驗室和 Snorkel 成員還為此獲了 UAI 獎。

歸根結(jié)底，數(shù)據(jù)關(guān)乎模型的最終投產(chǎn)。數(shù)據(jù)是唯一沒有商品化的東西。我們?nèi)匀徽J(rèn)為，Snorkel 對數(shù)據(jù)的看法是未來的發(fā)展方向 —— 你需要編程抽象，一種通過表達、組合和反復(fù)糾正不同數(shù)據(jù)源和監(jiān)督信號的方法，為最終任務(wù)訓(xùn)練可部署模型的方法。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<acronym id="nu6mk"><rt id="nu6mk"></rt></acronym>