自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="oerk1"><li id="oerk1"></li></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

為何說(shuō)小語(yǔ)言模型是AI界的下一大熱門(mén)？

作者：布加迪 2024-05-27 08:00:00

在AI領(lǐng)域，科技巨頭們一直在競(jìng)相構(gòu)建越來(lái)越龐大的語(yǔ)言模型，如今出現(xiàn)了一個(gè)令人驚訝的新趨勢(shì)：小就是大。

譯者 | 布加迪

審校 | 重樓

在AI領(lǐng)域，科技巨頭們一直在競(jìng)相構(gòu)建越來(lái)越龐大的語(yǔ)言模型，如今出現(xiàn)了一個(gè)令人驚訝的新趨勢(shì)：小就是大。隨著大語(yǔ)言模型（LLM）方面的進(jìn)展出現(xiàn)了停滯的跡象，研究人員和開(kāi)發(fā)人員日益開(kāi)始將注意力轉(zhuǎn)向小語(yǔ)言模型（SLM）。這種緊湊、高效、適應(yīng)性強(qiáng)的AI模型正在挑戰(zhàn)“越大越好”這個(gè)觀念，有望改變我們對(duì)待AI開(kāi)發(fā)的方式。

LLM是否開(kāi)始停滯？

Vellum和HuggingFace最近發(fā)布的性能比較結(jié)果表明，LLM之間的性能差距在迅速縮小。這個(gè)趨勢(shì)在多項(xiàng)選擇題、推理和數(shù)學(xué)問(wèn)題等特定任務(wù)中體現(xiàn)得尤為明顯；在這些任務(wù)中，各大模型之間的性能差異很小。比如在多項(xiàng)選擇題中，Claude 3 Opus、GPT-4和Gemini Ultra的準(zhǔn)確率都在83%以上，而在推理任務(wù)中，Claude 3 Opus、GPT-4和Gemini 1.5 Pro的準(zhǔn)確率超過(guò)92%。

有意思的是，連較小的模型（比如Mixtral 8x7B和Llama 2 - 70B）在某些方面也顯示出了讓人驚喜的結(jié)果，比如推理和多項(xiàng)選擇題；在這些方面，小模型的表現(xiàn)勝過(guò)一些大模型。這表明模型的大小可能不是決定性能的唯一因素，而架構(gòu)、訓(xùn)練數(shù)據(jù)和微調(diào)技術(shù)等其他方面可能發(fā)揮重要作用。

Uber AI前負(fù)責(zé)人、《重啟人工智能》（Rebooting AI）一書(shū)的作者Gary Marcus表示：“如果看一下最近發(fā)表的十幾篇文章，它們大體上都與GPT-4處于同一個(gè)水準(zhǔn)。”《重啟人工智能》講述了如何構(gòu)建值得信賴(lài)的AI。Marcus周四接受了IT外媒《VentureBeat》的采訪。

“其中一些比GPT-4好一點(diǎn)，但沒(méi)有大的飛躍。我想每個(gè)人都會(huì)說(shuō)GPT-4比GPT-3.5是一大進(jìn)步，一年多的時(shí)間里并沒(méi)有任何大的飛躍。”

隨著性能差距繼續(xù)縮小，更多的模型顯示出頗具競(jìng)爭(zhēng)力的結(jié)果，這引發(fā)了LLM是否真的開(kāi)始停滯的問(wèn)題。如果這種趨勢(shì)持續(xù)下去，可能會(huì)對(duì)語(yǔ)言模型的未來(lái)開(kāi)發(fā)和部署產(chǎn)生重大影響，人們關(guān)注的重心可能會(huì)由一味增加模型大小轉(zhuǎn)向探索更有效、更專(zhuān)門(mén)化的架構(gòu)上。

LLM方法的缺點(diǎn)

雖然不可否認(rèn)LLM功能強(qiáng)大，但也有明顯的缺點(diǎn)。首先，訓(xùn)練LLM需要大量的數(shù)據(jù)，需要數(shù)十億甚至數(shù)萬(wàn)億個(gè)參數(shù)。這使得訓(xùn)練過(guò)程極其耗費(fèi)資源，訓(xùn)練和運(yùn)行LLM所需的算力和能耗也是驚人的。這導(dǎo)致了成本高企，使得小組織或個(gè)人很難參與核心LLM開(kāi)發(fā)。在去年麻省理工學(xué)院組織的一次活動(dòng)上，OpenAI首席執(zhí)行官Sam Altman表示，訓(xùn)練GPT-4的成本至少為1億美元。

處理LLM所需的工具和技術(shù)的復(fù)雜性也將一條陡峭的學(xué)習(xí)曲線擺在開(kāi)發(fā)人員的面前，進(jìn)一步限制了可訪問(wèn)性。從模型訓(xùn)練到構(gòu)建和部署，開(kāi)發(fā)人員面臨的周期很長(zhǎng)，這減慢了開(kāi)發(fā)和試驗(yàn)的速度。劍橋大學(xué)最近的一篇論文顯示，公司部署單單一個(gè)機(jī)器學(xué)習(xí)模型就可能要花90天或更長(zhǎng)的時(shí)間。

LLM的另一個(gè)重要問(wèn)題是它們往往產(chǎn)生幻覺(jué)——生成看似合理但實(shí)際上并不真實(shí)的輸出。這源于LLM被訓(xùn)練成基于訓(xùn)練數(shù)據(jù)中的模式來(lái)預(yù)測(cè)下一個(gè)最有可能的單詞的方式，而不是真正了解信息。因此，LLM可以自信地做出虛假陳述，編造事實(shí)或以荒謬的方式組合不相關(guān)的概念。檢測(cè)和減輕這種幻覺(jué)現(xiàn)象是開(kāi)發(fā)可靠的語(yǔ)言模型面臨的老大難問(wèn)題。

Marcus警告：“如果你用LLM來(lái)解決重大問(wèn)題，你不想侮辱客戶(hù)、得到錯(cuò)誤的醫(yī)療信息，或者用它來(lái)駕駛汽車(chē)。這仍然是個(gè)問(wèn)題。”

LLM的規(guī)模和黑盒性質(zhì)也使它們難以解釋和調(diào)試，解釋和調(diào)試對(duì)于對(duì)模型的輸出建立信任至關(guān)重要。訓(xùn)練數(shù)據(jù)和算法中的偏差可能導(dǎo)致不公平、不準(zhǔn)確甚至有害的輸出。正如我們?cè)?/span>谷歌Gemini中看到，使LLM“安全”而可靠的技術(shù)也會(huì)降低其有效性。此外，LLM的集中性質(zhì)引發(fā)了對(duì)權(quán)力和控制權(quán)集中在少數(shù)大型科技公司手中的擔(dān)憂(yōu)。

小語(yǔ)言模型（SLM）登場(chǎng)

這時(shí)候小語(yǔ)言模型登場(chǎng)了。SLM是LLM的精簡(jiǎn)版，參數(shù)更少，設(shè)計(jì)更簡(jiǎn)單。它們所需的數(shù)據(jù)和訓(xùn)練時(shí)間更短，只需幾分鐘或幾個(gè)小時(shí)，而LLM需要幾天。這使得SLM部署在本地或小型設(shè)備上來(lái)得更高效更簡(jiǎn)單。

SLM的主要優(yōu)點(diǎn)之一是它們適合特定的應(yīng)用環(huán)境。由于它們關(guān)注的范圍更狹小，需要更少的數(shù)據(jù)，所以比大型通用模型更容易針對(duì)特定領(lǐng)域或任務(wù)進(jìn)行微調(diào)。這種定制使公司能夠創(chuàng)建對(duì)其特定需求而言非常有效的SLM，比如情緒分析、命名實(shí)體識(shí)別或特定領(lǐng)域的問(wèn)題回答。與使用通用模型相比，SLM的專(zhuān)門(mén)化特性可以提升其在這些目標(biāo)應(yīng)用環(huán)境的性能和效率。

SLM的另一個(gè)好處是有望增強(qiáng)隱私和安全。使用更小的代碼庫(kù)和更簡(jiǎn)單的架構(gòu)，SLM更容易審計(jì)，并且不太可能出現(xiàn)意外漏洞。這使得它們對(duì)于處理敏感數(shù)據(jù)的應(yīng)用環(huán)境頗有吸引力，比如在醫(yī)療保健或金融領(lǐng)域，數(shù)據(jù)泄露可能釀成嚴(yán)重后果。此外，SLM的計(jì)算需求減少，使得它們更適合在本地設(shè)備或本地服務(wù)器上運(yùn)行，而不是依賴(lài)云基礎(chǔ)設(shè)施。這種本地處理可以進(jìn)一步提高數(shù)據(jù)安全性，并降低數(shù)據(jù)在傳輸過(guò)程中暴露的風(fēng)險(xiǎn)。

與LLM相比，SLM在特定領(lǐng)域內(nèi)更不容易出現(xiàn)未被發(fā)現(xiàn)的幻覺(jué)。SLM通常使用預(yù)期領(lǐng)域或應(yīng)用環(huán)境特有的更狹窄、更有針對(duì)性的數(shù)據(jù)集進(jìn)行訓(xùn)練，這有助于模型學(xué)習(xí)與其任務(wù)最相關(guān)的模式、詞匯表和信息。這就降低了生成不相關(guān)、意外或不一致輸出的可能性。由于使用更少的參數(shù)和更精簡(jiǎn)的架構(gòu)，SLM不太容易捕獲和放大訓(xùn)練數(shù)據(jù)中的噪音或錯(cuò)誤。

AI初創(chuàng)公司HuggingFace的首席執(zhí)行官Clem Delangue表示，高達(dá)99%的用例可以使用SLM來(lái)解決，并預(yù)測(cè)2024年將是SLM元年。HuggingFace的平臺(tái)使開(kāi)發(fā)人員能夠構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型，該公司今年早些時(shí)候宣布與谷歌建立戰(zhàn)略合作伙伴關(guān)系。兩家公司隨后將HuggingFace整合到谷歌的Vertex AI中，允許開(kāi)發(fā)人員通過(guò)谷歌Vertex Model Garden快速部署數(shù)千個(gè)模型。

谷歌Gemma受到追捧

在最初將LLM方面的優(yōu)勢(shì)拱手讓給OpenAI之后，谷歌正積極抓住SLM機(jī)會(huì)。早在2月份，谷歌推出了Gemma，這是一系列新的小語(yǔ)言模型，旨在提高效率和用戶(hù)友好性。與其他SLM一樣，Gemma模型可以在各種普通設(shè)備上運(yùn)行，如智能手機(jī)、平板電腦或筆記本電腦，不需要特殊的硬件或全面的優(yōu)化。

自Gemma發(fā)布以來(lái)，經(jīng)過(guò)訓(xùn)練的模型上個(gè)月在HuggingFace上的下載量已經(jīng)超過(guò)40萬(wàn)次，而且已涌現(xiàn)出了幾個(gè)令人興奮的項(xiàng)目。比如說(shuō)，Cerule是一個(gè)功能強(qiáng)大的圖像和語(yǔ)言模型，它結(jié)合了Gemma 2B和谷歌的SigLIP，使用大量的圖像和文本數(shù)據(jù)集進(jìn)行了訓(xùn)練。Cerule利用高效的數(shù)據(jù)選擇技術(shù)，可以在不需要大量數(shù)據(jù)或計(jì)算的情況下實(shí)現(xiàn)高性能。這意味著Cerule可能非常適合新興的邊緣計(jì)算用例。

另一個(gè)例子是CodeGemma，它是Gemma的專(zhuān)門(mén)版，專(zhuān)注于編程和數(shù)學(xué)推理。CodeGemma為各種編程相關(guān)的活動(dòng)提供了三種不同的模型，使高級(jí)編程工具對(duì)開(kāi)發(fā)人員來(lái)說(shuō)更容易訪問(wèn)、更高效。

小語(yǔ)言模型的巨大潛力

隨著AI社區(qū)繼續(xù)探索小語(yǔ)言模型的潛力，更快的開(kāi)發(fā)周期、更高的效率以及能夠根據(jù)特定需求定制模型等優(yōu)點(diǎn)變得越來(lái)越明顯。SLM有望通過(guò)帶來(lái)具有成本效益、具有針對(duì)性的解決方案，普及AI訪問(wèn)，并推動(dòng)行業(yè)創(chuàng)新。在邊緣部署SLM為金融、娛樂(lè)、汽車(chē)系統(tǒng)、教育、電子商務(wù)和醫(yī)療保健等行業(yè)領(lǐng)域的實(shí)時(shí)、個(gè)性化和安全的應(yīng)用系統(tǒng)帶來(lái)了新的可能性。

通過(guò)在本地處理數(shù)據(jù)并減少對(duì)云基礎(chǔ)設(shè)施的依賴(lài)，結(jié)合SLM的邊緣計(jì)算可以縮短響應(yīng)時(shí)間、增強(qiáng)數(shù)據(jù)隱私和改進(jìn)用戶(hù)體驗(yàn)。這種去中心化的AI方法有望改變企業(yè)和消費(fèi)者與技術(shù)進(jìn)行互動(dòng)的方式，在現(xiàn)實(shí)世界中創(chuàng)造更個(gè)性化更直觀的體驗(yàn)。由于LLM面臨與計(jì)算資源相關(guān)的挑戰(zhàn)，可能遇到性能瓶頸，因此，LLM的興起有望使AI生態(tài)系統(tǒng)繼續(xù)以驚人的步伐發(fā)展。

原文標(biāo)題：Why small language models are the next big thing in AI，作者：James Thomason

責(zé)任編輯：華軒來(lái)源： 51CTO

人工智能大語(yǔ)言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)