自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開放代碼又如何?成本昂貴、資源集中,大規(guī)模語言模型的民主化越來越難

人工智能 新聞
在OpenAI發(fā)布包含1750億參數(shù)的深度神經(jīng)網(wǎng)絡(luò)GPT-3之后,就引發(fā)了一場(chǎng)LLM的「軍備競(jìng)賽」。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

?5月初,Meta發(fā)布了一個(gè)可以執(zhí)行多個(gè)不同任務(wù)的大型語言模型:Open pretraining Transformer (OPT-175B)。在過去幾年里,大型語言模型(large language model,LLM)已經(jīng)成為人工智能研究的熱點(diǎn)之一。

在OpenAI發(fā)布包含1750億參數(shù)的深度神經(jīng)網(wǎng)絡(luò)GPT-3之后,就引發(fā)了一場(chǎng)LLM的「軍備競(jìng)賽」,OPT-175B是這場(chǎng)競(jìng)賽的一個(gè)最新參與者。GPT-3已經(jīng)表明,LLM可以無需額外訓(xùn)練就能執(zhí)行許多任務(wù)。后來,微軟將GPT-3集成到它的幾個(gè)產(chǎn)品中,不僅展示了LLM在科學(xué)研究上的前景,也展示了LLM在商業(yè)上的應(yīng)用潛力。

而OPT-175B的獨(dú)一無二性在于Meta對(duì)「開放」的承諾,正如這個(gè)模型的名字(OpenXX)所暗示的那樣。Meta已經(jīng)向公眾提供了這個(gè)模型,并且公布了訓(xùn)練和發(fā)展過程中的大量細(xì)節(jié)。在Meta AI博客上發(fā)表的一篇文章中,Meta將OPT-175B的發(fā)布描述為「大規(guī)模語言模型的民主化訪問」(Democratizing access to large-scale language models)。

Meta這種朝著透明化方向的發(fā)展是值得稱贊的。然而,在大型語言模型的激烈競(jìng)爭下,民主化已經(jīng)變得難以實(shí)現(xiàn)。

1 1750億參數(shù)的OPT

Meta發(fā)布的OPT-175B有一些關(guān)鍵特征。它包括了預(yù)訓(xùn)練的模型以及需要訓(xùn)練和使用LLM的代碼。訓(xùn)練神經(jīng)網(wǎng)絡(luò)比運(yùn)行神經(jīng)網(wǎng)絡(luò)要消耗更多的計(jì)算資源,所以,對(duì)于沒有計(jì)算資源來訓(xùn)練模型的組織來說,預(yù)訓(xùn)練模型特別有用。通過減少訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)所需的計(jì)算資源,它還會(huì)有助于避免造成巨大的碳足跡。

與GPT-3一樣,OPT也有不同的規(guī)模,參數(shù)從1.25億到1750億不等,參數(shù)越多的模型學(xué)習(xí)能力越強(qiáng)。目前,所有300億參數(shù)及以下的版本都可以直接下載。完整的1750億參數(shù)版本的模型將提供給部分研究人員和機(jī)構(gòu),只需要填寫一張申請(qǐng)表。

Meta AI在博客上表示:

“為了保證學(xué)術(shù)誠信和防止濫用,我們將在非商業(yè)許可下發(fā)布我們的模型,以專注于研究用例。該模型將授權(quán)學(xué)術(shù)研究人員使用,與政府、民間社會(huì)和學(xué)術(shù)界有關(guān)的組織,以及世界各地的行業(yè)研究實(shí)驗(yàn)室?!?/p>

除了模型,Meta還發(fā)布了一個(gè)完整的日志,提供了大型語言模型開發(fā)和訓(xùn)練過程的詳細(xì)技術(shù)時(shí)間表。通常來說,經(jīng)發(fā)表論文只包含關(guān)于最終版本模型的信息。Meta表示,該日志提供了一些有價(jià)值的信息,包括「用于訓(xùn)練OPT-175B的計(jì)算量,以及當(dāng)?shù)讓踊A(chǔ)設(shè)施或訓(xùn)練過程本身在規(guī)模上變得不穩(wěn)定時(shí)所需的人力開銷」。

2 Meta:GPT-3不夠透明

Meta在其博客文章中還表示,大型語言模型大多可以通過「付費(fèi)API」來訪問,對(duì)LLM的訪問進(jìn)行約束「限制了研究人員去理解這些大型語言模型如何工作以及為什么能工作,阻礙進(jìn)一步提高模型的魯棒性和減少模型的偏見和有害性等已知問題」。

這是對(duì)OpenAI的一種抨擊,OpenAI發(fā)布GPT-3只是提供了一種黑箱API服務(wù),而不是將其模型的權(quán)重和源代碼公開。OpenAI宣稱沒有公開GPT-3的原因之一,是為了控制有害應(yīng)用程序的濫用和開發(fā)。

而Meta認(rèn)為,通過將模型提供給更廣泛的受眾,會(huì)有利于研究和預(yù)防它們可能造成的任何傷害。

Meta這樣描述他們所做的工作:

我們希望OPT-175B將為大型語言模型創(chuàng)建的前沿領(lǐng)域帶來更多的聲音,幫助社區(qū)共同設(shè)計(jì)負(fù)責(zé)任的發(fā)布策略,并為該領(lǐng)域大型語言模型的開發(fā)增加前所未有的透明度和開放性。

3 大型語言模型的成本

然而,需要注意的是,大型語言模型的「透明和開放」并不等同于「民主化」。訓(xùn)練、配置和運(yùn)行大型語言模型的成本仍然很高,而且未來可能還會(huì)繼續(xù)增加。

根據(jù)Meta的博客文章,研究人員已經(jīng)成功地大大降低了訓(xùn)練大型語言模型的成本。他們表示,該模型的碳足跡已減少到GPT-3的七分之一。之前也有專家估計(jì),GPT-3的培訓(xùn)成本高達(dá)2760萬美元。

這說明,OPT-175B的培訓(xùn)成本仍然高達(dá)數(shù)百萬美元。幸運(yùn)的是,預(yù)訓(xùn)練的模型將避免訓(xùn)練模型的需要,并且Meta表示,將提供「只用16塊NVIDIA V100 gpu」來進(jìn)行訓(xùn)練和部署完整模型的代碼庫。這相當(dāng)于一臺(tái)Nvidia DGX-2,成本約為40萬美元,對(duì)于資金緊張的研究實(shí)驗(yàn)室或單個(gè)的研究人員來說,這仍不是一筆小數(shù)目。根據(jù)一篇提供了更多關(guān)于OPT-175B細(xì)節(jié)的論文顯示,Meta使用了992塊 80GB A100 gpu訓(xùn)練了自己的模型,比V100明顯更快。

Meta AI的日志進(jìn)一步證實(shí),訓(xùn)練大型語言模型是一項(xiàng)非常復(fù)雜的任務(wù)。OPT-175B的開發(fā)時(shí)間表上,充斥了諸如服務(wù)器崩潰、硬件故障和其他需要高級(jí)技術(shù)人員來解決的并發(fā)癥。研究人員還不得不多次重啟訓(xùn)練過程,調(diào)整超參數(shù),改變損失函數(shù)。所有這些產(chǎn)生的額外費(fèi)用,都是小型實(shí)驗(yàn)室所無法承擔(dān)的。

4 民主化的阻礙:權(quán)力集中在少數(shù)公司手中

語言模型如OPT和GPT都是基于transformer架構(gòu)。transformer的關(guān)鍵特性之一,是它能夠并行和大規(guī)模地處理大型順序數(shù)據(jù)(如文本)。

近年來,研究人員已經(jīng)證明,通過在transformer架構(gòu)中添加更多的層和參數(shù),可以提高語言任務(wù)的表現(xiàn)。一些研究人員認(rèn)為,達(dá)到更高的智力水平只是一個(gè)規(guī)模問題。因此,資金充裕的研究實(shí)驗(yàn)室,如Meta AI、DeepMind (Alphabet旗下)和OpenAI(微軟贊助),都在致力于創(chuàng)建越來越大的神經(jīng)網(wǎng)絡(luò),比如DeepMind最新推出了多模態(tài)AI系統(tǒng)Gato。

去年,微軟和英偉達(dá)創(chuàng)建了一個(gè)價(jià)值5300億參數(shù)的語言模型,名為Megatron-Turing (MT-NLG)。上個(gè)月,谷歌引入了語言模型 Pathways Language Model (PaLM),這是一個(gè)包含了5400億參數(shù)的大規(guī)模語言模型。更有傳言稱,OpenAI將在未來幾個(gè)月發(fā)布GPT-4。

然而,更大的神經(jīng)網(wǎng)絡(luò)也需要更多的財(cái)政和技術(shù)資源。雖然更大的語言模型會(huì)有更多新花哨(和新的失敗),但它們也會(huì)不可避免地把權(quán)力集中在少數(shù)富有的公司手中,這導(dǎo)致較小的研究實(shí)驗(yàn)室和獨(dú)立的研究人員在大型語言模型的研究上更加艱難。

在商業(yè)方面,大型科技公司將擁有更大的優(yōu)勢(shì)。運(yùn)行大型語言模型是非常昂貴和具有挑戰(zhàn)性的。像谷歌和微軟這樣的公司都有專門的服務(wù)器和處理器,所以他們能大規(guī)模運(yùn)行這些模型并盈利。對(duì)于較小的公司來說,搞出一個(gè)自家版本的LLM(如GPT-3)的開銷太大了。正如大多數(shù)企業(yè)都使用云托管服務(wù)而不是建立自己的服務(wù)器和數(shù)據(jù)中心一樣,隨著大型語言模型變得越來越流行,像GPT-3 API這樣的開箱即用系統(tǒng)將會(huì)更具有吸引力。

而這反過來又會(huì)進(jìn)一步地將AI集中在大型科技公司手中。更多的人工智能研究實(shí)驗(yàn)室將不得不與大型科技公司合作,以獲得研究資金。這將賦予大型科技公司更大的權(quán)力來決定AI未來的研究方向(與他們的經(jīng)濟(jì)利益相一致的方向)。那些沒有短期投資回報(bào)的研究領(lǐng)域,可能就會(huì)成為這其中的代價(jià)。

一個(gè)底線是,當(dāng)我們慶祝Meta為LLM帶來透明度的時(shí)候不要忘記,大型語言模型的本質(zhì)仍是不民主的,它們只是更多地對(duì)宣傳它們的公司有利。?

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2017-12-26 15:34:55

2012-10-10 14:06:16

IT服務(wù)民主化規(guī)模經(jīng)濟(jì)

2023-10-07 07:42:12

A/B實(shí)驗(yàn)數(shù)據(jù)倉庫

2013-05-14 09:12:01

Intel摩爾定律工藝制程

2021-12-21 10:33:22

APIWeb安全

2022-05-17 09:17:45

JS 代碼越來越難讀

2022-05-27 11:44:53

JS代碼

2019-12-26 09:42:54

互聯(lián)網(wǎng)免費(fèi)收費(fèi)

2009-09-24 09:20:10

數(shù)據(jù)中心管理

2021-04-15 13:48:08

視頻監(jiān)控視頻分析智能安防

2023-11-07 15:01:57

人工智能民主化

2019-06-27 15:46:37

Android刷機(jī)手機(jī)

2021-08-20 10:13:38

人工智能AI深度學(xué)習(xí)

2011-12-01 09:33:17

Google微軟

2021-03-12 10:31:17

數(shù)據(jù)中心加密數(shù)據(jù)中心管理

2024-02-21 09:44:33

Rust前端

2021-11-01 16:05:20

勒索軟件攻擊數(shù)據(jù)泄露

2011-04-20 14:54:24

編程語言

2011-04-21 08:59:13

javascriptPythonRuby

2021-08-03 11:09:41

智能手機(jī)功能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)