自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大廠燒錢也要追捧 AI 大模型的迷與思

人工智能 新聞
在未來,AI 將成為賦能各行各業(yè)的「電力」。那么,從 AI 大規(guī)模落地的維度看,大模型與小模型哪一個(gè)更好?業(yè)界真的想好了嗎?

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

電風(fēng)扇與空皂盒的故事,大家都聽過吧?

傳聞某國(guó)際知名快消大廠曾引進(jìn)一條香皂包裝生產(chǎn)線,結(jié)果發(fā)現(xiàn)這條生產(chǎn)線在包裝香皂的過程中出現(xiàn)了一個(gè)缺陷,就是常常有盒子沒裝入香皂。總不能把空盒子賣給顧客,于是,他們就請(qǐng)了一個(gè)學(xué)自動(dòng)化的博士后來設(shè)計(jì)分揀空香皂盒的方案。

該博士后立即召集了一個(gè)十幾人的技術(shù)團(tuán)隊(duì),綜合采用機(jī)械、自動(dòng)化、微電子、X射線探測(cè)等等技術(shù),花費(fèi) 90 萬,最后成功地研究出了一個(gè)方案,就是在生產(chǎn)線的兩旁安裝兩個(gè)集成探測(cè)器,每當(dāng)檢測(cè)到有空香皂盒經(jīng)過,就會(huì)驅(qū)動(dòng)一只機(jī)械手將空皂盒推走。

可以說,這是一次技術(shù)落地解決實(shí)際產(chǎn)業(yè)問題的重要突破。

巧合的是,與此同時(shí),中國(guó)南方某鄉(xiāng)鎮(zhèn)企業(yè)也購(gòu)買了同樣的生產(chǎn)線。老板發(fā)現(xiàn)這個(gè)問題后,十分火大,叫來工廠的一名小工說:「你來想想辦法解決這個(gè)問題?!蛊扔趬毫?,小工很快就想出了一個(gè)妙計(jì):他花 190 元買了一臺(tái)大功率電風(fēng)扇放在香皂包裝生產(chǎn)線的旁邊,產(chǎn)線一轉(zhuǎn)就開始猛吹,空的香皂盒一出現(xiàn),就被吹走了。

小工一人,憑借機(jī)智的創(chuàng)意,迅速解決了這個(gè)問題,實(shí)現(xiàn)了業(yè)界常說的一個(gè)大目標(biāo):降本增效。

科技革新,智能在產(chǎn)業(yè)中的涵義無非就是這兩個(gè)口號(hào):一是省錢,二是增效。然而,在近幾年的 AI 發(fā)展中,卻出現(xiàn)了這樣一個(gè)貌似違背資本規(guī)律的「怪異」現(xiàn)象:不管是學(xué)術(shù)界還是工業(yè)界,不管是大公司還是小公司,不管是私企還是國(guó)家資助的研究院,都在花大價(jià)錢「煉」大模型。

導(dǎo)致圈內(nèi)有兩種聲音:

一種聲音說,大模型已在多種任務(wù)基準(zhǔn)上展現(xiàn)出強(qiáng)大的性能與潛力,未來一定是人工智能的發(fā)展方向,此時(shí)的投入是為將來不錯(cuò)過時(shí)代大機(jī)遇做準(zhǔn)備,投入成百上千萬(或更多)訓(xùn)練是值得的。換言之,搶占大模型高地是主要矛盾,高成本投入是次要矛盾。

另一種聲音則說,在 AI 技術(shù)落地的實(shí)際過程中,當(dāng)前對(duì)大模型的全面吹捧不僅搶奪了小模型與其他 AI 方向的研究資源,而且由于投入成本高,在解決實(shí)際的產(chǎn)業(yè)問題中性價(jià)比低,也無法在數(shù)字化轉(zhuǎn)型的大背景中造福更多的中小企業(yè)。

也就是說,「經(jīng)濟(jì)可不可用」與「能力強(qiáng)不強(qiáng)大」構(gòu)成了 AI 算法解決實(shí)際問題中的兩大焦點(diǎn)。如今,業(yè)界已達(dá)成一個(gè)共識(shí):在未來,AI 將成為賦能各行各業(yè)的「電力」。那么,從 AI 大規(guī)模落地的維度看,大模型與小模型哪一個(gè)更好?業(yè)界真的想好了嗎?

1?「大」模型到來

近年來,國(guó)內(nèi)外的科技大廠在對(duì)外宣傳 AI 研發(fā)實(shí)力的聲音中,總有一個(gè)高頻的詞匯出現(xiàn):大模型(Big Model)。

這場(chǎng)競(jìng)爭(zhēng)開始于國(guó)外的科技巨頭。2018 年谷歌推出大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 BERT 拉開大模型的帷幕后,OpenAI相繼于 2019 年與 2020 年推出 GPT-2、GPT-3;2021 年,谷歌又不甘落后,推出在參數(shù)量上壓倒前者的 Switch Transformer……

所謂模型的大小,主要的衡量指標(biāo)就是模型參數(shù)量的規(guī)模。模型的「大」,指的就是龐大的參數(shù)量。

例如,BERT 的參數(shù)量在2018年首次達(dá)到 3 億參數(shù)量,在機(jī)器閱讀理解頂級(jí)水平測(cè)試 SQuAD1.1 的兩個(gè)衡量指標(biāo)上全面超越人類,并在 11 種不同的 NLP 測(cè)試中達(dá)到 SOTA 表現(xiàn),包括將 GLUE 基準(zhǔn)推高至80.4% (絕對(duì)改進(jìn)7.6%),MultiNLI準(zhǔn)確度達(dá)到86.7% (絕對(duì)改進(jìn)5.6%),展示出了參數(shù)量增大對(duì) AI 算法性能提升的威力。

OpenAI 先后推出的 GPT-2 參數(shù)量達(dá)到 15 億,GPT-3 的參數(shù)量首次突破千億,達(dá)到 1750 億。而谷歌在 2021 年 1 月發(fā)布的 Switch Transformer,更是首次達(dá)到萬億,參數(shù)量為 1.6 萬億。

面對(duì)這如火如荼的局面,國(guó)內(nèi)大廠、甚至政府資助成立的研究機(jī)構(gòu)也紛紛不甘落后,先后推出他們?cè)跓挻竽P蜕系某晒?021年4月,阿里達(dá)摩院發(fā)布中文預(yù)訓(xùn)練語(yǔ)言模型「PLUG」,參數(shù)量 270 億;4月,華為與鵬城實(shí)驗(yàn)室聯(lián)合發(fā)布「盤古α」,參數(shù)量 2000 億;6月,北京智源人工智能研究院發(fā)布「悟道2.0」,參數(shù)量 1.75 萬億;9月,百度發(fā)布中英雙語(yǔ)模型 PLATO-X,參數(shù)量百億。

到去年 10 月,阿里達(dá)摩院發(fā)布「M6-10T」,參數(shù)量已經(jīng)達(dá)到 10 萬億,是中國(guó)目前規(guī)模最大的 AI 大模型。雖然比不上阿里,但百度在追求模型的參數(shù)量上也不甘落后,聯(lián)合鵬城實(shí)驗(yàn)室發(fā)布了「百度·文心」,參數(shù)量 2600 億,比 PLATO-X 大了 10 倍。

此外,騰訊也稱他們研發(fā)了大模型「派大星」,但參數(shù)量級(jí)不明。除了普遍受大家關(guān)注的 AI 研發(fā)大廠,國(guó)內(nèi)的大模型研發(fā)主力中還包括了算力提供商浪潮,他們?cè)谌ツ?10 月發(fā)布了大模型「源1.0」,參數(shù)量達(dá)到 2457 億??偠灾?,2021 年可以稱為中國(guó)的「大模型元年」。

到今年,大模型繼續(xù)火熱。最開始,大模型是集中在計(jì)算語(yǔ)言領(lǐng)域,但如今也已逐漸拓展到視覺、決策,應(yīng)用甚至覆蓋蛋白質(zhì)預(yù)測(cè)、航天等等重大科學(xué)問題,谷歌、Meta、百度等等大廠都有相應(yīng)的成果。一時(shí)間,參數(shù)量低于 1 億的 AI 模型已經(jīng)沒有聲量。

毫無疑問,無論是性能超越還是任務(wù)拓展,AI 大模型都展示出了內(nèi)在的潛力,給學(xué)術(shù)界與工業(yè)界帶來無限的想象空間。

有研究實(shí)驗(yàn)表明,數(shù)據(jù)量與參數(shù)量的增大能夠有效提升模型解決問題的精確度。以谷歌2021年發(fā)布的視覺遷移模型 Big Transfer 為例,分別使用 1000 個(gè)類別的 128 萬張圖片和 18291 個(gè)類別的 3 億張圖片兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,模型的精度能夠從 77% 提升到 79%。

再拿今年谷歌推出的 5400 億參數(shù)單向語(yǔ)言模型 PaLM 來說,它基于谷歌今年發(fā)布的新一代 AI 框架 Pathways,不僅在微調(diào)方面超越了 1750 億參數(shù)的 GPT-3,而且推理能力大幅提升,在 7 個(gè)算術(shù)應(yīng)用題/常識(shí)推理數(shù)據(jù)集上,有 4 個(gè)超越了當(dāng)前的 SOTA(如下表),而且只用了 8 個(gè)樣本(即采集的數(shù)據(jù))。

圖片

視覺即感知,語(yǔ)言即智能,但兩者在「因果推理」的攻克上一直沒有太耀眼的突破,而因果推理這一項(xiàng)能力對(duì) AI 系統(tǒng)的進(jìn)化又十分重要??梢赃@樣理解:小孩子能夠根據(jù) 1+1=2 來得出 100+100=200 的簡(jiǎn)單能力,對(duì)機(jī)器系統(tǒng)來說卻十分復(fù)雜,就是因?yàn)橄到y(tǒng)缺少因果推理的想象力。如果機(jī)器連合理的推理能力/想象力都沒有,那么我們距離研發(fā)出科幻電影里智能超群的機(jī)器人將遙不可及。而大模型的出現(xiàn),使通用人工智能(AGI)的實(shí)現(xiàn)成為可能。

所以,我們可以看到,大公司宣傳一個(gè)大模型,往往強(qiáng)調(diào)它能夠同時(shí)解決多項(xiàng)任務(wù),在多個(gè)任務(wù)基準(zhǔn)上達(dá)到 SOTA(當(dāng)前最高水平)。比如,谷歌今年推出的 5400 億參數(shù)語(yǔ)言大模型 PaLM 可以解讀笑話,還可以通過emoji表情猜電影,智源推出的「悟道2.0」可以孵化出琴棋書畫、樣樣精通的虛擬學(xué)生華智冰。

簡(jiǎn)而言之,大模型往往具備一個(gè)特征:多才多藝,身兼多職。這對(duì)解決復(fù)雜場(chǎng)景的挑戰(zhàn)至關(guān)重要。

「小模型的參數(shù)量少,局限于單一任務(wù);而大模型(的優(yōu)勢(shì))就像是,人在學(xué)習(xí)打乒乓球時(shí)所學(xué)到的知識(shí)對(duì)打羽毛球是有輔助效應(yīng)的。大模型的任務(wù)與任務(wù)之間有泛化性。面對(duì)新任務(wù)時(shí),小模型可能需要幾千個(gè)、幾萬個(gè)訓(xùn)練數(shù)據(jù),而大模型需要只可能一個(gè)訓(xùn)練數(shù)據(jù),甚至完全不需要訓(xùn)練數(shù)據(jù)?!刮骱髮W(xué)深度學(xué)習(xí)實(shí)驗(yàn)室的負(fù)責(zé)人藍(lán)振忠向雷峰網(wǎng)-AI 科技評(píng)論解釋。

以對(duì)話系統(tǒng)的研究為例。對(duì)話系統(tǒng)主要分為兩大類:一類是任務(wù)型對(duì)話,用戶下達(dá)任務(wù)、AI 系統(tǒng)自動(dòng)執(zhí)行,快速訂機(jī)票、買電影票等等;一類是開放型對(duì)話,如電影《她》(Her)中虛構(gòu)的機(jī)器人,能夠與人類交流任何話題,甚至讓用戶感覺到情感上的陪伴。這其中,后者的能力等級(jí)顯然更高,研發(fā)難度也更大。前面迷霧重重,你不清楚將會(huì)面臨怎樣的挑戰(zhàn),這時(shí),大模型本身具備的豐富「能力包」和在新任務(wù)上超常的出色表現(xiàn),戰(zhàn)斗力顯然要優(yōu)于小模型。

藍(lán)振忠指出,目前學(xué)術(shù)界與工業(yè)界的 AI 研究者們對(duì)于大模型的許多特性還未完全掌握。舉個(gè)例子,從上一代的 GPT-3 到這一代的 instruct GPT,我們可以看到它有一個(gè)質(zhì)的飛躍,同樣是大模型,但是 instruct GPT 在接受命令時(shí)效果卻好很多,這是他們?cè)谘芯看竽P蜁r(shí)才能體驗(yàn)到的。

參數(shù)量越來越大,AI 模型的性能究竟會(huì)發(fā)生什么變化?這是一個(gè)需要深入探索的科學(xué)問題,因此,繼續(xù)投入研究大模型是有必要的。

2 理想很遠(yuǎn),現(xiàn)實(shí)很近

人類要進(jìn)步,就總要有人勇往無人之境。

然而,在現(xiàn)實(shí)世界中,并不是每個(gè)人都能負(fù)擔(dān)得起星辰大海的理想,更多的人只想以多快好省的方式解決眼前所面臨的問題。歸根結(jié)底,AI 算法要落地,就必須考慮技術(shù)研發(fā)的投入產(chǎn)出比。這時(shí),大模型的弊端就開始暴露。

一個(gè)不容忽視的殘酷事實(shí)是:大模型的計(jì)算慢,訓(xùn)練成本極高。

通常來說,模型的參數(shù)量越大,機(jī)器跑得越慢,計(jì)算成本也越高。據(jù)外媒披露,OpenAI 在訓(xùn)練包含 1750億參數(shù)的 GPT-3 時(shí)花了接近 500 萬美元(人民幣約 3500 萬)。谷歌在訓(xùn)練包含 5400 億參數(shù)的 PaLM 時(shí)用了 6144 塊 TPU,據(jù)熱心網(wǎng)友統(tǒng)計(jì),普通人訓(xùn)練一個(gè) PaLM 的成本在900至1700萬美元之間。這還僅僅是算力的費(fèi)用。

國(guó)內(nèi)各大廠沒有披露過它們訓(xùn)練大模型的經(jīng)濟(jì)成本,但根據(jù)現(xiàn)有全球共享的計(jì)算方式與資源來看,計(jì)算支出應(yīng)當(dāng)相差不遠(yuǎn)。GPT-3與PaLM都還僅是千億級(jí)數(shù)量,而參數(shù)量達(dá)到萬億級(jí)以上的大模型,其成本投入想必驚人。如果一家大廠對(duì)研發(fā)足夠闊綽,大模型的投入成本便不是一個(gè)「攔路虎」,但在當(dāng)前資本對(duì) AI 越發(fā)謹(jǐn)慎之際,一些創(chuàng)業(yè)公司與政府投資的研究機(jī)構(gòu)還大力下注大模型,這就顯得有些魔幻了。

大模型對(duì)算力的高要求,使企業(yè)間的技術(shù)實(shí)力競(jìng)爭(zhēng)變成了金錢的競(jìng)爭(zhēng)。從長(zhǎng)遠(yuǎn)來看,一旦算法成為高消費(fèi)商品,就注定最前沿的 AI 只能為少數(shù)人享有,從而造成圍城圈地的壟斷局面。換言之,即使有一天,通用人工智能真的出現(xiàn),也無法造福所有用戶。

同時(shí),在這一賽道上,小企業(yè)的創(chuàng)新力將被擠壓。要煉成大模型,小企業(yè)要么與大廠合作、站在巨人的肩膀上(但這也并不是每一家小廠都能做到的事情),要么狂拉投資、備好金庫(kù)(但在資本的寒冬中,這也不切實(shí)際)。

算完投入,再算產(chǎn)出。遺憾的是,目前還沒有一家在煉大模型的企業(yè)披露過大模型創(chuàng)造了多大的經(jīng)濟(jì)效益。不過,從公開信息中可以得知,這些大模型已經(jīng)開始陸陸續(xù)續(xù)落地解決問題,如阿里達(dá)摩院在發(fā)布萬億參數(shù)模型 M6 后,稱其圖像生成能力已經(jīng)可以輔助汽車設(shè)計(jì)師進(jìn)行車型設(shè)計(jì),借用 M6 的文案生成能力所創(chuàng)作的文案,也已經(jīng)在手機(jī)淘寶、支付寶和阿里小蜜上得到使用。

對(duì)于正處于探索起步階段的大模型來說,強(qiáng)調(diào)短期回報(bào)未免苛刻。然而,我們?nèi)匀灰卮疬@樣一個(gè)問題:無論是企業(yè)界還是學(xué)術(shù)界,在下注大模型時(shí),是為了不錯(cuò)過一個(gè)可能在未來占據(jù)主導(dǎo)地位的技術(shù)方向,還是因?yàn)槠淠芨玫亟鉀Q眼前已知的問題?前者有濃厚的學(xué)術(shù)探索色彩,而后者則是產(chǎn)業(yè)前鋒應(yīng)用 AI 技術(shù)落地解決問題的群體所真正關(guān)心的問題。

大模型由谷歌發(fā)布 BERT 拉開序幕起,是一種混沌天開的思路:在 BERT 實(shí)驗(yàn)之前,谷歌大腦的技術(shù)團(tuán)隊(duì)并不是圍繞一個(gè)已知的現(xiàn)實(shí)問題來開發(fā)模型,也沒有想到這個(gè)當(dāng)時(shí)參數(shù)量最大( 3 億)的 AI 模型能帶來效果的大幅提升。同理,OpenAI 在模仿谷歌開發(fā) GPT-2 與 GPT-3 時(shí),也沒有一個(gè)特定的任務(wù),而是成功開發(fā)出來后,大家在 GPT-3 上測(cè)任務(wù)效果,發(fā)現(xiàn)各項(xiàng)指標(biāo)都有所提升,才被驚艷到。如今的 GPT-3 就像一個(gè)平臺(tái),已被用戶搭載了成千上萬個(gè)應(yīng)用。

但隨著時(shí)間的推移,大模型的發(fā)展還是不可避免地回到了解決某一個(gè)實(shí)際問題的初衷,如 Meta 今年發(fā)布的蛋白質(zhì)預(yù)測(cè)大模型 ESMFold,百度不久前發(fā)布的航天大模型。如果說一開始的 GPT-3 等大模型主要是想探索參數(shù)量增大會(huì)對(duì)算法的性能改變帶來什么影響,是純粹的「未知指導(dǎo)未知」,那么現(xiàn)在的大模型研究則開始體現(xiàn)出一個(gè)較為清晰的目標(biāo):就是要解決現(xiàn)實(shí)問題,創(chuàng)業(yè)價(jià)值。

這時(shí),大模型的發(fā)展指導(dǎo)方,就從研究者的意志轉(zhuǎn)換為了用戶的需求。在一些十分細(xì)小的需求(如車牌識(shí)別)中,大模型也能解決問題,但由于其昂貴的訓(xùn)練成本,未免有點(diǎn)「殺豬焉用牛刀」的意味,且性能不一定出色?;蛘哒f,若幾個(gè)點(diǎn)的精度提升是靠上千萬的成本換來的,性價(jià)比就顯得極低。

一位業(yè)內(nèi)人士就告訴雷峰網(wǎng)-AI 科技評(píng)論,在絕大多數(shù)的情況下,我們研究一項(xiàng)技術(shù)是為了解決某一個(gè)已知的實(shí)際問題,如情感分析、新聞概括,這時(shí)我們其實(shí)就可以設(shè)計(jì)一個(gè)專門的小任務(wù)去研究,出來的「小模型」的效果很容易就比 GPT-3 等大模型要好。甚至在一些特定的任務(wù)上,大模型「根本沒法用」。

所以,在推動(dòng) AI 發(fā)展的過程中,大模型與小模型的結(jié)合是必然的。而由于大模型的研發(fā)門檻極高,在承擔(dān) AI 大規(guī)模落地的重任上,在肉眼可見的未來,經(jīng)濟(jì)可用、精準(zhǔn)打擊的小模型才是主力軍。

即使是一些正在研究大模型的科學(xué)家,他們也明確地告訴雷峰網(wǎng)-AI 科技評(píng)論,雖然大模型能夠同時(shí)推行很多任務(wù),但「現(xiàn)在談通用人工智能還太早」。大模型或許是實(shí)現(xiàn)終極目標(biāo)的一個(gè)重要途徑,但理想尚遠(yuǎn),AI 還是要先滿足當(dāng)下。

3 AI 模型一定要越來越大嗎?

事實(shí)上,針對(duì) AI 模型越來越大的現(xiàn)象,學(xué)術(shù)界與工業(yè)界的部分研究者已經(jīng)注意到其在落地中的利與弊,并積極展開應(yīng)對(duì)之策。

如果要說科技對(duì)社會(huì)的改變給予了人們?cè)鯓拥膯⑹?,那么其中一定?huì)談到的重要一條便是:如何降低科技產(chǎn)品的門檻(無論是技術(shù)上還是成本上),讓更多的人能夠享受到這項(xiàng)科技的好處,才能擴(kuò)大它的影響力。

換到大模型中,核心矛盾就是如何提升它的訓(xùn)練速度、降低訓(xùn)練的成本,或提出新的架構(gòu)。如果單從調(diào)用計(jì)算資源來看,大模型的窘境實(shí)際上并不突出。今年 6 月底開放工程聯(lián)盟 MLCommons 發(fā)布的 MLPerf 基準(zhǔn)最新訓(xùn)練結(jié)果顯示,今年機(jī)器學(xué)習(xí)系統(tǒng)的訓(xùn)練速度幾乎是去年的兩倍,已經(jīng)突破了摩爾定律(每18-24個(gè)月翻一倍)。

事實(shí)上,隨著各家服務(wù)器的更新迭代,云計(jì)算等新穎方式的出現(xiàn),計(jì)算一直在加速,能耗也一直在降低。舉個(gè)例子,GPT-3 推出僅兩年,如今 Meta 參照它所研發(fā)的 OPT 模型的計(jì)算量已經(jīng)降低到了2020年的1/7。此外,最近還有一篇文章表明,2018 年需要幾千塊 GPU 訓(xùn)練的大模型 BERT,如今只需要單卡 24 小時(shí)就能訓(xùn)練好,一個(gè)普通的實(shí)驗(yàn)室也能輕松訓(xùn)練。

獲取算力的瓶頸已經(jīng)不存在,唯一的攔路虎只是獲取成本。

除了單純依靠算力,近年來,也有一些研究者希望另辟蹊徑,單從模型與算法本身的特性去實(shí)現(xiàn)大模型的「經(jīng)濟(jì)可用性」。

一種途徑是以數(shù)據(jù)為中心的「降維」。

最近 DeepMind 就有一項(xiàng)工作(“Training Compute-Optimal Large Language Models”)成功探索發(fā)現(xiàn),在計(jì)算量相同的情況下,將模型的訓(xùn)練數(shù)據(jù)變大,而不是將模型的參數(shù)量放大,可以得到比僅僅放大模型更好的效果。

在 DeepMind 的這項(xiàng)研究中,一個(gè)充分利用了數(shù)據(jù)的 700 億參數(shù)模型 Chinchilla 在一系列下游任務(wù)的評(píng)估中超越了 1750 億參數(shù)的 GPT-3 和 2800 億參數(shù)的 Gopher。藍(lán)振忠解釋,Chinchilla 之所以能夠取勝,就是因?yàn)樵谟?xùn)練時(shí)將數(shù)據(jù)擴(kuò)大、翻倍,然后只計(jì)算一遍。

另一種途徑是依賴算法與架構(gòu)的創(chuàng)新,將大模型「輕量化」。

微軟亞洲研究院前副院長(zhǎng)、現(xiàn)瀾舟科技創(chuàng)始人周明是這一賽道的追隨者。

作為一名創(chuàng)業(yè)者,周明的想法很「本分」,就是要省錢。他指出,如今許多大的公司都在追求大模型,一是爭(zhēng)先恐后,二是也想體現(xiàn)自己的計(jì)算能力,尤其是云服務(wù)的能力。而瀾舟科技作為一家誕生不久的小公司,有用 AI 創(chuàng)造價(jià)值的夢(mèng)想,但沒有強(qiáng)大的云能力,錢也不夠燒,所以周明一開始想的是如何通過模型架構(gòu)的調(diào)整與知識(shí)蒸餾等等方式,將大模型變成「輕量化模型」給客戶使用。

他們?cè)谌ツ?7 月推出的輕量化模型「孟子」證明了該想法的可行性?!该献印沟膮?shù)僅 10 億,但在中文語(yǔ)言理解評(píng)測(cè)榜單 CLUE 上的表現(xiàn)卻超越參數(shù)量級(jí)為百億甚至千億的BERTSG 與盤古等等大模型(如下表)。領(lǐng)域的一個(gè)共識(shí)是:在同一個(gè)架構(gòu)下,模型一定是參數(shù)量越大、性能越好,但「孟子」的巧妙之處,就在于架構(gòu)的創(chuàng)新。

圖片

在學(xué)術(shù)界,不久前,加州大學(xué)伯克利分校的馬毅教授與沈向洋、曹穎還聯(lián)合發(fā)表了一項(xiàng)研究(“On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence”),從理論上解析了大模型為何越來越大的技術(shù)原因,即深度神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)「開環(huán)」的系統(tǒng),即用于分類的判別模型和用于采樣或重放的生成模型的訓(xùn)練在大部分情況下是分開的,導(dǎo)致對(duì)參數(shù)的訓(xùn)練效率低下,只能依靠堆參數(shù)與堆算力來提升模型的性能。

為此,他們提出的「變革」方式更徹底,就是主張將判別模型與生成模型組合在一起,形成一個(gè)完整的「壓縮」閉環(huán)系統(tǒng),這樣 AI 模型就能夠自主學(xué)習(xí),并且效率更高、更穩(wěn)定,在面對(duì)一個(gè)新的環(huán)境中可能出現(xiàn)的新問題時(shí),適應(yīng)性與反應(yīng)能力也更強(qiáng)。換言之,如果 AI 領(lǐng)域的研究者能夠沿著這條路線去開發(fā)模型,模型的參數(shù)量級(jí)會(huì)大幅縮小,回歸到「小而美」的道路上,也能實(shí)現(xiàn)大模型「解決未知問題」的能力。

在實(shí)現(xiàn)經(jīng)濟(jì)可用上,甚至還有一種聲音,是主張通過 AutoML 或 AutoAI 的方式來解決模型訓(xùn)練的難度,降低 AI 算法的研究門檻,讓算法工程師或非 AI 從業(yè)者可以靈活根據(jù)自己的需求來打造單一功能的模型,形成無數(shù)個(gè)小模型,星星之火、可以燎原。

這種聲音是從「需求」的角度出發(fā),反對(duì)閉門造車。

舉個(gè)例子,視覺算法用于識(shí)別、檢測(cè)與定位,其中,識(shí)別煙霧與煙火對(duì)算法的要求不同,那么他們就提供一個(gè)平臺(tái)或工具,讓需求者可以分別快速生成一個(gè)識(shí)別煙霧與識(shí)別煙火的視覺算法,精度更高,也不必追求跨場(chǎng)景的「通用性」或「泛化性」。這時(shí),一個(gè)琴棋書畫樣樣精通的大模型,可以分為無數(shù)個(gè)分別精通琴、棋、書、畫的小模型,同樣也能解決問題。

4 寫在最后

再回到電風(fēng)扇吹空皂盒的故事上。

在 AI 技術(shù)解決現(xiàn)實(shí)問題上,大模型與小模型就猶如博士后的自動(dòng)化方案與小工的電風(fēng)扇,前者雖然在解決某一個(gè)小的問題時(shí)顯得冗余、笨重,效果也沒有電風(fēng)扇快速,但幾乎沒有人會(huì)否認(rèn)博士后及其團(tuán)隊(duì)所提供的價(jià)值,更不可能「消滅」他們。相反,我們甚至可以說出幾百個(gè)理由來強(qiáng)調(diào)技術(shù)研發(fā)的合理性。

但在許多時(shí)候,技術(shù)研究者卻常常忽略了小工在解決問題上的智慧:從實(shí)際問題出發(fā),而不是囿于技術(shù)的優(yōu)勢(shì)。從這個(gè)角度看,大模型的研究固有引領(lǐng)前沿的價(jià)值,但也要考慮降本增效中的「經(jīng)濟(jì)可用」目標(biāo)。

再回到研究本身,藍(lán)振忠表示,目前大模型的成果雖然有很多,但開源極少,普通研究者的訪問有限,這一點(diǎn)很令人惋惜。

由于大模型沒有開源,普通用戶也無法從需求的角度來評(píng)價(jià)大模型的實(shí)用性。事實(shí)上,此前在目前少數(shù)開源的大模型中,我們?cè)鲞^實(shí)驗(yàn),發(fā)現(xiàn)語(yǔ)言大模型在理解社會(huì)倫理與情感上的表現(xiàn)存在極高的不穩(wěn)定性。

因?yàn)椴婚_放,各大廠對(duì)自家大模型的介紹也是停留在學(xué)術(shù)的各項(xiàng)指標(biāo)上,這就形成了類似薛定諤的困局:你永遠(yuǎn)不知道盒子里有什么,也無法判斷它的真假,一句話,什么都是他們說了算。最后,希望 AI 大模型真的能夠造福更多人吧。

責(zé)任編輯:張燕妮 來源: 雷峰網(wǎng)
相關(guān)推薦

2023-09-05 16:51:48

算力

2011-12-28 13:12:52

網(wǎng)絡(luò)布線智能網(wǎng)絡(luò)布線

2024-06-19 16:11:22

2023-05-10 14:40:40

AI模型算力

2024-12-14 15:18:52

2024-08-28 14:20:04

2025-04-22 08:08:37

2024-12-25 08:02:17

人工智能AI運(yùn)維

2023-06-16 11:39:01

昇思

2024-01-17 08:00:00

人工智能大型語(yǔ)言模型Web

2023-06-19 14:55:48

2023-10-14 13:07:52

訓(xùn)練模型

2023-09-07 15:01:45

2025-04-01 09:54:09

AI算法大模型AI

2023-08-03 10:59:49

人工智能

2024-06-07 13:42:41

2023-07-04 09:48:10

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)