云計(jì)算與大模型訓(xùn)練的結(jié)合 原創(chuàng)
“ 我們要學(xué)會(huì)使用第三方的大模型平臺,而不是什么都從0開始 ”
大模型從出現(xiàn)以來,其巨大的成本問題一直都是壓在很多企業(yè)頭上的一座山;但大模型作為一項(xiàng)基礎(chǔ)設(shè)施,理論上應(yīng)該和現(xiàn)有的基礎(chǔ)設(shè)施相結(jié)合,比如說云計(jì)算平臺。
根據(jù)云計(jì)算的思想,除了實(shí)現(xiàn)快速部署遷移以及龐大的網(wǎng)絡(luò)洪峰之外;其次最重要的一點(diǎn)就是提升資源的利用率;比如對很多公司來說,流量洪峰主要都集中在某些時(shí)間段,大部分時(shí)間的流量都比較平穩(wěn)。
因此,如果按照最高峰值部署服務(wù)器,那么就會(huì)造成巨大的浪費(fèi);因此,云計(jì)算的用武之地就出現(xiàn)了;因?yàn)樵朴?jì)算快速動(dòng)態(tài)擴(kuò)/縮容的機(jī)制,導(dǎo)致其能夠更好地利用空閑資源。
云上的大模型
大模型由于其巨大的體量,以及參數(shù)和數(shù)據(jù);對一家企業(yè)來說,要想設(shè)計(jì)訓(xùn)練出一個(gè)屬于自己的模型,就需要購買大量的算力資源——也就是GPU。
但GPU的價(jià)格問題使得企業(yè)面臨著巨大的成本壓力;因此,購買或租用別人的算力,就成了一個(gè)比較好的選擇。在需要算力的時(shí)候就租用別人的算力,再不需要的時(shí)候就可以把算力給釋放掉;這樣既節(jié)省了成本,也提升了資源的利用率。
而由于云計(jì)算的諸多特性,比如快速擴(kuò)容,集群,調(diào)度等等;使得把大模型搬到云上就是一個(gè)很好的選擇。
今天在看騰訊云平臺的時(shí)候,發(fā)現(xiàn)其提供了大量與大模型訓(xùn)練,微調(diào),部署相關(guān)的功能;其不但提供了算力支持,同時(shí)還封裝了很多與大模型訓(xùn)練,微調(diào),部署相關(guān)的工具包,加速器等工具。
其上不但可以部署自定義的大模型,而且其官方還提供了大量的預(yù)制基礎(chǔ)模型鏡像;用戶可以通過這些鏡像做上層的訓(xùn)練與部署開發(fā)。
如上圖所示,這種功能大大降低了大模型的訓(xùn)練和微調(diào)成本;不但是資金成本,同樣還包括技術(shù)成本;因?yàn)槠浞庋b了大量的基礎(chǔ)功能,只需要通過簡單的命令或API以及SDK集成即可使用。
這種方式,不但降低了企業(yè)的使用成本,對于對大模型技術(shù)感興趣的個(gè)人技術(shù)人員,或者學(xué)習(xí)大模型技術(shù)的人;也同樣讓他們有機(jī)會(huì)設(shè)計(jì)和訓(xùn)練部署屬于自己的大模型。
當(dāng)然,提供這種云上大模型服務(wù)的企業(yè)不僅僅騰訊一家;國內(nèi)還包括阿里,華為等多家云服務(wù)商;而國外包括微軟,谷歌等都提供了類型的功能模塊,方便大家使用。
因此,特別是對一些大模型應(yīng)用領(lǐng)域的創(chuàng)業(yè)者來說,這種云上模型解決了底層模型的很多問題,節(jié)省了大量的時(shí)間;使得創(chuàng)業(yè)者可以專注于自己的產(chǎn)品和功能實(shí)現(xiàn);而不用把大量的時(shí)間浪費(fèi)在大模型的底層架構(gòu)上。
所以說,對企業(yè)和創(chuàng)業(yè)者來說,一定要弄清楚自己的定位;到底是想做技術(shù),還是做產(chǎn)品,還是做服務(wù);不同的定位,需要關(guān)注不同的技術(shù)點(diǎn)和業(yè)務(wù)環(huán)節(jié)。
因此,隨著社會(huì)的發(fā)展,社會(huì)分工變得越來越細(xì);每個(gè)人都應(yīng)該找準(zhǔn)自己的定位,然后深入的鉆研下去;而不是在不同的領(lǐng)域里反復(fù)橫跳。
本文轉(zhuǎn)載自公眾號AI探索時(shí)代 作者:DFires
