每當我們面對一個極有可能顛覆行業(yè)的技術熱潮時,決策者對于未來的考量和判斷,往往決定著企業(yè)的最終走向。
面對火爆異常的大模型市場,火山引擎并沒有急于發(fā)布自己的通用大模型,而是選擇跟早期出圈的多家 AI 科技公司及科研院所強強聯(lián)合,推出大模型服務平臺“火山方舟”。這被業(yè)界評價為“在大模型的航海時代拼命造船”、“做淘金路上的賣水者”。
業(yè)界的這番評價準確嗎?火山引擎在大模型市場有哪些真正的意圖?不久前我們有幸采訪到火山引擎總裁譚待,聽他講講這其中的取舍發(fā)展之道。
大模型:水到渠成的質變
如果放到一個較長的時間維度來看,大模型的火爆,既有水到渠成,也有量變引起質變。一個領域的質變往往來自于對早期方向的準確判斷。
2017年,具有很強方法論的Transformer發(fā)布,包括BERT、GPT-1、2、3也都在之后相繼問世。
彼時,OpenAI有一個很重要的技術判斷:“scalling law”。在一定的計算量和數(shù)據(jù)量的情況下,模型的Loss是可以預測出來的。
然而,當時其實很多玩家去做嘗試,但都沒有發(fā)現(xiàn)這一點,所以人們會覺得“就是比以前好一些,但可能天花板就這樣”,也就放棄了持續(xù)的投入。
但OpenAI看到了這個大的趨勢,所以它義無反顧地投入了更多的資源來做這個事情。
接下來,外界看到OpenAI又去解決知識壓縮、對齊人類偏好的問題,把預測下一個任務和對人的有用性、有害性,做好對齊。
OpenAI一直在沿著這條路行進,所以,“它既是一個循序漸進的過程,又是一個量變引起質變的過程。”
AIGC這條賽道也只是剛剛開始。放在幾年前,很多大公司都會覺得這條路特別難,挑戰(zhàn)特別大,而且短期內不會實現(xiàn)。但是現(xiàn)在情況不一樣了,已經(jīng)有人證明了這條路是可以走的,大家就不太擔心“投資不確定性”的問題?,F(xiàn)在可以看到越來越多的人涌入到這個賽道里面來做這個事情。
未來大模型的金字塔格局
就像現(xiàn)在去看幾年前的Transformer一樣,大模型的時代只是剛剛開始。而關于大模型市場的未來格局,譚待提到:
“在大模型領域,起步門檻陡然升高,以前兩塊GPU就能訓練,現(xiàn)在至少一千塊起步,這會對一些小規(guī)模的公司很不友好,甚至是艱難的。但垂直賽道則不然,是另外一個邏輯?!?/p>
首先,垂直并不意味著規(guī)模小,垂直領域的規(guī)模也很大。第二,在垂直行業(yè),假如有一些數(shù)據(jù)或能力的壁壘,基于通用的模型去做自己的Finetune,也能夠得到一個在自身垂直領域效果較好的模型。
有人把大模型和上層應用比作是“iOS和Android”,這有些不恰當,操作系統(tǒng)跟應用的界限是比較清晰的。大模型則不然,因為很多應用的能力將來都有可能直接將其內化到大模型中去,之前AIGC獨角獸Jasper用的很多東西,現(xiàn)在基于底層模型就能干。
國內目前還處于先把基礎大模型做好的階段?!皣鴥仍S多做大模型的公司都是火山引擎的客戶,無論ToB、還是ToC,他們無一不是要把自己的模型能力給建起來?!?/p>
一些觀點認為“大家不要先做模型,先做應用”。譚待看來,這是有一點危險的。因為,未來某個應用中的某些能力,說不好就會直接被模型內化掉,也就失去了競爭壁壘。
模型本身的基礎能力完善之后,在落地應用上面還有很多的問題需要解決,比如訓練的成本問題,包括將來更高的推理負載。再比如推理時,還要考慮到終端用戶和商業(yè)邏輯,不管是個人付費,還是傳統(tǒng)廣告方式,收入提升都是有天花板的,要考慮應用所帶來的信任和體驗,是否足以覆蓋掉成本。
對此譚待總結:現(xiàn)階段還是把基礎大模型做好的階段,但未來在不同的領域,卻未必要用最好或最強的模型,而是要根據(jù)所在場景,選擇所擅長的、性價比最合適的模型。
在譚待看來,未來會形成金字塔樣式的大模型格局——幾個超強的模型,更多的能力中等但各有擅長的模型,以及更多在垂直領域做得比較好的模型。
未來的企業(yè)需要“多模型”
對于企業(yè)來說,長期來看會形成多模型的布局,在對應的領域內去找到最合適的組合策略,既可以自己研發(fā)訓練、或基于已有的基礎大模型來微調,也可能會直接去應用已有的模型,然后做Prompt Engineering。
當然,整個模型的生態(tài)有很多問題要解決,比如安全、信任的問題要解決,如何保證企業(yè)的Prompt的這些數(shù)據(jù)不會被模型的供應商拿走,同樣怎樣保證供應商的模型關鍵信息、技術不被泄露,有可能會出現(xiàn)第三方來做這個事情。
構筑信任墻至關重要,而火山引擎作為云平臺,通過互信計算框架,基于安全和隱私保護問題,提供了包括安全沙箱、可信硬件及聯(lián)邦學習方案,以此保證應用企業(yè)和模型供應商在互信的基礎上進行合作。
此外,未來模型應用時,也會有類似于Copilot、Autopilot的工具或應用,只有將這些生態(tài)打通,才能讓模型做更多的事情。“不管是模型的基礎能力,還是落地應用,還是生態(tài)布局,都需要我們花更多的時間,投入更多的精力去推進?!?/p>
不推出自己的大模型
大模型既然前景無限,那為什么火山引擎不自己做大模型?譚待給出了火山引擎對大模型生態(tài)不一樣的解讀視角。
火山引擎基于對未來多模型趨勢的判斷,無論是在多模型的訓練還是應用上,目標是去提供好對應的解決方案,比如說信任的方案、成本優(yōu)化的方案,還有比如說工具鏈、腳手架、最佳實踐的方案。
火山引擎打造多模型的平臺,而不是直接下場做大模型,就是要把多模型的平臺做好,不管是內部的模型還是外部的模型,都可以用一樣的方式,對各行各業(yè)的企業(yè)和組織提供一流的服務。
云還有許多難題要攻克
大模型時代,即便將自己定位成只做云,也會有非常多的挑戰(zhàn)需要解決。因為整個大模型行業(yè)要做好、應用好,是需要多個角色一起參與進來的。大模型給各個生態(tài)層面都留足了空間,云廠商也是一樣,“挑戰(zhàn)和價值都是非常大的?!?/p>
譚待強調:“你不可能把所有事情全部做完,而且也不擅長。即便做了,行業(yè)和客戶也不會因此而受益,那為什么還要去做?”
云是更大的一個范疇。相較大模型而言,云是更大的應用場景。在云上的時候,它提供的能力很多,有的是智能化的能力,有的是數(shù)據(jù)分析、統(tǒng)計的能力,有的是DevOps的能力。
云和大模型所需的核心能力是不一樣的。所以,火山引擎的定位很清晰,就是把云這件事做好。其他領域,包括新領域會對云提出更多的新需求,那就攜手一起解決這些問題。
堅持云優(yōu)先,持續(xù)做好云才是關鍵
于火山引擎而言,把云這件事做好是最重要的事情。為什么要“云優(yōu)先”?因為云是依賴于規(guī)模升級的產(chǎn)品,規(guī)模做大才能夠提供更高的性價比、更低的成本,這樣企業(yè)才能更好地進行數(shù)字化創(chuàng)新。
“正是基于此,許多人都會發(fā)現(xiàn),火山引擎每一次發(fā)布會都會把性價比、成本放到突出的位置上,而且強調是通過技術手段去實現(xiàn)可持續(xù)的降本。”而要從本質上通過技術來訓練好內功,就要做好克服極大困難的準備。
大模型也是一樣的,最終成本太高,即使1000 Tokens一分錢,對于很多領域而言,成本還是很高,將來模型效果更好的時候,這個成本會更貴。如果不能把成本優(yōu)化下來,就不大可能大規(guī)模地使用。
反過來,通過節(jié)約的成本去維護整個技術團隊來持續(xù)做技術的優(yōu)化。所以業(yè)務規(guī)模決定了資源規(guī)模,也決定了技術團隊的規(guī)模。
好技術,總會有人買單
為什么許多優(yōu)質的大模型廠商選擇了火山引擎?據(jù)譚待介紹,繞不開兩個事實。
第一,在ChatGPT推出之前,火山引擎就敏銳地看到了小模型正在往大模型遷移的趨勢,因此就有了更多的算力儲備。比如在自動駕駛領域,去年火山引擎就沉淀了許多客戶,這些儲備在今年得到了應用,這一點非常重要。
第二,算力并不是簡單的GPU卡的供給,如何能讓一千張、四千張,甚至將來超過一萬張GPU卡穩(wěn)定地去訓練一個大模型出來,其實需要在服務器、網(wǎng)絡,以及整個平臺調度的層面都做非常多的事情。“除了算力以外,火山引擎是市面上少數(shù)能夠幫客戶長期穩(wěn)定地去實現(xiàn)數(shù)千卡乃至未來上萬卡規(guī)模訓練的云服務商?!?/p>
任何技術都必須經(jīng)由真實場景來打磨,火山引擎既然不自己做大模型,如何保證自己的大模型方案是經(jīng)歷過打磨的呢?
譚待在這里提到了火山引擎獨特的“內外同源”,即同一個產(chǎn)品、同一個平臺、同樣的技術架構,它既是對內服務抖音的,也是對外服務火山引擎客戶的。這樣就可以通過內部龐大規(guī)模的資源和場景去打磨最靠譜的技術服務,而不是把外部的客戶當作小白鼠。
ChatGPT之前,抖音內部其實已經(jīng)有大量的推薦和廣告的場景,模型的規(guī)模體量非常巨大,需要至少幾千卡的資源,能夠做到穩(wěn)定地訓練和推理。網(wǎng)絡結構上局部也采用了Transformer等等。
這些經(jīng)驗積累到火山引擎的機器學習平臺之后,價值巨大,能夠幫助外部客戶快速地完成冷啟動過程,把模型跑好。
此外,火山引擎不僅能幫大模型廠商做好訓練,也可以幫他們一起去搭建好服務各行各業(yè)的應用。這也是市場需求決定的,不管是Prompt Engineering、微調、還是基于開源來訓練,都需要有一個平臺幫他們把這些事解決,通過這個平臺可以找到適合它各個場景的模型,同時把安全、成本、穩(wěn)定性等等都優(yōu)化好。
寫在最后
大模型的熱度依舊在持續(xù)沸騰,方向取舍往往決定著變革成敗。洞察到更深層邏輯的人,可能會帶給我們更多驚喜,且讓我們拭目以待。
欄目介紹:
T·TALK是由51CTO出品的深度訪談欄目,由51CTO總編團對話以互聯(lián)網(wǎng)技術為主導的企業(yè)CTO、技術團隊負責人、創(chuàng)始人,在一場深入對話中,發(fā)現(xiàn)技術在企業(yè)關鍵轉折和創(chuàng)新變革中的真正價值。