瀾舟科技周明:大模型未必越大越好,百億級可能就夠用
本文整理自瀾舟科技創(chuàng)始人兼CEO周明在WOT2023大會上的主題分享,更多精彩內(nèi)容及現(xiàn)場PPT,請關(guān)注51CTO技術(shù)棧公眾號,發(fā)消息【W(wǎng)OT2023PPT】即可直接領(lǐng)取。
大模型概括一下就是幾件事:一是要有大規(guī)模的文本,比如說互聯(lián)網(wǎng)文本;二是用大規(guī)模的算力、用無監(jiān)督的方式訓(xùn)練一個(gè)大模型。大模型基本上就告訴你輸入的句子或者詞在上下文中的作用。你可以簡單地理解出它的語義、語法、前后文的制約等等。
基于這樣的理解,我們做下面的一些任務(wù)的時(shí)候,要么就做微調(diào)——在GPT-3之前,像BERT、T5都是通過微調(diào)的方式來支持下游任務(wù)的。所謂微調(diào),就是對整個(gè)模型從底層到最高層,從輸入層到輸出層都要做一些調(diào)整,一個(gè)模型支持一個(gè)任務(wù)。
現(xiàn)在有了GPT-3以后,尤其是ChatGPT發(fā)展了提示詞的功能,就不用微調(diào)了。你告訴清楚你要做什么,如果還不能執(zhí)行好的話,你給它一兩個(gè)例子,它就可以完成你要的相應(yīng)任務(wù),這個(gè)就大幅度提高模型的訓(xùn)練能力,使得一個(gè)模型可以支持N多個(gè)任務(wù)。
現(xiàn)在來講,大模型代表了兩件事:
第一,像ChatGPT這樣的模型支持了語言理解、多輪對話和問題求解,使這些功能進(jìn)入到了可實(shí)用的階段。
第二,解決了AI或NLP任務(wù)碎片化開發(fā)問題,大幅度提高了研發(fā)效率,標(biāo)志著NLP進(jìn)入了工業(yè)化可實(shí)施階段。
大模型引導(dǎo)智能水平越來越高
AI最近幾年從AI 1.0到AI 2.0,到未來的AGI一點(diǎn)一點(diǎn)發(fā)展,整個(gè)趨勢,就是能力越來越強(qiáng),開發(fā)效率越來越高,使用越來越簡單,結(jié)果越來越可控。
什么叫AI 1.0呢?就是一個(gè)任務(wù)一個(gè)模型,或者一個(gè)模型就管這一個(gè)任務(wù)。除了這個(gè)任務(wù)之外,其他的任務(wù)都不怎么支持,開發(fā)的周期比較冗長,投入資源也比較高。微調(diào)了什么能力就有什么能力,沒有所謂的涌現(xiàn)能力。我把所有大模型之前的能力,包括大模型早期的微調(diào)能力,都叫做AI 1.0模型。
有了ChatGPT和GPT-4后,就進(jìn)入到所謂AI 2.0階段。用一個(gè)提示詞的技術(shù),就把能力調(diào)用起來了。而且它上下文可以看得很長,出現(xiàn)了一些涌現(xiàn)能力。
所謂涌現(xiàn)能力,就是原來模型小的時(shí)候有些能力比較弱,模型一大或者數(shù)據(jù)量增加的時(shí)候,有些能力產(chǎn)生了躍遷,產(chǎn)生了一些意想不到的高水平能力。
AI 1.0和AI 2.0在目前是并存的,但是整個(gè)發(fā)展趨勢是不斷的從AI 1.0模型到AI 2.0模型,使得效率越來越高。
未來我們沿著這個(gè)趨勢,假設(shè)一個(gè)模型支持N多任務(wù)、而且N是越來越多的話,似乎就一點(diǎn)點(diǎn)走向所謂的AGI。但是也不一定那么容易,其實(shí)還是有很多問題。比如說對結(jié)果的可解釋性和不斷自我學(xué)習(xí)的能力,目前的大模型還是有點(diǎn)弱。再比如對能力和結(jié)果的可控,要符合人類倫理和社會規(guī)范,目前也還有挑戰(zhàn)。
但是不管怎么樣,大家可以看到目前存在這樣的一個(gè)趨勢,就是大模型、大數(shù)據(jù)引導(dǎo)著智能水平越來越高。
針對大模型的困惑和挑戰(zhàn)
大模型出來之后,各行各業(yè)都很興奮,想要試試大模型,也認(rèn)為這是一個(gè)產(chǎn)業(yè)升級的機(jī)會。可是他們存在著很多困惑:
- 這么多大模型,我該采購呢?還是找一家模型廠商合作呢?甚至現(xiàn)在開源的這么多,是不是也可以自研?
- 我不論怎么選擇,怎么知道這個(gè)大模型的水平?如何評估?
- 我想知道這個(gè)大模型跟我這個(gè)行業(yè)知識、行業(yè)數(shù)據(jù)怎么一起工作。
- 大模型有正兒八經(jīng)胡說八道的問題,就是所謂幻覺問題。我怎么用其長、克其短。
- 如何保護(hù)企業(yè)的隱私安全。
- 成本問題,大模型現(xiàn)在動不動報(bào)價(jià)幾百萬,甚至上千萬,我怎么來節(jié)省成本?
大模型廠商也存在相應(yīng)的一些挑戰(zhàn): - 怎么來理解行業(yè),行業(yè)到底需要什么,不需要什么,多做什么,少做什么?
- 大模型的功能和規(guī)格,大模型越練越大,軍備競賽受得了嗎?
- 最后一公里,大模型做好了之后,如何跟用戶的業(yè)務(wù)嵌在一起,使它能夠很平滑地運(yùn)轉(zhuǎn)?
- 所謂的飛輪效應(yīng)。你做企業(yè)服務(wù)的話,企業(yè)有數(shù)據(jù)保護(hù)的問題,你怎么來實(shí)現(xiàn)飛輪效應(yīng)?要么數(shù)據(jù)飛輪,要么功能飛輪。
- 大模型企業(yè)商業(yè)模式是什么?你是在云上部署、API調(diào)用、計(jì)量計(jì)費(fèi)?還是到用戶那里本地部署?這兩者的利弊是什么?或者兩者都做的話,如何隨著時(shí)代的變化而做一些演變?
大模型服務(wù)企業(yè)的關(guān)鍵解決之道
以上簡單介紹了大模型的發(fā)展,下面就介紹大模型服務(wù)企業(yè)的一些關(guān)鍵,我也希望我講的這些東西對于以上的疑問有一些解答。
第一,企業(yè)為什么要用大模型?用它干什么?這不能追風(fēng),別人用了你就得用。
企業(yè)現(xiàn)在都面臨很多的問題:一是降本增效。比如客服,服務(wù)1000人用10個(gè)人的客服,1萬人就是100個(gè)客服。線性增長的話,光客服就受不了,當(dāng)然還有其他方面的因素。
客服偏向于勞動密集型,還有一些所謂智力密集型行業(yè),比如做營銷文案設(shè)計(jì),小紅書、微博、微信...不同的產(chǎn)品有不同的風(fēng)格,設(shè)計(jì)任務(wù)很繁重。
第二,企業(yè)能不能做所謂的數(shù)智化轉(zhuǎn)型呢?它的前提是數(shù)據(jù)問題。企業(yè)過去十幾年,尤其是央企國企都有很多好的數(shù)據(jù)存在那兒。現(xiàn)在恰好是大模型時(shí)代,把這樣的數(shù)據(jù)好好用起來,就能夠?qū)崿F(xiàn)降本增效的功能。
大模型如果做好的話,完全可以當(dāng)成一個(gè)“企業(yè)大腦”來支持各個(gè)部門的應(yīng)用。
大模型時(shí)代怎么來促進(jìn)企業(yè)新一代的軟件開發(fā)水平呢?可能很多人都用過Copilot(微軟在Windows 11中加入的AI助手),Copilot就是你編程的時(shí)候,它給你很多的提示和各種幫助。
我這里想強(qiáng)調(diào)的是,大模型時(shí)代實(shí)際上產(chǎn)生了一種新的軟件工程范式,軟件工程都不像以前那么做了。以前做一個(gè)項(xiàng)目,任務(wù)碎片化嚴(yán)重,數(shù)據(jù)標(biāo)注代價(jià)大、開發(fā)周期大、交付成本高、維護(hù)困難。
現(xiàn)在有了大模型,你要做的事情是什么?就寫prompt或者微調(diào),prompt就是一個(gè)模型管N個(gè)功能,你把prompt寫好之后在前面加一個(gè)界面就完事了。有的特別重要的功能你不好寫prompt,或者以前沒有積攢那么好的數(shù)據(jù),你用大模型也是可以來加速整個(gè)開發(fā)過程的。
對于企業(yè)數(shù)智化轉(zhuǎn)型,搞一個(gè)多大的模型才好呢?其實(shí)我們要盲目跟風(fēng)的話,搞個(gè)上萬億參數(shù)的模型是不是更好呢?但這就意味著成本非常之大。這樣的模型訓(xùn)練的代價(jià)大,部署的成本也比較高。給企業(yè)用,企業(yè)都不敢用,因?yàn)榭赡苁?2塊卡以上,甚至更多的A100以上才能把大模型支起來。
對于企業(yè)服務(wù),到底用多大模型才好呢?我這里畫了一個(gè)曲線,來說明大模型應(yīng)該做多大為好。
其實(shí)我們今天所看到的大模型實(shí)際上是包含了兩個(gè)能力:語言理解能力和AGI能力。但是我們平時(shí)是混在一起用的,所以也分不清楚哪些地方是語言理解、哪些地方是AGI。就像高中畢業(yè)的同學(xué)跟一個(gè)院士對話,他倆的語言理解能力是一樣的,但是專業(yè)水平或解題能力不一樣。
那我們做企業(yè)服務(wù)的時(shí)候,更注重哪一塊呢?其實(shí)更注重語言理解能力。對于解題能力,企業(yè)有專門的引擎或者專門的資深專業(yè)人士來解決,大模型有時(shí)候正兒八經(jīng)胡說八道還可能添亂。
如果我們要做語言理解能力,我們要回到現(xiàn)實(shí):只要做百億模型到千億之間任何一個(gè)選擇,就可以支持企業(yè)的數(shù)智化轉(zhuǎn)型了。
反過來推你需要多少卡去訓(xùn),基本上是300塊卡到500塊卡就可以解決這樣的問題了,所以大家都放心了。
大模型做好之后,我們還要問一個(gè)問題:怎么去服務(wù)企業(yè)?怎么做好最后一公里?拿著大模型到企業(yè)說“你拿去用吧,準(zhǔn)保好用”,基本都不好用,為什么?企業(yè)的需求跟通用模型的需求是不一樣的——最好的通用模型都不一定能解決企業(yè)的基本需求。
得先把人家所在的行業(yè)搞清楚,把行業(yè)的專家知識、數(shù)據(jù)灌到模型上,把你的模型充實(shí)。這就相當(dāng)于高中畢業(yè)之后讀了某個(gè)專業(yè),比如計(jì)算機(jī)專業(yè),然后才能解答計(jì)算機(jī)專業(yè)的問題。
有了行業(yè)模型,要解決具體問題的時(shí)候,還要對每一個(gè)任務(wù)場景了解,這就是所謂最后一公里的問題。
比如以金融為例,就是金融研報(bào)提取、市場情緒、金融摘要生成、金融搜索、金融實(shí)體識別等等,有很多這樣的問題。你拿你的行業(yè)模型去試,如果不work的話,就得把企業(yè)已有的數(shù)據(jù)加進(jìn)去,要么微調(diào),要么寫prompt,把最后一公里的問題寫進(jìn)去。
做大模型的人要跟企業(yè)合作,才能了解企業(yè)需求。第二你要跟企業(yè)一起做,把它的場景理解清楚,把它的業(yè)務(wù)理解清楚,把最后一公里做好。用這樣的模式服務(wù)企業(yè),才能把大模型一步一步做到比較深入、徹底。
大模型和行業(yè)模型做好之后,怎么來做商業(yè)模式?其實(shí)仁者見仁、智者見智,底層是訓(xùn)練,然后訓(xùn)出很多模型,然后有那么多功能?,F(xiàn)在來講,要么就是通過云的方式,API計(jì)時(shí)計(jì)量。要么有些企業(yè)說我的數(shù)據(jù)不能上公有云,我要做本地部署。
你如何給企業(yè)做深度定制,然后本地部署?你的工作效率要足夠高,否則你沒有錢賺,你做一個(gè)會賠一個(gè)。這是第一件事,就是你如何有一個(gè)高效率的研究、開發(fā)和交付一條龍的團(tuán)隊(duì),高效率地完成從接單到支付的全過程。這時(shí)候就應(yīng)該把所謂大模型的技術(shù)好好用起來,比如說大模型的prompt技術(shù)用起來,來增加開發(fā)的效率或者降低成本等等。
第二是所謂飛輪問題,你要沒有飛輪的話,做完A再做B是一點(diǎn)收益也沒有,還得從頭開始做,做ToB企業(yè)服務(wù)最麻煩的就是很難產(chǎn)生飛輪。不過我覺得,在大模型時(shí)代,還是有一些機(jī)會能做出飛輪的。
一是在做行業(yè)模型的時(shí)候,如果是同一行業(yè)的不同企業(yè),他們行業(yè)數(shù)據(jù)假設(shè)沒有保密的話,互相之間共享,然后把行業(yè)模型越做越大,這個(gè)是有可能產(chǎn)生一些飛輪效應(yīng)的。
二是prompt。你在服務(wù)不同企業(yè)的時(shí)候,服務(wù)的具體任務(wù)會寫prompt。那些prompt一般不是保密的,因?yàn)橐粋€(gè)prompt對應(yīng)某一個(gè)功能。prompt積累下來,也會形成某種意義上的飛輪效應(yīng)。日積月累的話,你對行業(yè)越了解越深,數(shù)據(jù)積累越來越多,功能越來越多,某種意義上也形成了所謂的行業(yè)壁壘,使得你這個(gè)企業(yè)在這個(gè)行業(yè)可能是做到最好。其他企業(yè)剛進(jìn)來缺乏這些飛輪效應(yīng)的話,可能落后于你,這樣你會有先期的機(jī)會。
以金融為例,大模型如何在行業(yè)落地
大模型做完之后怎么在行業(yè)落地?我舉一個(gè)金融行業(yè)的例子。金融行業(yè)大模型實(shí)際上是所謂L2模型,它是基于L1通用模型的基礎(chǔ)上,拿金融很多不同的數(shù)據(jù)灌進(jìn)去,然后訓(xùn)練出金融模型。
這個(gè)金融模型能夠干什么呢?它能夠支持金融行業(yè)通用的一些任務(wù),比如搜索問答、翻譯、文檔抽取、情感分析、文檔審核等等。另外支持企業(yè)的各種應(yīng)用場景,就是所謂Application Driven過程,它的底座一定要強(qiáng)。目前我們用孟子的通用模型,就是L1模型來支持各個(gè)行業(yè)的模型開發(fā)。
假設(shè)行業(yè)模型做好之后,在金融有哪些具體的場景呢?比如說客服,我們把金融大模型做好之后,金融客服怎么做?大家知道大模型有一個(gè)正兒八經(jīng)胡說八道的問題,所以簡單地把客服數(shù)據(jù)端對端訓(xùn)練也有可能產(chǎn)生一些正兒八經(jīng)胡說八道。比如你把前幾年的數(shù)據(jù)灌進(jìn)去訓(xùn),說某一件商品打折了,可能業(yè)務(wù)部門突然說這個(gè)商品不打折了。大模型學(xué)習(xí)得挺好,告訴用戶打折了,來買這個(gè)商品吧,那這個(gè)會對業(yè)務(wù)產(chǎn)生極大的煩擾。
這個(gè)時(shí)候大模型要用其長、克其短,它的長處就是意圖理解和對話生成。意圖理解完了之后,還是應(yīng)該走客服的業(yè)務(wù)數(shù)據(jù)庫。業(yè)務(wù)數(shù)據(jù)庫回復(fù)結(jié)果之后,再通過大模型的生成能力,多樣化、有溫度、個(gè)性化的生成所謂大模型的客服場景。
客戶的營銷場景,比如保險(xiǎn)公司要推銷理財(cái)產(chǎn)品或者保險(xiǎn)產(chǎn)品等等,那怎么來做營銷?無非是營銷內(nèi)容怎么生成?保險(xiǎn)產(chǎn)品怎么推薦?銷售如何輔助,保險(xiǎn)產(chǎn)品咨詢等等。甚至營銷人員的培訓(xùn)都可以用大模型來支撐。
我們投研人員經(jīng)常要做搜索,搜索完結(jié)果后研判,再寫報(bào)告。用大模型就可以把這三件事串在一起一體化來解決。大模型的匹配能力也增強(qiáng)了,語言理解能力增強(qiáng),搜索結(jié)果就變好了。搜索完之后,對搜索結(jié)果做所謂的Chat,你可以了解一些細(xì)節(jié),然后形成洞見、觀點(diǎn)或者摘要。最后再通過文本生成的技術(shù),寫一篇研報(bào)發(fā)給有關(guān)人士共享。這三者都是通過一個(gè)大模型來支撐的。
這就是孟子大模型的體系結(jié)構(gòu),最底層的是各種各樣的數(shù)據(jù),比如通用數(shù)據(jù)、金融行業(yè)的垂直數(shù)據(jù)。孟子大模型訓(xùn)練出來,把這些金融數(shù)據(jù)灌進(jìn)去,訓(xùn)練一個(gè)L2金融模型,然后有各種各樣的能力支撐,服務(wù)于金融企業(yè)。
最近我們練的模型,也跟現(xiàn)在市面上的已經(jīng)開源的通用大模型和開源的金融大模型做了對比。當(dāng)然,也跟我們孟子大模型本身進(jìn)行了對比。大家看到,1750億的參數(shù)的ChatGPT表現(xiàn)真的是不錯(cuò),在很多場合都是不錯(cuò)的。但是我們雖然是100億級別的模型,由于專門做行業(yè)模型,也有一些場合比ChatGPT好。
所有的金融大模型訓(xùn)練出來的結(jié)果,它的水平比通用模型都好那么一些。這就說明從L1走到L2是有道理的,把金融場景數(shù)據(jù)灌進(jìn)去,它的水平確實(shí)得到了相應(yīng)的提升。
基于這些大模型,在金融行業(yè)怎么落地?就是所謂L3的問題,很多的場景怎么落地?像我們的大模型做信用卡業(yè)務(wù)咨詢、換匯業(yè)務(wù)咨詢,然后海量數(shù)據(jù)中快速獲取關(guān)鍵信息用于智能投顧,然后是金融稿件的助寫,包括報(bào)告題綱和金融模板,以及理財(cái)產(chǎn)品的營銷、養(yǎng)老金的營銷,這些都是大模型可以寫出來的,只需要把需求寫清楚即可。理財(cái)咨詢,金融行業(yè)中外文之間的信息交流要做翻譯,目前的大模型也可以支持16種語言之間的金融領(lǐng)域的翻譯。
如果不用Chat這種交互方式,大模型還能帶來一種新的軟件工程開發(fā)范式的改變。舉一個(gè)例子,我們要做基于孟子大模型的行業(yè)搜索,過去非常麻煩的一件事。現(xiàn)在有大模型就簡單了,所有這些能力用prompt就帶出來了。然后用API調(diào)用這些prompt,就有這樣的能力。
剩下你要做的工作,就是把界面設(shè)計(jì)清楚,體現(xiàn)出最佳的用戶體驗(yàn)就行了。像這樣的搜索引擎,比如可以用金融的視頻會議分析,分析出它的摘要。整個(gè)會議兩個(gè)多小時(shí)講了什么東西,有哪些是正面情感,有哪些負(fù)面情感。沿著時(shí)間順序講了哪些主題?你可以瀏覽。也可以分析整個(gè)參會人員有哪幾個(gè),出現(xiàn)了哪些實(shí)體或者關(guān)鍵詞,你可以快速瀏覽一個(gè)金融會議。
同樣的道理,做金融的研判也是一樣可以快速實(shí)現(xiàn)。大家可以看到用大模型實(shí)現(xiàn)具體行業(yè)L3的功能,就變得相對比較容易了。
這是再重溫一下L1、L2、L3的開發(fā)場景落地過程。L1就是通用大模型,L2是金融大模型,L3是各種場景模型。利用我剛才所講的軟件工程的開發(fā)規(guī)范,用prompt來寫各種各樣的能力調(diào)用,就可以快速生成一些具體的場景任務(wù)。
擁抱大模型:現(xiàn)在不起步就落伍了
最后講一些未來的思考,我們還是回到剛才開篇講到的企業(yè)困惑。
第一,大模型眼花繚亂,我該采購還是找一家廠家合作研究呢?還是利用開源自己做?
我覺得不同的人有不同的需求,有的大型企業(yè)有自己的能力想自己做;有的人稍微能力弱可能去買;也有的企業(yè)能力要好不壞,可能找一些大模型廠家合作,希望培養(yǎng)長期的能力。
我給大家的建議,如果你的任務(wù)是通用任務(wù),也不要重新造一個(gè)輪子,直接調(diào)大模型廠家提供的云服務(wù)。如果覺得數(shù)據(jù)不能出來,干脆聊本地化部署的問題。
如果你的任務(wù)是特殊任務(wù)需要定制,你跟大模型廠家聊一聊,看看能不能幫你定制所謂L3的能力,或者考慮要么API調(diào)用,要么本地部署。如果想自研需要考慮有沒有一個(gè)厲害的團(tuán)隊(duì),而且自己要有足夠的大數(shù)據(jù)、大算力能力。
如果想用開源的話,你得研究開源能不能支撐這個(gè)能力,或者開源能不能支持你的內(nèi)部商用。這都是很多很多的問題。如果對自研沒有把握,最好找大模型廠家做深度合作。
第二,這么多大模型,包括自研的大模型怎么知道好和壞呢?
這就是所謂評測的問題,評測是很難的,但是特別重要。有一些公開評測從不同的角度評測,但都不代表權(quán)威的評測,有的是不同方面,你自己要做甄別。你喜歡哪些,不喜歡哪些,要集成在一起來做一些判斷。你自己關(guān)心的任務(wù)自己要做評測,對你要采用的各種模型,包括自研和外采都要做好評測,你覺得它好再進(jìn)行深入地探討。
第三,行業(yè)知識怎么跟大模型工作?
有的人說,我的行業(yè)知識數(shù)據(jù)是不是都灌到大模型去訓(xùn)?你自己要判斷。有的是比較穩(wěn)定的數(shù)據(jù)可以灌在所謂L2模型上做Continue-Training。有的不能,你只能外掛,因?yàn)樗莿討B(tài)的、實(shí)時(shí)的變化,它是業(yè)務(wù)的數(shù)據(jù)。外掛怎么掛?現(xiàn)在有一些大模型的分發(fā)能力、調(diào)用集成像LangChain、向量數(shù)據(jù)庫等等,幫助你來實(shí)現(xiàn)某種意義上的外掛。
第四,大模型有很多“幻覺”,怎么用其長、克其短?
最好只用它的長處,就是意圖理解和多輪對話。輕易不要用它的AGI能力,如果底層有一些推理能力是可以用的,表層的AGI能力不一定可用。
第五,保護(hù)隱私的問題。
如果特別強(qiáng)調(diào)隱私,你就是本地化部署,否則也可以考慮云。無論哪種方式,你要對數(shù)據(jù)安全和隱私擁有完全的控制權(quán)。
第六,造價(jià)成本的問題。
現(xiàn)在大模型剛剛起來,練大模型的廠家花費(fèi)巨大,大模型的成本是居高不下的。你要考慮,要么調(diào)用API,你就是計(jì)量計(jì)費(fèi);要么找一些小點(diǎn)的模型,像我這邊是力推輕量化模型,因?yàn)?/span>百億模型和千億模型造價(jià)成本差至少10倍以上。但是在企業(yè)服務(wù)的角度來講,百億模型的能力跟千億模型幾乎是一樣的。大家可以好好考慮這個(gè)問題。
最后強(qiáng)調(diào)一下,一定要擁抱大模型。不管是遲疑、觀望、等待還是自研,首先要采取行動,因?yàn)榇竽P蜁淖兡闼诘男袠I(yè)和所在企業(yè)的數(shù)智化能力。如果現(xiàn)在不起步的話,可能就落伍了。再過兩三年,你的競爭對手早就跑到你的前面去了。