李沐大模型創(chuàng)業(yè)一年總結(jié):張一鳴、宿華建議,寫信給黃仁勛,收支打平
李沐大神在去年2月創(chuàng)業(yè)創(chuàng)辦了大模型公司BosonAI,就在14日,他在知乎上發(fā)表了創(chuàng)業(yè)一年后的反思,這里為諸位奉上原文(《創(chuàng)業(yè)一年,人間三年》),希望能給GenAI浪潮中的你我一些啟發(fā)。
在Amazon呆到第五年的時(shí)候就想著創(chuàng)業(yè)了,但被疫情耽擱了。到第7年半的時(shí)候,覺得太癢了,就提了離職。現(xiàn)在想來,如果有什么事這一輩子總要試下的,就蹭早。因?yàn)檎骈_始后會(huì)發(fā)現(xiàn)有太多新東西要學(xué),總感嘆為啥沒能早點(diǎn)開始。
名字:BosonAI的來源
創(chuàng)業(yè)前做了一系列用Gluon命名的項(xiàng)目。在量子物理里,Gluon是把夸克綁在一起的一種玻色子,象征這個(gè)項(xiàng)目一開始是Amazon和Microsoft的聯(lián)合項(xiàng)目。當(dāng)時(shí)項(xiàng)目經(jīng)理拍拍腦袋名字就出來了,但取名對(duì)程序員來說很困難,我們每天都在糾結(jié)各種文件名和變量名。最后新公司干脆就用玻色子(Boson)來命名了。希望大家能get到“Boson和費(fèi)米子組成了世界”這個(gè)梗時(shí)會(huì)會(huì)心一笑。但沒料到很多人會(huì)看成Boston。
“我來波士頓了,找個(gè)時(shí)間碰碰?” “哈?可我在灣區(qū)呀 ”
融資:簽字前一天領(lǐng)投方跑路
22年年底的時(shí)候想到兩個(gè)用大語(yǔ)言模型(LLM)做生產(chǎn)力工具的想法。碰巧遇到張一鳴,就向他請(qǐng)教。討論之后他反問:為什么不做LLM本身呢?我的下意識(shí)退縮:我們之前在Amazon的團(tuán)隊(duì)做了好幾年這個(gè),得上萬張卡,和blabla這么一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光得看長(zhǎng)遠(yuǎn)點(diǎn)。
我的優(yōu)點(diǎn)是聽勸,真就去做LLM了。湊齊了數(shù)據(jù)、預(yù)訓(xùn)練、后訓(xùn)練、和架構(gòu)各方向負(fù)責(zé)人的創(chuàng)始團(tuán)隊(duì),就去融資了。運(yùn)氣不錯(cuò),很快拿到了種子投資。但錢還不夠買卡,得去拿第二輪。這一輪領(lǐng)頭是一家非常大的機(jī)構(gòu),做了幾個(gè)月文檔、商討條款。但在簽字前一天,領(lǐng)頭說不投了,直接導(dǎo)致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做LLM的入場(chǎng)券。
今天反思的話,當(dāng)時(shí)蹭著資本市場(chǎng)熱情還在,其實(shí)可以繼續(xù)融資,說不定也跟其他友商一樣,現(xiàn)在十億現(xiàn)金在手。當(dāng)時(shí)擔(dān)心融資太多,會(huì)不好退出,或者被架到天上去了?,F(xiàn)在想來,創(chuàng)業(yè)就是想逆天改命,想什么退路呢?
機(jī)器:第一批吃螃蟹的人
有了錢后就去買GPU。問各個(gè)供應(yīng)商,統(tǒng)一回復(fù)是H100交貨得一年以后了。靈機(jī)一動(dòng),直接給老黃寫郵件。老黃秒回說他來看下。一個(gè)小時(shí)后超微的CEO就打電話過來了。多付了些錢,插了個(gè)隊(duì),20天后拿到了機(jī)器。很榮幸早早的吃到了螃蟹。
螃蟹吃到懷疑人生,遇到了各種匪夷所思的bug。例如GPU供電不足導(dǎo)致不穩(wěn)定,后來靠超微工程師修改bios代碼打上補(bǔ)?。焕绻饫w的切開角度不對(duì),導(dǎo)致通訊不穩(wěn)定;例如Nvidia的推薦網(wǎng)絡(luò)布局不是最優(yōu),我們重新做一個(gè)方案,后來Nvidia自己也采用了這個(gè)方案。至今我都不理解,我們就買了不到一千張卡,算小買家吧。但我們遇到的這些問題,難道大買家沒遇到嗎,為啥需要我們的debug?
同時(shí)我們還租了同樣多的H100,一樣是各種bug,GPU每天都出問題,甚至懷疑是不是這個(gè)云上就我們一個(gè)吃螃蟹的。后來看到Llama 3的技術(shù)報(bào)告說他們改用H100后,訓(xùn)練一次模型被打斷幾百次,對(duì)字里行間的痛苦,很是共情。
如果對(duì)比自建和租卡的話,租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個(gè)。一是三年后如果Nvidia技術(shù)還遙遙領(lǐng)先,那么它能控制價(jià)格使得GPU仍然保值 。另一個(gè)是自建的數(shù)據(jù)存儲(chǔ)成本低。存儲(chǔ)需要跟GPU比較近,不管是大云還是小GPU云,存儲(chǔ)價(jià)格都高。但一次模型訓(xùn)練可以用幾TB空間存checkpoint,訓(xùn)練數(shù)據(jù)存儲(chǔ)是10PB起跳。如果用AWS S3的話,10PB一年兩百萬。這錢用來自建的話,可以上100PB。
商業(yè):感恩客戶,第一年收支平衡
非常幸運(yùn)的,我們第一年收入和支出是打平的。我們支出主要在人力和算力上,感謝Openai的財(cái)力和Nvidia的遙遙領(lǐng)先,這兩項(xiàng)支出都挺大的 。我們的收入來源是給大客戶做定制的模型。很早就上LLM的公司大都是因?yàn)镃EO非常有決策力,他們沒被高昂的算力和人力成本嚇到,果斷的去推動(dòng)內(nèi)部團(tuán)隊(duì)配合嘗試新技術(shù)。非常感恩客戶給了我們喘氣的時(shí)間,不然這個(gè)幾個(gè)月我又是奔波在各個(gè)投資人那里。
接下來應(yīng)該會(huì)有更多公司去嘗試使用LLM,不論是自己產(chǎn)品的升級(jí),還是降本增效。原因是一方面技術(shù)成本在降低,另一方面行業(yè)領(lǐng)先者(例如我們客戶)會(huì)陸續(xù)放出基于LLM的產(chǎn)品出來,把行業(yè)卷了起來。
我們也在關(guān)注LLM在toC上的落地。上一波頂流例如c.ai和perplexity還在找商業(yè)模式,但也有小十來家LLM原生應(yīng)用收入還不錯(cuò)。我們給一家做角色扮演的創(chuàng)業(yè)公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進(jìn)化,更多模態(tài)(語(yǔ)音、音樂、圖片、視頻)在融合,相信接下來還會(huì)有更有想象力的應(yīng)用出現(xiàn)。
整體來說行業(yè)和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術(shù)到產(chǎn)品是一個(gè)很長(zhǎng)的過程,花2、3年實(shí)屬正常。算上用戶的需求的涌現(xiàn),可能得花更長(zhǎng)時(shí)間。我們專注當(dāng)下在迷霧中探路,對(duì)未來保持樂觀。
技術(shù):LLM認(rèn)知的四個(gè)階段
對(duì)LLM的認(rèn)知經(jīng)歷了四個(gè)階段。第一階段是Bert到GPT3,感受是新架構(gòu),大數(shù)據(jù),這個(gè)可以搞。我們?cè)贏mazon的時(shí)候也是第一時(shí)間去做了大規(guī)模的訓(xùn)練和在產(chǎn)品上的落地。
第二階段是剛創(chuàng)業(yè)的時(shí)候GPT4了放出來,大受震撼。大半原因來自技術(shù)不公開了。根據(jù)小道消息估算一次模型訓(xùn)練一個(gè)億,標(biāo)數(shù)據(jù)成本幾千萬。很多投資人問我復(fù)現(xiàn)GPT4成本得多少,我說3-4億要把。后來他們中一家真一把投了大幾億出去。
第三階段是創(chuàng)業(yè)的第一個(gè)半年。我們做不動(dòng)GPT4,那就想著從具體的問題出發(fā)吧。于是開始找客戶,有游戲的、教育的、銷售的、金融的、保險(xiǎn)的。針對(duì)具體的需求去訓(xùn)練模型。一開始市面上沒有好的開源模型,我們就從頭訓(xùn)練。后來很多很好的模型出來了,降低了我們成本。然后針對(duì)業(yè)務(wù)場(chǎng)景設(shè)計(jì)評(píng)估方法,標(biāo)數(shù)據(jù),去看模型哪些地方不行,針對(duì)性提升。
23年年底時(shí),驚喜發(fā)現(xiàn)我們的Photon(Boson的一種)系列模型在客戶應(yīng)用上的效果都打贏GPT4了。定制模型的好處是推理成本是調(diào)用API的1/10。雖然今天API已經(jīng)便宜很多,但我們自己技術(shù)也同樣在進(jìn)步,仍然是1/10成本。另外,延時(shí)等都可以更好的控制。這個(gè)階段的認(rèn)知是對(duì)于具體應(yīng)用,我們是可以打贏市面最好模型的。
第四階段是創(chuàng)業(yè)的第二個(gè)半年。雖然客戶拿到了合同里要的模型,但還不是他們理想中的東西,因?yàn)镚PT4還遠(yuǎn)不夠。年初時(shí)發(fā)現(xiàn)針對(duì)單一應(yīng)用訓(xùn)練,模型很難再次飛躍?;剡^頭想,如果AGI是達(dá)到普通人類水平,客戶要的是專業(yè)人士的水平。游戲要專業(yè)策劃和專業(yè)演員、教育要金牌老師、銷售要金牌銷售、金融保險(xiǎn)要高級(jí)分析師。這都是AGI加上行業(yè)專業(yè)能力。雖然當(dāng)時(shí)我們內(nèi)心對(duì)AGI充滿敬畏,但感覺是避不開的。
年初我們?cè)O(shè)計(jì)了Higgs(上帝粒子,Boson的一種)系列模型。主打通用能力緊跟最好的模型,但在某個(gè)能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷售、扮演分析師等等。24年年中的時(shí)候迭代到第二代,在測(cè)試通用能力的Arena-Hard和AlpacaEval 2.0上,V2跟最好的模型打得有來有回,在測(cè)試知識(shí)的MMLU-Pro上也沒差很遠(yuǎn)。
Higgs-V2是基于Llama3 base,然后做了完整的post-training。我們沒資源像Meta那樣花大錢標(biāo)注數(shù)據(jù),所以V2比Llama3 Instruct好,原因應(yīng)該還是主要來自算法的創(chuàng)新。
然后我們做了個(gè)評(píng)估角色扮演的評(píng)測(cè)集,包含按照人設(shè)扮演,和按照?qǐng)鼍鞍缪?。怪不好意思是自己的模型在自己的榜單上拿了第一。但模型?xùn)練中是沒有碰評(píng)測(cè)用的數(shù)據(jù)。因?yàn)檫@個(gè)評(píng)測(cè)集是想自用,希望能真實(shí)反映模型能力,所以要避免模型overfit數(shù)據(jù)集。但做評(píng)測(cè)集的同學(xué)想寫技術(shù)報(bào)告,所以干脆放出來了。有意思的是,按角色扮演的測(cè)試樣本來自c.ai,但他們家的模型能力是墊底的。
第四階段的認(rèn)知是,好的垂直模型通用能力也不能弱,例如reasoning,instruction following這些能力垂直上也是需要的。長(zhǎng)遠(yuǎn)來看,通用和垂直模型都得朝著AGI去。只是垂直模型可以稍微偏科一點(diǎn),專業(yè)課高分,通用課還行,所以研發(fā)成本稍微低一點(diǎn),研發(fā)方式也會(huì)不太一樣。
那第五階段認(rèn)識(shí)呢?現(xiàn)在仍在進(jìn)行中,希望能很快分享。
愿景:人類陪伴
說來慚愧,我們蒙頭做技術(shù),給客戶做定制,然后再慢慢想我們自己追求什么愿景。我們?nèi)タ纯蛻粝胍裁?、我們自己想要什么、未來可能需要什么。我自己的話,多年前我憧憬有個(gè)機(jī)器人保姆能幫我?guī)?、陪他們,因?yàn)楦蛇@個(gè)我覺得很難,而且也不太理解娃當(dāng)前的認(rèn)知和想法。我希望工作上有個(gè)非常厲害的虛擬助手能跟我一起發(fā)明新的東西。等我老了也想有很有意思的機(jī)器人陪著。我對(duì)于未來的預(yù)測(cè)是,生產(chǎn)工具越來越發(fā)達(dá),一個(gè)人完成之前一個(gè)團(tuán)隊(duì)才能完成的事情,導(dǎo)致人類更加個(gè)體獨(dú)立,大家都忙著追求自己的事情,從而更加孤獨(dú)。
這些綜合在一起,我們把愿景定成了“人類陪伴的智能體”。一個(gè)情商很高的,智商在線的智能體。算換成現(xiàn)實(shí)中的人的話,應(yīng)該會(huì)是一個(gè)專業(yè)團(tuán)隊(duì)。例如你想讓它陪你玩,那它是專業(yè)策劃+演員。陪你運(yùn)動(dòng),那么鼓勵(lì)師+專業(yè)運(yùn)動(dòng)教練。陪你學(xué)習(xí),那么能把你不懂的講懂。模型的好處是,它能做長(zhǎng)期的陪伴,真的了解你。而且可以“真心為你”。
不過目前技術(shù)離愿景還挺遙遠(yuǎn)。當(dāng)下技術(shù)就能陪著聊聊。很多場(chǎng)景下聊得也不是那么好,內(nèi)容匱乏,智商情商有時(shí)都不在線。都是當(dāng)下要解決的問題。如果有小伙伴做這一塊的海外應(yīng)用,歡迎聯(lián)系我們。
團(tuán)隊(duì):有挑戰(zhàn)的事情得靠團(tuán)隊(duì)
創(chuàng)業(yè)之后才真正覺得團(tuán)隊(duì)的重要性。在大廠的時(shí)候,覺得自己是個(gè)螺絲釘,團(tuán)隊(duì)成員是螺絲,甚至團(tuán)隊(duì)也是個(gè)螺絲釘。但創(chuàng)業(yè)團(tuán)隊(duì)就是一輛車。車小點(diǎn),但能跑,能載重,轉(zhuǎn)彎靈活,各個(gè)角落都能去。公司成立不久的時(shí)候,米哈游老蔡來看了眼,看見所有人在一間房子里,他感慨說小團(tuán)隊(duì)真好。
不方便的地方當(dāng)然也是有的,時(shí)刻要看有沒有油,不好走的路得小心別把車震散架了。每個(gè)成員都很重要,沒有冗余,一個(gè)人不給力,就可能是一個(gè)輪胎沒氣。人也寶貴,走一個(gè)人就可能少一個(gè)輪胎。
以前我選項(xiàng)目會(huì)選自己能主導(dǎo)開發(fā)的。但這也意味著問題不會(huì)超出我能力太多。創(chuàng)業(yè)選了個(gè)很大的問題去做,只能全靠團(tuán)隊(duì)了。別看本文里用了大量的“我”,其實(shí)工作都是團(tuán)隊(duì)做的。沒了團(tuán)隊(duì),我可能得轉(zhuǎn)行去賣課了(此處不需要掌聲)。
個(gè)人追求:名還是利?
到目前為止我都靠跟著內(nèi)心的聲音做決定,工作后再去讀博、去做視頻、去創(chuàng)業(yè)。創(chuàng)業(yè)需要強(qiáng)烈動(dòng)機(jī)的支撐,才能克服層出不窮的困難。這需要對(duì)自己的動(dòng)機(jī)做更深入的分析。
動(dòng)機(jī)要么來自欲望,要么來自恐懼。十年前我可能更熱衷名利,但到了現(xiàn)在的年紀(jì),覺得金錢的邊際效用已經(jīng)不高,名聲帶來的情緒價(jià)值也已經(jīng)很小。我深層的動(dòng)機(jī)來自對(duì)生命可能沒有意義的恐懼。先不說宇宙的浩瀚,就是在人類的歷史長(zhǎng)河,一個(gè)人也只是一粒沙。意外的到來,迅速的消失。地球上生活過一千億人,絕大部分人不會(huì)在歷史上留下痕跡。我家家譜上那上千個(gè)人名,我?guī)缀醵疾徽J(rèn)識(shí)。
那么一個(gè)人的存在的意義是什么呢?小時(shí)候曾因?yàn)橄氩磺暹@個(gè)問題而抑郁。所以我想去創(chuàng)造價(jià)值,獲得存在的意義。我選擇“上進(jìn)”,去提升自己的創(chuàng)造價(jià)值的能力;選擇錄長(zhǎng)視頻和寫教材,創(chuàng)造教育價(jià)值;選擇去寫讀博、工作、創(chuàng)業(yè)的總結(jié),描述里面的糾結(jié)和困難,創(chuàng)造真實(shí)案例的價(jià)值;選擇去創(chuàng)業(yè),團(tuán)結(jié)很多人的力量去創(chuàng)造更大價(jià)值。
后記
去年跟宿華在斯坦福散步,他拍著我肩膀說:“跟我說句實(shí)話,你為什么想創(chuàng)業(yè)呀?”當(dāng)時(shí)候不以為然:“就是想換個(gè)事情做做”。然后宿華笑了笑。
現(xiàn)在我懂了,因?yàn)樗?jīng)歷了創(chuàng)業(yè)酸甜苦辣。如果今天再來回答這個(gè)問題,我會(huì)說:“我就是腦子抽了”。但也慶幸當(dāng)時(shí)沒想到會(huì)那么不容易,所以一頭扎進(jìn)來了。否則,大家看到的可能是「工作十年反思」。我覺得我今天寫的故事更有意思些。
致敬所有創(chuàng)業(yè)人。