寫給大模型新人的經(jīng)驗(yàn),刷到少走三年彎路!
大家好,我是丁師兄。
這篇文章,我將結(jié)合自己在大模型領(lǐng)域的經(jīng)驗(yàn),給大家詳細(xì)聊聊新人應(yīng)該如何轉(zhuǎn)行大模型賽道?
比如大模型都有哪些方向?各方向的能力要求和崗位匹配?新手轉(zhuǎn)行大模型常踩的坑和常見的誤區(qū)?以及入行大模型最順滑的路徑?
如果你是正打算入行大模型的校招/社招同學(xué),請(qǐng)一定看完,可能會(huì)讓你在入行大模型的路上,少走很多彎路。
1.大模型都有哪些方向?
如果你在求職網(wǎng)站搜索"大模型"關(guān)鍵詞,看一下招聘 JD,基本可以了解現(xiàn)在業(yè)內(nèi)對(duì)大模型工程師的需求方向和能力要求.。
總結(jié)一下,大致可以分為 4 類:
- 做數(shù)據(jù)的(大模型數(shù)據(jù)工程師,爬蟲/清洗/ETL/Data Engine/Pipeline)
- 做平臺(tái)的(大模型平臺(tái)工程師,分布式訓(xùn)練/大模型集群/工程基建)
- 做應(yīng)用的(大模型算法工程師,搜/廣/推/對(duì)話機(jī)器人/AIGC)
- 做部署的(大模型部署工程師,推理加速/跨平臺(tái)/端智能/嵌入式)
2.大部分新手的誤區(qū)
如果是你,看到這幾個(gè)方向,會(huì)怎么選?我估計(jì)很多人都直奔第三點(diǎn)去了,堅(jiān)定的要做應(yīng)用,走在所有工種的最前沿,做出讓老板,用戶都看得到的核心"產(chǎn)品"。
不過這里我不禁要給各位潑一點(diǎn)冷水,在 AI 算法這個(gè)行業(yè),三是很吃業(yè)務(wù)經(jīng)驗(yàn)的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做語音助手,對(duì)話機(jī)器人這類的,再順?biāo)浦圩鱿嚓P(guān)方向的大模型算法工程師,這是比較合適的。
在自身業(yè)務(wù)里融入一些大模型的算法和技法,拿到實(shí)際的業(yè)務(wù)產(chǎn)出,去市面上也比較好找這類崗位。
但如果你是 CS 方向的實(shí)習(xí)生/應(yīng)屆畢業(yè)生,或者其他 IT 方向轉(zhuǎn)行大模型,3 未必是一個(gè)最好的選擇,大家不要帶著一個(gè)誤區(qū):大模型算法工程師就是調(diào)模型,調(diào)超參,做一做預(yù)訓(xùn)練,做一做 finetune,SFT 之類的活。
實(shí)際上呢,這部分工作只有很少人做,基本一個(gè) team 中只有個(gè)位數(shù)的人,或者只是算法工作的很小的一部分。
注意一點(diǎn),新人進(jìn)去 90% 以上都不可能直接讓你干算法模型調(diào)優(yōu)的活,大部分可能還是讓你配環(huán)境,搭鏈路,清洗數(shù)據(jù),分析數(shù)據(jù),調(diào)研,寫一寫 function,tools。
這些體力活都干熟了以后,可能才會(huì)讓你跑一些模型實(shí)驗(yàn)。其中比較出色的,腦子比較靈活的同學(xué),才會(huì)慢慢讓他們開始接觸線上業(yè)務(wù)。
也有很多同學(xué),干了好幾年,還是在干一些邊角料,臟活,雜活,根本接觸不到核心業(yè)務(wù)。對(duì)于剛?cè)胄械男氯?,如果你學(xué)歷背景好點(diǎn),可以去大公司做 intern 然后轉(zhuǎn)正,背景差一點(diǎn),可以去中小公司,積累業(yè)務(wù)經(jīng)驗(yàn)。
3.數(shù)據(jù)很重要!
然后很多人可能往往忽視了上面的 1,2,4,覺得我學(xué)了這么多算法知識(shí),學(xué)了機(jī)器學(xué)習(xí),深度學(xué)習(xí),還了解大模型,再去做數(shù)據(jù),有點(diǎn)屈才了。
但我想告訴你的是,1 是更多轉(zhuǎn)行大模型同學(xué)更容易上岸的方式。條條大路通羅馬,不是只有一條路走到黑。
首先,目前國外的大模型技術(shù)至少領(lǐng)先國內(nèi)兩年,雖然國內(nèi)已經(jīng)有幾十上百個(gè)“大模型”了,但真正能打的并沒有幾個(gè)。探究原因,還是有很多技術(shù)沒有突破。
算法本身來說,GPT 已經(jīng)不是什么秘密了。那剩下還有什么呢,一是數(shù)據(jù),二是工程技巧。
拿數(shù)據(jù)來說,先說通用的大模型訓(xùn)練,數(shù)據(jù)的來源,從哪里采,數(shù)據(jù)的質(zhì)量怎么把控,如何過濾有毒信息,語言的篩選與比例,數(shù)據(jù)的去重,以及數(shù)據(jù)的規(guī)范化處理,評(píng)測集的構(gòu)建。這些既是體力活,又是技術(shù)活。
對(duì)于垂直領(lǐng)域,比如金融,電商,法律,車企,這種領(lǐng)域數(shù)據(jù)的構(gòu)建就更考驗(yàn)技術(shù)了,業(yè)務(wù)數(shù)據(jù)怎么來,數(shù)據(jù)不夠怎么辦,完全沒有數(shù)據(jù)怎么辦?如果構(gòu)建高質(zhì)量的微調(diào)數(shù)據(jù)?
能把這些問題解決好,模型也就成功了一大半。因此,就目前的現(xiàn)狀,對(duì)于數(shù)據(jù)工程師,特別是有經(jīng)驗(yàn)的數(shù)據(jù)工程師,是非常稀缺的。
4.大模型平臺(tái)干些啥?
然后說下 2,大模型平臺(tái)工程師。如果你之前是做工程的,或者對(duì)工程比較感興趣,我比較建議你選 2。
這二者其實(shí)并沒有本質(zhì)的區(qū)別,都是為了大模型業(yè)務(wù)服務(wù)的,也叫大模型基礎(chǔ)設(shè)施的建設(shè),作用就是讓大模型 train 得更好,大模型跑得更快。
這塊主要是干些啥呢?
從計(jì)算層面來說,有分布式計(jì)算,并行計(jì)算,高性能計(jì)算,有些公司對(duì)這三者也不加區(qū)分。
從硬件層面來說,有搞大模型訓(xùn)練集群,GPU 集群,CPU/GPU 混部集群,池子里要管理幾百上千張卡,還要負(fù)責(zé)他們的利用率,機(jī)器的健康狀況,有沒有掛的,中小公司這塊基本都是開發(fā)和運(yùn)維一體的,一個(gè)工作干兩個(gè)工種的活。
從平臺(tái)層面來說,有做 LLMOps 的,也就是 pipeline。集數(shù)據(jù) IO,模型訓(xùn)練,預(yù)測,上線,監(jiān)控于一體,這種就是跟著業(yè)務(wù)團(tuán)隊(duì)走,做適配,造很多高效的輪子,方面業(yè)務(wù)團(tuán)隊(duì)使用,減少他們額外重復(fù)開發(fā)的時(shí)間。
這塊整體上來說,在大模型時(shí)代穩(wěn)中有升,因?yàn)閷?shí)際上很多公司這方面的人都是從之前搞深度學(xué)習(xí)平臺(tái),大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)的人招過來的,技術(shù)上的 gap 相對(duì)比較小。因此,對(duì)于 AI 工程感興趣的,可以選這個(gè)方向。
5.大模型部署干些啥?
最后說一下 4,大模型部署工程師。這個(gè)崗位之前也有,不過在大模型這一兩年尤其的火熱。
什么原因呢?
因?yàn)椴渴鸫竽P吞M(fèi)錢了。首先模型延遲本身就高,30B 以上的模型,對(duì)算力,顯存要求很高。
老板關(guān)心什么?一方面是大模型產(chǎn)品,也就是業(yè)務(wù)指標(biāo)要好看,方便 PR。另一方面也要求控制成本(大廠/獨(dú)角獸除外)。
一般企業(yè)里面,一個(gè) P8 級(jí)別的 leader,要在公司里面搶業(yè)務(wù),拉資源,找人力,本身就是一個(gè)不容易的事。
“降本增效”是 23 年以來,幾乎所有公司的一個(gè)主旋律。所以老板們很關(guān)心你節(jié)約了多少錢,比如你把推理效率提高一倍,那就實(shí)實(shí)在在降低了一倍的成本。
回到大模型部署工程師來,這個(gè)崗位總體有兩個(gè)方向的工作:云端部署和端側(cè)部署。
云端比較好理解,可以做推理加速平臺(tái),也可以隨著業(yè)務(wù)走,做大模型定制化加速。
比如 Qwen-7b 的加速,還可以做大模型推理引擎,比如搜索/問答的推理引擎,一般是在高并發(fā)用戶場景下,在保證用戶 SLO 的前提下,最優(yōu)化 latency 和 throughput。
另一個(gè)大方向是端側(cè)的部署。也就是在消費(fèi)級(jí) GPU/NPU 以及邊端設(shè)備下,部署大模型,同時(shí)讓領(lǐng)域大模型小型化,讓業(yè)務(wù)能實(shí)際工程落地。
總的來說,大模型部署工程師對(duì)工程能力,系統(tǒng)能力,以及硬件等方面都要有一定的了解,現(xiàn)在各種推理框架出來以后,降低了一點(diǎn)難度,但仍然是一個(gè)比較有競爭力的工種。
你得了解計(jì)算圖和 OP 的優(yōu)化,得了解各種推理框架,緩存/顯存優(yōu)化,還有 LLM 結(jié)構(gòu)運(yùn)行時(shí)的系統(tǒng)架構(gòu)。這個(gè)崗位一般不推薦新人入場,因?yàn)樘越?jīng)驗(yàn)了。建議先從 2 進(jìn)場,然后逐步轉(zhuǎn)到 4。
6.總結(jié)
最后,給準(zhǔn)備入場大模型的新人幾點(diǎn)建議:
- 不要只關(guān)心 finetune,SFT,RLHF,作為系統(tǒng)性學(xué)習(xí)是 OK 的,切忌花太多精力。
- 想做應(yīng)用的,建議 focus 到某個(gè)垂直領(lǐng)域,比如對(duì)話機(jī)器人,問答系統(tǒng),金融/醫(yī)療/教育方向,找一個(gè)具體的場景,把它做好,做深。
- 多關(guān)心數(shù)據(jù),data pipeline,高質(zhì)量訓(xùn)練/測試集的構(gòu)建經(jīng)驗(yàn),對(duì)數(shù)據(jù)的sense,是最直接,也是最適合用到未來工作當(dāng)中的。
- 大模型不只有算法,也可以有工程。大公司拼的都是基建,平臺(tái)是對(duì)業(yè)務(wù)的支撐,牛逼的 infrastrure 是大模型產(chǎn)品成功不可或缺的因素。
本文轉(zhuǎn)載自??丁師兄大模型??,作者: 丁師兄 ????
