大模型是泡沫嗎?
我個(gè)人對(duì) llm 是一種很復(fù)雜的態(tài)度。畢竟,它真的擊碎了我 2023 年之前所有的技術(shù)積累,以前在 nlp 苦心鉆研的訓(xùn)練經(jīng)驗(yàn)、模型結(jié)構(gòu)、不同任務(wù)類型的不同處理技巧,好像在 ChatGPT 面前顯得一文不值。
不過,事情都有兩面性。與我的技術(shù)一起被擊碎的,還有我那一潭死水的工作內(nèi)容。我不再是特征工程師 —— “花了幾個(gè)月的時(shí)間,就只為了構(gòu)造某個(gè)能力的數(shù)據(jù)特征,然后想辦法加入到模型網(wǎng)絡(luò)中”。當(dāng)領(lǐng)導(dǎo)又想讓模型有一個(gè)新的能力怎么辦,重復(fù)這個(gè)特征構(gòu)造的過程,下一個(gè)季度的 OKR 也就制定完畢了。我一點(diǎn)都不認(rèn)為這樣的工作節(jié)奏能帶給我自己、帶給我的公司任何有意義的內(nèi)容。
因此,作為一個(gè)曾經(jīng)研究對(duì)話系統(tǒng)的 nlp 碼農(nóng),即使我過去的知識(shí)和工作經(jīng)驗(yàn)極速貶值,我也認(rèn)可 llm:認(rèn)可它提高了程序員 code 的效率,認(rèn)可它創(chuàng)造了新的研究范式,認(rèn)可它給我的工作內(nèi)容注入新的活力,認(rèn)可它掀起了全民狂歡的技術(shù)浪潮!
llm 是生產(chǎn)力工具
不管有多少人抨擊 ChatGPT 的技術(shù)路線,也不管 ChatGPT 未來會(huì)不會(huì)真的取代我程序員的工作,一個(gè)毋庸置疑的事實(shí)是:ChatGPT 是當(dāng)今不可或缺的強(qiáng)大生產(chǎn)力工具。
不會(huì)前端的我敢答應(yīng)領(lǐng)導(dǎo)說我會(huì)給個(gè)簡(jiǎn)單 demo,而不是像以前那樣說“我不確定 Django 能不能做這個(gè)”;沒學(xué)過 go 語言的我敢直接寫用于上線的代碼;記不住的正則命令我不需要再搜了;學(xué)不會(huì)的 pandas 終于不用再學(xué)了;shell 語言的冷門命令也能信手拈來了——這些都是 ChatGPT 帶給我的自信。
不僅是程序員,只要是文本領(lǐng)域,ChatGPT 就都已經(jīng)改變了工作方式。它寫出的新聞稿、小說不能用?那就讓他寫十篇你選一篇,或者是讓它寫個(gè)大綱自己再修改下。也許模型在創(chuàng)作任務(wù)的效果永遠(yuǎn)超不過人,但架不住模型可以批量生產(chǎn)、以量取勝啊。
在我眼里,不承認(rèn) ChatGPT 效果的人只有一種:極度的懶人,只接受它給你一個(gè)百分之百的可用方案!明明模型已經(jīng)幫我們做了 90% 的工作了,已經(jīng)十分接近最終成果,我們只需要再加上自己的篩選或簡(jiǎn)單修改,就可以完工了,難道就因?yàn)檫@ 10% 的工作不想自己親手做,所以選擇自己從零開始做嗎?我實(shí)在難以理解這種行為。
賣 ChatGPT 賬號(hào)的、調(diào)戲 ChatGPT 然后做成視頻的、使用 ChatGPT 生圖的、利用 ChatGPT 大量生產(chǎn)文章的……很多人已經(jīng)賺到盆滿缽滿,不會(huì)用 ChatGPT 提高生產(chǎn)效率的,真的會(huì)最先被淘汰!
llm 把所有人拉到了同一起跑線
2023 年之前,沒有幾個(gè)人用過 megatron、deepspeed,沒有幾個(gè)人研究過 DPO、PPO、MOE,沒有幾個(gè)人知道 reward_model 怎么訓(xùn),也沒有幾個(gè)方向的數(shù)據(jù) piepeline 是需要花大價(jià)錢清洗才能運(yùn)轉(zhuǎn)的,就連“sft 數(shù)據(jù)要追求質(zhì)量而不是數(shù)量”也是過了半年才達(dá)成共識(shí)的。
在這個(gè)新的技術(shù)范式之下,一個(gè)新人可以和工作十年的 nlp 從業(yè)人員進(jìn)行激烈辯論,一個(gè)小白可以與各種大佬討論對(duì)于 LLM 的認(rèn)知和實(shí)驗(yàn)結(jié)果。
去年,我最喜歡說的一句話就是:“都是2023年開始學(xué)的,誰又能比誰能強(qiáng)多少呢?”。
今年這句話依然生效,只不過同時(shí)我也意識(shí)到了,2023年已經(jīng)在逐漸遠(yuǎn)去,憑借著天賦、財(cái)力、努力,deepseek、qwen等團(tuán)隊(duì)的同學(xué)很明顯已經(jīng)開始和我們拉開距離了。每個(gè) llm 的從業(yè)者都要有比去年更大的憂患意識(shí):好不容易回到同一起跑線,怎么能這么輕易再次被拉開?
即使我們所在的公司可以做不過 deepseek,但是我們要努力讓自己的認(rèn)知和能力不要被他們甩開太遠(yuǎn)!
llm 帶來了黃金的技術(shù)時(shí)代
公司愿意花錢去買卡租卡來讓我實(shí)踐學(xué)習(xí),領(lǐng)導(dǎo)看見我工作時(shí)間讀論文會(huì)感到滿意,同事之間每天都在討論新的 idea 或者是 Meta / OpenAI / Google 的新技術(shù)報(bào)告。我不得不說,這樣的工作氛圍,在 ChatGPT 出現(xiàn)之前,我從來沒有遇到過。
可惜的是,如今大部分的公司開始擁抱應(yīng)用,瑣碎雜活再次多起來了。因此,如果真的感覺工作太忙有些力不從心,從一個(gè)打工人的視角出發(fā),真心建議大家可以利用周末多學(xué)學(xué)習(xí)跑跑實(shí)驗(yàn)。想一下吧,公司租著 4W / 月(1機(jī)8卡,粗略估計(jì))的機(jī)器,來培養(yǎng)我們的認(rèn)知,我想不到比這兩年更適合提升自我技術(shù)的時(shí)機(jī)啦。
這種黃金時(shí)代在“人均只有十年的程序員生涯”中,應(yīng)該是很難再有了!
llm 是泡沫?
回歸正題,llm 會(huì)是一場(chǎng)泡沫嗎?我不太理解這個(gè)問題為什么會(huì)被反復(fù)拿出來提問。這個(gè)答案對(duì)程序員來說真的重要嗎?它是不是泡沫又能怎么樣呢?畢竟,我既不在乎 AIGC 會(huì)通往何方,也不在乎 llm 是不是一條正確的技術(shù)路線,我只想在這場(chǎng) llm 浪潮中,向我的領(lǐng)導(dǎo)、未來的面試官證明一件事:我愿意去研究最新的技術(shù)方向,我有能力去復(fù)現(xiàn)最新的技術(shù)成果,僅此而已!
當(dāng) Google 再提出一個(gè)新的技術(shù)范式,難道各大公司會(huì)因?yàn)樵?jīng)研究過 llm 就不愿意招我們了嗎?他們一定還是會(huì)選擇“ llm 工作做的最好的那群人”,來組建新的研究團(tuán)隊(duì)去跟隨新的前沿技術(shù)。
所以,llm 是泡沫嗎?這是企業(yè)家們考慮的問題吧,程序員無需多想,我們只需享受這場(chǎng)技術(shù)革新的盛宴。
寫在最后
我想再額外分享一個(gè)觀點(diǎn):在 llm 這個(gè)賽道,真的沒必要羨慕別人的工作,做好自己的工作即可。
舉個(gè)例子,文本工作的同學(xué)天天在想:
做 pretrain 的覺著自己的工作就是爬數(shù)據(jù)和洗數(shù)據(jù)、亦或者是和工程一樣無休止的優(yōu)化訓(xùn)練框架;
- 做通用 sft 的覺著蹺蹺板問題根本無法解決,覺著評(píng)測(cè)集根本反應(yīng)不出模型能力,羨慕領(lǐng)域模型可以不在乎其他能力;
- 做領(lǐng)域 sft 的又覺著自己沒任何技術(shù)含量,想去解決蹺蹺板問題,想去訓(xùn) reward_model;
- 做 rlhf 的覺著自己根本拿不到任何收益,動(dòng)不動(dòng)就訓(xùn)練崩了,遠(yuǎn)不如 sft 的洗洗數(shù)據(jù)就能提很多點(diǎn)。
圖像工作的同學(xué)則天天在想:
- 做 stable difusion 的認(rèn)為多模態(tài)才是未來的方向;
- 做圖像文本多模態(tài)的認(rèn)為 sora 太過于驚艷,一定是 AIGC 的未來;
- 做 sora 的又覺著老板腦子有問題才會(huì)相信 OpenAI 畫的技術(shù)大餅。
說實(shí)話,沒必要抱怨自己的工作內(nèi)容,有卡用,就領(lǐng)先了大多數(shù)的同行。即使是當(dāng)下最具含金量的“pretrain / scaling law”工作,在未來也可能在求職時(shí)一文不值,畢竟難道曾經(jīng)有公司招 nlp 方向的人要求會(huì)訓(xùn)出一個(gè) BERT 嗎?以應(yīng)用為導(dǎo)向會(huì)是 llm 的必由之路。
在這場(chǎng) AIGC 的浪潮下,工作沒有高下之分,眼下的工作大概率都會(huì)像 BERT 一樣成為時(shí)代的眼淚。我們只需要做好當(dāng)下, 培養(yǎng)自己鑒別論文價(jià)值的能力、復(fù)現(xiàn)開源項(xiàng)目的能力、debug 代碼的能力,坐等真正的“AIGC”出現(xiàn)即可。
本文轉(zhuǎn)載自 ??NLP工作站??,作者: ybq
