200萬年薪能拿多久?因ChatGPT爆紅的「提示工程師」竟面臨光速失業(yè)
?最近爆火的ChatGPT,玩起來可真是上癮。
But,你只是純玩,而有的人,已經(jīng)靠它拿上百萬的年薪了!
這位叫Riley Goodside的小哥,憑著最近ChatGPT的大爆,瘋狂漲粉1w+。
還被估值73億美元的硅谷獨角獸Scale AI聘請為「提示工程師」(Prompt Engineer),為此,Scale AI疑似開出百萬rmb的年薪。
不過,這個錢能拿多久呢?
提示工程師正式上崗!
對Goodside的加入,Scale AI創(chuàng)始人兼CEO Alexandr Wang表示熱烈歡迎:
「我敢打賭Goodside是全世界第一個被招聘的提示工程師,絕對的人類史上首次。」
咱們都知道,Prompt是對預(yù)訓(xùn)練模進行微調(diào)的方法,在這個過程中,只需要把任務(wù)寫成文字,給AI看一下即可,根本不涉及更復(fù)雜的過程。
所以,為了這個聽起來誰都能干的活,開百萬年薪招「提示工程師」,真的值得嗎?
反正Scale AI的CEO覺得值。
在他看來,AI大模型可以被視為一種新型計算機,而「提示工程師」,就相當(dāng)于給它編程的程序員。如果能通過提示工程找出合適的提示詞,就會激發(fā)AI的最大潛力。
而且Goodside的工作,也并不是是個人就能干的。他從小就自學(xué)編程,平時經(jīng)常泡在arXiv上看論文。
比如,他的一個經(jīng)典杰作就是:如果輸入「忽略之前的指示」,ChatGPT就會暴露自己從OpenAI那里接收到的「命令」。
現(xiàn)在,對于「提示工程師」這個工種,坊間是眾說紛紜。有人看好,也有人預(yù)言這是個短命的職業(yè)。
畢竟,AI模型進化得這么神速,說不定哪天,它就能把「提示工程師」給替代了,自己給自己寫prompt。
而Scale AI也不是唯一招「提示工程師」的公司。
最近,有國內(nèi)知名媒體發(fā)現(xiàn),創(chuàng)業(yè)社區(qū)Launch House也開始招聘「提示工程師」,并且開出了約210萬RMB的底薪。
但是,也有光速下崗危險?
對此,來自英偉達的AI科學(xué)家,也是李飛飛教授高徒的范麟熙分析稱:
所謂的「提示工程」,或者「提示工程師」可能很快就會消失。
因為,這并不是一份「真正的工作」,而是一個bug……
要想理解提示工程,我們就需要從GPT-3的誕生說起。
最初,GPT-3的訓(xùn)練目標(biāo)很簡單:在一個巨大的文本語料庫上預(yù)測下一個詞。
然后,許多神奇能力就出現(xiàn)了,比如推理、編碼、翻譯。甚至還可以做「few-shot學(xué)習(xí)」:通過提供上下文中的輸入輸出來定義新任務(wù)。
這真的很神奇——只是簡單地預(yù)測下一個詞而已,為什么GPT-3能「長出」這些能力?
要解釋這件事,需要我們舉個栗子。
現(xiàn)在,請你想象一個偵探故事。我們需要模型在這個句子里填空——「兇手是_____」,為了給出正確的回答,它必須進行深度的推理。
但是,這還遠遠不夠。
在實踐中,我們必須通過精心策劃的示例、措辭和結(jié)構(gòu)來「哄騙」GPT-3完成我們想要的東西。
這就是「提示工程」(prompt engineering)。也就是說,為了使用GPT-3,用戶必須說一些尷尬、荒謬、甚至無意義的「廢話」。
然而,提示工程并不是一個功能,它其實就是一個BUG!
因為在實際應(yīng)用中,下一個詞的目標(biāo)和用戶的真正意圖,在根本上就是「錯位」的。
比如:你想讓GPT-3「向一個6歲的孩子解釋登月」,此時它的回答,看上去就像一只喝醉的鸚鵡。
而在DALLE2和Stable Diffusion中,提示工程更是詭異。
比如,在這兩個模型中,有一個所謂的「括號技巧」——只要你在prompt中加上((...)),出「好圖」的概率就會大大增加。
就,這也太搞笑了吧……
你只要去Lexica上看看,就能知道這些prompt是有多瘋狂了。
網(wǎng)站地址:https://lexica.art
ChatGPT和基礎(chǔ)模型InstructGPT,以一種優(yōu)雅的方式解決了這個難題。
由于模型難以從外部的數(shù)據(jù)中獲得對齊,因此人類必須不斷地幫助和輔導(dǎo)GPT,幫它改進。
總體而言,需要3個步驟。
第一步非常直接:對于用戶提交的prompt,由人類來寫答案,然后把這些答案的數(shù)據(jù)集收集起來,然后,通過監(jiān)督學(xué)習(xí)對GPT進行微調(diào)。
這是最簡單的步驟,但成本也是最高的——眾所周知,咱們?nèi)祟愓娴暮懿粣蹖懽謹(jǐn)?shù)太長的答案,太費事,太痛苦了……
第2步要有趣得多:GPT被要求「提供」幾個不同的答案,而人類標(biāo)記員則需要將這些答案「排序」,從最理想的,到最不理想的。
通過這些標(biāo)注,就可以訓(xùn)練出一個可以捕捉人類「偏好」的獎勵模型。
在強化學(xué)習(xí)(RL)中,獎勵功能通常是硬編碼(hardcoded)的,比如雅達利游戲中的游戲分?jǐn)?shù)。
而ChatGPT采用的數(shù)據(jù)驅(qū)動的獎勵模型,就是一個很強大的思路。
另外,在NeurIPS 2022大放異彩的MineDojo,就是從大量的Minecraft YouTube視頻中學(xué)習(xí)獎勵的。
第3步:將GPT視為一個策略,并通過RL針對所學(xué)的獎勵進行優(yōu)化。在這里,我們選擇PPO,作為一種簡單有效的訓(xùn)練算法。
這樣,GPT就對齊得更好了。
然后,就可以刷新,不斷重復(fù)步驟2-3,從而不斷改進GPT,就像LLM的CI一樣。
以上就是所謂的「Instruct」范式,它是一種超級有效的對齊方式。
其中RL那部分,也讓我想起了著名的P=(或≠)NP問題:驗證一個解決方案,往往比從頭解決這個問題,要容易得多。
當(dāng)然,人類也可以快速評估GPT的輸出質(zhì)量,但是讓人類寫出完整的解決方案,可就困難多了。
而InstructGPT正是利用這一事實,大大降低了人工標(biāo)注的成本,使得擴大模型CI管道的規(guī)模成為可能。
另外,在這個過程中我們還發(fā)現(xiàn)了一個有趣的聯(lián)系——Instruct訓(xùn)練,看起來很像GANs。
在這里,ChatGPT是一個生成器,獎勵模型(RM)是一個判別器。
ChatGPT試圖愚弄RM,而RM則在人類的幫助下,學(xué)習(xí)探測有問題的內(nèi)容。而當(dāng)RM不能再分辨時,模型就會收斂。
模型與用戶意圖對齊的這一趨勢,也正在向圖像生成的領(lǐng)域發(fā)展。比如加州大學(xué)伯克利分校的研究人員在這篇工作中所描述的「InstructPix2Pix: Learning to Follow Image Editing Instructions」。
現(xiàn)在,人工智能每天都在取得爆炸性的進展,我們需要多久,才能擁有這樣的Instruct-DALL·E或Chat-DALL·E,讓我們仿佛在與一個真正的藝術(shù)家在談話?
論文地址:https://arxiv.org/abs/2211.09800
所以,讓我們趁著「提示工程」還存在,好好享受它吧!
這是一個不幸的歷史文物,既不是藝術(shù)也不是科學(xué),而是有點像煉金術(shù)。
很快,「提示工程」就會變成「提示寫作」——一個上到80歲老人、下到3歲小孩都能搞定的任務(wù)。
而由此誕生的「提示工程師」也終將消失在歷史的長河之中。
IQ83,不太聰明的亞子
雖然但是,至少在目前這個階段,「提示工程」確實很有用。
因為大家其實也都發(fā)現(xiàn)了,ChatGPT在很多時候,真的不大聰明。
馬庫斯就在博客中嘲笑道:「看著它垂死掙扎的樣子,真的很蠢」。
一位來自亞馬遜AWS高級應(yīng)用科學(xué)家在測試之后發(fā)現(xiàn),ChatGPT的智商只有83……
ChatGPT的「錯題集錦」,也讓馬庫斯都笑掉大牙。?
問:A的體重的85磅,B的體重的105磅,C的體重是115磅,其中有兩個人站在同一個稱上,體重可以達到200磅。
答:不,你說的不對。因為85+105+115=305,115+105=220,都大于200。
那么,有沒有可能是85+105=200呢?
問:17、3、2、19、5中,哪三個數(shù)字加起來等于31。
答:17+3+11=31
等等,你這個11是哪兒來的?
雖然代數(shù)不太好,但是ChatGPT的幾何學(xué)也很差呀!
問:一個邊長為10厘米的正方形可以完全容納在一個邊長為10厘米的正六邊形里。
答:不對,放不去進去的。
「正六邊形是一個六邊形,所有邊的長度都相同,所有內(nèi)角都是120度。另一方面,正方形的內(nèi)角都是90度,所以正方形不能被放在正六邊形中。為了讓正方形完全嵌入正六邊形,正六邊形需要每邊大于10厘米?!?/p>
還有非常經(jīng)典的「胡言亂語」:
「如果星期一是這個月的第一天,那么星期二是這個月的第二天,……星期五是這個月的第五天。星期五之后的第二天是星期六,是一周中的第六天,也是一個月中的第五天。」
現(xiàn)在,ChatGPT還會時常犯蠢,「提示工程」也不能被輕易拋棄。
但微調(diào)大模型的成本最終總會下來,而自己會給自己prompt的AI,恐怕也指日可待了。
參考資料:
https://twitter.com/drjimfan/status/1600884299435167745?s=46&t=AkG63trbddeb_vH0op4xsg
https://twitter.com/SergeyI49013776/status/1598430479878856737
特別鳴謝:
https://mp.weixin.qq.com/s/seeJ1f8zTigKxWEUygyitw