2023年第一天,請查收ChatGPT的年終總結!
ChatGPT的橫空出世,可能是2022年下半年最引人注目的AI突破,雖然可能不是技術含量最高的。
前不久,在新奧爾良舉行的2022 NeurIPS上,關于GPT-4的傳言不絕于耳,與此同時,OpenAI也成為全場新聞媒體的焦點。
OpenAI宣布了GPT-3系列AI大型語言模型中的一個新模型:text-davinci-003,這是其「GPT-3.5系列」的一部分,可以通過處理更復雜的指令和產生更高質量、更長形式的內容來改進性能。
新模型建立在InstructGPT的基礎上,使用帶有人類反饋的強化學習,使語言模型與人類指令更好地保持一致。
達芬奇-003是一個真正的帶有人類反饋的強化學習(RLHF)模型,它在人類的演示和高分的模型樣本上使用監(jiān)督微調來提高生成質量。"
而作為「GPT-3.5系列」的另一部分,OpenAI發(fā)布了ChatGPT的早期演示,該公司宣稱,這個交互式的對話模型,不僅可以回答大量的后續(xù)問題,還會承認錯誤,對不正確的提問前提提出質疑,拒絕不適當的提問請求。
OpenAI在博客中表示,ChatGPT的研究發(fā)布是「OpenAI迭代部署越來越安全和有用的AI系統(tǒng)的最新步驟。它吸取了從GPT-3和Codex等早期模型部署中的許多經驗教訓,在利用人類反饋的強化學習(RLHF)時,有害和不真實的輸出結果大幅減少。
另外,ChatGPT在訓練中強調,它是一個機器學習模型,這可能是出于避免前不久谷歌的聊天機器人LaMDA引發(fā)的「AI是否有意識」的爭議。
當然,ChatGPT也有局限性。
在博客文章中,OpenAI詳細介紹了它的局限性,包括有時答案聽起來似乎很有道理,但實際上是不正確或無意義的事實。
「解決這個問題是很有挑戰(zhàn)性的,因為 (1) 在強化學習訓練期間,目前沒有保證一定有可靠的來源;(2) 訓練模型更加謹慎,會拒絕可能正確回答的問題;(3) 監(jiān)督訓練可能誤導模型,因為理想的答案取決于模型知道什么,而不是人類演示者知道什么?!?/span>
Open AI表示,ChatGPT 「有時會對有害的指令做出反應或表現出有偏見的行為。我們正在使用API來警告或阻止某些類型的不安全內容,但預計目前會有一些錯誤的否定和肯定。我們非常愿意收集用戶的反饋,幫助我們正在進行的工作,改善這個模型」。
雖然ChatGPT可能還有很多亟待改進的問題,但我們不可否認,在GPT-4登場前,ChatGPT仍然是目前大型語言模型的頂流。
不過,最近的社群中,又有一個新的模型點燃了大家的討論熱情。最關鍵的是,它還是開源的。
本周, 負責對包括Meta的Make-A-Video在內的閉源 AI系統(tǒng)進行逆向工程的開發(fā)人員Philip Wang發(fā)布了PaLM + RLHF,這是一種文本生成模型,其行為類似于ChatGPT。
代碼地址:https://github.com/lucidrains/PaLM-rlhf-pytorch
該系統(tǒng)結合了谷歌的大型語言模型PaLM和強化學習與人類反饋(RLHF)技術,創(chuàng)建了一個幾乎可以完成ChatGPT任何任務的系統(tǒng),包括起草電子郵件和建議計算機代碼。
PaLm + RLHF的力量
自發(fā)布以來,ChatGPT因能夠生成高清晰度的類人文本,并能以對話方式對用戶問題做出回應,因此在科技界掀起了一場風暴。
這雖然是聊天機器人發(fā)展初期的重大進步,但人工智能領域的許多擁躉對ChatGPT的封閉性表示擔憂。
時至今日,ChatGPT模型仍然是專有的,這意味著公眾無法查看其底層代碼。只有OpenAI真正知道它的工作原理以及它處理的數據。這種缺乏透明度可能會產生深遠的影響,并可能長期影響用戶的信任。
許多開發(fā)人員一直渴望構建一個開源替代方案,現在,它終于到來了。PaLM + RLHF是專門為Python語言構建的,可以為PyTorch實現。
開發(fā)人員可以像訓練自回歸transformer一樣輕松訓練 PaLM,然后使用人類反饋訓練獎勵模型。
和ChatGPT一樣,PaLM + RLHF本質上是一種預測單詞的統(tǒng)計工具。當從訓練數據中輸入大量示例時——如來自Reddit的帖子、新聞文章和電子書——PaLM + RLHF會根據諸如周圍文本的語義上下文等模式,學習單詞出現的可能性。
真有這么完美?
當然,理想和現實之間還存在著不小的差距。PaLM + RLHF看似完美,卻也存在各種問題。其中最大的問題就是,人們現在還不能使用它。
要啟動PaLM + RLHF,用戶需要編譯從博客、社交媒體、新聞文章、電子書等各種來源獲取的千兆字節(jié)文本。
這些數據被提供給經過微調的PaLm模型,該模型將生成幾個回應。例如,如果詢問模型「經濟學的基礎知識是什么」,PaLm會給出諸如「經濟學是研究……的社會科學」之類的回答。
之后,開發(fā)者會請人對模型生成的回答從好到差進行排名,并創(chuàng)建一個獎勵模型。最后,排名用于訓練「獎勵模型」,該模型采用原始模型的回應并按偏好順序對它們進行排序,過濾出給定提示的最佳答案。
然而,這是一個昂貴的過程。收集訓練數據和訓練模型本身并不便宜。PaLM有5400億個參數,即語言模型從訓練數據中學習到的部分。2020年的一項研究表明,開發(fā)一個只有15億個參數的文本生成模型的費用高達160萬美元。
今年7月,為了訓練擁有1760億個參數的開源模型Bloom,Hugging Face的研究人員耗時三個月,使用了384個英偉達A100 GPU。每個A100的價格高達數千美元,這不是任何普通用戶所能承受的成本。
此外,即使完成了對模型的訓練,運行PaLM + RLHF大小的模型也不是件易事。Bloom配備了八個A100 GPU的專用PC,而OpenAI的文本生成GPT-3(具有大約 1750 億個參數)的運行成本約為每年87,000美元。
AI研究人員Sebastian Raschka在一篇關于PaLM + RLHF的文章中指出,擴大必要的開發(fā)工作流程也可能是一個挑戰(zhàn)。
「即使有人為你提供500個GPU來訓練這個模型,你仍然需要處理基礎設施并擁有可以處理的軟件框架,」他說?!高@雖然可行,但目前來看,需要付出很大的努力?!?/span>
下一個開源ChatGPT
高昂的費用和龐大的規(guī)模都表明,如果沒有資金雄厚的企業(yè)或個人不厭其煩地訓練模型,PaLM + RLHF目前還沒有取代ChatGPT的能力。
到目前為止,沒有任何關于PaLM + RLHF確切的發(fā)布日期。作為參照,Hugging Face訓練Bloom花了三個月的時間。相比之下,擁有5400億參數的PaLM + RLHF可能需要等待6-8 個月的時間才能誕生一個有意義的版本。
好消息是,到目前為止,我們有三個已知的玩家在開發(fā)這個開源版ChatGPT的替代方案:
- CarperAI
- LAION
- Yannic Kilcher
CarperAI計劃與EleutherAI和初創(chuàng)公司Scale AI和Hugging Face合作,發(fā)布第一個可立即運行的、類似ChatGPT的AI模型,該模型經過人類反饋訓練。
代碼地址:https://github.com/CarperAI/trlx
LAION是為Stable Diffusion提供初始數據集的非營利組織,它還率先開展了一個使用最新機器學習技術復制ChatGPT的項目。
代碼地址:https://github.com/LAION-AI/Open-Assistant
LAION旨在打造一個「未來助手」,不僅能寫電子郵件和求職信,還能「做有意義的工作、使用 API、動態(tài)研究信息等」。它處于早期階段,但是幾周前,一個包含相關資源的項目已在GitHub上線。
而由油管網紅、AI研究人員Yannic Kilcher創(chuàng)建的GPT-4chan,更像是「出淤泥而全染」的嘴臭達人。
該模型中的「4chan」是一個美國在線匿名論壇,因網友身份皆為匿名,很多人便無所畏懼,發(fā)表各種政治不正確的言論。而Kilcher正式用4chan上的帖子對模型進行訓練,其結果可想而知。
與論壇總基調類似,GPT-4chan的回答充斥著種族歧視、性別歧視和反猶太主義。不僅如此,Kilcher還將其底層模型發(fā)布到Hugging Face供他人下載。不過在很多AI研究人員的聲討下,官方很快限制了網友對該模型的訪問。
在我們期待更多開源語言模型出現的同時,現在我們能做的只有等待。當然,繼續(xù)免費使用ChatGPT 也是個好主意。
值得注意的是,在任何開源版本正式登場之前,OpenAI在開發(fā)方面仍遙遙領先。而2023年,GPT-4無疑是全世界AI愛好者翹首以盼的對象。
無數AI大佬都對其做出了自己的預測,這些預測或好或壞,但就像OpenAI首席運營官Sam Altman所言:「通用人工智能的建成會比大多數人想象得更快,并且它會改變大多數人想象中的一切。」