少用ChatGPT,多支持開源!紐約大學教授Nature發(fā)文:為了科學界的未來
免費的ChatGPT用的是很爽,但這種閉源的語言模型最大的缺點就是不開源,外界根本無法了解背后的訓練數(shù)據(jù)以及是否會泄露用戶隱私等問題,也引發(fā)了后續(xù)工業(yè)界、學術界聯(lián)合開源了LLaMA等一系列羊駝模型。
最近Nature世界觀欄目刊登了一篇文章,紐約大學政治與數(shù)據(jù)科學教授Arthur Spirling呼吁大家更多地使用開源模型,實驗結果可復現(xiàn),也符合學術倫理。
重點是,萬一哪天OpenAI不爽了,關閉了語言模型接口,或是靠封閉壟斷漲價的話,那用戶只能無奈地說一句,「終究是學術敗給了資本」。
文章作者Arthur Spirling將于今年7月加入普林斯頓大學教授政治學,主要研究方向是政治方法論和立法行為,具體為文本數(shù)據(jù)(text-as-data)、自然語言處理、貝葉斯統(tǒng)計、機器學習、項目反應理論和廣義線性模型在政治科學中的應用。
研究人員應該避免商用模型的誘惑,共同開發(fā)透明的大型語言模型,以確保可重復性。
擁抱開源,拒絕壟斷
似乎每天都有一個全新的大型語言模型(LLM)推出,其創(chuàng)建者和學術界相關人士每次都會對新模型如何與人類進行流暢交流的能力慷慨陳詞,比如可以幫用戶改代碼,寫推薦信,給文章寫摘要等等。
作為一名正在使用并教授如何使用這些模型的政治和數(shù)據(jù)科學家,我認為學者們應該保持警惕,因為目前最受大眾追捧的語言模型仍然是私有且封閉的,即由公司運營,他們不會披露基本模型的具體信息,只會獨立地檢查或驗證模型的能力,所以研究人員和公眾并不知道模型的訓練使用了哪些文件。
急于將語言模型納入自己的研究流程可能會出問題,可能會威脅到來之不易的「研究倫理」和「結果復現(xiàn)性」方面的相關進展。
不光不能依賴商用模型,研究人員還要通力合作開發(fā)透明且不依賴于某個具體公司利益的開源大型語言模型。
雖然商用模型非常方便,可以開箱即用,但投資開源語言模型是歷史的趨勢,既要想辦法推進開發(fā),也要讓模型應用于未來的研究中。
我樂觀地估計,語言模型工具的未來一定是開源的,類似于開源統(tǒng)計軟件的發(fā)展歷史,剛開始商用的統(tǒng)計軟件很流行,但目前基本所有社區(qū)都在使用R或Python等開源平臺。
舉個例子,去年7月發(fā)布的開源語言模型BLOOM,其開發(fā)團隊Hugging Face是一家總部位于紐約的人工智能公司,攜手一千多名志愿者和研究人員共同打造,部分研發(fā)資金由法國政府提供;其他團隊也在努力開源大型語言模型。
我認為類似這樣的開源項目都是偉大的,但我們還需要更多的合作,需要匯集國際資源和專業(yè)知識。
開源大型語言模型的團隊通常不像大公司那樣資金充足,并且開發(fā)團隊還需要持續(xù)運營以跟蹤領域內的最新進展:AI領域的發(fā)展實在是太快了,甚至大部分語言模型在推出幾周或幾個月以后就會過時。
所以參與到開源中的學者越多,最終開源模型的效果也會更好。
使用開源 LLM 對于「可重復性的研究」至關重要,因為閉源的商用語言模型所有者可以隨時更改其產品或其訓練數(shù)據(jù),都有可能會改變模型的生成結果。
比如說,一個研究小組可能會發(fā)表一篇論文,測試商用語言模型建議的措辭是否可以幫助臨床醫(yī)生更有效地與患者溝通;如果另一個小組試圖復現(xiàn)這項研究,誰知道模型的基礎訓練數(shù)據(jù)是否和當時一樣?甚至該模型是否仍然運營都是未知數(shù)。
之前研究人員常用的輔助工具GPT-3已經(jīng)被GPT-4取代了,所有基于GPT-3接口的研究在未來很可能無法復現(xiàn),對于公司來說,維持舊模型運行的優(yōu)先級并不高。
相比之下,使用開源LLM,研究人員可以查看模型的內部架構、權重,了解模型是如何運行的,定制代碼并指出錯誤,這些細節(jié)包括模型的可調參數(shù)和訓練模型的數(shù)據(jù),社區(qū)的參與和監(jiān)督都有助于讓這種模式長期保持穩(wěn)健。
在科學研究中使用商用語言模型也對研究倫理產生了負面的影響,因為用于訓練這些模型的文本是未知的,可能包括社交媒體平臺上用戶之間的直接信息或兒童撰寫的內容。
盡管制作公共文本的人可能已經(jīng)同意了平臺的服務條款,但這可能不是研究人員希望看到的知情同意標準。
在我看來,科學家應該盡可能地在自己的工作中遠離使用這些模型。我們應該轉向開放的語言模型,并推廣給其他人使用。
此外,我認為學者,尤其是那些擁有大量社交媒體追隨者的學者,不應該推動其他人使用商用模型,如果價格飆升,或者公司倒閉,研究人員可能會后悔把技術推廣給同事。
研究人員目前可以求助于私人組織制作的開放式語言模型,例如用Facebook母公司Meta開源的LLaMA,最初是基于用戶申請、審核的形式發(fā)放的,但完整版模型隨后在網(wǎng)上泄露;還可以使用Meta的開放語言模型OPT-175 B
從長遠來看,不利的一面是,這些模型的發(fā)布過于依賴公司的仁慈,這是一種不穩(wěn)定的局面。
除此之外,還應該有與語言模型合作的學術行為準則,以及相應的監(jiān)管措施,但這些都需要時間,根據(jù)我作為政治學家的經(jīng)驗,我預計這些規(guī)定最初肯定是很不完善的,并且見效緩慢。
與此同時,大規(guī)模的合作項目迫切需要支持,以訓練用于研究的開源語言模型,類似歐洲粒子物理研究所(CERN),國際粒子物理組織,政府應通過贈款增加資金。
該領域正在以閃電般的速度發(fā)展,現(xiàn)在需要開始協(xié)調國內和國際支持。
科學界需要有能力評估由此得到模型的風險,并且需要謹慎地向公眾發(fā)布,但很明顯,開放的環(huán)境是正確的。