LLaMA模型慘遭泄漏,Meta版ChatGPT被迫「開源」!GitHub斬獲8k星,評測大量出爐
ChatGPT角逐之戰(zhàn)愈演愈烈。
前幾周,Meta發(fā)布了自家的大型語言模型LLaMA,參數(shù)量從70億到650億不等。
論文中,僅用1/10參數(shù)的LLaMA(130億)在大多數(shù)基準(zhǔn)測試下超越了GPT-3。
對于650億參數(shù)的LLaMA,則與DeepMind的Chinchilla(700億參數(shù))和谷歌的PaLM(5400億參數(shù))旗鼓相當(dāng)。
雖然Meta聲稱LLaMA是開源的,但還需要研究人員申請并進(jìn)行審核。
然而萬萬沒想到的是,剛發(fā)布沒幾天,LLaMA的模型文件就提前泄露了。
那么,問題來了,這究竟是故意的還是不小心的
LLaMA慘遭「開源」?
近日,國外論壇4chan上泄露了LLaMA的成品庫。
上周四,用戶llamanon在4chan的技術(shù)板上發(fā)帖,通過種子文件(torrent)發(fā)布7B和65B的LLaMA模型。
這個種子鏈接目前被合并到了LLaMA的GitHub頁面。
他還向項目提交了第二個拉請求,該請求提供了一個種子鏈接,鏈接到模型的另一組權(quán)重。
目前該項目在GitHub已收獲8k星。
然而,泄密者最大的錯誤之一就是在泄密的模型中包含了他們的唯一標(biāo)識符代碼。
這個代碼是專門用來追蹤泄密者的,使用戶llamanon的個人信息處于危險之中。
正所謂,LLaMA開源的不太體面,網(wǎng)友幫它體面了。
此外,4chan上的用戶還為那些希望在自己的工作站上部署該模型的人創(chuàng)建了一個方便的資源。
并提供了一個分布教程的指南,說明如何獲得模型,并將修改后的權(quán)重添加到其中,以便進(jìn)行更有效的推理。
更重要的是,這個資源甚至提供了一種將LLaMA集成到 在線寫作平臺KoboldAI的方法。
對于這件事究竟是Meta有意為之,還是無意泄漏。網(wǎng)友們紛紛發(fā)表了自己的看法。
一位網(wǎng)友分析地頭頭是道,「也許這是Meta故意泄露的,以對抗 OpenAI?!?/span>
一些客戶認(rèn)為這是一個更好的模型,它恰好擊中了他們以每年25萬美元的價格出售訪問權(quán)的商業(yè)計劃的核心。訪問他們的服務(wù)一個月可以購買一臺能夠運行這種泄露模型的機器。Meta削弱了一個潛在的新貴競爭對手,以保持當(dāng)前的大型科技卡特爾穩(wěn)定。也許這有點陰謀論,但我們生活在大科技和大陰謀的時代。
周一,Meta稱,盡管LLaMA已經(jīng)泄露給未經(jīng)授權(quán)的用戶,仍將繼續(xù)向認(rèn)可的研究人員發(fā)布其人工智能工具。
有網(wǎng)友直接稱,自己下載了70億參數(shù)的LLaMA,盡管不知道如何運行,萬一以后用上就能拿來了。
LLaMA的泄露和開源是一個大事件:
Stable Diffusion開源了。8個月后,我們現(xiàn)在就可以讀懂別人的思想,解碼他們看到的一切。
隨著LLMs的開放,我們將得到一些真正的瘋狂的東西。
模型初步評測
LLaMA發(fā)布不久后,網(wǎng)友發(fā)現(xiàn)這個最小參數(shù)的模型也需要近30GB的GPU才能運行。
然而,通過比特和字節(jié)庫進(jìn)行浮點優(yōu)化,他們能夠讓模型在單個NVIDIA RTX 3060上運行。
此外,GitHub 上的一名研究人員甚至能夠在Ryzen 7900X CPU上運行LLM的7B 版本,每秒能推斷出幾個單詞。
那么LLaMA模型究竟怎樣?國外小哥便對它進(jìn)行了評測。
圖片
LLaMA在很多測試中表現(xiàn)出色。
在大規(guī)模多任務(wù)語言理解方面,即使相對較小的13B模型也與GPT-3水平相當(dāng),而GPT-3的規(guī)模是其13倍。
33B版本遠(yuǎn)遠(yuǎn)優(yōu)于GPT-3, 65B則可與現(xiàn)有最強大的LLM模型--谷歌的540B參數(shù)的PaLM競爭。
圖片
對于需要應(yīng)用邏輯或計算進(jìn)行處理的文本方面,LLaMA表現(xiàn)優(yōu)秀,在定量推理方面可與PaLM相較,甚至比后者的代碼生成能力更好。
鑒于這些結(jié)果,LLaMA似乎是目前最先進(jìn)的模型之一,而且,它足夠小,不需要多少資源就能運行。這使得LLaMA對于人們來說充滿誘惑,想讓人和它玩玩,見識一下它的本領(lǐng)。
解釋笑話
PaLM原始論文中展示了一個非常酷的用例:給定一個笑話,讓模型解釋它為什么好笑。這個任務(wù)需要把嘗試和邏輯結(jié)合起來,PaLM之前的所有模型都無法做到這一點。
將其中一些笑話交給LLaMA和ChatGPT來解釋,有些笑話語言模型能get到,比如Schimidhuber冗長無聊的發(fā)言。
但總體上LLaMA和ChatGPT都沒什么幽默感。
不過兩者應(yīng)對聽不懂的笑話的策略不同,ChatGPT會產(chǎn)生「一堵文本墻」,希望其中至少有一些語句是正確答案,這種行為就像是不知道答案的學(xué)生,希望老師能從他們的一通亂說里找出答案。
零樣本歸類
這是一種很實用的功能,使得人們可以用LLM代替評分員來生成訓(xùn)練集,然后在這些訓(xùn)練集上訓(xùn)練較小的可服務(wù)的模型。
一個更有挑戰(zhàn)性的任務(wù)是點擊廣告分類,由于連人類都不能就什么是點擊廣告達(dá)成一致,在提示中會向模型提供一些例子,所以事實上這是一個少樣本而非零樣本歸類。下面是LLaMA的提示。
測試中只有LLaMA-33B會設(shè)法遵循所要求格式給出答案,而且其預(yù)測是合理的,ChatGPT表現(xiàn)次之,能給出比較合理的答案,但時常不按規(guī)定的格式回答,較小的7B、13B模型則不太適合完成這項任務(wù)。
代碼生成
雖然法LLM在人文方面表現(xiàn)出色,但不擅長STEM科目,那么LLaMA在這方面的表現(xiàn)如何呢?
在提示中,給出搜索表的形式和希望達(dá)到的目的,要求模型給提供SQL查詢語句。
ChatGPT在這項任務(wù)中表現(xiàn)更好一點,但語言模型給出的結(jié)果總體都不太靠譜。
在與ChatGPT對比進(jìn)行的各項測試中,LLaMA并沒有如想象中一樣大獲全勝。當(dāng)然如果其間差距只是由RLHF(帶有人類反饋的強化學(xué)習(xí))造成的,那小型模型的未來可能會更光明。