自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

300美元平替ChatGPT!斯坦福130億參數(shù)「小羊駝」誕生

人工智能 新聞
繼Alpaca 后,斯坦福聯(lián)手CMU、UC伯克利等機(jī)構(gòu)的學(xué)者再次發(fā)布了130億參數(shù)模型駱馬(Vicuna),僅需300美元就能實(shí)現(xiàn)ChatGPT 90%的性能。

繼Meta的LLaMA模型開(kāi)源后,AI界研究人員就在這個(gè)模型基礎(chǔ)上衍生出許多版本。

前段時(shí)間,斯坦福發(fā)布了Alpaca,是由Meta的LLaMA 7B微調(diào)而來(lái),僅用了52k數(shù)據(jù),性能可以與GPT-3.5匹敵。

今天,斯坦福學(xué)者聯(lián)手CMU、UC伯克利等,再次推出一個(gè)全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」(駱馬)。

圖片

Vicuna是通過(guò)在ShareGPT收集的用戶共享對(duì)話上對(duì)LLaMA進(jìn)行微調(diào)訓(xùn)練而來(lái),訓(xùn)練成本近300美元。

研究人員設(shè)計(jì)了8個(gè)問(wèn)題類別,包括數(shù)學(xué)、寫(xiě)作、編碼,對(duì)Vicuna-13B與其他四個(gè)模型進(jìn)行了性能測(cè)試。

測(cè)試過(guò)程使用GPT-4作為評(píng)判標(biāo)準(zhǔn),結(jié)果顯示Vicuna-13B在超過(guò)90%的情況下實(shí)現(xiàn)了與ChatGPT和Bard相匹敵的能力。

同時(shí),在在超過(guò)90%的情況下勝過(guò)了其他模型,如LLaMA和斯坦福的Alpaca。

圖片

團(tuán)隊(duì)成員來(lái)自加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、加州大學(xué)圣地亞哥分校和本·扎耶德人工智能大學(xué)。

圖片

90%匹敵ChatGPT

研究人員讓斯坦福的Alpaca和Vicuna來(lái)了一輪大比拼,分別對(duì)基準(zhǔn)問(wèn)題回答進(jìn)行了演示。

在使用70K用戶共享的ChatGPT對(duì)話數(shù)據(jù)對(duì)Vicuna進(jìn)行微調(diào)后,研究發(fā)現(xiàn)Vicuna能夠生成比Alpaca更詳細(xì)、結(jié)構(gòu)更合理的答案。

問(wèn):寫(xiě)一篇關(guān)于最近去夏威夷旅行的有趣的旅游博客文章,強(qiáng)調(diào)文化體驗(yàn)和必看景點(diǎn)。

圖片

Alpaca的回答可以說(shuō)是一個(gè)濃縮版,短短幾行就寫(xiě)完了,沒(méi)有按照要求完成任務(wù)。它僅是提到了自己寫(xiě)了一篇博客,并對(duì)博客內(nèi)容做了一個(gè)概述。

圖片

再來(lái)看Vicuna,撰寫(xiě)了一篇詳細(xì)且引人入勝的旅行博客文章,不僅內(nèi)容有趣,還詳細(xì)地介紹了夏威夷的文化體驗(yàn)和必看景點(diǎn)。

圖片

由此,讓GPT-4給打分,Alpaca7分,Vicuna滿分。

圖片

那么和ChatGPT對(duì)打,Vicuna的表現(xiàn)又如何呢?

兩者雙雙得了9分!

可以看到,這兩個(gè)模型提供一次夏威夷之旅的文章不僅引人入勝,而且文筆流暢。

另外,兩個(gè)回答中的詳細(xì)程度和準(zhǔn)確性都很出色,而且兩個(gè)模型都有效地傳達(dá)了夏威夷之旅的興奮和美麗。

此外,研究人員還將Vicuna與LLaMA,以及谷歌的Bard模型進(jìn)行了測(cè)試,測(cè)試結(jié)果顯示,LLaMA表現(xiàn)最差(1分),幾乎沒(méi)有回應(yīng)。

Bard回答的準(zhǔn)確性和相關(guān)性也是比較高,有9分的成績(jī),但是在更具吸引力回答方面,略低于Vicuna。

除了寫(xiě)作,研究人員在編碼、數(shù)學(xué)、角色扮演、常識(shí)等方面分別對(duì)Vicuna模型與其他四個(gè)模型的能力進(jìn)行了對(duì)比,總共80道題。

圖片

最后,研究人員基于GPT-4的初步評(píng)估總結(jié)如圖所示??梢钥吹?,Vicuna達(dá)到了Bard/ChatGPT的90%以上的能力。

圖片

由GPT-4評(píng)估的相對(duì)響應(yīng)質(zhì)量

有趣的是,在這次Vicuna的demo中,團(tuán)隊(duì)還加入了Alpaca和LLaMA的試用,而前者剛被關(guān)閉不久。

Demo地址:https://chat.lmsys.org/

模型介紹

ChatGPT橫空出世讓人興奮不已,但OpenAI不Open的事實(shí)讓圈內(nèi)人實(shí)在懊惱。

恰恰,Meta的LLaMA模型開(kāi)源,為許多研究人員動(dòng)手研發(fā)自己的模型提供了選擇。

Vicuna-13B誕生正是受到LLaMA和斯坦福Alpaca項(xiàng)目的啟發(fā)。這是一個(gè)基于增強(qiáng)數(shù)據(jù)集和易于使用、可擴(kuò)展的基礎(chǔ)設(shè)施的開(kāi)源聊天機(jī)器人。

該模型的訓(xùn)練數(shù)據(jù)來(lái)自于ShareGPT收集的用戶分享的對(duì)話,然后研究人員通過(guò)對(duì)LLaMA基本模型進(jìn)行微調(diào),Vicuna-13B就誕生了。

Vicuna-13B展示了與其他開(kāi)源模型(如斯坦福Alpaca)相媲美的性能。

研究人員對(duì)Vicuna-13B的性能進(jìn)行了初步評(píng)估,并描述了其訓(xùn)練和服務(wù)基礎(chǔ)設(shè)施。

同時(shí),這一模型演示demo已經(jīng)上線,所有研究人員都能參與在線演示互動(dòng),以測(cè)試這個(gè)聊天機(jī)器人的能力。

圖片

工作流程概述

對(duì)于Vicuna-13B訓(xùn)練流程,具體如下:

首先,研究人員從ChatGPT對(duì)話分享網(wǎng)站ShareGPT上,收集了大約70K對(duì)話。

接下來(lái),研究人員優(yōu)化了Alpaca提供的訓(xùn)練腳本,使模型能夠更好地處理多輪對(duì)話和長(zhǎng)序列。之后利用PyTorch FSDP在8個(gè)A100 GPU上進(jìn)行了一天的訓(xùn)練。

在模型的質(zhì)量評(píng)估方面,研究人員創(chuàng)建了80個(gè)不同的問(wèn)題,并用GPT-4對(duì)模型輸出進(jìn)行了評(píng)價(jià)。

為了比較不同的模型,研究人員將每個(gè)模型的輸出組合成一個(gè)單獨(dú)的提示,然后讓GPT-4評(píng)估哪個(gè)模型給出的回答更好。

圖片

LLaMA、Alpaca、Vicuna和ChatGPT的對(duì)比

訓(xùn)練

Vicuna是通過(guò)使用來(lái)自ShareGPT公共API收集的約70K用戶分享對(duì)話數(shù)據(jù)微調(diào)創(chuàng)建的。

為了確保數(shù)據(jù)質(zhì)量,研究人員將HTML轉(zhuǎn)換回markdown,并過(guò)濾掉一些不適當(dāng)或質(zhì)量較低的樣本。

另外,研究人員將較長(zhǎng)的對(duì)話劃分為較小的片段,以適應(yīng)模型的最大上下文長(zhǎng)度。

Vicuna的訓(xùn)練方法建立在斯坦福的Alpaca基礎(chǔ)上,并進(jìn)行了以下改進(jìn):

  • 內(nèi)存優(yōu)化:

為了使Vicuna能夠理解長(zhǎng)上下文,將最大上下文長(zhǎng)度從Alpaca的512擴(kuò)展到2048,這大大增加了GPU內(nèi)存需求。在此,研究人員通過(guò)使用梯度檢查點(diǎn)和閃存注意力來(lái)解決內(nèi)存壓力。

  • 多輪對(duì)話:

通過(guò)調(diào)整訓(xùn)練損失以考慮多輪對(duì)話,并僅在聊天機(jī)器人的輸出上計(jì)算微調(diào)損失。

  • 通過(guò)Spot實(shí)例降低成本:

40倍的數(shù)據(jù)集和4倍的序列長(zhǎng)度對(duì)訓(xùn)練帶來(lái)了相當(dāng)大的挑戰(zhàn)。研究人員采用SkyPilot托管的Spot實(shí)例來(lái)降低成本,通過(guò)利用自動(dòng)恢復(fù)搶占與自動(dòng)區(qū)域切換進(jìn)而減少成本。

這種解決方案將7B模型的訓(xùn)練成本從500美元降低到約140美元,將13B模型的訓(xùn)練成本從約1000美元降低到300美元。

評(píng)估

評(píng)估AI聊天機(jī)器人是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)樗枰獧z查語(yǔ)言理解、推理和上下文意識(shí)。隨著AI聊天機(jī)器人變得越來(lái)越先進(jìn),現(xiàn)有的開(kāi)放基準(zhǔn)可能不再足夠。

例如,斯坦福Alpaca中使用的評(píng)估數(shù)據(jù)集self-instruct,可以被SOTA聊天機(jī)器人有效地回答,這使得人類難以分辨性能差異。更多的限制包括訓(xùn)練/測(cè)試數(shù)據(jù)污染和創(chuàng)建新基準(zhǔn)的潛在高成本。

為了解決這些問(wèn)題,研究人員提出了一個(gè)基于GPT-4的評(píng)估框架,從而實(shí)現(xiàn)對(duì)聊天機(jī)器人性能的自動(dòng)評(píng)估。

首先,通過(guò)精心設(shè)計(jì)的提示,讓GPT-4能夠生成多樣化且具有挑戰(zhàn)性的問(wèn)題。并利用8個(gè)不同類別共80道題,如角色扮演、編碼/數(shù)學(xué)任務(wù)等,來(lái)測(cè)試這些模型(LLaMA、Alpaca、ChatGPT、Bard和Vicuna)在不同領(lǐng)域上表現(xiàn)出的性能。

然后,研究人員要求GPT-4根據(jù)幫助程度、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)對(duì)答案的質(zhì)量進(jìn)行評(píng)分。結(jié)果顯示,GPT-4不僅可以產(chǎn)生相對(duì)一致的分?jǐn)?shù),還可以提供詳細(xì)的解釋來(lái)說(shuō)明為什么給出這樣的分?jǐn)?shù)。但是,GPT-4并不擅長(zhǎng)評(píng)判編碼/數(shù)學(xué)任務(wù)。

圖片

由GPT-4評(píng)估的響應(yīng)比較

GPT-4在超過(guò)90%的問(wèn)題中更喜歡Vicuna,而不是現(xiàn)有的SOTA開(kāi)源模型(LLaMA、Alpaca)。

在45%的問(wèn)題中,GPT-4認(rèn)為Vicuna的回答和ChatGPT差不多甚至更好。

綜合來(lái)看,Vicuna在總分上達(dá)到ChatGPT的92%。

圖片

局限

研究人員指出,與其他大語(yǔ)言模型類似,Vicuna也存在著一定的局限性。

比如,Vicuna在涉及編程、推理、數(shù)學(xué)以及事實(shí)準(zhǔn)確性的任務(wù)上表現(xiàn)不佳。

此外,它也沒(méi)有經(jīng)過(guò)充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見(jiàn)。

為解決安全方面的問(wèn)題,研究人員在demo中采用了OpenAI的審查API來(lái)過(guò)濾掉不適當(dāng)?shù)挠脩糨斎搿?/span>

剩下的名字不多了

現(xiàn)在,除了美洲駝(LLaMA),羊駝(Alpaca),駝馬(Vicuna)都安排上了。

研究人員要趕快沖,因?yàn)榱艚o你們的名字不多了(1個(gè))。

圖片


責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-03-14 13:45:14

模型AI

2023-04-07 13:54:37

模型AI

2023-04-04 13:17:00

GPUCMU開(kāi)源

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-03-15 10:26:00

模型開(kāi)源

2023-05-26 10:50:38

模型AI

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2023-06-05 15:44:15

GPT-4AI

2023-09-21 12:31:54

AI數(shù)據(jù)

2023-05-22 09:28:30

模型AI

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-02-14 09:45:11

模型測(cè)試

2022-08-11 13:44:59

芯片AI

2024-05-06 08:00:00

AI模型

2023-06-25 13:28:21

2023-02-17 09:01:50

ChatGPT對(duì)話機(jī)器人

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬(wàn)內(nèi)核

2012-03-21 21:38:27

蘋(píng)果

2023-04-02 21:39:14

ChatGPT開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)