自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用

人工智能 新聞
我們鼓勵(lì)員工手搓了一個(gè)數(shù)據(jù)集,訓(xùn)練 LLM 還把它開源。

眾所周知,在 ChatGPT 的問題上 OpenAI 并不 Open,從 Meta 那里開源的羊駝系列模型也因?yàn)閿?shù)據(jù)集等問題「僅限于學(xué)術(shù)研究類應(yīng)用」,在人們還在因?yàn)閷ふ依@過限制方法的時(shí)候,主打 100% 開源的大模型來了。

4 月 12 日,Databricks 發(fā)布了 Dolly 2.0,這是兩周前發(fā)布的類 ChatGPT 人類交互性(指令遵循)大語言模型(LLM)的又一個(gè)新版本。

Databricks 表示,Dolly 2.0 是業(yè)內(nèi)第一個(gè)開源、遵循指令的 LLM,它在透明且免費(fèi)提供的數(shù)據(jù)集上進(jìn)行了微調(diào),該數(shù)據(jù)集也是開源的,可用于商業(yè)目的。這意味著 Dolly 2.0 可用于構(gòu)建商業(yè)應(yīng)用程序,無需支付 API 訪問費(fèi)用或與第三方共享數(shù)據(jù)。

圖片

  • 項(xiàng)目鏈接:https://huggingface.co/databricks/dolly-v2-12b
  • 數(shù)據(jù)集:https://github.com/databrickslabs/dolly/tree/master/data

根據(jù) Databricks 首席執(zhí)行官 Ali Ghodsi 的說法,雖然已有其他大模型可以用于商業(yè)目的,但「它們不會像 Dolly 2.0 那樣與你交談?!苟一?Dolly 2.0 模型,用戶可以修改和改進(jìn)訓(xùn)練數(shù)據(jù),因?yàn)樗窃陂_源許可下免費(fèi)提供的。所以你可以制作你自己的 Dolly 版本。

Databricks 還發(fā)布了 Dolly 2.0 在其上進(jìn)行微調(diào)的數(shù)據(jù)集,稱為 databricks-dolly-15k。這是由數(shù)千名 Databricks 員工生成的超過 1.5 萬條記錄的語料庫,Databricks 稱這是「第一個(gè)開源的、人工生成的指令語料庫,專門設(shè)計(jì)用于讓大型語言能夠展示出 ChatGPT 的神奇交互性?!?/span>

Dolly 2.0 是怎么誕生的

在過去的兩個(gè)月里,業(yè)界、學(xué)界紛紛追趕 OpenAI 提出了一波遵循指令的類 ChatGPT 大模型,這些版本被許多定義視為開源(或提供某種程度的開放性或有限訪問)。其中 Meta 的 LLaMA 最受人關(guān)注,它引發(fā)了大量進(jìn)一步改進(jìn)的模型,如 Alpaca、Koala、Vicuna 以及 Databricks 的 Dolly 1.0。

但另一方面,許多這些「開放」模型都處于「工業(yè)限制」之下,因?yàn)樗鼈兘邮芰酥荚谙拗粕虡I(yè)用途的條款的數(shù)據(jù)集的訓(xùn)練 —— 例如來自 StanfordAlpaca 項(xiàng)目的 5.2 萬個(gè)問答數(shù)據(jù)集,是根據(jù) OpenAI 的 ChatGPT 的輸出進(jìn)行訓(xùn)練的。而 OpenAI 的使用條款包括一條規(guī)則,即你不能使用 OpenAI 的服務(wù)反過來與其競爭。

Databricks 思考了解決這個(gè)問題的方法:新提出的 Dolly 2.0 是一個(gè) 120 億參數(shù)的語言模型,它基于開源 EleutherAI pythia 模型系列,專門針對小型開源指令記錄語料庫進(jìn)行了微調(diào)(databricks-dolly-15k),該數(shù)據(jù)集由 Databricks 員工生成,許可條款允許出于任何目的使用、修改和擴(kuò)展,包括學(xué)術(shù)或商業(yè)應(yīng)用。

到目前為止,在 ChatGPT 的輸出上訓(xùn)練的模型一直處于合法的灰色地帶?!刚麄€(gè)社區(qū)一直在小心翼翼地解決這個(gè)問題,每個(gè)人都在發(fā)布這些模型,但沒有一個(gè)可以用于商業(yè)用途,」Ghodsi 表示。「這就是我們非常興奮的原因。」

「其他人都想做得更大,但我們實(shí)際上對更小的東西感興趣,」Ghodsi 在談到 Dolly 的微縮規(guī)模時(shí)說?!钙浯危覀兎喠怂械拇鸢?,它是高質(zhì)量的?!?/span>

Ghodsi 表示,他相信 Dolly 2.0 將啟動「雪球」效應(yīng),讓人工智能領(lǐng)域的其他人加入并提出其他替代方案。他解釋說,對商業(yè)用途的限制是一個(gè)需要克服的大障礙:「我們現(xiàn)在很興奮,因?yàn)槲覀兘K于找到了一個(gè)繞過它的方法。我保證你會看到人們將這 15000 個(gè)問題應(yīng)用于現(xiàn)有的每一個(gè)模型,他們會看到這些模型中有多少突然變得有點(diǎn)神奇,你可以與它們互動?!?/span>

手搓數(shù)據(jù)集

要下載 Dolly 2.0 模型的權(quán)重,只需訪問 Databricks Hugging Face 頁面,并訪問 databricks-labs 的 Dolly repo,下載 databricks-dolly-15k 數(shù)據(jù)集。

「databricks-dolly-15k」數(shù)據(jù)集包含 15000 個(gè)高質(zhì)量的人類生成的 prompt / 回復(fù)對,由 5000 多名 Databricks 員工在 2023 年 3 月和 4 月期間撰寫,專門設(shè)計(jì)用于指令調(diào)優(yōu)大型語言模型。這些訓(xùn)練記錄自然、富有表現(xiàn)力,旨在代表廣泛的行為,從頭腦風(fēng)暴、內(nèi)容生成到信息提取和總結(jié)。

根據(jù)該數(shù)據(jù)集的許可條款(Creative Commons Attribution-ShareAlike 3.0 Unported License),任何人都可因任何目的使用、修改或擴(kuò)展這個(gè)數(shù)據(jù)集,包括商業(yè)應(yīng)用。

目前,這一數(shù)據(jù)集是首個(gè)開源的、由人類生成的指令數(shù)據(jù)集。

為什么要創(chuàng)建這樣一個(gè)數(shù)據(jù)集?團(tuán)隊(duì)也在博客中解釋了原因。

創(chuàng)建 Dolly 1.0 或任何遵循 LLM 的指令的一個(gè)關(guān)鍵步驟是,在指令和回復(fù)對的數(shù)據(jù)集上訓(xùn)練模型。Dolly 1.0 的訓(xùn)練費(fèi)用為 30 美元,使用的是斯坦福大學(xué) Alpaca 團(tuán)隊(duì)用 OpenAI API 創(chuàng)建的數(shù)據(jù)集。

在 Dolly 1.0 發(fā)布之后,就有很多人要求試用,此外還有一部分用戶希望在商業(yè)上使用這個(gè)模型。

但是訓(xùn)練數(shù)據(jù)集包含 ChatGPT 的輸出,正如斯坦福大學(xué)團(tuán)隊(duì)所指出的,服務(wù)條款試圖阻止任何人創(chuàng)建一個(gè)與 OpenAI 競爭的模型。

此前,所有的知名指令遵循模型(Alpaca、Koala、GPT4All、Vicuna)都受到這種限制:禁止商業(yè)使用。為了解決這個(gè)難題,Dolly 團(tuán)隊(duì)開始尋找方法來創(chuàng)建一個(gè)沒有商業(yè)用途限制的新數(shù)據(jù)集。

具體而言,團(tuán)隊(duì)從 OpenAI 公布的研究論文中得知,最初的 InstructGPT 模型是在一個(gè)由 13000 個(gè)指令遵循行為演示組成的數(shù)據(jù)集上訓(xùn)練出來的。受此啟發(fā),他們開始研究是否可以在 Databricks 員工的帶領(lǐng)下取得類似的結(jié)果。

結(jié)果發(fā)現(xiàn),生成 13000 個(gè)問題和答案比想象中更難。因?yàn)槊總€(gè)答案都必須是原創(chuàng)的,不能從 ChatGPT 或網(wǎng)絡(luò)上的任何地方復(fù)制,否則會「污染」數(shù)據(jù)集。但 Databricks 有超過 5000 名員工,他們對 LLM 非常感興趣。因此,團(tuán)隊(duì)進(jìn)行了一次眾包實(shí)驗(yàn),創(chuàng)造出了比 40 位標(biāo)注者為 OpenAI 創(chuàng)造的更高質(zhì)量的數(shù)據(jù)集。

當(dāng)然,這項(xiàng)工作耗時(shí)耗力,為了激勵(lì)大家,團(tuán)隊(duì)設(shè)立置一個(gè)競賽,前 20 名的標(biāo)注者將獲得驚喜大獎。同時(shí),他們也列出了 7 項(xiàng)非常具體的任務(wù):

  • 公開問答:例如「為什么人們喜歡喜劇電影?」或「法國的首都是什么?」在某些情況下,沒有一個(gè)正確的答案,而在其他情況下,需要借助于整個(gè)世界的知識;
  • 封閉式問答:這些問題只用一段參考文獻(xiàn)中的信息就可以回答。例如,給定維基百科中關(guān)于原子的一段,人們可能會問:「原子核中質(zhì)子和中子的比例是多少?」;
  • 從維基百科中提取信息:在這里,標(biāo)注者會從維基百科上復(fù)制一個(gè)段落,并從該段落中提取實(shí)體或其他事實(shí)信息,如重量或測量;
  • 總結(jié)維基百科上的信息:對于這一點(diǎn),注釋者從維基百科上提供了一段話,并被要求將其提煉為一個(gè)簡短的摘要;
  • 集思廣益:這項(xiàng)任務(wù)要求進(jìn)行開放式的構(gòu)思,并列出相關(guān)的可能選項(xiàng)。例如「這個(gè)周末我可以和我的朋友做哪些有趣的活動?」;
  • 分類:在這項(xiàng)任務(wù)中,標(biāo)注者被要求對類別成員進(jìn)行判斷(例如,列表中的項(xiàng)目是動物、礦物還是蔬菜),或者判斷一段短文的屬性,例如電影評論的情緒;
  • 創(chuàng)意寫作:這項(xiàng)任務(wù)將包括寫一首詩或一封情書等內(nèi)容。

以下是一些示例:

圖片

圖片

最開始,團(tuán)隊(duì)對于是否能達(dá)到 10000 個(gè)結(jié)果持懷疑態(tài)度。但通過每晚的排行榜游戲,一周內(nèi)就成功地突破了 15000 個(gè)結(jié)果。

隨后,出于對「占用員工生產(chǎn)力」的擔(dān)心,團(tuán)隊(duì)關(guān)閉了比賽(這很合理)。

商業(yè)化的可行性

在數(shù)據(jù)集火速創(chuàng)建完成之后,團(tuán)隊(duì)開始考慮商業(yè)應(yīng)用的問題了。

他們想制作一個(gè)可在商業(yè)上使用的開源模型。盡管 databricks-dolly-15k 比 Alpaca(訓(xùn)練 Dolly 1.0 的數(shù)據(jù)集)小得多,但基于 EleutherAI pythia-12b 的 Dolly 2.0 模型卻表現(xiàn)出高質(zhì)量的指令遵循行為。

事后看來,這并不令人驚訝。畢竟最近幾個(gè)月發(fā)布的許多指令調(diào)優(yōu)數(shù)據(jù)集包含合成數(shù)據(jù),這些數(shù)據(jù)往往包含幻覺和事實(shí)錯(cuò)誤。

另一方面,databricks-dolly-15k 是由專業(yè)人士生成的,質(zhì)量很高,而且包含大多數(shù)任務(wù)的長篇答案。

以下是 Dolly 2.0 用于總結(jié)和內(nèi)容生成的一些例子:

圖片

圖片

圖片

Dolly 團(tuán)隊(duì)表示,根據(jù)最初的客戶反饋,像這樣的能力可在整個(gè)企業(yè)中進(jìn)行廣泛的應(yīng)用。因?yàn)楹芏嗥髽I(yè)希望擁有自己的模型,以此為自己的特定領(lǐng)域應(yīng)用創(chuàng)建更高質(zhì)量的模型,而不是將自己的敏感數(shù)據(jù)交給第三方。

Dolly 2 的開源為構(gòu)建更好的大模型生態(tài)開了一個(gè)好頭。開放源代碼的數(shù)據(jù)集和模型鼓勵(lì)評論、研究和創(chuàng)新,有助于確保每個(gè)人都從人工智能技術(shù)的進(jìn)步中受益。Dolly 團(tuán)隊(duì)期望新模型和開源數(shù)據(jù)集將作為眾多后續(xù)工作的種子,幫助引導(dǎo)出更強(qiáng)大的語言模型。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-04-02 21:39:14

ChatGPT開源

2009-04-29 09:23:04

rapid-frame2.0封裝

2018-09-05 17:14:36

戴爾

2024-01-18 15:10:47

開源模型開源InternLM2

2009-05-13 08:06:56

九城魔獸協(xié)議帳號

2009-03-10 08:43:38

Erwise圖形瀏覽器

2023-05-12 13:14:59

ChatGPTAI工具

2012-05-24 10:32:54

網(wǎng)絡(luò)流量網(wǎng)絡(luò)中立法

2023-03-21 08:10:18

2012-03-02 13:43:28

2023-07-25 13:52:54

開源模型

2023-07-28 15:39:20

TransGPT人工智能開源

2024-01-15 14:19:34

開源ChatGPT

2024-02-06 10:38:10

昆侖萬維大模型

2024-01-22 13:59:00

模型訓(xùn)練

2023-08-03 19:11:45

2023-06-16 14:10:45

開源人工智能

2023-08-18 14:34:00

研究模型

2023-04-20 14:43:38

Linux模型GPT4
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號