自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

七個(gè)值得關(guān)注的優(yōu)秀大語言模型(LLM)

人工智能 開源
在開源生態(tài)中涌現(xiàn)了許多優(yōu)秀的LLM預(yù)練模型,這些模型有著各自的亮點(diǎn)。本文主要介紹目前為止(2024年1月)幾個(gè)值得關(guān)注的大開源LLM。

在LLM領(lǐng)域我們了解最多的很可能是OpenAI的ChatGPT,以及最近在多模態(tài)表現(xiàn)非常出色的Google Gemini,這些都是AI大模型的領(lǐng)頭羊,代表著AI大模型發(fā)展的先進(jìn)成果。然而,在大模型的實(shí)際應(yīng)用中必須要綜合考慮成本、信息安全等內(nèi)容,因此,開源成為了另一個(gè)選項(xiàng)。在開源生態(tài)中也涌現(xiàn)了許多優(yōu)秀的LLM預(yù)練模型,這些模型有著各自的亮點(diǎn),并且隨著AI技術(shù)的發(fā)展,未來將不止于此。

本文主要介紹目前為止(2024年1月)幾個(gè)值得關(guān)注的大開源LLM。

1.Llama 2:最佳開源LLM

資源:https://ai.meta.com/llama/

Llama 2是Meta于2023年推出的最重要的開源LLM。這是一個(gè)在2萬億令牌上訓(xùn)練的預(yù)訓(xùn)練生成AI模型,支持70億到700億個(gè)參數(shù)。Llama 2比Llama 1多了40%的訓(xùn)練數(shù)據(jù),并且支持的上下文長度多了兩倍。

目前,Llama 2仍然是市場上性能最高的開源語言模型之一,在推理、編碼、熟練度和知識(shí)測試等關(guān)鍵基準(zhǔn)測試中表現(xiàn)出色。

目前 Hugging Face Open LLM 排行榜將Llama 2-70B列為市場上第二好的LLM,平均得分為67.35,ARC為67.32,HellaSwag為87.33,MMLU為69,83,TruthfulQA為44.92。 

Llama 2還表現(xiàn)出了能夠媲美GPT 4等專有模型的良好性能。Anyscale的首席科學(xué)家兼谷歌前首席工程師Waleed Kadous發(fā)表了一篇博客文章,介紹Llama 2在總結(jié)方面的準(zhǔn)確性與GPT-4大致相同,同時(shí)運(yùn)行成本也低30倍。

值得注意的是,Meta還有一個(gè)名為Llama 2 Long的它是Llama 2的修改版本,額外增加了4000億個(gè)令牌,支持32000個(gè)上下文長度。

Meta聲稱Llama 2 Long的70B變體在長上下文任務(wù)(如:回答問題、摘要和多文檔聚合等)上的性能超過了GPT3.5-16ks。

2.Falcon 180B:最大的開源大語言預(yù)訓(xùn)練模型

資源:https://huggingface.co/blog/falcon-180b

Falcon是阿拉伯聯(lián)合酋長國技術(shù)創(chuàng)新研究所2023年發(fā)布的最大的LLM——180B。它旨在出色地完成自然語言任務(wù),截至2023年10月,F(xiàn)alcon是預(yù)訓(xùn)練語言模型的Hugging Face Open LLM排行榜上排名第一的LLM,平均得分為68.74,ARC為69.8,HellaSwag為88.95,MMLU為70.54,TruthfulQA為45.67。

想要在聊天機(jī)器人環(huán)境中使用Falcon 180B,可以使用名為Falcon 180B Chat的版本,這是對(duì)聊天和指令數(shù)據(jù)進(jìn)行微調(diào)的主模型的修改版本。

然而,F(xiàn)alcon 180B的一個(gè)關(guān)鍵限制是其基礎(chǔ)開源許可證非常嚴(yán)格。除了禁止用戶使用LLM違反當(dāng)?shù)鼗驀H法律或傷害其他生物外,打算托管或提供基于LLM的管理服務(wù)的組織還需要單獨(dú)的許可證。

此外,與其他專有LLM或開源LLM(如Llama 2)相比,F(xiàn)alcon180B缺乏護(hù)欄,這意味著它可以更容易地用于惡意場景。

訓(xùn)練和推理對(duì)硬件的要求如下:

3.Code Llama:最佳代碼生成LLM

資源:https://github.com/facebookresearch/codellama

Meta的另一個(gè)佳作是Code Llama,這是一個(gè)基于Llama2,并在代碼數(shù)據(jù)集上訓(xùn)練的模型,包括5000億個(gè)代碼和代碼相關(guān)數(shù)據(jù)的Token。

Code Llama支持7B、13B和34B參數(shù),并在Python、C++,Java、PHP、Typescript(JavaScript)、C#、Bash等語言方面進(jìn)行微調(diào),以支持生成代碼并解釋代碼的作用等。

例如,用戶可以要求聊天機(jī)器人編寫一個(gè)輸出斐波那契序列的函數(shù),或者請(qǐng)求有關(guān)如何列出給定目錄中所有文本文件的指令。

這使得它非常適合旨在簡化其工作流程的開發(fā)人員或希望更好地理解一段代碼的功能及其工作方式的新手。

Code Llama有兩個(gè)主要的變體:Code Llama Python和Code Llama Instruct。Code Llama - Python使用額外的100B Python代碼進(jìn)行訓(xùn)練,為用戶提供更好的Python編程語言代碼創(chuàng)建功能。

Code Llama Instruct是Code Llama的微調(diào)版本,它在50億個(gè)人類指令的令牌上進(jìn)行了訓(xùn)練,并已開發(fā)用于更好地理解人類指令。

4.Mistral:最佳7B預(yù)訓(xùn)練模型

資源:https://github.com/mistralai/mistral-src

2023年9月,Mistral AI發(fā)布了Mistral 7B,這是一款小型但高性能的開源LLM,擁有70億個(gè)參數(shù),其開發(fā)目的是比大型閉源模型能夠更有效地運(yùn)行,使其成為實(shí)時(shí)應(yīng)用的理想選擇。

Mistral 7B使用諸如分組查詢注意力之類的技術(shù)來進(jìn)行更快的推理,并且使用滑動(dòng)窗口注意力(SWA)來以更低的成本處理更長的序列。這些技術(shù)使LLM能夠比資源密集型的LLM更快地處理和生成大文本,并且成本更低。

該組織的發(fā)布公告顯示,Mistral 7B在arc-e上的得分為80.0%,在HellaSwag上的得分為81.3%,在MMLU上的得分為60.1%,在HumanEval基準(zhǔn)測試中的得分為30.5%,在每個(gè)類別中都明顯優(yōu)于LLama 2-7B。

Mistral AI還表示,Mistral在代碼、數(shù)學(xué)和推理方面優(yōu)于并超越Llama 1-34B,同時(shí)在代碼任務(wù)上接近Code Llama 7B的性能。

另外,還有一個(gè)Mistral 7B的替代版本,稱為Mistral 7B Instruct,它已經(jīng)在公開可用的會(huì)話數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并且在MT-Bench基準(zhǔn)測試中優(yōu)于所有7B模型。

總之,這些信息表明Mistral AI是自然語言和代碼生成任務(wù)的可行選擇。

但是,一些人對(duì)Mistral 7B缺乏內(nèi)容審核表示擔(dān)憂,這導(dǎo)致它可能生成有問題的內(nèi)容,例如:如何制造炸彈的說明等。

5.Vicuna:最佳尺寸輸出質(zhì)量LLM

資源:https://github.com/lm-sys/FastChat

Vicuna 13B 是由加州大學(xué)伯克利分校的學(xué)生和教職員工于2023年3月發(fā)布的一個(gè)開源聊天機(jī)器人。

LMSYS的研究人員基于Meta的Llama模型,采用ShareGPT.com上分享的7萬個(gè)ChatGPT對(duì)話數(shù)據(jù)對(duì)其進(jìn)行了微調(diào)。在這些數(shù)據(jù)上訓(xùn)練Llama使Vicuna能夠生成詳細(xì)和清晰的用戶響應(yīng),其復(fù)雜程度可與ChatGPT相媲美。

LMSYS機(jī)構(gòu)的初步測試表明,Vicuna的質(zhì)量達(dá)到了ChatGPT和Bard的90%,同時(shí)在90%的場景中優(yōu)于Llama和斯坦福大學(xué)的Alpaca。

LMSYS還報(bào)告說,Vicuna 13B在MT-bench上獲得6.39分,在ELO評(píng)分為1,061分,在MMLU上獲得52.1分。另外,在AlpacaEval排行榜上,Vicuna 13B的獲勝率為82.11%,而GPT-3.5為81.71%,Llama 2 Chat 70B為92.66%。

令人印象深刻的是Vicuna 13B的訓(xùn)練成本大約為300美元。

Vicuna還有一個(gè)更大的版本Vicuna-33B,MT-bench得分7.12,MMLU得分59.2。

6.Giraffe:最佳尺度上下文長度模型

資源:https://abacus.ai/

2023年9月,Abacus.AI發(fā)布了 Giraffe的70B版本,Giraffe是基于Llama 2進(jìn)行微調(diào)的模型,將模型的上下文長度從4096擴(kuò)展到32000。Abacus.AI為Giraffe提供了一個(gè)長上下文的窗口,以幫助提高下游任務(wù)處理性能。

擴(kuò)展的上下文長度使LLM能夠從下游數(shù)據(jù)集檢索更多信息,同時(shí)減少錯(cuò)誤,也有助于與用戶保持更長的對(duì)話。

Abacus.AI 聲稱Giraffe在提取、編碼和數(shù)學(xué)方面是所有開源模型中最好的性能。在MT-Bench評(píng)估基準(zhǔn)下,70B版本獲得了7.01分。

Abacus AI首席執(zhí)行官Bindu Reddy表示:“我們根據(jù)一組基準(zhǔn)對(duì)70B模型進(jìn)行了評(píng)估,調(diào)查了LLM在長“上下文”下的性能?!??!芭c13B模型相比,70B模型在文檔QA任務(wù)的最長上下文窗口(32k)下有顯著改進(jìn),在我們的AltQA數(shù)據(jù)集上,準(zhǔn)確率為61%,而13B的準(zhǔn)確率為18%。我們還發(fā)現(xiàn),它在所有上下文長度上都優(yōu)于可比的LongChat-32k模型,在最長上下文長度下性能也有所提高(在32k上下文長度下,準(zhǔn)確率分別為61%和35%)?!?/p>

值得注意的是,Abacus AI還說,Giraffe 16k 在16k上下文長度的現(xiàn)實(shí)任務(wù)中能夠有良好的表現(xiàn),甚至在20-24k上下文長度下依然可以表現(xiàn)良好。

7.ChatGLM:最佳開源中英雙語對(duì)話模型

資源:https://github.com/THUDM/ChatGLM3

ChatGLM是智譜AI和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的新一代對(duì)話預(yù)訓(xùn)練模型。2023年的10月27日發(fā)布了ChatGLM3系列,ChatGLM3-6B是ChatGLM3 系列中的開源模型,在保留了前兩代模型對(duì)話流暢、部署門檻低等眾多優(yōu)秀特性的基礎(chǔ)上,增加了一些特性。

新特性如下:

  • 更強(qiáng)大的基礎(chǔ)模型:ChatGLM3-6B 的基礎(chǔ)模型 ChatGLM3-6B-Base 采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)和更合理的訓(xùn)練策略。在語義、數(shù)學(xué)、推理、代碼、知識(shí)等不同角度的數(shù)據(jù)集上測評(píng)顯示,ChatGLM3-6B-Base 具有在 10B 以下的基礎(chǔ)模型中最強(qiáng)的性能。
  • 更完整的功能支持:ChatGLM3-6B 采用了全新設(shè)計(jì)的 Prompt 格式,除正常的多輪對(duì)話外。同時(shí)原生支持工具調(diào)用(Function Call)、代碼執(zhí)行(Code Interpreter)和 Agent 任務(wù)等復(fù)雜場景。
  • 更全面的開源序列: 除了對(duì)話模型 ChatGLM3-6B 外,還開源了基礎(chǔ)模型 ChatGLM3-6B-Base、長文本對(duì)話模型 ChatGLM3-6B-32K。以上所有權(quán)重對(duì)學(xué)術(shù)研究完全開放,在填寫問卷進(jìn)行登記后允許免費(fèi)商業(yè)使用。

模型列表如下:

圖片

ChatGLM3-6B-Base 具有在 10B 以下的基礎(chǔ)模型中的性能最強(qiáng)。其得分如下:

模型版本

評(píng)測任務(wù)

評(píng)測方向

得分

相比第二代提升

ChatGLM2-6B-Base

MMLU

自然語言理解等

47.9

-

ChatGLM2-6B-Base

GSM8K

數(shù)學(xué)能力

32.4

-

ChatGLM2-6B-Base

C-Eval

中文能力

51.7

-

ChatGLM3-6B-Base

MMLU

自然語言理解等

61.4

36%

ChatGLM3-6B-Base

GSM8K

數(shù)學(xué)能力

72.3

179%

ChatGLM3-6B-Base

C-Eval

中文能力

69

33.5%

另外,chatglm3部署占用顯存13G左右,官方給出了模型量化版本,采用INT4精度占用不到5G。INT4精度模型仍然可以流暢生成文字,但5G的效果要比13G的差些。

最后

本文只是介紹了一部分在開源LLM,但隨著AI的發(fā)展,開源AI解決方案也在不斷增長。

責(zé)任編輯:趙寧寧 來源: andflow
相關(guān)推薦

2024-05-07 08:00:00

自然語言處理機(jī)器學(xué)習(xí)

2024-11-22 15:59:00

2022-11-02 11:00:24

物聯(lián)網(wǎng)

2022-03-10 09:28:24

Kubernete云原生

2022-02-13 17:11:19

GNOME 42系統(tǒng)UI

2017-02-17 11:16:11

JavaScriptMV*框架

2023-11-14 16:10:26

2020-10-21 10:32:12

CIO創(chuàng)新技術(shù)

2022-02-10 10:53:08

人工智能CIO技術(shù)

2023-07-11 18:32:19

UbuntuLinux應(yīng)用塢

2023-02-08 14:42:48

2024-07-19 08:36:39

2018-01-15 14:36:00

系統(tǒng)運(yùn)營趨勢

2017-02-12 21:12:36

人工智能趨勢

2023-11-14 14:25:09

數(shù)據(jù)湖大數(shù)據(jù)

2021-05-24 09:00:00

ETL工具數(shù)據(jù)

2022-06-28 05:54:10

機(jī)器身份網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2023-03-24 07:30:53

JavaScript項(xiàng)目元框架

2023-11-09 15:06:13

微服務(wù)開發(fā)工具

2020-03-23 10:59:52

CISO網(wǎng)絡(luò)安全漏洞
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)