自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama-2首個(gè)全方位評測,國內(nèi)外開源模型大比拼

人工智能 新聞
我們在拿到Llama-2的系列開源模型后,通過OpenCompass對它進(jìn)行了全方位的評測。

進(jìn)入2023年7月,大語言模型(LLM)的發(fā)展進(jìn)入了新階段,開源成為一個(gè)火熱的主題

  • 7月6日,上海人工智能實(shí)驗(yàn)室與商湯科技等聯(lián)合發(fā)布了書生·浦語開源體系(https://github.com/InternLM),不僅開源了書生·浦語的輕量版本(InternLM-7B),還率先開源了從數(shù)據(jù)、訓(xùn)練到評測的全鏈條工具體系,并提供完全免費(fèi)的商用許可;
  • 7月14日,智譜科技開放ChatGLM2-6B免費(fèi)商用;
  • 7月19日,Meta開源了性能更強(qiáng)的Llama-2,也提供了更加寬松的商用許可。

面對語言模型的新一波開源浪潮,圖靈獎(jiǎng)得主Yann Lecun在推特上評價(jià):

This is going to change the landscape of the LLM market.

圖片

可是,開源模型的表現(xiàn)是否可以當(dāng)?shù)闷饦I(yè)界的熱切期待?

我們在拿到Llama-2的系列開源模型后,通過OpenCompass對它進(jìn)行了全方位的評測(https://opencompass.org.cn)

Llama-2有多強(qiáng)

Llama-2相比Llama-1有不少技術(shù)層面的改進(jìn),從而帶來了模型性能、推理效率以及安全性等方面的有效提升。具體而言,重要的改進(jìn)有以下幾點(diǎn):

  • 模型架構(gòu)上使用Group-Query-Attention(GQA)來提高模型推理效率,語境長度從2K增加一倍到4K。
  • 預(yù)訓(xùn)練語料從1.4T tokens增加到2T tokens。
  • 在監(jiān)督微調(diào)(SFT)階段更加注重?cái)?shù)據(jù)集質(zhì)量,使用更少但質(zhì)量更高的SFT數(shù)據(jù)相比使用百萬量級的公開SFT數(shù)據(jù),效果顯著提升。
  • 引入了三項(xiàng)安全訓(xùn)練技術(shù)Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增,仍難媲美ChatGPT

那么,Llama-2的整體能力究竟如何呢?

雖然在官方技術(shù)報(bào)告中已經(jīng)展示了在20個(gè)左右數(shù)據(jù)集上的測試結(jié)果,但評價(jià)能力維度仍然有限,對比的模型也還不夠全面。

這里我們借助開源評測工具OpenCompass,對Llama-2發(fā)布的各個(gè)模型在40多個(gè)評測集上進(jìn)行了全方位的評測,從學(xué)科、語言、知識、理解、推理五大維度綜合衡量大模型的能力。

結(jié)果可以總結(jié)為以下的雷達(dá)圖:

圖片

下表列出Llama、Llama-2、以及ChatGPT在幾個(gè)有代表性評測集上的表現(xiàn):

圖片

更全面和詳細(xì)的評測結(jié)果數(shù)字請參看https://opencompass.org.cn。

相比上代模型全面提升:

從綜合能力角度,Llama-2-70B(綠色)相比于Llama-1-65B(紫色)更勝一籌,在語言、知識、推理、理解、學(xué)科等各個(gè)能力維度相比Llama-1都有明顯提升。比如綜合考試集MMLU上從63.71提升到69.75,GSM8K 上從54.51提升到63.46。

對話和基座模型基本持平:

經(jīng)過微調(diào)和對齊的模型Llama-2-70B-Chat(黃色)相比基座模型Llama-2-70B(綠色),綜合能力基本持平,在語言、推理和理解上相比基座有性能提升,在學(xué)科綜合能力和知識能力上略有下降。比如翻譯評測集Flores和代碼評測集HumanEval上,Chat模型分別有超過40%和20%的相對提升,而在MMLU和TrivialQA上則有大約10%的相對降低。

離ChatGPT仍有較大差距:

相比ChatGPT-0613(藍(lán)色),Llama-2-70B-Chat(黃色)仍需繼續(xù)追趕,尤其在推理能力、理解能力、和學(xué)科綜合能力上差距還比較明顯。其中數(shù)學(xué)評測集MATH和代碼評測集HumanEval的差距都超過了一倍。

中文能力短板明顯

在Llama的訓(xùn)練語料中,中文占比較小,微調(diào)階段也沒有針對中文進(jìn)行調(diào)優(yōu),所以當(dāng)前Llama-2-Chat在中文問題上仍顯不足。

一個(gè)典型的表現(xiàn)就是給定中文問題時(shí),模型還是會(huì)以英文回答。

為了對Llama-2的中英文能力有更深入的理解,我們選取了OpenCompass中的中英文數(shù)據(jù)集進(jìn)行分別分析。

圖片

結(jié)果顯示:

  • Llama-2在英語語言能力、知識水平和理解能力上已經(jīng)較為接近ChatGPT。
  • Llama-2在中文能力上全方位遜色于ChatGPT。這一結(jié)果表明,Llama-2本身作為基座模型直接支持中文應(yīng)用并不是一個(gè)特別優(yōu)秀的選擇。
  • 推理能力上,不管中英文,Llama-2距離ChatGPT仍然存在較大差距。由此可見,對于大模型來說,推理能力提升的難度比基礎(chǔ)語言能力提升的難度要高得多。

安全對齊讓模型過度謹(jǐn)慎

Llama-2的一大特色是它在訓(xùn)練過程中采用了比較完善的安全對齊方案,在價(jià)值對齊和安全性上有較大提升。

但在測試中我們也發(fā)現(xiàn),Llama-2的安全性和模型能力的平衡沒有做得特別好,模型非常謹(jǐn)小慎微,對于很多常見問題都拒絕回復(fù)。

圖片

國內(nèi)模型不落下風(fēng)

近幾個(gè)月,國內(nèi)大模型發(fā)展迅速,多個(gè)企業(yè)和科研機(jī)構(gòu)都發(fā)布了各自的大模型,其中不乏千億參數(shù)的大模型。

那么國內(nèi)大模型和Llama-2相比,究竟表現(xiàn)如何呢?很多朋友都關(guān)心這個(gè)問題。

重量級模型的對比

國內(nèi)機(jī)構(gòu)發(fā)布的70B或者更高量級的模型普遍尚未開源,很多模型只通過內(nèi)測API提供有限服務(wù),因此我們還很難獲得對很多國產(chǎn)模型的全量評測數(shù)據(jù)。

在OpenCompass上,由上海人工智能實(shí)驗(yàn)室和商湯科技聯(lián)合多所高校發(fā)布的千億參數(shù)書生·浦語模型(InternLM-104B)已經(jīng)有了全面的評測結(jié)果。

基于這個(gè)結(jié)果,我們比較了書生·浦語ChatGPTLlama-2的性能:

在重量級模型的對比中,書生·浦語表現(xiàn)優(yōu)秀,在大部分主流評測集上領(lǐng)先于Llama-2以及ChatGPT。具體而言,在43個(gè)評測集中,InternLM-104B在34個(gè)評測集中超越ChatGPT,在41個(gè)評測集上超越Llama-2-70B。

中文考試大幅領(lǐng)先:

在中文考試評測集CEval和高考評測集GAOKAO-Bench上,InternLM-104B都大幅超過Llama2-70B。

語言能力略有優(yōu)勢:

在中英文的基礎(chǔ)語言任務(wù)上,包括字詞理解,成語習(xí)語,翻譯等評測集上,InternLM-104B都有優(yōu)勢,其中中文評測集上差距更大。

閱讀理解“書生”名副其實(shí):

在中英文的各類閱讀理解評測集上,InternLM-104B均表現(xiàn)出明顯的優(yōu)勢,從文本段中總結(jié)和理解關(guān)鍵信息的能力更勝一籌。

推理能力技高一籌:

在常識推理、數(shù)學(xué)推理、綜合推理的各種數(shù)據(jù)集上,InternLM-104B都有比較穩(wěn)定的發(fā)揮,相比Llama2-70B有一定優(yōu)勢。

知識問答平分秋色:
在BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion等知識問答評測集上,兩個(gè)模型表現(xiàn)相當(dāng),可見知識水平?jīng)]有明顯差異。

代碼能力互有勝負(fù):

InternLM-104B和Llama2-70B的代碼能力不相上下,HumanEval和 MBPP兩個(gè)數(shù)據(jù)集上互有勝負(fù)。

輕量級模型的對比

重量級賽道上你追我趕,在7B量級的輕量級賽道上,開源模型的競爭也十分活躍。

在眾多國內(nèi)開源模型之中,百川智能發(fā)布的Baichuan-7B、清華大學(xué)和智譜AI發(fā)布的ChatGLM2-6B、上海人工智能實(shí)驗(yàn)室發(fā)布的InternLM-7B等優(yōu)秀模型廣受業(yè)界關(guān)注。

我們把這些國內(nèi)模型和Llama-2-7B進(jìn)行了全方位評測對比:

圖片

下表列出了這幾個(gè)7B量級模型在幾個(gè)有代表性評測集上的表現(xiàn):

圖片

結(jié)果顯示:Llama-2在知識能力上有明顯優(yōu)勢。

但在學(xué)科、語言、推理和理解能力上,InternLM和ChatGLM2都已經(jīng)超越了Llama-2,而且InternLM的領(lǐng)先優(yōu)勢十分明顯。

免費(fèi)商用形成星火之勢

幾個(gè)月前Llama的開源引爆了社區(qū),讓眾多開發(fā)者和研究者受益匪淺,衍生出整個(gè)羊駝家族,但遺憾的是其協(xié)議限制商用,將企業(yè)拒之門外。

7月6日,世界人工智能大會(huì)上,書生浦語開源體系正式發(fā)布,開源了InternLM-7B并提供免費(fèi)商用許可。

之后,ChatGLM2-6B和Llama2等開源模型相繼推進(jìn)免費(fèi)商用,順應(yīng)了發(fā)展潮流和社區(qū)呼聲。

信開源社區(qū)的星星之火將對產(chǎn)業(yè)形成燎原之勢,進(jìn)一步降低大模型落地應(yīng)用的門檻。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2014-09-25 14:29:03

測評郵箱APP

2014-01-07 17:08:02

Java開源框架

2011-01-19 11:10:30

2015-05-15 09:22:36

JavaScript編輯器大比拼

2010-03-18 14:54:46

主流無線技術(shù)

2021-03-02 09:00:00

開源框架技術(shù)

2020-08-04 17:06:40

Merging Rebasing Git

2010-07-14 13:38:51

Perl開發(fā)工具

2010-09-08 15:41:28

SIP協(xié)議棧

2017-09-10 14:29:03

眼力

2010-05-28 11:09:51

SVN功能

2021-03-15 21:07:17

IT行業(yè)薪酬薪水

2010-08-25 16:12:34

職場

2011-11-08 10:29:44

2023-05-26 15:53:48

MidjourneyAI圖像

2023-11-14 09:00:00

向量數(shù)據(jù)庫ChromaMilvus

2024-06-07 12:46:11

2018-10-25 14:08:07

KubernetesGoogle

2011-04-01 09:18:01

MRTGCactiZabbix
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號