自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="7wkbe"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Llama 2宇宙大爆炸！伯克利實(shí)測(cè)排第8，iPhone本地可跑，一大波應(yīng)用免費(fèi)玩，LeCun狂轉(zhuǎn)

作者：新智元 2023-07-20 14:28:23

人工智能新聞

才第二天，Llama 2宇宙就實(shí)現(xiàn)了大爆炸！iPhone本地可跑，還上新了一大波應(yīng)用，LeCun也瘋狂轉(zhuǎn)發(fā)表示支持。

昨天，Meta發(fā)布了免費(fèi)可商用版本Llama 2，再一次給開(kāi)源社區(qū)做出了驚人貢獻(xiàn)。

Meta聯(lián)手微軟高調(diào)開(kāi)源的Llama 2，一共有70億、130億和700億三個(gè)參數(shù)的版本。

Llama 2在2萬(wàn)億個(gè)token上訓(xùn)練的，上下文長(zhǎng)度達(dá)到了4k，是Llama 1的2倍。而微調(diào)模型已在超100萬(wàn)個(gè)人類標(biāo)注中進(jìn)行了訓(xùn)練。

比起很多其他開(kāi)源語(yǔ)言模型，Llama 2都實(shí)現(xiàn)了秒殺，在推理、編碼、能力和知識(shí)測(cè)試上取得了SOTA。

Meta首席科學(xué)家LeCun也在今天狂轉(zhuǎn)了一大波Llama 2的實(shí)現(xiàn)。

圖片

圖片

圖片

圖片

圖片

那么，Llama 2的表現(xiàn)究竟如何呢？

UC伯克利最新測(cè)評(píng)

就在剛剛，權(quán)威的UC伯克利聊天機(jī)器人競(jìng)技場(chǎng)，已經(jīng)火速出了Llama-2的測(cè)評(píng)。

結(jié)果顯示——

1. Llama 2表現(xiàn)了出更強(qiáng)的指令遵循能力，但在提取/編碼/數(shù)學(xué)方面仍然明顯落后于GPT-3.5/Claude。

2. 因?yàn)樗鼘?duì)安全性過(guò)于敏感，所以可能會(huì)誤解了用戶的問(wèn)題

3. Llama 2的聊天性能，已經(jīng)可以和基于Llama 1的最領(lǐng)先的模型（如Vicuna, WizardLM）相媲美

4. 在非英語(yǔ)語(yǔ)言的技能上，Llama 2的表現(xiàn)還差強(qiáng)人意

可以看到，在MT-bench上，700億參數(shù)的Llama 2排到了第8，得分比330億參數(shù)的Vicuna低了不少。

圖片

MT-Bench上前三名的位置，依然被GPT-4、GPT-3.5、Claude-1牢牢把控。

圖片

面對(duì)「如何強(qiáng)行終止一個(gè)docker容器」這樣的問(wèn)題，Vicuna 13B立馬做出了回答，Llama 2 13B卻表示這在道德上是不合規(guī)的……

圖片

讓它們用中文寫(xiě)一首詩(shī)，Vicuna 13B立刻做出一首現(xiàn)代詩(shī)，而Llama 2 13B卻為難地表示：未經(jīng)允許就讓別人用特定的語(yǔ)言作詩(shī)是很粗魯、很不適宜的??。

值得一提的是，我們可以直接在UC伯克利搭建的聊天機(jī)器人競(jìng)技場(chǎng)中，體驗(yàn)13B和7B的Llama 2。

體驗(yàn)地址：https://chat.lmsys.org/?arena

所以什么是MT-Bench呢？

具體來(lái)說(shuō)，MT-Bench是一個(gè)經(jīng)過(guò)精心設(shè)計(jì)的基準(zhǔn)測(cè)試，包含80個(gè)高質(zhì)量的多輪問(wèn)題。

這些問(wèn)題可以評(píng)估模型在多輪對(duì)話中的對(duì)話流程和指令遵循能力，其中包含了常見(jiàn)的使用情景，以及富有挑戰(zhàn)性的指令。

圖片

通過(guò)對(duì)運(yùn)營(yíng)聊天機(jī)器人競(jìng)技場(chǎng)以及對(duì)收集的一部分用戶數(shù)據(jù)的分析，團(tuán)隊(duì)確定了8個(gè)主要的類別：寫(xiě)作、角色扮演、提取、推理、數(shù)學(xué)、編程、知識(shí)I（科學(xué)技術(shù)工程數(shù)學(xué)）和知識(shí)II（人文社科）。

其中，每個(gè)類別有10個(gè)多輪問(wèn)題，總共160個(gè)問(wèn)題。

圖片

斯坦福

另外，斯坦福的AlpacaEval榜單，也更新了Llama 2的排名。

可以看到，在Verified列表中，Llama2 Chat 70B名列前茅，勝率僅次于ChatGPT。

而130億參數(shù)的模型略遜于UC伯克利最新的Vicuna 13B v1.3，但勝率依然超過(guò)了80%。

相比之下，7B模型的勝率則跌到了71%，比伯克利同等參數(shù)量的新模型低了5個(gè)百分點(diǎn)。

圖片

HuggingChat免費(fèi)體驗(yàn)

說(shuō)到體驗(yàn)，Hugging Facing也第一時(shí)間在HuggingChat中上新了Llama 2。

而且，還是最大的700億參數(shù)模型。

圖片

體驗(yàn)地址：https://huggingface.co/chat/

圖片

iPhone、iPad本地可跑

此外，Llama 2還可以在iPhone和iPad上實(shí)現(xiàn)本地運(yùn)行。

通過(guò)MLC Chat測(cè)試版應(yīng)用，即可體驗(yàn)7B參數(shù)的模型。

圖片

項(xiàng)目地址：https://mlc.ai/mlc-llm/docs/get_started/try_out.html

圖片

初創(chuàng)公司已上線應(yīng)用

甚至，有手快的初創(chuàng)公司已經(jīng)開(kāi)發(fā)出應(yīng)用了！

基于Llama 2 7B，Perplexity.ai構(gòu)建出了LLaMa Chat，并且，下一步他們將連接更大的LLAMA，最終部署自己的內(nèi)部LLM。

圖片

體驗(yàn)地址：https://llama.perplexity.ai/

責(zé)任編輯：張燕妮來(lái)源：新智元

實(shí)測(cè)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="rxyn4"></p>