自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

谷歌PaLM 2弱爆：LLM大排名屈居第六，準(zhǔn)中文倒數(shù)第二｜UC伯克利排行榜新鮮榜出爐

作者：新智元 2023-05-26 14:10:00

人工智能新聞

這次「LLM排位賽」，谷歌PaLM 2也被拉上溜了溜。然而，實(shí)測(cè)表現(xiàn)卻讓人大跌眼鏡。

由UC伯克利主導(dǎo)的「LLM排位賽」又雙叒更新了！

這次，最新榜單又迎來新的玩家，PaLM 2（也是就Bard）、Claude-instant-v1，MosaicML MPT-7B，以及Vicuna-7B。

值得一提的是，即便是平價(jià)版的Claude模型，Elo得分也趕超了ChatGPT。

但有一位選手的表現(xiàn)，卻出乎意料得拉跨——谷歌PaLM 2屈居第六，排在了Vicunna-13B之后。

4月24日-5月22日數(shù)據(jù)

PaLM 2（Bard）排位大比拼

谷歌PaLM 2發(fā)布以來，根據(jù)論文的測(cè)試，其部分性能已經(jīng)超過了GPT-4。

而它的具體表現(xiàn)如何？

來自LMSYS Org的研究人員通過Google Cloud Vertex AI的API接口，將PaLM 2添加到Chatbot Arena，并以代碼名為chat-bison@001進(jìn)行聊天調(diào)優(yōu)。

在過去的兩周，PaLM 2已經(jīng)與16個(gè)聊天機(jī)器人，進(jìn)行了大約1800次的匿名比拼，目前排名第六。

從排行榜中可以看出，PaLM 2的排名高于所有其他開源聊天機(jī)器人，除了Vicuna-13B。

Vicuna-13B的ELO評(píng)分，比PaLM 2高出12分（Vicuna 1054 vs. PaLM 2 1042）。就ELO等級(jí)而言，這幾乎是個(gè)平局。

另外，研究者從PaLM 2的競(jìng)技場(chǎng)數(shù)據(jù)中注意到了以下有趣的結(jié)果。

PaLM 2與前4名玩家對(duì)戰(zhàn)表現(xiàn)較好，即GPT-4，Claude-v1，ChatGPT，Claude-moment-v1。而且，它與Vicuna的比賽中也贏了53%的比賽。

然而，PaLM 2與較弱的模型對(duì)弈時(shí)，表現(xiàn)較差。

在PaLM 2參加的所有比賽中，有21.6%的比賽輸給了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作為參考，GPT-3.5-turbo只有12.8%的比賽輸給了這些聊天機(jī)器人。

三大缺陷

簡(jiǎn)而言之，研究人員發(fā)現(xiàn)，與評(píng)估過的其他模型相比，Google Cloud Vertex API現(xiàn)有的PaLM 2存在以下缺陷：

- PaLM 2受到更嚴(yán)格的監(jiān)管，影響了它回答一些問題的能力

- 多語言能力有限

- 推理能力不如人意

更嚴(yán)格的監(jiān)管

與用戶的對(duì)話中，PaLM 2遇到不確定或不愿回答的問題時(shí)，與其他模型相比，更有可能放棄回答。

粗略估計(jì)，在所有的配對(duì)戰(zhàn)中，PaLM 2因?yàn)榫芙^回答問題而輸?shù)袅?0.9%比賽。尤其是，有30.8%比賽輸給了不是Top 4的模型。

這也能夠解釋，為什么PaLM 2經(jīng)常輸給排行榜上較弱的聊天機(jī)器人。

同時(shí)，也反映出聊天機(jī)器人競(jìng)技場(chǎng)方法論的一個(gè)缺陷，因?yàn)殡S意用戶更有可能因?yàn)槲⒚畹牟粶?zhǔn)確回答，而懲罰棄權(quán)行為。

下面，研究者提供幾個(gè)失敗的案例，說明PaLM 2如何輸給弱聊天機(jī)器人。

另外，研究者注意到，有時(shí)很難明確規(guī)定LLM監(jiān)管的邊界。在提供的PaLM 2版本中，看到了一些不受歡迎的趨勢(shì)：

- PaLM 2拒絕許多角色扮演問題，即使用戶要求它模擬Linux終端或編程語言解釋器。

- 有時(shí)PaLM 2拒絕回答簡(jiǎn)單且無爭(zhēng)議的事實(shí)問題。

下面列舉了幾個(gè)PaLM 2拒絕回答問題的例子:

「人類真的登月了嗎？」

「為什么天空是藍(lán)的？」

多語言能力有限

PaLM 2傾向于不回答非英語問題，包括用漢語、西班牙語和希伯來語等流行語言編寫的問題。

研究者稱，無法使用當(dāng)前的PaLM 2版本重現(xiàn)「PaLM 2技術(shù)報(bào)告」中演示的幾個(gè)多語言示例。

此外，UC伯克利研究人員還分別計(jì)算了僅考慮英語和非英語對(duì)話時(shí)所有模型的Elo評(píng)分。

結(jié)果證實(shí)，在非英語排行榜上，PaLM 2排名第16。

推理能力很弱

研究人員稱，并沒有發(fā)現(xiàn)PaLM 2有著強(qiáng)大的推理能力。

一方面，它似乎可以檢測(cè)問題是否是「純文本」的，并且傾向于拒絕回答不是純文本的問題，例如編程語言、調(diào)試和代碼解釋中的問題。

另一方面，與其他聊天機(jī)器人相比，PaLM 2在一些入門級(jí)推理任務(wù)上表現(xiàn)不佳。

連1+2是不是等于3這么簡(jiǎn)單問題，竟答錯(cuò)了...

刪除非英語和拒絕對(duì)話后的Elo評(píng)分

研究人員刪除所有非英語對(duì)話和PaLM 2沒有提供答案的所有對(duì)話，并使用過濾后的數(shù)據(jù)計(jì)算每個(gè)模型重新排位之后——

PaLM 2躍升至第五名，不過還是沒有超越ChatGPT。

而這個(gè)排名也代表了PaLM 2在競(jìng)技場(chǎng)中的假設(shè)上限。

參數(shù)更小的模型競(jìng)爭(zhēng)力強(qiáng)

研究者觀察到幾個(gè)參數(shù)較小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上排名還相對(duì)靠前。

與巨量參數(shù)大型模型相比，這些較小的模型同樣表現(xiàn)良好。

由此，研究人員推測(cè)，高質(zhì)量的預(yù)訓(xùn)練，以及微調(diào)數(shù)據(jù)集比模型規(guī)模更重要。

然而，較大的模型在更復(fù)雜的推理任務(wù)，或回答更細(xì)微的問題時(shí)仍有可能表現(xiàn)得更好。

因此，在預(yù)訓(xùn)練和微調(diào)階段管理高質(zhì)量的數(shù)據(jù)集，似乎是縮小模型規(guī)模的同時(shí)，保持模型高質(zhì)量的關(guān)鍵方法。

Claude-v1與Claude-instant-v1

另外，Claude-instant-v1是針對(duì)低延遲、高吞吐量用例進(jìn)行優(yōu)化的版本。

在排位賽中，Claude-instant-v1的水平實(shí)際上非常接近GPT-3.5-turbo（1153 vs.1143）。

可以看到，Claude和Claude-instant之間的評(píng)分差距似乎小于GPT-4和GPT-3.5-turbo之間的差距。

局限性

聊天機(jī)器人排位賽主要是對(duì)基于LLM（Large Language Model）的聊天機(jī)器人進(jìn)行「真實(shí)環(huán)境」的基準(zhǔn)測(cè)試。

這意味著，用戶提供的投票數(shù)據(jù)和在投票過程中生成的提示-回答，反映的就是聊天機(jī)器人在正常的人機(jī)交互中的表現(xiàn)。

這可能與LLM研究文獻(xiàn)中的很多基準(zhǔn)測(cè)試結(jié)果不符，后者傾向于描述如zero-shot、復(fù)雜推理等長(zhǎng)尾能力。

因此，目前的排位賽在反映聊天機(jī)器人之間的長(zhǎng)尾能力差異方面存在限制。

作者介紹

本次評(píng)測(cè)主要由LMSYS Org的Hao Zhang，Lianmin Zheng，Wei-Lin Chiang，Ying Sheng和Ion Stoica完成。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)