自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="1fl6l"><rp id="1fl6l"></rp></style>

<legend id="1fl6l"><track id="1fl6l"></track></legend>

<sub id="1fl6l"></sub>

<blockquote id="1fl6l"><i id="1fl6l"><video id="1fl6l"></video></i></blockquote>

<blockquote id="1fl6l"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

阿里剛開源32B大模型，我們立馬測(cè)試了“弱智吧”

2024-04-08 08:05:00

人工智能開源

自打大模型火爆以來，“弱智吧”就一直成了檢測(cè)大模型邏輯能力的標(biāo)準(zhǔn)之一，江湖戲稱為“弱智吧Benchmark”。而且就在前幾天，“弱智吧”還登上正經(jīng)AI論文，成了最好的中文訓(xùn)練數(shù)據(jù)，引發(fā)了一波不小的熱議。

阿里的通義千問（Qwen），終于拼齊了1.5系列的最后一塊拼圖——

正式開源Qwen 1.5-32B。

話不多說，直接來看“成績單”。

這次官方pick同臺(tái)競(jìng)技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。

從結(jié)果上來看，Qwen 1.5-32B已經(jīng)在多項(xiàng)評(píng)測(cè)標(biāo)準(zhǔn)中超越或追平Mixtral 8x7B：

并且即便是在與自家更大參數(shù)模型PK過程中，Qwen 1.5-32B也用“以小博大”的姿勢(shì)展現(xiàn)出了較好的性能。

用通義千問團(tuán)隊(duì)成員的話來說就是：

這個(gè)模型顯示出了與72B模型相當(dāng)?shù)男阅?，特別是在語言理解、多語言支持、編碼和數(shù)學(xué)能力等方面。
在推理和部署過程中，成本還會(huì)更加友好。

不僅如此，即便是再拉來其它體量相當(dāng)?shù)拇竽Ｐ汀斑x手”，Qwen 1.5-32B在多項(xiàng)評(píng)測(cè)中的成績依舊較為亮眼：

除此之外，團(tuán)隊(duì)還做了一項(xiàng)比較有意思的測(cè)試——長文本評(píng)估任務(wù)，“大海撈針”。

簡(jiǎn)單來說，這項(xiàng)任務(wù)就是將一個(gè)與文本無關(guān)的句子（“針”）隱藏在大量的文本（“大海”）中，然后通過自然語言提問的方式，觀察AI能否準(zhǔn)確提取出這個(gè)隱藏的句子。

從結(jié)果上來看，Qwen 1.5-32B在32k tokens的上下文中性能表現(xiàn)良好。

不過有一說一，剛才所展示的也還僅是Qwen 1.5-32B在評(píng)分上的成績，至于具體到實(shí)際體驗(yàn)過程中，效果又會(huì)如何呢？

大戰(zhàn)一波“弱智吧”

自打大模型火爆以來，“弱智吧”就一直成了檢測(cè)大模型邏輯能力的標(biāo)準(zhǔn)之一，江湖戲稱為“弱智吧Benchmark”。

（“弱智吧”源自百度貼吧，是一個(gè)充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。）

而且就在前幾天，“弱智吧”還登上正經(jīng)AI論文，成了最好的中文訓(xùn)練數(shù)據(jù)，引發(fā)了一波不小的熱議。

這項(xiàng)研究正是來自中科院深圳先進(jìn)技術(shù)研究院、中科院自動(dòng)化研究所，滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)。

剛好此次Qwen 1.5-32B在開源的同時(shí)，也一并放出了在線體驗(yàn)的demo，那么當(dāng)它倆碰到一起，會(huì)擦出怎樣的火花？

請(qǐng)聽第一題：

我爸媽結(jié)婚為什么不邀請(qǐng)我？

Qwen 1.5-32B很準(zhǔn)確地回答出了“你的父母在結(jié)婚時(shí)你尚未出生，因此他們無法邀請(qǐng)你參加他們的婚禮”。

繼續(xù)第二題：

為什么睡覺過夜的地方叫酒店，喝酒的地方叫夜店？

面對(duì)這道很經(jīng)典的問題，Qwen 1.5-32B也能做到追根溯源地做正經(jīng)科普。

再來第三道和第四道：

高中如果想提高升學(xué)率，為什么不直接招大學(xué)生？
網(wǎng)吧能上網(wǎng)，弱智吧為什么不能上弱智？

不難看出，Qwen 1.5-32B都能夠給出準(zhǔn)確的答案。

尤其是在第四道問題上，它甚至直接指出了邏輯性的問題：

問題似乎不太恰當(dāng)或者存在誤解。

嗯，Qwen 1.5-32B是一個(gè)經(jīng)住了“弱智吧Benchmark”的大模型。

至于其它關(guān)于常識(shí)、數(shù)學(xué)、編程等能力的效果，家人們可以親自去體驗(yàn)一番了。

如何做到的？

正如我們剛才所述，Qwen 1.5-32B在技術(shù)架構(gòu)上與此前版本并無太大的區(qū)別，亮點(diǎn)就是引入了GQA（Grouped Query Attention，分組查詢注意力）這個(gè)技術(shù)。

這也正是它能夠在相對(duì)較小的體量之下，能夠做到性能較優(yōu)且快速部署的關(guān)鍵。

GQA是一種在自然語言處理中使用的 Transformer 架構(gòu)中的一種機(jī)制，它通過將查詢序列分組為多個(gè)子序列來提高 Transformer 模型的計(jì)算效率。

這種方法可以有效地減少計(jì)算復(fù)雜度，同時(shí)保留 Transformer 模型的表示能力。

具體而言，GQA是通過將查詢分組并在組內(nèi)計(jì)算它們的注意力，來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質(zhì)量。

GQA 通過將查詢頭分為組，每個(gè)組共享單個(gè)鍵頭和值頭，來實(shí)現(xiàn)這一點(diǎn)，從而在質(zhì)量和速度之間取得平衡。

如此一來，GQA的引入就降低了注意力計(jì)算的數(shù)量，從而加速了推理時(shí)間。

最后，奉上Qwen 1.5-32B在HuggingFace的體驗(yàn)入口，感興趣的朋友可以去體驗(yàn)啦~

參考鏈接：
[1]https://qwenlm.github.io/zh/blog/qwen1.5-32b/。
[2]https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo。
[3]https://github.com/QwenLM/Qwen1.5。
[4]https://klu.ai/glossary/grouped-query-attention。

責(zé)任編輯：姜華來源：量子位

大模型人工智能開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營