自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="cutqq"><track id="cutqq"></track></cite>

<style id="cutqq"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

720億參數(shù)大模型都拿來開源了！通義千問開源全家桶，最小18億模型端側(cè)都能跑

作者：機(jī)器之心 2023-12-01 12:31:22

人工智能新聞

目前，通義千問開源全家桶已經(jīng)有了 18 億、70 億、140 億、720 億參數(shù)量的 4 款基礎(chǔ)開源模型，以及跨語言、圖像、語音等多種模態(tài)的多款開源模型。

「Qwen-72B 模型將于 11 月 30 日發(fā)布。」前幾天，X 平臺上的一位網(wǎng)友發(fā)布了這樣一則消息，消息來源是一段對話。他還說，「如果（新模型）像他們的 14B 模型一樣，那將是驚人的?！?/span>

有位網(wǎng)友轉(zhuǎn)發(fā)了帖子并配文「千問模型最近表現(xiàn)不錯(cuò)」。

這句話里的 14B 模型指的是阿里云在 9 月份開源的通義千問 140 億參數(shù)模型 Qwen-14B。當(dāng)時(shí)，這個(gè)模型在多個(gè)權(quán)威評測中超越同等規(guī)模模型，部分指標(biāo)甚至接近 Llama2-70B，在國內(nèi)外開發(fā)者社區(qū)中非常受歡迎。在之后的兩個(gè)月里，用過 Qwen-14B 的開發(fā)者自然也會對更大的模型產(chǎn)生好奇和期盼。

看來，日本的開發(fā)者也在期待。

正如消息中所說的，11 月 30 日，Qwen-72B 開源了。它以一己之力讓追開源動態(tài)的國外開發(fā)者也過上了杭州時(shí)間。

阿里云還在今天的發(fā)布會上公布了很多細(xì)節(jié)。

從性能數(shù)據(jù)來看，Qwen-72B 沒有辜負(fù)大家的期盼。在 MMLU、AGIEval 等 10 個(gè)權(quán)威基準(zhǔn)測評中，Qwen-72B 都拿到了開源模型的最優(yōu)成績，成為性能最強(qiáng)的開源模型，甚至超越了開源標(biāo)桿 Llama 2-70B 和大部分商用閉源模型（部分成績超越 GPT-3.5 和 GPT-4）。

要知道，在此之前，中國大模型市場還沒有出現(xiàn)足以對抗 Llama 2-70B 的優(yōu)質(zhì)開源大模型，Qwen-72B 填補(bǔ)了這一空白。之后，國內(nèi)大中型企業(yè)可基于它的強(qiáng)大推理能力開發(fā)商業(yè)應(yīng)用，高校、科研院所可基于它開展 AI for Science 等科研工作。

此外，一起發(fā)布的還有一個(gè)小模型 ——Qwen-1.8B，以及一個(gè)音頻模型 Qwen-Audio。Qwen-1.8B 和 Qwen-72B 一小一大，加上之前已經(jīng)開源的 7B、14B 模型，組成了一個(gè)完整的開源光譜，適配各種應(yīng)用場景。Qwen-Audio 和之前開源的視覺理解模型 Qwen-VL 以及基礎(chǔ)文本模型則組成了一個(gè)多模態(tài)光譜，可以幫助開發(fā)者把大模型的能力擴(kuò)展到更多真實(shí)環(huán)境。

通義千問最小開源模型Qwen-1.8B，推理2K長度文本內(nèi)容僅需3G顯存。看來，希望在手機(jī)等端側(cè)部署語言模型的開發(fā)者可以上手一試。

這種「全尺寸、全模態(tài)」的開源力度，業(yè)界無出其右。Qwen-72B 更是抬升了開源模型尺寸和性能的天花板。為了驗(yàn)證這一開源模型的能力，機(jī)器之心在阿里云魔搭社區(qū)上手體驗(yàn)了一番，并討論了通義千問開源模型對于開發(fā)者的吸引力所在。

第一手體驗(yàn)：

推理更強(qiáng)，還能自定義角色

下圖是 Qwen-72B 的用戶界面。你可以在下方「Input」框輸入想要問的問題或其他交互內(nèi)容，中間框會輸出答案。目前，Qwen-72B 支持中文和英文輸入，這也是通義千問和 Llama2 差別比較大的一點(diǎn)。此前，Llama2 中文支持不佳讓很多國內(nèi)開發(fā)者很頭疼。

體驗(yàn)地址：https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

我們了解到，在中文任務(wù)上，Qwen-72B 霸榜了 CEVAL、CMMLU、Gaokao 等測評，尤其在復(fù)雜語義理解、邏輯推理方面頗為拿手。先來一個(gè)包含中國武俠小說人物元素的易混淆句子分析，Qwen-72B 顯然 get 到了幾個(gè)「過」的不同意思。

類似容易繞暈人的另一個(gè)句子也解釋得很清楚。

再來一個(gè)經(jīng)典的「農(nóng)夫、狐貍、兔子和蘿卜」安全過河游戲，Qwen-72B 也能應(yīng)答如流。

既然 Qwen-72B 支持英文輸入，我們也要來考一考它的雙語交互能力怎么樣？簡單詩歌的翻譯當(dāng)然不在話下。

Qwen-72B 還很懂地道的美式俚語。

數(shù)學(xué)小能手上線

數(shù)學(xué)一直是考驗(yàn)大模型的重要一關(guān)。數(shù)據(jù)顯示，Qwen-72B 在 MATH 等測試中相較于其他開源模型取得了斷層式的領(lǐng)先優(yōu)勢，那實(shí)測效果怎么樣呢？首先考它一道經(jīng)典的擲骰子概率題，顯然，它沒有被難倒。

雞兔同籠問題也來一道，回答無誤，只是解題過程有點(diǎn)特別。

兩個(gè)瓶子裝水問題也能迎刃而解。

化身林黛玉、孔老夫子

賦予大模型個(gè)性化角色是此次 Qwen-72B 的一大特色。得益于其強(qiáng)大的系統(tǒng)指令能力，你只需要設(shè)置提示詞就可以定制自己的 AI 助手，讓它擁有獨(dú)特的角色、性格、腔調(diào)等。

我們先讓它以林黛玉的語氣回復(fù)。

再讓它化身孔老夫子，諄諄教誨撲面而來。

東北、天津等各地方言腔調(diào)也能脫口而出。

這么好的效果是怎么實(shí)現(xiàn)的呢？根據(jù)阿里云公布的技術(shù)資料，Qwen-72B 的推理性能提升其實(shí)離不開數(shù)據(jù)、訓(xùn)練等幾個(gè)層面的優(yōu)化。

在數(shù)據(jù)層面，目前通義利用了高達(dá) 3T tokens 的數(shù)據(jù)，詞表高達(dá)十五萬。據(jù)通義千問團(tuán)隊(duì)的人透露，模型還在持續(xù)訓(xùn)練，未來還會吃更多高質(zhì)量數(shù)據(jù)。

在模型訓(xùn)練上，他們綜合利用了 dp、tp、pp、sp 等方法進(jìn)行大規(guī)模分布式并行訓(xùn)練，引入 Flash Attention v2 等高效算子提升訓(xùn)練速度。借助阿里云人工智能平臺 PAI 的拓?fù)涓兄{(diào)度機(jī)制，有效降低了大規(guī)模訓(xùn)練時(shí)的通信成本，將訓(xùn)練速度提高 30%。

累計(jì)超150萬的下載量是怎么來的？

從上面的測評結(jié)果來看，以 Qwen-72B 為代表的通義千問系列開源模型的確給了開發(fā)者很多選擇它們的理由，比如比 Llama 2 更強(qiáng)的中文能力。

有鹿機(jī)器人創(chuàng)始人、CEO 陳俊波就提到，他們在做產(chǎn)品時(shí)把市面上能找到的大模型都做過實(shí)驗(yàn)，最后選擇了通義千問，因?yàn)椤?/span>它是目前至少在中文領(lǐng)域能找到的智能性表現(xiàn)最好的開源大模型之一」。

那為什么不用閉源模型呢？中國能源建設(shè)集團(tuán)浙江省電力設(shè)計(jì)院有限公司系統(tǒng)室專工陶佳提到，國外的模型（比如 GPT-4）能力很強(qiáng)，但是 API 調(diào)用不便，而且 B 端用戶更喜歡自己上手定制，API 能做的事還是太少。

模型的可定制性也是陳俊波比較在意的一個(gè)點(diǎn)。他說，他們需要的不是一個(gè)智能性水平一成不變的大語言模型，而是隨著企業(yè)數(shù)據(jù)的積累能變得越來越聰明的大語言模型，「閉源大模型顯然做不到這一點(diǎn)，所以在我們的業(yè)態(tài)里面，終局一定是開源模型?！?/span>

在談到利用通義千問開源模型搭建應(yīng)用的感受時(shí)，陶佳描述說，「在我試過的幾款開源模型中，通義千問是最好的，不僅回答準(zhǔn)確，而且『手感』很好?！菏指小贿@個(gè)東西比較主觀，總的來說就是用起來最符合我的需求，沒有那些稀奇古怪的 bug?！?/span>

其實(shí)說到「需求」，幾乎每一個(gè) B 端用戶的需求都離不開「降本增效」，這是開源模型的另一個(gè)優(yōu)勢。一份 9 月份的統(tǒng)計(jì)顯示，Llama2 -70B 大約比 GPT-4 便宜 30 倍，即使在 OpenAI 宣布降價(jià)后，Llama2 -70B 依然保留了數(shù)倍的成本優(yōu)勢，體量小于 70B 的衍生開源模型就更不用說了。這對企業(yè)來說是非常有吸引力的。

圖源：https://promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

例如數(shù)據(jù)企服品牌瓴羊 Quick BI 產(chǎn)品負(fù)責(zé)人王兆天就提到，千問的一大優(yōu)勢是輕量，「在較低成本硬件環(huán)境即可部署使用」，這讓 Quick BI 依托通義千問大模型開發(fā)的智能數(shù)據(jù)助手「智能小Q」可以搶占先機(jī)，比競爭對手更早推出，搶占用戶心智。

未來速度聯(lián)合創(chuàng)始人、CEO 秦續(xù)業(yè)的一句話可能能讓很多企業(yè)找到共鳴。他說，企業(yè)級用戶更在意的是能不能解決問題，而非要求模型能力面面面俱到。企業(yè)「問題」有難有易，可調(diào)用的資金、算力和面臨的部署要求也存在很大差異，因此對模型的靈活度、性價(jià)比要求都非常高。比如有的企業(yè)可能希望讓大模型跑在手機(jī)等端側(cè)設(shè)備上，而有的企業(yè)算力相對充裕，但需要推理能力更強(qiáng)的模型。通義千問剛好為開發(fā)者提供了這些選擇 —— 從 1.8B 到 72B，從文字到語音再到圖像，這是一個(gè)豐富的開源套餐，總有一款更符合需求。

在多個(gè)權(quán)威測試集上，通義千問 18 億參數(shù)開源模型 Qwen-1.8B 的性能遠(yuǎn)超此前的 SOTA 模型。

不過，這還不是全部。對于選擇開源用戶的開發(fā)者、企業(yè)來說，模型是否可持續(xù)、生態(tài)是否豐富也同樣重要。

「我們沒有資源從頭訓(xùn)練一個(gè)基座模型，選模型的第一個(gè)考量就是，它背后的機(jī)構(gòu)能不能給模型很好的背書，能不能持續(xù)投入基座模型及其生態(tài)建設(shè)？為跟風(fēng)、吃紅利而生的大模型不可持續(xù)?！惯@是華東理工大學(xué) X-D Lab 核心成員顏鑫判斷模型是否可持續(xù)的一些標(biāo)準(zhǔn)。

顯然，在看過上半年的「百模大戰(zhàn)」之后，他也擔(dān)心自己選的模型會在這場競爭中淪為棄子。為了避免這種情況，他選擇了阿里云，因?yàn)檫@是國內(nèi)大廠里唯一開源大模型的組織。而且，除了通義千問，國內(nèi)一半以上的頭部大模型都跑在阿里云上，基礎(chǔ)設(shè)施建設(shè)的投入和可持續(xù)性毋庸置疑。

再加上，阿里云做大模型其實(shí)已經(jīng)有些年頭了，2018 年就開始進(jìn)行大模型研究，2023 年更是釋放出了「all in 大模型」的信號。這些信號對于關(guān)心大模型可持續(xù)性的開發(fā)者來說是一顆定心丸。顏鑫評價(jià)說，「阿里云能把通義千問 72B 這么大尺寸的模型都開源出來，說明在開源上是有決心、能持續(xù)投入的。」

在生態(tài)方面，顏鑫也說出了自己的考量，「我們希望選擇主流的、穩(wěn)定的模型架構(gòu)，它能最大限度發(fā)揮生態(tài)的力量，匹配上下游的環(huán)境?！?/span>

這其實(shí)也是通義千問開源模型的優(yōu)勢所在。由于開源比較早，阿里云的開源生態(tài)其實(shí)已經(jīng)初具規(guī)模，通義千問開源模型累計(jì)下載量已經(jīng)超過 150 萬，催生出了幾十款新模型、新應(yīng)用。這些開發(fā)者給通義千問提供了來自應(yīng)用場景的充沛反饋，使得開發(fā)團(tuán)隊(duì)能夠不斷優(yōu)化開源基礎(chǔ)模型。

此外，社區(qū)內(nèi)相關(guān)的配套服務(wù)也是一個(gè)有吸引力的點(diǎn)。陳俊波提到，「通義千問提供了非常方便的工具鏈，可以讓我們在自己的數(shù)據(jù)上快速去做 finetune 和各種各樣的實(shí)驗(yàn)。而且通義千問的服務(wù)非常好，我們有任何需求都能快速響應(yīng)。」這是當(dāng)前大部分開源模型提供者所做不到的。

Yann LeCun：

開源對 AI 發(fā)展和社會發(fā)展都有好處

不知不覺，ChatGPT 已經(jīng)發(fā)布一周年了，這也是開源模型奮力追趕的一年。在此期間，關(guān)于大模型應(yīng)該開源還是閉源的爭論也一直不絕于耳。

在前段時(shí)間的一個(gè)采訪中，Meta 首席科學(xué)家、圖靈獎(jiǎng)獲得者 Yann LeCun 透露了他一直以來致力于開源的理由。他認(rèn)為，未來的 AI 將成為所有人類知識的存儲庫。而這個(gè)存儲庫需要所有人為其做貢獻(xiàn)，這是開源才能做到的事情。此外，他之前還表示，開源模型有助于讓更多的人和企業(yè)有能力利用最先進(jìn)的技術(shù)，并彌補(bǔ)潛在的弱點(diǎn)，減少社會差距并改善競爭。

在發(fā)布會現(xiàn)場，阿里云 CTO 周靖人重申了他們對開源的重視，稱通義千問將堅(jiān)持開源開放，希望打造「AI 時(shí)代最開放的大模型」?？磥?，更大的開源模型可以期待一波了。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營