自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

閉源趕超GPT-4 Turbo、開(kāi)源擊敗Llama-3-70B,歪果仁:這中國(guó)大模型真香

人工智能 新聞
在發(fā)布一周年之際,阿里云通義千問(wèn)大模型在閉源和開(kāi)源領(lǐng)域都交上了一份滿(mǎn)意的答卷。

國(guó)內(nèi)的開(kāi)發(fā)者們或許沒(méi)有想到,有朝一日,他們開(kāi)發(fā)的 AI 大模型會(huì)像出海的網(wǎng)文、短劇一樣,讓世界各地的網(wǎng)友坐等更新。甚至,來(lái)自韓國(guó)的網(wǎng)友已經(jīng)開(kāi)始反思:為什么我們就沒(méi)有這樣的模型?

圖片

圖片

這個(gè)「別人家的孩子」就是阿里云的通義千問(wèn)(英文名為 Qwen)。在過(guò)去的一年里,我們經(jīng)常能夠在 X 等社交平臺(tái)上看到它的身影。這些帖子一般有兩個(gè)主題:通義千問(wèn)又開(kāi)源新模型了!通義千問(wèn)新模型還挺好用!

還有人以通義千問(wèn)為例,反駁中國(guó)在人工智能方面落后的說(shuō)法。而且,這一反駁并非來(lái)自主觀感受。在最近的 HuggingFace 開(kāi)源大模型排行榜 Open LLM Leaderboard 上,我們驚訝地發(fā)現(xiàn),剛剛開(kāi)源的 Qwen1.5-110B 已經(jīng)登上了榜首,性能比 Llama-3-70B 還強(qiáng)。

圖片

部分開(kāi)發(fā)者的實(shí)測(cè)體驗(yàn)也佐證了這一結(jié)果。

要知道,這還只是 Qwen1.5 的實(shí)力。等到 Qwen 2.x 系列模型開(kāi)源,我們還將看到更多驚喜。

這份驚喜已經(jīng)能從通義千問(wèn)的新模型里看到端倪,即阿里云今天發(fā)布的新模型 —— 通義千問(wèn) 2.5。在性能上,該模型在中文場(chǎng)景已經(jīng)趕超GPT-4 Turbo,成為地表最強(qiáng)中文大模型。

去年 3 月份,OpenAI 發(fā)布了 GPT-4。如今,通義千問(wèn) 2.5 的發(fā)布表明,歷經(jīng)一年多追趕,國(guó)產(chǎn)大模型終于進(jìn)入核心競(jìng)技場(chǎng),可與國(guó)外一流大模型一較高下。

這一過(guò)程的艱辛是能夠可視化的。它就像一場(chǎng)逆流而上的龍舟競(jìng)賽,稍有懈怠就會(huì)被沖到下游,而且競(jìng)爭(zhēng)對(duì)手全是重量級(jí)。

過(guò)去一年大模型競(jìng)技場(chǎng)排名變化視頻(不含 Qwen1.5-110B)。可以看到,盡管面對(duì)的是谷歌、Anthropic、Meta 等強(qiáng)大競(jìng)爭(zhēng)對(duì)手,阿里云的 Qwen 也一度躋身前列。

那么,通義千問(wèn)的開(kāi)源大模型是如何一步一步走到今天的?最新發(fā)布的通義千問(wèn) 2.5 又帶來(lái)了哪些驚喜?這篇文章將逐一揭曉。

超越 Llama-3-70B   通義千問(wèn)開(kāi)源大模型如何一步一步登頂?

不久之前,業(yè)內(nèi)曾有過(guò)一場(chǎng)「開(kāi)源模型是否會(huì)越來(lái)越落后」的爭(zhēng)論。但后續(xù)出現(xiàn)的 Llama3、Qwen1.5 等模型用實(shí)力表明,開(kāi)源模型的發(fā)展勢(shì)頭依然迅猛。

最近風(fēng)頭正盛的 Qwen1.5-110B 于 4 月 28 日開(kāi)源,是 Qwen1.5 系列中規(guī)模最大的模型,也是該系列中首個(gè)擁有超 1000 億參數(shù)的模型。該模型可以處理 32K tokens 的上下文長(zhǎng)度,并支持英、中、法、西、德、俄、日、韓、越、阿等多種語(yǔ)言。

在技術(shù)細(xì)節(jié)上,Qwen1.5-110B 沿用了 Transformer 解碼器架構(gòu),包括分組查詢(xún)注意力(GQA),使得模型推理更加高效。

也因此,Qwen1.5-110B 在 MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval 等多個(gè)基準(zhǔn)測(cè)評(píng)中不僅優(yōu)于自家 Qwen1.5-72B,更超越了 Meta 的 Llama-3-70B。這意味著,就基礎(chǔ)能力而言,Qwen1.5-110B 成為了比 Llama-3-70B 更優(yōu)秀的模型。

而在對(duì)話(huà)聊天場(chǎng)景,Qwen1.5-110B-Chat 在 MT-Bench 和 AlpacaEval 2.0 基準(zhǔn)測(cè)試上的表現(xiàn)也雙雙好于 Llama-3-70B-Instruct。

來(lái)源:https://mp.weixin.qq.com/s/wrW3JWQWb8W7DqANitrMVw

看到這里,有的開(kāi)發(fā)者可能會(huì)說(shuō),Qwen1.5-110B 好是好,就是太大了,跑不動(dòng)啊。

這個(gè)時(shí)候,通義千問(wèn)「家大業(yè)大」的優(yōu)勢(shì)就體現(xiàn)出來(lái)了。在 Qwen1.5-110B 發(fā)布之前,他們已經(jīng)開(kāi)源了從 0.5B 到 72B 的七種尺寸的模型,提供了從端側(cè)到服務(wù)器部署的多種選擇。

而且,這些模型在各自所處的參數(shù)量級(jí)上都名列前茅。

以 Qwen1.5-72B 為例,這個(gè)模型不僅登頂過(guò) HuggingFace 開(kāi)源大模型排行榜、OpenCompass 開(kāi)源基座大模型排行榜,而且在 MT-Bench 和 Alpaca-Eval v2 評(píng)測(cè)中也表現(xiàn)不俗,超過(guò) Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。

圖片


圖片

在開(kāi)放研究機(jī)構(gòu) LMSYS Org 推出的基準(zhǔn)測(cè)試平臺(tái) Chatbot Arena 上,Qwen1.5-72B 模型更是多次進(jìn)入「盲測(cè)」結(jié)果全球 Top 10,創(chuàng)造了國(guó)產(chǎn)大模型的先例。

圖片

而且,和 Qwen1.5-110B 一樣,它也展現(xiàn)出了卓越的多語(yǔ)言能力。

有位越南網(wǎng)友表示,在越南版的 MMLU(VMLU)上,Qwen-72B 開(kāi)箱即用,拿到了和 GPT-4 一樣的分?jǐn)?shù),直接沖到了 SOTA。

而一位韓國(guó)網(wǎng)友看到后跟帖說(shuō),「在 wuli(我們的)韓國(guó)版 MMLU 上也一樣。」

圖片

除了語(yǔ)言,還有人發(fā)現(xiàn)了 Qwen-72B 的隱藏技能 —— 醫(yī)療知識(shí)。不需要寫(xiě)任何特殊提示(prompt),Qwen-72B 給出的答案就能勝過(guò)專(zhuān)業(yè)的醫(yī)療 LLM。

當(dāng)然,可能會(huì)有開(kāi)發(fā)者說(shuō),72B 還是太大了,跑不動(dòng)。那不妨試試更小的模型:14B、7B 的 Qwen 也很好用。

圖片

而且,這個(gè) 7B 模型還有「平替」,即性能與之相當(dāng)?shù)?Qwen1.5-MoE-A2.7B。Qwen1.5-7B 包含 65 億個(gè) Non-Embedding 參數(shù),Qwen1.5-MoE-A2.7B 只有 20 億個(gè),僅為前者的 1/3。但是,后者推理速度提升了 1.74 倍,對(duì)于開(kāi)發(fā)者來(lái)說(shuō)更為高效。

可以看到,在眾多的大模型廠商中,通義千問(wèn)在開(kāi)源領(lǐng)域罕見(jiàn)地做到了「全尺寸」的開(kāi)源,而且還在利用 MoE 等技術(shù)不斷優(yōu)化推理成本,這極大地?cái)U(kuò)展了其適用范圍。

除此之外,通義千問(wèn)還在多模態(tài)以及一些實(shí)用的專(zhuān)有能力上進(jìn)行了探索,開(kāi)源了視覺(jué)理解模型 Qwen-VL,音頻理解模型 Qwen-Audio 以及代碼專(zhuān)家模型 CodeQwen1.5。

其中,CodeQwen1.5-7B 登頂過(guò) Huggging Face 代碼模型榜單 BigCode。

這些模型在開(kāi)發(fā)者社區(qū)也廣受好評(píng)。

有人在評(píng)論區(qū)喊話(huà) Qwen 的核心維護(hù)者 Binyuan Hui,希望這些模型的升級(jí)版也能進(jìn)一步開(kāi)源。

此外,還有很多人在等 Qwen2 開(kāi)源。

測(cè)試中的 Qwen-Max-0428 更是引發(fā)了各種猜測(cè)(有人認(rèn)為它就是即將開(kāi)源的 Qwen2)。最新消息顯示,這個(gè)模型已經(jīng)躋身 Chatbot Arena 總榜第 10 名,英文場(chǎng)景排名第 8,中文場(chǎng)景排名第 2。

圖片

在今天的發(fā)布會(huì)上,阿里云 CTO 周靖人透露,未來(lái)通義大模型還會(huì)持續(xù)開(kāi)源,感覺(jué)大家千呼萬(wàn)喚的 Qwen2 已經(jīng)在路上了(coming soon)。

地表最強(qiáng)中文大模型  通義千問(wèn) 2.5 趕超 GPT-4 Turbo

在堅(jiān)持 Qwen1.5 系列模型開(kāi)源之外,通義千問(wèn)大模型專(zhuān)注于「修煉內(nèi)功」,基礎(chǔ)能力得到不斷進(jìn)步。自問(wèn)世以來(lái),通義千問(wèn)的不斷迭代帶來(lái)自然語(yǔ)言、圖像、音視頻等生成式 AI 能力的持續(xù)升級(jí),為更好、更快、更準(zhǔn)的用戶(hù)體驗(yàn)打好基礎(chǔ)。

果不其然,此次發(fā)布會(huì)上,我們見(jiàn)證了通義千問(wèn) 2.5 基礎(chǔ)能力的又一次全方位提升。

相較于前序版本通義千問(wèn) 2.1,通義千問(wèn) 2.5 的理解能力、邏輯推理、指令遵循和代碼能力分別提升了 9%、16%、19%、10%,將基礎(chǔ)能力「卷」出新高度。

其中,中文語(yǔ)境下的文本生成和理解、 知識(shí)問(wèn)答、生活建議、閑聊對(duì)話(huà)等垂直場(chǎng)景的能力更是趕超 GPT-4,成為中文社區(qū)最佳選擇。

在權(quán)威大模型評(píng)測(cè)基準(zhǔn)平臺(tái) OpenCompass 上,通義千問(wèn) 2.5 的得分追平了 GPT-4 Turbo。這是國(guó)產(chǎn)大模型首次在該基準(zhǔn)上取得如此出色的成績(jī),讓我們看到了通義千問(wèn)能力持續(xù)進(jìn)化的巨大潛力。

至此,通義千問(wèn)已經(jīng)站到了國(guó)內(nèi)外大模型領(lǐng)域的第一梯隊(duì)。

而得益于更強(qiáng)大的基礎(chǔ)能力,通義千問(wèn) 2.5 在文檔處理、音視頻理解和智能代碼使用場(chǎng)景形成了獨(dú)有優(yōu)勢(shì)。

首先,通義千問(wèn) 2.5 具備了超強(qiáng)的文檔處理能力,在支持輸入的文本長(zhǎng)度上可以單次處理 1000 萬(wàn)字,在支持輸入的文檔數(shù)量上可以單次處理 100 個(gè)文檔,實(shí)現(xiàn)了單次最長(zhǎng)和最多。

通義千問(wèn) 2.5 支持豐富的文件格式和文本類(lèi)型,比如 Word、PDF、Excel 以及表單、合同、白皮書(shū)、論文、財(cái)報(bào)研報(bào)等。文本任務(wù)也多樣化,比如解析標(biāo)題、文本段落、表格、圖表等多種版面類(lèi)型及文檔層級(jí)目錄的識(shí)別和抽取。在輸出時(shí)支持 Markdown、JSON 等格式,對(duì)用戶(hù)友好、易用性拉滿(mǎn)。

其次,通義千問(wèn) 2.5 具有出色的音視頻理解能力。

在通義千問(wèn)語(yǔ)言能力、LLM 能力、多模態(tài)能力和翻譯能力的加持下,通過(guò)通義聽(tīng)悟、語(yǔ)言視覺(jué) AI 模型等,實(shí)現(xiàn)音視頻場(chǎng)景的信息挖掘、知識(shí)沉淀和高效閱讀。相關(guān)能力已在釘釘、阿里云盤(pán)等內(nèi)部產(chǎn)品以及合作伙伴的具體場(chǎng)景中有了廣泛的落地實(shí)踐,讓模型應(yīng)用實(shí)現(xiàn)「開(kāi)花結(jié)果」。

此外,通義千問(wèn) 2.5 賦予了開(kāi)發(fā)者和企業(yè)卓越的智能編碼能力。

以通義代碼大模型CodeQwen1.5為底座的智能代碼助手「通義靈碼」,它的國(guó)內(nèi)用戶(hù)規(guī)模已經(jīng)達(dá)到了第一,其中插件下載量超過(guò) 350 萬(wàn),每日推薦代碼超過(guò) 3000 萬(wàn)次,開(kāi)發(fā)者采納代碼超過(guò) 1 億行。同時(shí),正式發(fā)布的通義靈碼企業(yè)版能夠基于企業(yè)需求進(jìn)行定制,幫助他們提升編碼體系的整體效率。

可以預(yù)見(jiàn),隨著通義千問(wèn) 2.5 的到來(lái),它將成為更強(qiáng)大的模型底座,進(jìn)而為普通用戶(hù)、開(kāi)發(fā)者和企業(yè)客戶(hù)提供更多樣化、更準(zhǔn)確、更快速的生成式 AI 體驗(yàn)。

實(shí)戰(zhàn)效果

當(dāng)然,評(píng)測(cè)數(shù)據(jù)的高低不能全方面代表大模型的實(shí)際效果。接下來(lái),我們從普通用戶(hù)的角度考驗(yàn)一下模型的能力到底如何。


通義千問(wèn)網(wǎng)頁(yè)版地址:https://tongyi.aliyun.com/

輸入問(wèn)題:「我今天有 3 個(gè)蘋(píng)果,昨天吃了一個(gè)。現(xiàn)在有幾個(gè)蘋(píng)果?」

圖片

對(duì)于這個(gè)問(wèn)題,假如不細(xì)想的話(huà),很可能會(huì)給出錯(cuò)誤答案 2,但通義千問(wèn)不但給出了準(zhǔn)確的答案,還分析了原因。

自打大模型爆火以來(lái),「弱智吧」就成了檢測(cè)大模型能力的一項(xiàng)重要指標(biāo)。我們測(cè)試一下通義千問(wèn)會(huì)不會(huì)被弱智吧的問(wèn)題繞進(jìn)去。

圖片


圖片


從結(jié)果可以看出,通義千問(wèn)不但給出了原因,還為我們補(bǔ)充了很多相關(guān)知識(shí)。

通義千問(wèn)解讀笑話(huà)也是信手拈來(lái):

圖片

接下來(lái)我們考察通義千問(wèn)文本生成能力如何。

圖片

通篇讀下來(lái),確實(shí)很有《紅樓夢(mèng)》風(fēng)格,連唇膏名字都替我們想好了。

在長(zhǎng)文本方面,通義千問(wèn)也表現(xiàn)突出, 對(duì)論文《KAN: Kolmogorov–Arnold Networks 》(論文長(zhǎng)達(dá) 48 頁(yè))的亮點(diǎn)概括非常全面。

圖片

在代碼方面,我們要求通義千問(wèn)編寫(xiě)一個(gè)打地鼠的游戲,一眨眼的功夫,程序就完成了。

圖片

我們接著測(cè)試了通義千問(wèn)對(duì)圖片的理解能力。比如吉娃娃和藍(lán)莓松餅之間有著驚人的相似之處,大模型經(jīng)常分辨不出,當(dāng)我們輸入帶有兩者的圖片時(shí),通義千問(wèn)都能進(jìn)行很好的區(qū)分:

圖片


圖片

根據(jù) emoji 表情猜成語(yǔ)也不在話(huà)下。

圖片

生活中遇到了問(wèn)題,拍張圖片上傳到通義千問(wèn),它也能給出一些指導(dǎo)性建議。

圖片

通義千問(wèn)不僅能夠理解圖片,還能生成圖片。唐代詩(shī)人王之渙筆下的《登鸛雀樓》描述的場(chǎng)景被活靈活現(xiàn)的呈現(xiàn)出來(lái)了。

圖片

以上測(cè)試,只是通義千問(wèn)眾多功能中的冰山一角,感興趣的讀者可以前去官方網(wǎng)站一試。

一年時(shí)間趕超 GPT-4 Turbo   通義千問(wèn)做對(duì)了什么? 

回顧過(guò)去的一年,上半年是百模大戰(zhàn),后半年是瞄準(zhǔn) GPT-4 的全面沖刺。在如此激烈的戰(zhàn)場(chǎng)上廝殺,并保持自身對(duì)于外界的辨識(shí)度,即使對(duì)于通義千問(wèn)這樣的大廠模型來(lái)說(shuō)也不是件容易的事。

但是,通義千問(wèn)不僅做到了,還在國(guó)內(nèi)外都建立起了良好的口碑。這不僅得益于其背后團(tuán)隊(duì)對(duì)于智能極限的探索,也得益于其對(duì)開(kāi)源路線的堅(jiān)持。

其實(shí),這兩者是相輔相成的。我們看到,無(wú)論是在開(kāi)源還是閉源的競(jìng)技場(chǎng)上,開(kāi)發(fā)者、企業(yè)用戶(hù)都有很多的模型可以選擇,因此,即使是做開(kāi)源,也要開(kāi)源最強(qiáng)的模型才有人用。而有人用才會(huì)有反饋,這點(diǎn)對(duì)于提升開(kāi)源模型的能力至關(guān)重要。

在采訪中,阿里云副總裁、公眾溝通部總經(jīng)理張啟提到,現(xiàn)在圍繞通義千問(wèn)的開(kāi)發(fā)者社區(qū)非?;钴S,他們每天會(huì)給通義千問(wèn)的模型開(kāi)發(fā)人員提供非常多有意義的反饋,有很多反饋甚至超出了他們自己原來(lái)的設(shè)想。這也是為什么通義千問(wèn)能夠在一年的時(shí)間內(nèi)先后超越 GPT-3.5、GPT-4 Turbo 的性能?!搁_(kāi)源后,來(lái)自全球開(kāi)發(fā)者的真實(shí)反饋,對(duì)我們模型本身進(jìn)步發(fā)展速度的意義非常重大。」張啟說(shuō)到。

在這種體系下,通義千問(wèn)的開(kāi)發(fā)人員與企業(yè)、開(kāi)發(fā)者之間形成了一種并行探索的關(guān)系,有利于進(jìn)一步挖掘 AI 大模型的潛力。

「如今,有很多開(kāi)發(fā)者、企業(yè)能夠結(jié)合自己的實(shí)際開(kāi)發(fā)場(chǎng)景和業(yè)務(wù)需求,借助 AI 模型實(shí)現(xiàn)翻天覆地的變化。在這個(gè)時(shí)間點(diǎn),我們希望能夠以一個(gè)開(kāi)放的心態(tài),將最先進(jìn)的技術(shù)在各個(gè)方面開(kāi)源,讓大家做并行的探索。這對(duì)整個(gè)產(chǎn)業(yè)乃至每個(gè)企業(yè)的創(chuàng)新性開(kāi)發(fā)都至關(guān)重要,并已被全球范圍內(nèi)多次證明其價(jià)值?!怪芫溉苏f(shuō)到。

其實(shí),Meta 的成功就是周靖人提到的「證明」之一。前段時(shí)間,Meta CEO 扎克伯格在采訪中舉例說(shuō)明了自家的 Open Compute 項(xiàng)目如何通過(guò)開(kāi)源服務(wù)器、網(wǎng)絡(luò)交換機(jī)和數(shù)據(jù)中心的設(shè)計(jì),最終導(dǎo)致供應(yīng)鏈圍繞這些設(shè)計(jì)建立,從而提高了產(chǎn)量并降低了成本,為公司節(jié)省了數(shù)十億美元。他們預(yù)計(jì) AI 大模型領(lǐng)域也將發(fā)生同樣的事情。

此外,他還提到,開(kāi)源有利于減少個(gè)別大公司對(duì)創(chuàng)新生態(tài)的限制。這和周靖人的觀點(diǎn)不謀而合。「曾幾何時(shí),大家用云計(jì)算的時(shí)候,最擔(dān)心的就是上了某家的云之后就被綁定。我們把技術(shù)進(jìn)展以開(kāi)源的方式展現(xiàn)給大家,也是希望給大家多種選擇,讓大家沒(méi)有后顧之憂(yōu)。」周靖人說(shuō)到。

從 12 年前的深度學(xué)習(xí)革命開(kāi)始,開(kāi)源對(duì) AI 技術(shù)的發(fā)展就起著關(guān)鍵性的推動(dòng)作用。即使到如今的大模型時(shí)期,開(kāi)源依然是推動(dòng)大模型技術(shù)普遍落地應(yīng)用的有效方式之一。

在我們看來(lái),近一年來(lái)通義系列的持續(xù)開(kāi)源,對(duì)中文大模型社區(qū)的發(fā)展非常有意義,也期待后續(xù)有越來(lái)越多的強(qiáng)勁大模型繼續(xù)開(kāi)源。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-12-26 08:17:23

微軟GPT-4

2024-05-30 12:50:05

2024-05-13 12:38:08

AI訓(xùn)練

2024-07-24 11:30:04

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-04-19 09:17:33

AI模型

2024-01-31 09:38:23

AI模型

2024-04-19 14:52:13

MetaGPT-4模型

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-09-11 15:57:16

人工智能模型GPT-4

2023-11-18 09:37:49

2024-05-21 12:23:17

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2024-04-19 10:32:08

2023-08-25 13:12:59

AI開(kāi)源

2023-07-25 09:23:23

Llama 2GPT-4

2023-06-08 11:27:10

模型AI

2023-12-17 22:04:04

微軟GPT-4

2024-07-31 15:38:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)