自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通義千問再開源,Qwen1.5帶來六種體量模型,性能超越GPT3.5

人工智能 新聞
超越 Claude、GPT-3.5,提升了多語言支持能力。

趕在春節(jié)前,通義千問大模型(Qwen)的 1.5 版上線了。今天上午,新版本的消息引發(fā)了 AI 社區(qū)關(guān)注。

新版大模型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最強(qiáng)版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多語言支持。

阿里通義千問團(tuán)隊(duì)表示,相關(guān)技術(shù)也已經(jīng)上線到了通義千問官網(wǎng)和通義千問 App。

除此以外,今天 Qwen 1.5 的發(fā)布還有如下一些重點(diǎn):

  • 支持 32K 上下文長度;
  • 開放了 Base + Chat 模型的 checkpoint;
  • 可與 Transformers 一起本地運(yùn)行;
  • 同時發(fā)布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 權(quán)重。

借助更先進(jìn)的大模型作為評委,通義千問團(tuán)隊(duì)在兩個廣泛使用的基準(zhǔn) MT-Bench 和 Alpaca-Eval 上對 Qwen1.5 進(jìn)行了初步評估,評估結(jié)果如下:

圖片

盡管落后于 GPT-4-Turbo,但最大版本的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表現(xiàn)出了可觀的效果,性能超過 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B,與最近熱門的新模型 Mistral Medium 不相上下。

此外通義千問團(tuán)隊(duì)表示,雖然大模型判斷的評分似乎與回答的長度有關(guān),但人類觀察結(jié)果表明 Qwen1.5 并沒有因?yàn)楫a(chǎn)生過長的回答來影響評分。AlpacaEval 2.0 上 Qwen1.5-Chat 的平均長度為 1618,與 GPT-4 的長度一致,比 GPT-4-Turbo 短。

通義千問的開發(fā)者表示,最近幾個月,他們一直在專注探索如何構(gòu)建一個真正「卓越」的模型,并在此過程中不斷提升開發(fā)者的使用體驗(yàn)。

圖片

相較于以往版本,本次更新著重提升了 Chat 模型與人類偏好的對齊程度,并且顯著增強(qiáng)了模型的多語言處理能力。在序列長度方面,所有規(guī)模模型均已實(shí)現(xiàn) 32768 個 tokens 的上下文長度范圍支持。同時,預(yù)訓(xùn)練 Base 模型的質(zhì)量也有關(guān)鍵優(yōu)化,有望在微調(diào)過程中為人們帶來更佳體驗(yàn)。

基礎(chǔ)能力

關(guān)于模型基礎(chǔ)能力的評測,通義千問團(tuán)隊(duì)在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基準(zhǔn)數(shù)據(jù)集上對 Qwen1.5 進(jìn)行了評估。

圖片

在不同模型尺寸下,Qwen1.5 都在評估基準(zhǔn)中表現(xiàn)出強(qiáng)大的性能,72B 的版本在所有基準(zhǔn)測試中都超越了 Llama2-70B,展示了其在語言理解、推理和數(shù)學(xué)方面的能力。

最近一段時間,小型模型的構(gòu)建是業(yè)內(nèi)熱點(diǎn)之一,通義千問團(tuán)隊(duì)將模型參數(shù)小于 70 億的 Qwen1.5 模型與社區(qū)中重要的小型模型進(jìn)行了比較:

圖片

在參數(shù)規(guī)模低于 70 億的范圍內(nèi) Qwen1.5 與業(yè)界領(lǐng)先的小型模型相比具有很強(qiáng)的競爭力。

多語言能力

在來自歐洲、東亞和東南亞的 12 種不同語言上,通義千問團(tuán)隊(duì)評估了 Base 模型的多語言能力。從開源社區(qū)的公開數(shù)據(jù)集中,阿里研究者構(gòu)建了如下表所示的評測集合,共涵蓋四個不同的維度:考試、理解、翻譯、數(shù)學(xué)。下表提供了每個測試集的詳細(xì)信息,包括其評測配置、評價指標(biāo)以及所涉及的具體語言種類。

圖片

詳細(xì)的結(jié)果如下:

圖片

上述結(jié)果表明,Qwen1.5 Base 模型在 12 種不同語言的多語言能力方面表現(xiàn)出色,在學(xué)科知識、語言理解、翻譯、數(shù)學(xué)等各個維度的評估中,均展現(xiàn)了不錯的結(jié)果。更進(jìn)一步地,在 Chat 模型的多語言能力上,可以觀察到如下結(jié)果:

圖片

長序列

隨著長序列理解的需求不斷增加,阿里在新版本上提升了千問模型的相應(yīng)能力,全系列 Qwen1.5 模型支持 32K tokens 的上下文。通義千問團(tuán)隊(duì)在 L-Eval 基準(zhǔn)上評估了 Qwen1.5 模型的性能,該基準(zhǔn)衡量了模型根據(jù)長上下文生成響應(yīng)的能力。結(jié)果如下:

圖片

從結(jié)果來看,即使像 Qwen1.5-7B-Chat 這樣的小規(guī)模模型,也能表現(xiàn)出與 GPT-3.5 可比較的性能,而最大的模型 Qwen1.5-72B-Chat 僅略微落后于 GPT4-32k。

值得一提的是,以上結(jié)果僅展示了 Qwen 1.5 在 32K tokens 長度下的效果,并不代表模型最大只能支持 32K 長度。開發(fā)者可以在 config.json 中,將 max_position_embedding 嘗試修改為更大的值,觀察模型在更長上下文理解場景下,是否可以實(shí)現(xiàn)令人滿意的效果。

鏈接外部系統(tǒng)

如今,通用語言模型的一大魅力在于其與外部系統(tǒng)對接的潛在能力。RAG 作為一種在社區(qū)中快速興起的任務(wù),有效應(yīng)對了大語言模型面臨的一些典型挑戰(zhàn),如幻覺、無法獲取實(shí)時更新或私有數(shù)據(jù)等問題。此外,語言模型在使用 API 和根據(jù)指令及示例編寫代碼方面,展現(xiàn)出了強(qiáng)大的能力。大模型能夠使用代碼解釋器或扮演 AI 智能體,發(fā)揮出更為廣闊的價值。

通義千問團(tuán)隊(duì)對 Qwen1.5 系列 Chat 模型在 RAG 任務(wù)上的端到端效果進(jìn)行了評估。評測基于 RGB 測試集,是一個用于中英文 RAG 評估的集合:

圖片

圖片

然后,通義千問團(tuán)隊(duì)在 T-Eval 基準(zhǔn)測試中評估了 Qwen1.5 作為通用智能體運(yùn)行的能力。所有 Qwen1.5 模型都沒有專門面向基準(zhǔn)進(jìn)行優(yōu)化:

圖片

圖片

為了測試工具調(diào)用能力,阿里使用自身開源的評估基準(zhǔn)測試模型正確選擇、調(diào)用工具的能力,結(jié)果如下:

圖片

最后,由于 Python 代碼解釋器已成為高級 LLM 越來越強(qiáng)大的工具,通義千問團(tuán)隊(duì)還在之前開源的評估基準(zhǔn)上評估了新模型利用這一工具的能力:

圖片

結(jié)果表明,較大的 Qwen1.5-Chat 模型通常優(yōu)于較小的模型,其中 Qwen1.5-72B-Chat 接近 GPT-4 的工具使用性能。不過,在數(shù)學(xué)解題和可視化等代碼解釋器任務(wù)中,即使是最大的 Qwen1.5-72B-Chat 模型也會因編碼能力而明顯落后于 GPT-4。阿里表示,會在未來的版本中,在預(yù)訓(xùn)練和對齊過程中提高所有 Qwen 模型的編碼能力。

Qwen1.5 與 HuggingFace transformers 代碼庫進(jìn)行了集成。從 4.37.0 版本開始,開發(fā)者可以直接使用 transformers 庫原生代碼,而不加載任何自定義代碼(指定 trust_remote_code 選項(xiàng))來使用 Qwen1.5。

在開源生態(tài)上,阿里已經(jīng)與 vLLM、SGLang(用于部署)、AutoAWQ、AutoGPTQ(用于量化)、Axolotl、LLaMA-Factory(用于微調(diào))以及 llama.cpp(用于本地 LLM 推理)等框架合作,所有這些框架現(xiàn)在都支持 Qwen1.5。Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平臺上使用。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-11 09:20:48

2023-11-01 19:03:58

GPT-4

2023-10-31 15:26:02

阿里云通義千問

2024-08-30 15:19:22

2023-09-01 21:12:13

GPT3.5模型微調(diào)

2023-02-16 13:48:56

模型論文

2023-08-23 13:27:00

SQLCoder開源開發(fā)

2023-12-01 13:36:01

阿里云通義千問

2024-06-11 07:03:00

大模型開源Qwen2

2025-02-08 09:30:00

2025-03-27 10:04:36

阿里云通義千問多模態(tài)

2023-08-03 19:11:45

2024-10-30 11:06:59

SpringAI模型

2023-12-12 13:16:00

模型訓(xùn)練

2024-04-30 14:11:00

訓(xùn)練模型

2023-12-27 14:06:00

模型訓(xùn)練

2024-12-02 08:00:00

2024-05-21 11:35:48

阿里云通義千問

2015-07-28 13:45:14

大數(shù)據(jù)商業(yè)商業(yè)模式
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號