自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Nvidia發(fā)布TensorRT-LLM開源軟件 提升高端GPU芯片上的AI模型性能

人工智能 新聞
TensorRT-LLM軟件套件現(xiàn)已可供Nvidia開發(fā)人員計(jì)劃中的開發(fā)人員搶先體驗(yàn),并將于下個(gè)月集成到用于生產(chǎn)型AI端到端軟件平臺(tái)Nvidia AI Enterprise的NeMo框架中。

Nvidia近日宣布推出一款名為TensorRT-LLM的新開源軟件套件,擴(kuò)展了Nvidia GPU上大型語言模型優(yōu)化的功能,并突破了部署之后人工智能推理性能的極限。

生成式AI大語言模型因其令人印象深刻的功能而變得流行,而且擴(kuò)大了人工智能的可能性,被廣泛應(yīng)用于眾多行業(yè),讓用戶能夠通過聊天機(jī)器人“與數(shù)據(jù)對(duì)話”、總結(jié)大型文檔、編寫軟件代碼、以及發(fā)現(xiàn)理解信息的新方法。

Nvidia公司超大規(guī)模和高性能計(jì)算副總裁Ian Buck表示:“大型語言模型推理變得越來越難。模型的復(fù)雜性不斷增加,模型變得越來越智能,也變得越來越大,這是很自然的,但當(dāng)模型擴(kuò)展到單個(gè)GPU之外并且必須在多個(gè)GPU上運(yùn)行的時(shí)候,就成了一大難題?!?/p>

在人工智能方面,推理是模型處理那些前所未見的新數(shù)據(jù)的一個(gè)過程,例如用于總結(jié)、生成代碼、提供建議或者回答問題,是大型語言模型的主力。

隨著模型生態(tài)系統(tǒng)的迅速擴(kuò)展,模型也變得越來越大,功能越來越多,這也意味著模型變得如此之大以至于無法同時(shí)運(yùn)行在單個(gè)GPU上,而必須將其分開。開發(fā)人員和工程師必須手動(dòng)將工作負(fù)載分開或分段,協(xié)調(diào)執(zhí)行,以便實(shí)時(shí)獲得響應(yīng)。TensorRT-LLM就是通過“張量并行性”幫助解決這個(gè)問題的,允許跨多個(gè)GPU進(jìn)行大規(guī)模的高效推理。

除此之外,由于當(dāng)今市場中有各種各樣的大型語言模型,所以Nvidia針對(duì)目前主流的大型語言模型對(duì)核心進(jìn)行了優(yōu)化。該軟件套件包括了完全優(yōu)化的、可立即運(yùn)行的大型語言模型版本,包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。

應(yīng)對(duì)動(dòng)態(tài)工作負(fù)載的“運(yùn)行中批處理”機(jī)制

由于大型語言模型本身的性質(zhì),模型的工作負(fù)載可能是高度動(dòng)態(tài)的,工作負(fù)載的需求和任務(wù)使用情況也可能會(huì)隨著時(shí)間的推移而發(fā)生變化,單個(gè)模型可以同時(shí)用作聊天機(jī)器人來提問和回答,也可以用于總結(jié)大型文檔和簡短文檔。因此,輸出大小可能會(huì)出現(xiàn)完全不同的數(shù)量級(jí)。

為了應(yīng)對(duì)這些不同的工作負(fù)載,TensorRT-LLM引入了一種稱為“運(yùn)行中批處理”的機(jī)制,這是一個(gè)優(yōu)化調(diào)度的過程,把文本生成過程分解為多個(gè)片段,以便可以將移入或者移出GPU,這樣在開始新一批之前就不需要完成整批工作負(fù)載了。

以前,如果有大型請(qǐng)求的話,例如對(duì)非常大的文檔進(jìn)行摘要提取,那么后面所有的內(nèi)容都必須等待該過程完成才能使隊(duì)列繼續(xù)前進(jìn)。

Nvidia一直在與眾多廠商合作優(yōu)化TensorRT-LLM,包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他們的幫助下,Nvidia不斷簡化軟件套件中的功能和工具集,包括開源Python應(yīng)用用戶界面,用于定義和優(yōu)化新架構(gòu)以定制大型語言模型。

例如,MosaicML在將TensorRT-LLM與其現(xiàn)有軟件堆棧集成時(shí)在TensorRT-LLM之上添加額外的功能。Databricks公司工程副總裁Naveen Rao表示,這是一個(gè)簡單的過程。

“TensorRT-LLM易于使用,功能豐富,包括令牌流、動(dòng)態(tài)批處理、分頁注意力、量化等,而且效率很高,為使用 NVIDIA GPU的大型語言模型服務(wù)提供了最佳性能,并使我們能夠?qū)⒐?jié)省的成本回饋給我們的客戶。”

Nvidia稱,TensorRT-LLM及其帶來的好處(包括運(yùn)行中批處理功能)可以讓使用Nvidia H100提取文章摘要的推理性能提高1倍多。在使用GPT-J-6B模型進(jìn)行對(duì)CNN/每日郵報(bào)文章摘要的A100測試中,僅H100就要比A100快4倍,啟用TensorRT-LLM優(yōu)化后,速度快了8倍。

TensorRT-LLM為開發(fā)人員和工程師提供了深度學(xué)習(xí)編譯器、優(yōu)化的大型語言模型內(nèi)核、預(yù)處理和后處理、多GPU/多節(jié)點(diǎn)通信功能、以及簡單的開源API,使他們能夠快速優(yōu)化和執(zhí)行大型語言模型生產(chǎn)的推理。隨著大型語言模型繼續(xù)重塑數(shù)據(jù)中心,企業(yè)需要更高的性能就意味著開發(fā)人員比以往任何時(shí)候都更需要能夠?yàn)樗麄兲峁┚邆涔δ芎驮L問權(quán)限的工具,以提供更高性能的結(jié)果。

TensorRT-LLM軟件套件現(xiàn)已可供Nvidia開發(fā)人員計(jì)劃中的開發(fā)人員搶先體驗(yàn),并將于下個(gè)月集成到用于生產(chǎn)型AI端到端軟件平臺(tái)Nvidia AI Enterprise的NeMo框架中。

責(zé)任編輯:姜華 來源: 至頂網(wǎng)
相關(guān)推薦

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-10-22 09:17:07

2023-09-10 12:37:38

模型英偉達(dá)

2024-02-04 00:00:00

Triton格式TensorRT

2022-05-14 17:01:21

開源LinuxNVIDIA

2024-01-09 12:58:21

PC性能NVIDIA

2020-05-29 15:40:40

NVIDIA

2018-05-17 08:14:01

云知聲

2024-07-29 08:19:00

服務(wù)引擎

2017-10-09 10:40:43

AMD

2023-06-25 13:37:09

GPT-4AI

2016-09-29 15:51:27

LinuxNtop性能

2023-04-07 07:38:59

2024-09-20 10:37:50

2013-12-12 16:29:07

通達(dá)信科高端OA

2024-05-14 11:31:29

IBM開源Granite AI

2015-07-01 10:09:52

2025-01-03 16:32:13

SpringBoot虛擬線程Java

2023-06-19 16:05:22

大型語言模型人工智能

2023-12-25 09:07:50

AI人工智能Ferret
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)