自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Code Llama 70B霸榜3連發(fā),練習5個月擊敗GPT-4!小扎LeCun親自官宣上新

人工智能 新聞
新的SOTA再次出現,Code Llama系列最強模型發(fā)布,70B代碼模型一舉擊敗GPT-4,開源代碼登陸各大平臺,大佬直接開玩。

今天,Meta正式發(fā)布了Code Llama 70B,作為Code Llama系列中規(guī)模最大,性能最強的版本,一舉擊敗了GPT-4!

目前,模型共有三個版本,均可免費用于研究和商業(yè)目的:

CodeLlama - 70B:基礎代碼模型;

CodeLlama - 70B - Python:專門針對Python的 70B模型;

CodeLlama - 70B - Instruct:專門用于理解自然語言指令的模型。

算上8月份發(fā)布的Code Llama 7B、13B和34B,這個家也算是完整了。

圖片

論文地址:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

其實,Code Llama在發(fā)布時就已經展現了不俗的實力,在一眾代碼生成模型中處于領先位置。

不過GPT-4依然憑借著67.0的HumanEval(pass@1)得分數遙遙領先(Code Llama 34B為53.7)。

盡管后來又有Code Llama的微調版本獲得了更好的成績,卻并沒有進入Meta的這個官方表格。

但是!在寒窗苦讀了5個月之后,Code Llama終于一鳴驚人,以最強的70B模型登頂全部三項測試的榜首。

其中,CodeLlama-70B-Instruct在HumanEval上更是直接拿下了67.8的高分,一舉躋身當下最強開源模型的行列。

可以說,除了GPT-4外,其他同類模型幾乎都難以望其項背。

圖片

對此,LeCun轉發(fā)并宣傳了自家的新模型:「新一代Code Llama依然開源,正如它的前輩們一樣。」

圖片

而終于發(fā)現自家AI是塊寶的小扎,也加大了宣傳力度:

圖片

我們正式開源了一個全新且更加強大的Code Llama,包含一個龐大的700億參數的模型。

在當今的AI域,編寫和編輯代碼已經成為了最關鍵的應用之一。同樣,能夠編程也對AI模型在其他領域進行更加嚴密和邏輯性的信息處理顯得尤為重要。

我對我們在這方面取得的進展感到非常自豪,并且非常期待在未來的Llama 3及后續(xù)模型中加入這些先進的成果。

技術細節(jié)

Code Llama是一款能夠通過文本提示生成代碼的大語言模型。它不僅能提升現有開發(fā)者的工作效率,還能降低編程新手的學習門檻。

Meta希望將Code Llama打造成為一款既能提高生產力,又具有教育價值的工具,助力程序員創(chuàng)建更加穩(wěn)定且文檔齊全的軟件。

Code Llama是基于Llama 2開發(fā)的,專門用于編程任務的版本。

通過在專為編碼設計的數據集上進行更深入的訓練,Code Llama能夠理解和生成代碼,幫助完成編程任務(如編寫函數、代碼補全和調試),

并支持包括Python、C++、Java、PHP、Typescript (Javascript)、C#和Bash等在內的多種流行編程語言。

圖片

到目前為止,Code Llama系列集齊了四種規(guī)模,分別擁有7B、13B、34B和70B的參數,

前三個模型采用500B token的代碼和相關數據進行訓練,而新發(fā)布的70B模型使用了1TB token。

另外,7B和13B基礎模型和指令模型還經過中間填充(FIM)功能的訓練,具備直接在現有代碼中插入新代碼的能力(代碼補全)。

Code Llama系列模型針對不同的需求和性能要求進行了優(yōu)化:

7B模型能在單個GPU上運行,適合快速響應的場景;而34B和70B模型則提供了更高級的編碼輔助功能,但運行速度較慢。

圖片

Code Llama能夠處理長達100000 token的上下文,這意味著模型可以理解和生成較長的程序代碼。

這對于處理大型代碼庫中的調試任務特別有用,開發(fā)者可以提供大量代碼上下文,以獲得更準確的編碼建議。

圖片

此外,Code Llama還推出了兩個特別版本:Code Llama - Python 和 Code Llama - Instruct。

考慮到Python在AI社區(qū)的重要性,Code Llama - Python針對 Python代碼進行了特別優(yōu)化(使用100B token的Python代碼數據進行微調),使其在生成Python代碼時更加流暢和準確。

CodeLlama-70B-Python還可以處理一系列任務,例如網絡抓取、數據分析、機器學習(ML)和Web開發(fā)。

圖片

而Code Llama - Instruct則通過接受自然語言指令和期望輸出的方式進行訓練,使其更擅長根據用戶的需求生成代碼或答案。

CodeLlama-70B-Instruct還可以用于處理排序、搜索、過濾和操作數據,以及實現算法(二進制搜索、斐波那契和階乘等)。

官方建議在需要代碼生成時優(yōu)先考慮使用Code Llama - Instruct,以獲得更安全、更有用的結果。

需要注意的是,主要用于編程問題的Code Llama和Code Llama - Python,并不適合處理一般的自然語言任務。

基準測試

下面看一下新的Code Llama在同類模型中的表現如何,這里采用業(yè)內廣泛應用的編程基準測試:

HumanEval和Mostly Basic Python Programming (MBPP)。

HumanEval是一個包含164個編程問題的基準數據集,用于測試代碼生成模型的功能正確性和邏輯性,而MBPP則測試模型依據具體描述編寫代碼的技巧。

我們可以看到前代的34B表現已經很好了,而參數量翻了一倍的Code Llama 70B老大哥直接霸榜,并且相比于34B性能顯著提升。

其中,CodeLlama-70B-Instruct在HumanEval上得分高達67.8,超過了CodeGen-16B-Mono(29.3)和StarCoder(40.1)等開放模型之前的最佳成績,并與GPT-4(68.2)和Gemini Pro(69.4)等閉源模型相當。

圖片

當然,為了更負責任地開發(fā)AI模型,Meta已經采取了多項安全措施,并對生成惡意代碼的風險進行了量化評估。

結果顯示,相比于ChatGPT(GPT3.5 Turbo),Code Llama給出的回答更為安全。

挑戰(zhàn)GPT-4,coding模型卷起來了!

目前,通過各各類主流的平臺和框架都可以訪問和使用Code Llama 70B,例如Hugging Face、PyTorch、TensorFlow和Jupyter Notebook。

此外,Meta AI還提供了針對不同目的和語言,使用和微調模型的文檔和教程。

圖片

而隨著模型的發(fā)布,各大AI平臺也紛紛加入了對Code Llama 70B的支持:

圖片

圖片

并且還可以直接開玩:

更有大佬把Code Llama 70B跑到了蘋果的處理器上,只不過「有點熱」。

圖片

然后這位索性把Code Llama 70B直接量化到了4 bit。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-05-30 12:50:05

2024-05-10 09:10:56

模型訓練

2024-07-02 09:20:59

2024-01-30 20:36:09

GPT-4羊駝代碼

2024-06-05 08:33:29

2024-05-13 12:38:08

AI訓練

2024-10-17 13:30:00

2025-03-31 09:46:00

2023-08-25 13:12:59

AI開源

2023-09-07 13:25:00

AI模型

2024-08-21 17:09:28

2024-02-29 11:56:25

模型數據

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-07-25 09:23:23

Llama 2GPT-4

2024-09-09 09:20:00

2024-07-31 15:38:00

2024-07-26 11:32:58

2024-02-19 00:29:15

2024-10-30 13:13:07

2023-06-14 15:08:11

GPT-4工作
點贊
收藏

51CTO技術棧公眾號