自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源 AI 代碼生成器 PolyCoder:擅長(zhǎng) C 語(yǔ)言,優(yōu)于 Codex

開發(fā)
卡內(nèi)基梅隆大學(xué)的研究人員推出了一個(gè)開源的自動(dòng)代碼生成器模型 PolyCoder,具有 27B 參數(shù),基于 GPT-2 架構(gòu),在一臺(tái)機(jī)器上對(duì)跨越 12 種編程語(yǔ)言的 249GB 代碼進(jìn)行了訓(xùn)練。

卡內(nèi)基梅隆大學(xué)的研究人員推出了一個(gè)開源的自動(dòng)代碼生成器模型 PolyCoder,具有 27B 參數(shù),基于 GPT-2 架構(gòu),在一臺(tái)機(jī)器上對(duì)跨越 12 種編程語(yǔ)言的 249GB 代碼進(jìn)行了訓(xùn)練。訓(xùn)練結(jié)果表明,在 C 編程語(yǔ)言中,PolyCoder 優(yōu)于包括 Codex 在內(nèi)的所有模型。

  • “最近,代碼的大型語(yǔ)言模型(LM)在完成代碼和從自然語(yǔ)言描述中合成代碼方面顯示出巨大的前景。然而,目前最先進(jìn)的代碼 LM(如 Codex)并沒有公開提供,留下許多關(guān)于他們的模型和數(shù)據(jù)設(shè)計(jì)決策的疑問。我們的目標(biāo)是通過對(duì)各種編程語(yǔ)言中最大的現(xiàn)有模型的系統(tǒng)評(píng)估來填補(bǔ)其中的一些空白:Codex、GPT-J、GPT-Neo、GPT-NeoX20B 和 CodeParrot。盡管 Codex 本身不是開源的,但我們發(fā)現(xiàn)現(xiàn)有的開源模型在一些編程語(yǔ)言中確實(shí)取得了接近的結(jié)果,雖然主要針對(duì)的是自然語(yǔ)言建模。我們進(jìn)一步確定了一個(gè)重要的缺失部分,即專門在多語(yǔ)言的代碼語(yǔ)料庫(kù)中訓(xùn)練的大型開源模型。”

研究人員指出,OpenAI 的 Codex 于去年 8 月發(fā)布,可通過微軟擁有的 GitHub 的 Copilot 工具獲得;但它通過黑盒 API 調(diào)用提供對(duì)模型輸出的“non-free access”,模型的權(quán)重和訓(xùn)練數(shù)據(jù)并不可用。DeepMind 聲稱其最近發(fā)布的 AlphaCode 代碼生成器在人類參與的編程比賽中排名前 54.3%,但是訓(xùn)練這個(gè)模型需卻要在谷歌的數(shù)據(jù)中心進(jìn)行"hundreds of petaFLOPS days"的訓(xùn)練。

“盡管大型語(yǔ)言代碼模型取得了巨大成功,但最強(qiáng)的模型都尚未公開。這阻止了這些模型在資源充足的公司之外的應(yīng)用,并限制了資源匱乏的組織在這一領(lǐng)域的研究?!?/p>

為了解決這一問題,他們推出了 PolyCoder。該模型使用來自 GitHub 的多個(gè)存儲(chǔ)庫(kù)的數(shù)據(jù)進(jìn)行訓(xùn)練,涵蓋 12 種流行的編程語(yǔ)言:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。未經(jīng)過濾的數(shù)據(jù)集總共有 631GB 的數(shù)據(jù)和 3890 萬個(gè)文件。此外,為了訓(xùn)練 PolyCoder,研究人員選擇了 GPT-2(因?yàn)轭A(yù)算有限)。

不過雖然 PolyCoder 在 C 語(yǔ)言方面的表現(xiàn)優(yōu)于所有模型,但 Codex 在其他語(yǔ)言方面仍然要?jiǎng)龠^ PolyCoder。

“值得注意的是,PolyCoder 在 C 語(yǔ)言方面優(yōu)于 Codex 和所有其他模型。在比較單獨(dú)的開源模型時(shí),PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表現(xiàn)比類似規(guī)模的 GPT-Neo 2.7B 更好。在除 C 語(yǔ)言以外的其他 11 種語(yǔ)言中,所有其他開源模型,包括我們的,都明顯比 Codex 差(higher perplexity)?!?/p>

??詳情可查看??

本文轉(zhuǎn)自O(shè)SCHINA

本文標(biāo)題:開源 AI 代碼生成器 PolyCoder:擅長(zhǎng) C 語(yǔ)言,優(yōu)于 Codex

本文地址:https://www.oschina.net/news/185793/open-source-ai-code-generator-polycoder

責(zé)任編輯:未麗燕 來源: OSCHINA
相關(guān)推薦

2022-03-14 17:38:20

AI模型開源

2021-07-23 11:24:54

Create Inc開源G代碼生成器

2009-07-03 09:29:24

KeelKit

2022-03-09 07:29:55

AI開源C語(yǔ)言

2024-08-19 00:00:00

表單生成器開發(fā)開源

2015-08-25 15:54:17

程序員代碼生成器

2023-05-17 16:02:00

CSS工具代碼生成器

2023-05-04 16:24:10

人工智能圖像生成器

2020-04-30 21:40:14

C#特性編程語(yǔ)言

2025-01-08 08:00:20

2023-08-04 09:00:00

人工智能GPT-4語(yǔ)言模型

2023-01-06 07:52:52

代碼生成器開發(fā)

2012-09-21 10:54:21

開源Linux防火墻

2024-02-23 15:53:13

OpenAISora人工智能

2020-10-20 09:53:11

代碼IDEA生成器

2021-10-29 11:25:41

代碼編程語(yǔ)言Java

2023-03-06 10:29:37

人工智能威脅

2012-03-30 09:31:44

WEBCSS

2021-12-10 09:45:19

生成器配置代碼

2024-06-12 13:40:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)