自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google開源大模型新成員CodeGemma、RecurrentGemma,繼Transformer后新架構(gòu)Griffin誕生 原創(chuàng)

發(fā)布于 2024-4-11 13:25
瀏覽
0收藏

2024年2月,Google推出了 Gemma,一系列輕量級(jí)、先進(jìn)的開源大模型,這些模型是使用創(chuàng)建 Gemini 模型時(shí)所使用的相同研究和技術(shù)構(gòu)建的。

近日,Google宣布了 Gemma 家族的首批新增成員,為機(jī)器學(xué)習(xí)開發(fā)者擴(kuò)展了創(chuàng)新責(zé)任的可能性:CodeGemma 用于代碼補(bǔ)全和生成任務(wù)以及指令跟隨,以及 RecurrentGemma,用于研究實(shí)驗(yàn)的效率優(yōu)化架構(gòu)。

新成員之CodeGemma

為開發(fā)者和企業(yè)提供的代碼補(bǔ)全、生成和聊天 利用 Gemma 模型的基礎(chǔ),CodeGemma 為社區(qū)帶來了強(qiáng)大而輕量級(jí)的編碼能力。CodeGemma 模型提供了幾個(gè)優(yōu)勢:

  • 智能代碼補(bǔ)全和生成:無論您是在本地工作還是利用云資源,都可以完成代碼行、函數(shù),甚至生成整個(gè)代碼塊。
  • 增強(qiáng)的準(zhǔn)確性:CodeGemma 模型在主要來自網(wǎng)絡(luò)文檔、數(shù)學(xué)和代碼的 5000 億標(biāo)記的英語語言數(shù)據(jù)上進(jìn)行訓(xùn)練,生成的代碼不僅在語法上更加正確,而且在語義上更有意義,有助于減少錯(cuò)誤和調(diào)試時(shí)間。
  • 多語言熟練:您寶貴的編碼助手,可用于 Python、JavaScript、Java 和其他流行的語言。
  • 流程優(yōu)化:將 CodeGemma 模型集成到您的開發(fā)環(huán)境中,減少樣板代碼編寫,并專注于更重要和不同的代碼——更快地完成工作。

Google開源大模型新成員CodeGemma、RecurrentGemma,繼Transformer后新架構(gòu)Griffin誕生 -AI.x社區(qū)

這張表比較了 CodeGemma 在單行和多行代碼補(bǔ)全任務(wù)上與其他類似模型的性能。在技術(shù)報(bào)告中了解更多信息。

新成員之RecurrentGemma

為研究人員提供高效、更快速的推斷,在更高的批次大小下 RecurrentGemma 是一個(gè)在技術(shù)上獨(dú)特的模型,利用循環(huán)神經(jīng)網(wǎng)絡(luò)和本地注意力來提高內(nèi)存效率。雖然 RecurrentGemma 達(dá)到了與 Gemma 2B 模型相似的基準(zhǔn)分?jǐn)?shù)性能,但其獨(dú)特的架構(gòu)帶來了幾個(gè)優(yōu)勢:

  • 降低的內(nèi)存使用:較低的內(nèi)存需求使得在內(nèi)存有限的設(shè)備上(如單個(gè) GPU 或 CPU)生成更長的樣本成為可能。
  • 更高的吞吐量:由于其較低的內(nèi)存使用,RecurrentGemma 可以以顯著更高的批次大小執(zhí)行推斷,從而每秒生成更多的標(biāo)記(特別是在生成長序列時(shí))。
  • 研究創(chuàng)新:RecurrentGemma 展示了一個(gè)非Transformer模型,實(shí)現(xiàn)了高性能,突顯了深度學(xué)習(xí)研究的進(jìn)步。

Google開源大模型新成員CodeGemma、RecurrentGemma,繼Transformer后新架構(gòu)Griffin誕生 -AI.x社區(qū)

這張圖展示了 RecurrentGemma 如何在序列長度增加時(shí)保持其采樣速度,而像 Gemma 這樣基于 Transformer 的模型則隨著序列變得更長而減慢。

RecurrentGemma基于新架構(gòu)Griffin

RecurrentGemma是基于一種全新 Griffin 架構(gòu)的模型,其性能優(yōu)于 Transformers。

在多個(gè)規(guī)模上,Griffin 在控制測試中的基準(zhǔn)得分均優(yōu)于 Transformers 基線,無論是在不同參數(shù)規(guī)模下的 MMLU 得分,還是在許多基準(zhǔn)測試中的平均得分。該架構(gòu)在推斷長文本時(shí)還提供了效率優(yōu)勢,具有更快的推斷速度和更低的內(nèi)存使用率。以下是 Huggingface 上發(fā)布了這個(gè)模型的 2B 版本的性能:

Google開源大模型新成員CodeGemma、RecurrentGemma,繼Transformer后新架構(gòu)Griffin誕生 -AI.x社區(qū)

參考:??https://developers.googleblog.com/2024/04/gemma-family-expands.html??

Griffin論文:??https://arxiv.org/abs/2402.19427??


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/9r_wRUMta1C-rvtxYjweyA??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-4-16 10:15:34修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦