英偉達、Hugging Face和ServiceNow發(fā)布用于代碼生成的新StarCoder2 LLM
這些模型目前有三種不同的大小,已經(jīng)在600多種編程語言(包括低資源語言)上進行了培訓(xùn),以幫助企業(yè)在其開發(fā)工作流中加速各種與代碼相關(guān)的任務(wù),它們是在開放的BigCode項目下開發(fā)的,該項目是ServiceNow和Huging Face聯(lián)合發(fā)起的,以確保負責(zé)任地開發(fā)和使用大型代碼語言模型,在開放負責(zé)任的AI許可證下,它們是免費提供的。
StarCoder2證明了開放的科學(xué)合作和負責(zé)任的AI實踐與道德數(shù)據(jù)供應(yīng)鏈的結(jié)合力量。ServiceNow的StarCoder2開發(fā)團隊負責(zé)人、BigCode的聯(lián)合負責(zé)人Harm de Vries在一份聲明中表示,最先進的開放訪問模式改進了以前的GenAI性能,以提高開發(fā)人員的生產(chǎn)力,并為開發(fā)人員提供平等的機會獲得代碼生成AI的好處,這反過來又使任何規(guī)模的企業(yè)能夠更容易地滿足其全部業(yè)務(wù)潛力。
StarCoder2:滿足三種不同需求的三種模型
雖然BigCode最初推出的StarCoder LLM只有15B參數(shù),并接受了大約80種編程語言的培訓(xùn),但最新一代產(chǎn)品超越了它,推出了三種不同大小的模型-3B、7B和15B - 并接受了619種編程語言的培訓(xùn)。根據(jù)BigCode的說法,被稱為Stack的新模型的訓(xùn)練數(shù)據(jù)比上次使用的數(shù)據(jù)大了七倍多。
更重要的是,BigCode社區(qū)使用了針對最新一代的新培訓(xùn)技術(shù),以確保模型能夠理解并生成低資源編程語言,如COBOL、數(shù)學(xué)和程序源代碼討論。
最小的30億參數(shù)模型是使用ServiceNow的Fast LLM框架進行訓(xùn)練的,而7B模型是使用Huging Face的Nantron框架開發(fā)的,兩者都旨在提供高性能的文本到代碼和文本到工作流生成,同時需要較少的計算。
同時,使用端到端的英偉達 Nemo云本地框架和英偉達 TensorRT-LLM軟件對最大的150億參數(shù)模型進行了訓(xùn)練和優(yōu)化。
雖然這些機型在不同編碼場景中的表現(xiàn)如何仍有待觀察,但兩家公司確實注意到,最小的3B模型的性能與最初的15B StarCoder LLM相當(dāng)。
根據(jù)他們的需求,企業(yè)團隊可以使用這些模型中的任何一個,并根據(jù)不同用例的企業(yè)數(shù)據(jù)對其進行進一步的微調(diào),這可以是任何特殊任務(wù),從應(yīng)用程序源代碼生成、工作流生成和文本摘要到代碼完成、高級代碼摘要和代碼片段檢索。
兩家公司強調(diào),這些模型經(jīng)過更廣泛和更深入的培訓(xùn),提供了存儲庫上下文,從而實現(xiàn)了準(zhǔn)確和上下文感知的預(yù)測。最終,所有這些都為加速開發(fā)鋪平了道路,同時節(jié)省了工程師和開發(fā)人員專注于更關(guān)鍵任務(wù)的時間。
英偉達應(yīng)用研究副總裁Jonathan Cohen在新聞聲明中表示:“由于每個軟件生態(tài)系統(tǒng)都有專有的編程語言,代碼LLM可以推動每個行業(yè)在效率和創(chuàng)新方面的突破。”
“英偉達與ServiceNow和Huging Face的合作引入了安全、負責(zé)任的開發(fā)模式,并支持更廣泛地接觸負責(zé)任的GenAI,我們希望這將使全球社會受益”,他補充道。
如何開始使用StarCoder2?
如前所述,StarCoder2系列中的所有模型都是在Open Rail-M許可證下提供的,可以免版稅訪問和使用。支持代碼可以在BigCode項目的GitHub庫中找到。作為另一種選擇,團隊也可以下載并使用擁抱臉的所有三個模型。
也就是說,由英偉達培訓(xùn)的15B模型也將出現(xiàn)在英偉達 AI Foundation上,使開發(fā)人員能夠直接從他們的瀏覽器或通過API端點進行試驗。
雖然StarCoder不是AI驅(qū)動的代碼生成領(lǐng)域的第一個進入者,但該項目的最新一代帶來的廣泛選擇肯定允許企業(yè)在應(yīng)用程序開發(fā)中利用LLMS,同時還可以節(jié)省計算。
該領(lǐng)域的其他知名參與者包括OpenAI和亞馬遜,前者提供Codex,為GitHub聯(lián)合試點服務(wù)提供支持,而后者提供CodeWhisper工具,還有來自Replit和Codenium的激烈競爭,Replit在Hugging Face上有幾個小型AI編碼模型,Codenium最近以5億美元的估值獲得了6500萬美元的B輪融資。