性能超Llama 3,可商用!開源大模型Falcon 2
阿聯(lián)酋-阿布扎比技術創(chuàng)新研究所(TII)在官網(wǎng)宣布,開源全新大模型Falcon 2。
Falcon 2有110億參數(shù)共有兩個版本,一個是高效、易于部署的基礎模型,使用了5.5萬億tokens數(shù)據(jù)進行預訓練,可以生成文本、代碼、總結內(nèi)容等。
另外一個是帶有視覺轉換功能的VLM模型,可以將圖片的信息轉換成文本數(shù)據(jù),也是極少數(shù)支持視覺轉換的開源大模型。
開源地址:https://huggingface.co/tiiuae/falcon-11B
TII表示,在多個維權測試排行榜中顯示,F(xiàn)alcon 2 11B的性能超越了Meta新推出的Llama 3 8B,并與Google的Gemma 7B并列第一(Falcon 2 11B:64.28 對比 Gemma 7B:64.29)。
多語言能力方面,F(xiàn)alcon 2 11B能輕松處理英語、法語、西班牙語、德語、葡萄牙語等多種語言的任務,增強了其多樣性和跨場景的有效性。
而Falcon 2 11B VLM作為視覺大模型,能夠識別和解讀環(huán)境中的圖像和視覺內(nèi)容,在醫(yī)療保健、金融、電商、教育和法律等行業(yè)有廣泛的應用潛力,包括文檔管理、數(shù)字存檔、情境索引以及支持視障人士等。
訓練數(shù)據(jù)方面,F(xiàn)alcon 2 11B在其構建的開源數(shù)據(jù)集RefinedWeb,使用了超過5.5萬億的Tokens數(shù)據(jù)進行了預訓練。
RefinedWeb是一個高質量、經(jīng)過過濾和去重的網(wǎng)絡數(shù)據(jù)集,TII通過精選語料對其進行了增強,并使用了四階段的訓練策略。
前三個階段專注于增加上下文長度,從2048個tokens增加到4096個,最后增加到8192個tokens。最后一個階段的目標是僅使用高質量數(shù)據(jù)進一步提高性能。
Falcon 2在 1024個A100 40GB GPU上訓練了大約2個月的時間。
值得一提的是Falcon 2是一款性能強,消耗低的大模型僅需一個GPU即可高效運行,使其高度可擴展,易于部署并集成到筆記本電腦等輕量級設備中。非常適用于中小企業(yè)和個人開發(fā)者,并且允許進行商業(yè)化使用。
TII人工智能跨中心部門執(zhí)行主任及代理首席研究員Dr. Hakim Hacid表示,隨著生成式AI的技術演進,開發(fā)者認識到小型帶來的諸多優(yōu)勢。
除了減少計算資源需求并滿足可持續(xù)性標準外,這些模型還提供了增強的靈活性,能無縫融入邊緣AI基礎設施這一新興大趨勢中。我們開源的Falcon 2便是一款消耗低且性能強的模型,并且融合了領先的視覺解讀能力。
早在2023年5月25日,TII首次開源了Falcon-40B大模型,曾在huggingface的開源大語言模型排行榜中位列第一名,擊敗了LLaMa 65b、GPT4-X-Alpasta-30b、StableLM、RedPajama、LLaMa 30b等一系列著名開源模型成為一匹黑馬。
Falcon-40B在1萬億tokens數(shù)據(jù)集上進行訓練,可用于文本問答、總結摘要、自動生成代碼、語言翻譯等,支持特定業(yè)務場景微調。在斯坦福大學的HELM LLM基準測試中,F(xiàn)alcon-40B比GPT-3、 Chinchilla AI、PaLM-62B等知名大語言模型的算力消耗低更低,性能卻更出色。
本文轉自 AIGC開放社區(qū) ,作者: AIGC開放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/-pq65e_6lRZFoGlIeRnk9w??
