自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

碾壓LLaMA，「獵鷹」徹底開源！400億參數(shù)，萬億token訓練，霸榜Hugging Face

作者：新智元 2023-06-02 13:55:57

人工智能新聞

來自阿聯(lián)酋的免費商用開源大模型登頂Hagging Face排行榜，AI大模型創(chuàng)業(yè)者的春天就這樣到來了。

大模型時代，什么最重要？

LeCun曾經(jīng)給出的答案是：開源。

當Meta的LLaMA的代碼在GitHub上被泄露時，全球的開發(fā)者們都可以訪問這個第一個達到GPT水平的LLM。

接下來，各種各樣的LLM給AI模型開源賦予了各種各樣的角度。

LLaMA給斯坦福的Alpac和Vicuna等模型鋪設了道路，搭好了舞臺，讓他們成為了開源的領頭羊。

而就在此時，獵鷹「Falcon」又殺出了重圍。

Falcon 獵鷹

「Falcon」由阿聯(lián)酋阿布扎比的技術創(chuàng)新研究所（TII）開發(fā)，從性能上看，F(xiàn)alcon比LLaMA的表現(xiàn)更好。

目前，「Falcon」有三個版本——1B、7B和40B。

TII表示，F(xiàn)alcon迄今為止最強大的開源語言模型。其最大的版本，F(xiàn)alcon 40B，擁有400億參數(shù)，相對于擁有650億參數(shù)的LLaMA來說，規(guī)模上還是小了一點。

規(guī)模雖小，性能能打。

先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為，「Falcon」的發(fā)布將打破LLM的獲取方式，并讓研究人員和創(chuàng)業(yè)者能夠以此提出最具創(chuàng)新性的使用案例。

FalconLM的兩個版本，F(xiàn)alcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名，而Meta的LLaMA位于第三。

值得一提的是，Hugging Face是通過四個當前比較流形的基準——AI2 Reasoning Challenge，HellaSwag，MMLU和TruthfulQA對這些模型進行評估的。

盡管「Falcon」的論文目前還沒公開發(fā)布，但Falcon 40B已經(jīng)在經(jīng)過精心篩選的1萬億token網(wǎng)絡數(shù)據(jù)集的上進行了大量訓練。

研究人員透露，「Falcon」在訓練過程非常重視在大規(guī)模數(shù)據(jù)上實現(xiàn)高性能的重要性。

我們都知道的是，LLM對訓練數(shù)據(jù)的質(zhì)量非常敏感，這就是為什么研究人員會花大量的精力構(gòu)建一個能夠在數(shù)萬個CPU核心上進行高效處理的數(shù)據(jù)管道。

目的就是，在過濾和去重的基礎上從網(wǎng)絡中提取高質(zhì)量的內(nèi)容。

目前，TII已經(jīng)發(fā)布了精煉的網(wǎng)絡數(shù)據(jù)集，這是一個經(jīng)過精心過濾和去重的數(shù)據(jù)集。實踐證明，非常有效。

僅用這個數(shù)據(jù)集訓練的模型可以和其它LLM打個平手，甚至在性能上超過他們。這展示出了「Falcon」卓越的質(zhì)量和影響力。

此外，F(xiàn)alcon模型也具有多語言的能力。

它理解英語、德語、西班牙語和法語，并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型發(fā)布后，第二個真正開源的模型。然而，由于H2O.ai并未在此排行榜上與其他模型進行基準對比，所以這兩個模型還沒上過擂臺。

而回過頭看LLaMA，盡管它的代碼在GitHub上可以獲取，但它的權(quán)重（weights）從未開源。

這意味著該模型的商業(yè)使用受到了一定程度的限制。

而且，LLaMA的所有版本都依賴于原始的LLaMA許可證，這就使得LLaMA不適合小規(guī)模的商業(yè)應用。

在這一點上，「Falcon」又拔得了頭籌。

唯一免費的商用大模型！

Falcon是目前唯一的可以免費商用的開源模型。

在早期，TII要求，商業(yè)用途使用Falcon，如果產(chǎn)生了超過100萬美元以上的可歸因收入，將會收取10%的「使用稅」。

可是財大氣粗的中東土豪們沒過多長時間就取消了這個限制。

至少到目前為止，所有對Falcon的商業(yè)化使用和微調(diào)都不會收取任何費用。

土豪們表示，現(xiàn)在暫時不需要通過這個模型掙錢。

而且，TII還在全球征集商用化方案。

對于有潛力的科研和商業(yè)化方案，他們還會提供更多的「訓練算力支持」，或者提供進一步的商業(yè)化機會。

項目提交郵箱：Submissions.falconllm@tii.ae

這簡直就是在說：只要項目好，模型免費用！算力管夠！錢不夠我們還能給你湊！

對于初創(chuàng)企業(yè)來說，這簡直就是來自中東土豪的「AI大模型創(chuàng)業(yè)一站式解決方案」。

高質(zhì)量的訓練數(shù)據(jù)

根據(jù)開發(fā)團隊稱，F(xiàn)alconLM 競爭優(yōu)勢的一個重要方面是訓練數(shù)據(jù)的選擇。

研究團隊開發(fā)了一個從公共爬網(wǎng)數(shù)據(jù)集中提取高質(zhì)量數(shù)據(jù)并刪除重復數(shù)據(jù)的流程。

在徹底清理多余重復內(nèi)容后，保留了 5 萬億的token——足以訓練強大的語言模型。

40B的Falcon LM使用1萬億個token進行訓練， 7B版本的模型訓練token達到 1.5 萬億。

（研究團隊的目標是使用RefinedWeb數(shù)據(jù)集從Common Crawl中僅過濾出質(zhì)量最高的原始數(shù)據(jù)）

更加可控的訓練成本

TII稱，與GPT-3相比，F(xiàn)alcon在只使用75%的訓練計算預算的情況下，就實現(xiàn)了顯著的性能提升。

而且在推斷（Inference）時只需要只需要20%的計算時間。

Falcon的訓練成本，只相當于Chinchilla的40%和PaLM-62B的80% 。

成功實現(xiàn)了計算資源的高效利用。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="nutj3"><track id="nutj3"></track></legend>