Meta正式發(fā)布Llama-3.1,超大杯405B!千呼萬喚始出來!
Meta的Llama-3.1再經(jīng)歷過泄露、再泄露事件,醞釀了幾天,終于在2024.7.23最后十幾分鐘發(fā)布了,包括8B、70B、405B三個尺寸:
Llama-3.1系列模型特點
- Llama 3.1 是一個自回歸語言模型,使用優(yōu)化的變換器架構(gòu)。調(diào)整版本使用監(jiān)督式微調(diào)(SFT)和基于人類反饋的強化學習(RLHF)以符合人類對有用性和安全性的偏好。
- 提供 8B、70B 和 405B 三種大小的模型。
- 預(yù)訓(xùn)練數(shù)據(jù)來自公開可用的在線數(shù)據(jù),微調(diào)數(shù)據(jù)包括公開可用的指令數(shù)據(jù)集以及超過 2500 萬個合成生成的示例。
- 支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。
- 支持多語言文本輸入和輸出,以及代碼。
- 上下文長度為 128k。
- 知識截止日期為 2023 年 12 月。
Llama-3.1-405B模型效果評測,整體效果是超過GPT-4與GPT-4 Omni,效果媲美Claude 3.5 Sonnet。
Llama-3.1垂直場景的效果展示:推理、編碼、數(shù)學、工具使用(Tool Use)。
此次發(fā)布,大家最關(guān)系當屬405B,這是此前Llama-3中未發(fā)布的尺寸,那么這么大參數(shù)模型,需要多大的機器能run起來尼?
- FP16大概需要8*H200 GPUs(1053G)
- FP8大概需要8*H100 GPUs (526G)
- FP4大概需要263G
下載地址:https://hf-mirror.com/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
本文轉(zhuǎn)載自 ??PaperAgent?? ,作者: PaperAgent
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報

回復(fù)
相關(guān)推薦