自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了! 原創(chuàng)

發(fā)布于 2024-9-26 14:07
瀏覽
0收藏

起猛了!小扎又又又帶著他的開源大模型走來了!

Meta Connect 上,擁有視覺能力的 Llama 3.2推出!這是該大模型家族首個開源的多模態(tài)模型。

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)圖片

Llama 3.2 包括小型和中型模型(參數(shù)為 11B 億和 90B 億),以及更輕量化的僅文本模型(參數(shù)為 1B和 3B),扎克伯格稱其為“能運(yùn)行在設(shè)備上的最佳模型”,并透露未來將在眼鏡設(shè)備上使用。

與其前身一樣,Llama 3.2 的 1B 和 3B 模型支持 128K 的上下文長度,在端側(cè)模型中可謂遙遙領(lǐng)先。根據(jù)Meta透露,這些模型在發(fā)布當(dāng)天就已支持高通(Qualcomm)和聯(lián)發(fā)科(MediaTek)硬件,并針對 Arm 處理器進(jìn)行了優(yōu)化。

Meta 還首次分享了官方的 Llama stack 發(fā)行版本,以便開發(fā)者可以在各種環(huán)境中使用這些模型,包括本地、設(shè)備端、云端和單節(jié)點(diǎn)。

Llama 3.2 模型可以在 llama.com 和 Hugging Face 上以及 Meta 的合作平臺上下載。還能通過智能助手Meta AI,試用模型的多模態(tài)能力。

Hugging Face 地址:

??https://huggingface.co/meta-llama??

最后扎克伯格再次秀了一把開源情懷,他提到,閉源模型們試圖降低價格以保持與Llama的競爭優(yōu)勢。然而,“開源已經(jīng)是、并將繼續(xù)是最具成本效益、可定制、可信且高性能的選擇。我們已經(jīng)到達(dá)了行業(yè)的一個拐點(diǎn),它開始成為行業(yè)標(biāo)準(zhǔn),可以稱其為 AI 領(lǐng)域的 Linux?!?/p>

1.媲美GPT4o-mini,開源視覺模型火力十足

Meta 在兩個月前發(fā)布了 Llama 3.1,至今該模型已實(shí)現(xiàn) 10 倍的增長。

扎克伯格表示:“Llama 繼續(xù)快速進(jìn)步,它正在實(shí)現(xiàn)越來越多的功能?!?/p>

現(xiàn)在,最大的兩個 Llama 3.2 模型(110 億和 900 億參數(shù))有了視覺能力,能夠理解圖表和圖形、為圖像生成標(biāo)題以及識別周圍的環(huán)境。例如,用戶可以詢問他們的公司在哪個月取得了最佳銷售成績,模型將基于現(xiàn)有的圖表推理出答案。

根據(jù)Meta的評估,Llama 3.2 視覺模型在圖像識別和一系列視覺理解任務(wù)上與領(lǐng)先的基礎(chǔ)模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)圖片

AI大神 Jim Fan 帶來了一手的新鮮實(shí)測,“我剛剛調(diào)出了 Llama-3.2-11B (vision) 的視覺語言基準(zhǔn)測試數(shù)據(jù)。令人驚訝的是,整個開源社區(qū)在輕量級模型方面并不落后!”

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)圖片

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)圖片

Llama 3.2的超強(qiáng)能力也讓許多大神自覺“手癢”。已經(jīng)有人連夜搓了基于其視覺能力的開源工具出來,效果驚艷,草圖也能秒變APP。

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)圖片

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)


2.Llama 3.2:視覺模型背后的技術(shù)細(xì)節(jié)

作為首批支持視覺任務(wù)的 Llama 模型,11B 和 90B 模型采用了全新的模型架構(gòu),以支持圖像推理任務(wù)。

Meta技術(shù)報告中提到,為了支持圖像輸入,他們訓(xùn)練了一組適配器權(quán)重,將預(yù)訓(xùn)練的圖像編碼器與預(yù)訓(xùn)練的語言模型集成。

該適配器由一系列交叉注意力層組成,將圖像編碼器的表示傳遞給語言模型。在適配器訓(xùn)練過程中,我們在圖文配對數(shù)據(jù)上訓(xùn)練,以對齊圖像表示和語言表示。適配器訓(xùn)練期間,我們更新了圖像編碼器的參數(shù),但故意不更新語言模型的參數(shù),這樣可以保留語言模型的文本處理能力,方便開發(fā)者將其作為 Llama 3.1 模型的替代品。

Llama 3.2的訓(xùn)練流程包括多個階段,從預(yù)訓(xùn)練的 Llama 3.1 文本模型開始。首先,Llama添加了圖像適配器和編碼器,然后在大規(guī)模噪聲圖文配對數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。接著在中等規(guī)模、高質(zhì)量的領(lǐng)域內(nèi)及知識增強(qiáng)的圖文配對數(shù)據(jù)上進(jìn)行訓(xùn)練。

在后續(xù)訓(xùn)練中,Llama團(tuán)隊(duì)采用了與文本模型類似的方式,進(jìn)行多輪對齊,包括監(jiān)督微調(diào)、拒絕采樣和直接偏好優(yōu)化。

使用 Llama 3.1 模型對領(lǐng)域內(nèi)的圖像生成和擴(kuò)展問答,并利用獎勵模型對所有候選答案進(jìn)行排序,以提供高質(zhì)量的微調(diào)數(shù)據(jù)。此外,Llama 3.2還加入了安全防護(hù)數(shù)據(jù),確保模型在安全性高的同時保持有用性。

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)

3.小扎:Meta AI 將成為全球第一的智能助手

Llama 3.2 的橫空出世,使得 Meta AI 擁有了“聲音”。

該模型將在 WhatsApp、Messenger、Facebook 和 Instagram 上以明星語音響應(yīng)語音或文本命令。Meta AI 還可以對聊天中分享的照片做出回復(fù),并添加、刪除或更改圖像以及添加新的背景。Meta 表示,它還在嘗試為 Meta AI 開發(fā)新的翻譯、視頻配音和唇同步工具。

小扎深夜炸場!Meta首個開源多模態(tài)模型Llama 3.2橫空出世,能力不輸GPT4o-mini;小扎:開源的拐點(diǎn)來了!-AI.x社區(qū)圖片

扎克伯格在演講中表示:“我認(rèn)為語音將比文本更自然地與 AI 進(jìn)行交互,它確實(shí)要好得多?!?/p>

扎克伯格開源的底氣,就在于他們的商業(yè)模式并不依靠獲得模型訪問權(quán)而營利,但是他已經(jīng)將應(yīng)用視為 Meta 的護(hù)城河。

現(xiàn)在,Meta AI 月活躍用戶接近5億,日活用戶也以突破4000萬大關(guān)。

扎克伯格吹噓說,Meta AI 正在成為全球使用最廣泛的助手——“可能已經(jīng)做到了?!?/p>

參考鏈接:https://venturebeat.com/ai/meta-llama-3-2-vision-models-to-rival-anthropic-openai/

本文轉(zhuǎn)載自??51CTO技術(shù)棧??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦