自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56% 原創(chuàng)

發(fā)布于 2024-10-28 11:21
瀏覽
0收藏

01 概述

在人工智能的世界里,大型語言模型(LLMs)的飛速發(fā)展無疑為各行各業(yè)帶來了翻天覆地的變化。然而,這些模型的龐大身軀和對計算資源的渴求也給實際應用帶來了不小的挑戰(zhàn)。高昂的能源成本、漫長的訓練周期以及對昂貴硬件的需求,都成了阻礙許多組織和研究者利用AI能力的門檻。這些挑戰(zhàn)不僅對環(huán)境造成了影響,也在科技巨頭與小型實體之間劃出了一道鴻溝。

02 Meta AI的量化Llama 3.2模型(1B和3B)

最近,Meta AI發(fā)布了量化版本的Llama 3.2模型(1B和3B),這是將尖端AI技術普及給更廣泛用戶群體的重要一步。這些模型是首批輕量級的量化Llama模型,它們的體積小到足以在許多流行的移動設備上運行。研究團隊采用了兩種不同的技術來量化這些模型:一種是以準確性為優(yōu)先的量化感知訓練(QAT)與LoRA適配器,另一種是專注于便攜性的先進后訓練量化方法SpinQuant。這兩個版本都可以在這次發(fā)布中下載。這些模型代表了原始Llama 3系列的量化版本,旨在優(yōu)化計算效率,并顯著減少運行它們的硬件足跡。通過這樣做,Meta AI旨在在減少部署所需的計算資源的同時,增強大型模型的性能。這使得研究人員和企業(yè)能夠在不需要專門的、昂貴的基礎設施的情況下利用強大的AI模型,從而實現(xiàn)尖端AI技術的民主化。

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

Meta AI之所以能夠提供這些量化模型,得益于其對廣泛的計算資源、訓練數(shù)據(jù)、全面評估以及對安全的重視。這些模型在保持與原始Llama 3模型相同的質量和安全要求的同時,實現(xiàn)了顯著的2-4倍速度提升。與原始的BF16格式相比,它們還實現(xiàn)了平均56%的模型大小減少和41%的平均內存使用減少。這些令人印象深刻的優(yōu)化是Meta在保持高性能和安全標準的同時,使先進AI更加易于獲取的努力的一部分。

03 技術細節(jié)和優(yōu)勢

量化Llama 3.2的核心是基于量化技術,該技術將模型的權重和激活的精度從32位浮點數(shù)降低到更低位的表示。具體來說,Meta AI采用了8位甚至4位的量化策略,這使得模型能夠在顯著減少內存和計算能力的情況下有效運行。這種量化方法保留了Llama 3的關鍵特性和能力,如執(zhí)行高級自然語言處理(NLP)任務的能力,同時使模型更加輕量化。好處是顯而易見的:量化Llama 3.2可以在不那么強大的硬件上運行,例如消費級GPU甚至CPU,而不會顯著損失性能。這也使得這些模型更適合實時應用,因為較低的計算需求導致更快的推理時間。

兩種量化技術的推理都支持在Llama Stack參考實現(xiàn)中通過PyTorch的ExecuTorch框架進行。此外,Meta AI還與行業(yè)領先的合作伙伴合作,使這些模型可以在配備Arm CPU的高通和聯(lián)發(fā)科系統(tǒng)級芯片(SoC)上高效部署。這種合作確保了模型可以在包括流行移動平臺在內的廣泛設備上部署,進一步擴大了Llama 3.2的覆蓋范圍和影響力。

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

04 重要性和早期結果

量化Llama 3.2之所以重要,是因為它直接解決了與LLMs相關的可擴展性問題。通過在保持高性能的同時減少模型大小,Meta AI使這些模型更適合邊緣計算環(huán)境,其中計算資源是有限的。早期的基準測試結果表明,量化Llama 3.2在關鍵NLP基準測試中的性能大約是完整Llama 3模型的95%,但內存使用減少了近60%。這種效率對于希望在不投資高端基礎設施的情況下實施AI的企業(yè)和研究人員至關重要。此外,能夠在普通硬件上部署這些模型也符合當前可持續(xù)AI的趨勢,減少了訓練和部署LLMs的環(huán)境影響。

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

05 結語

Meta AI發(fā)布量化Llama 3.2標志著高效AI模型發(fā)展的重要一步。通過專注于量化,Meta提供了一個平衡性能與可訪問性的解決方案,使更廣泛的受眾能夠從高級NLP能力中受益。這些量化模型解決了采用LLMs的關鍵障礙,如成本、能源消耗和基礎設施要求。這項技術的更廣泛影響可能導致對AI的更公平獲取,促進了以前對小型企業(yè)和研究人員來說遙不可及的領域的創(chuàng)新。Meta AI推動高效AI建模的界限的努力突顯了對可持續(xù)、包容性AI發(fā)展的日益重視——這一趨勢肯定會塑造AI研究和應用的未來。

參考:

  1. ??https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/??
  2. ??https://www.llama.com/??

?

本文轉載自公眾號Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/ccIxhzciFXRFAV3O5RzrwA???


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦