自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟戰(zhàn)略大轉(zhuǎn)變:擁抱小模型!

原創(chuàng) 精選
人工智能
“開源僅用于研究目的”這話是不是很熟悉,讓人想起早期的Llama版本。今年2月,Meta在非商業(yè)許可下與研究界分享了Llama的模型權(quán)重。然而,它后來(lái)在4Chan上以可接近的重量出現(xiàn),無(wú)意中使其可用于商業(yè)用途。

撰稿 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

微軟的生成式AI戰(zhàn)略似乎出現(xiàn)了180度大轉(zhuǎn)變:相比大模型,小模型才是微軟的真愛。

在Ignite 2023上,微軟董事長(zhǎng)兼首席執(zhí)行官Nadella在主題演講中表示:“微軟喜歡小模型(SLM)”,并宣布了名為Phi-2的Phi小型語(yǔ)言模型(SLM)系列的最新迭代。

Nadella表示,這款由微軟研究部在高度專業(yè)化的數(shù)據(jù)集上開發(fā)的Phi-2,可以與150倍大的模型相媲美。

重要的是,許多企業(yè)伙伴也認(rèn)為如此,他們認(rèn)為與大型語(yǔ)言模型(LLM)相比,較小的模型對(duì)企業(yè)更有用。

1、微軟推出小模型,由來(lái)已久

今年早些時(shí)候,除了發(fā)布Phi和Phi 1.5,微軟還發(fā)布了Ocra,這是一個(gè)基于Vicuna的130億參數(shù)的開源模型,可以模仿和學(xué)習(xí)GPT-4大小的LLM。 

今年,6 月,微軟發(fā)布了一篇題為《Textbooks Are All You Need》的論文,用規(guī)模僅為 7B token 的「教科書質(zhì)量」數(shù)據(jù)訓(xùn)練了一個(gè) 1.3B 參數(shù)的模型 ——Phi-1。盡管在數(shù)據(jù)集和模型大小方面比競(jìng)品模型小幾個(gè)數(shù)量級(jí),但 phi-1 在 HumanEval 的 pass@1 上達(dá)到了 50.6% 的準(zhǔn)確率,在 MBPP 上達(dá)到了 55.5%。

Phi-1 證明高質(zhì)量的「小數(shù)據(jù)」能夠讓模型具備良好的性能。9月,微軟又發(fā)表了論文《Textbooks Are All You Need II: phi-1.5 technical report》,對(duì)高質(zhì)量「小數(shù)據(jù)」的潛力做了進(jìn)一步研究。Phi-1.5 的架構(gòu)與 phi-1 完全相同,有 24 層,上下文長(zhǎng)度為 2048,實(shí)驗(yàn)結(jié)果顯示,對(duì)于語(yǔ)言理解任務(wù),在多個(gè)數(shù)據(jù)集(包括 PIQA、Hellaswag、OpenbookQA、SQUAD 和 MMLU)上,Phi-1.5 的性能可以媲美 5 倍大的模型,甚至在在更復(fù)雜的推理任務(wù)(例如小學(xué)數(shù)學(xué)和基礎(chǔ)編碼任務(wù))上 Phi-1.5 還超越了大多數(shù) LLM,以至于人們開始質(zhì)疑該模型是不是用了測(cè)試集來(lái)訓(xùn)練。

圖片圖片

據(jù)微軟官網(wǎng)介紹,Phi-2是一款具有27億參數(shù)的Transformer,與Phi-1-5相比,它在推理能力和安全措施方面有了顯著改進(jìn),與常識(shí)、語(yǔ)言理解和邏輯推理等基準(zhǔn)測(cè)試參數(shù)相比,表現(xiàn)出了最先進(jìn)的性能。

與行業(yè)中的其他Transformer相比,它體積更輕更小。通過(guò)正確的微調(diào)和定制,這些小模型對(duì)于云和邊緣應(yīng)用程序來(lái)說(shuō)都是非常強(qiáng)大的工具。 

2、小模型正在興起

在過(guò)去一年左右的時(shí)間里,大模型吸引了全球的注意力,從GPT3.5、GPT-4、PaLM-2到Falcon和LLaMA等開源模型。然而,種種跡象表明,小模型如今越來(lái)越受到重視。

首先,當(dāng)Meta發(fā)布LLaMA時(shí),它有四種變體——70億、130億、330億和650億,至少在某種意義上預(yù)示著小模型的發(fā)展。它促使人們認(rèn)識(shí)到,參數(shù)較少的小型模型可以表現(xiàn)得令人欽佩。

如今微軟公開表示“喜歡”小模型,更是佐證了這一趨勢(shì)。

考慮到LLM的訓(xùn)練成本高昂,這是采用LLM的主要障礙之一。與GPT-3.5和GPT-4相比,較小的型號(hào)顯著節(jié)省了成本。LLaMA 2有三種變體——70億、130億和700億——生成段落摘要的費(fèi)用大約是GPT-4的30倍,同時(shí)保持了同等的準(zhǔn)確性。較小的模型不僅具有成本效益,而且在準(zhǔn)確性方面也很出色。與在龐大多樣的數(shù)據(jù)集上訓(xùn)練的大型模型不同,小型模型專注于根據(jù)特定業(yè)務(wù)用例量身定制的經(jīng)過(guò)仔細(xì)審查的數(shù)據(jù),以確保準(zhǔn)確性和相關(guān)性。

圖片圖片

Llama 2 在許多外部基準(zhǔn)測(cè)試上都優(yōu)于其他開源語(yǔ)言模型,包括推理、編碼、熟練程度和知識(shí)測(cè)試。

HuggingFace首席執(zhí)行官Clem Delangue預(yù)測(cè):“大多數(shù)公司都會(huì)意識(shí)到,更小、更便宜、更專業(yè)的模型對(duì)99%的人工智能用例更有意義?!監(jiān)penAI的首席執(zhí)行官Sam Altman也表達(dá)了這種觀點(diǎn)。

在麻省理工學(xué)院的一次討論中,Altman設(shè)想了一個(gè)參數(shù)數(shù)量減少的未來(lái),一組較小的模型優(yōu)于較大的模型。微軟在開發(fā)小型機(jī)型方面的努力強(qiáng)調(diào)了他們對(duì)小模型未來(lái)將為企業(yè)帶來(lái)重大利益的信念。 

3、企業(yè)更喜歡小模型

對(duì)于B端市場(chǎng)而言,之前在《企業(yè)版ChatGPT,基本涼了!》一文中就提到了,大模型很難解決的問(wèn)題:如何保護(hù)企業(yè)的私有數(shù)據(jù)不被泄露和利用,讓企業(yè)的核心數(shù)據(jù)資產(chǎn)暴露給通用大模型基本上是不可能的。

這有就意味著基于公有云的大模型很難在短時(shí)間內(nèi)取得企業(yè)的信任。即便大家一致認(rèn)為,生成式AI在提升決策、創(chuàng)新和運(yùn)營(yíng)效率方面起著越來(lái)越重要的作用,但如果存在著把數(shù)字命脈交出去的可能性,顯然也是不妥的。

比如,最近大火的大模型開源調(diào)度框架、估值超過(guò)2億美元Langchain機(jī)制,就展示了這種威脅。在Langchain機(jī)制的第3、4步中,其先將問(wèn)題和相關(guān)本地?cái)?shù)據(jù)資產(chǎn)打包形成Prompt,然后再將Prompt通過(guò)API傳給遠(yuǎn)程的大模型以獲取答案。在傳輸?shù)倪^(guò)程中和上傳的大模型后,企業(yè)的數(shù)據(jù)資產(chǎn)都存在泄露的可能性。

圖片圖片

這樣看來(lái),出于數(shù)據(jù)安全和隱私的考慮,一個(gè)本地化的大模型方案似乎是必然的。但是,企業(yè)客戶能否負(fù)擔(dān)得起私有的通用大模型?高昂的成本和算力的封禁政策,都是不太可能短期解決的。

所以小模型似乎成了一種更實(shí)用的企業(yè)版方案,小模型的定制成本或許依然不菲,但對(duì)于取得獲得收益而言,是可負(fù)擔(dān)的。

4、微調(diào)模型的完美之選,也許在挑戰(zhàn)Llama

在Ignite 2023期間,Nadella還推出了“模型即服務(wù)(MaaS)”產(chǎn)品,為企業(yè)提供了在Hugging Face等平臺(tái)上訪問(wèn)各種開源模型的機(jī)會(huì),包括Mistral和Llama 2的模型。

圖片圖片

此外,Azure AI目錄中的企業(yè)也可以使用Phi-2,它也可以被視為L(zhǎng)LaMA系列模型的競(jìng)爭(zhēng)者。今年早些時(shí)候,微軟已經(jīng)聲稱,擁有13億參數(shù)的Phi-1.5在幾個(gè)基準(zhǔn)上優(yōu)于LlaMA 2的70億參數(shù)模型。

當(dāng)Llama向公眾發(fā)布時(shí),它既沒(méi)有人的反饋強(qiáng)化學(xué)習(xí)(RLHF),也沒(méi)有指導(dǎo)或?qū)υ捳{(diào)整。然而,它的開源性質(zhì)在社區(qū)內(nèi)引發(fā)了高度熱情,導(dǎo)致了一系列變體,包括指令調(diào)整、人工評(píng)估、多模態(tài)、RLHF等。它使Llama成為最受歡迎的型號(hào)之一?,F(xiàn)在,微軟可以用Phi-2來(lái)復(fù)制或超越Llama的成功。

微軟研究院ML基金會(huì)團(tuán)隊(duì)負(fù)責(zé)人Sebastien Bubeck表示,Phi-2是需要微調(diào)的完美模型。希望利用生成人工智能模型的小企業(yè)或初創(chuàng)公司可能會(huì)發(fā)現(xiàn)這是有益的。

Predelo數(shù)據(jù)科學(xué)副總裁Mark Tenenholtz表示:“我相信,有很多小型人工智能產(chǎn)品使用了像Llama這樣的非商業(yè)LLM。Phi-2將取代所有這些。”

5、有限的“開源”

在主題演講中,Nadella演講中表示:“Phi-2是開源的,很快就會(huì)出現(xiàn)在微軟的服務(wù)模式目錄中?!比欢焖贋g覽許可證就會(huì)發(fā)現(xiàn),該模型目前僅用于研究目的。許多X(以前的Twitter)用戶也指出了同樣的觀點(diǎn)。

圖片圖片

“開源僅用于研究目的”這話是不是很熟悉,讓人想起早期的Llama版本。今年2月,Meta在非商業(yè)許可下與研究界分享了Llama的模型權(quán)重。然而,它后來(lái)在4Chan上以可接近的重量出現(xiàn),無(wú)意中使其可用于商業(yè)用途。

如果微軟希望用Phi-2復(fù)制Llama的成功,它需要使該模型可用于商業(yè)用途。此外,隨著時(shí)間的推移,“開源”的這個(gè)詞也面臨新的審視。盡管像LLaMA這樣的模型被吹捧為開源,但一些人認(rèn)為它們并不真正符合開源的定義,因?yàn)镸eta沒(méi)有披露他們訓(xùn)練中使用的數(shù)據(jù)集。

所以,這也許正是小模型在商業(yè)化前,一場(chǎng)“沖鋒”的號(hào)角。

參考鏈接:

https://analyticsindiamag.com/decoding-microsofts-open-source-play-what-theyre-really-after/

https://analyticsindiamag.com/microsofts-strategic-shift-embracing-smaller-language-models-with-phi-2/

https://mp.weixin.qq.com/s/6wS4Pv9adQDlcGtczVL2-Q

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2012-05-28 08:58:48

Windows 8Windows Liv

2022-09-15 15:24:19

人工智能機(jī)器學(xué)習(xí)

2010-11-02 14:39:16

2016-10-17 09:03:18

AI人工智能物聯(lián)網(wǎng)

2018-09-27 10:43:11

谷歌搜索 科技

2023-07-26 10:56:00

人工智能邊緣人工智能

2021-06-09 15:00:07

首席執(zhí)行官Gartner

2023-03-24 16:36:22

2023-10-23 08:18:26

AI人工智能

2016-10-25 20:45:09

2021-05-26 16:18:01

5G5G網(wǎng)絡(luò)5G+

2021-05-10 14:30:18

智慧城市物聯(lián)網(wǎng)

2012-02-01 08:56:32

2015-04-13 09:21:00

JavaScript企業(yè)環(huán)境中巨大變革

2022-09-01 23:34:18

大數(shù)據(jù)數(shù)據(jù)分析工具

2014-04-03 15:51:01

Build2014微軟

2017-04-20 09:32:55

思科互聯(lián)網(wǎng)

2024-03-05 10:02:51

數(shù)據(jù)中心

2012-01-11 11:32:26

移動(dòng)性IT行業(yè)

2023-06-25 17:02:55

5G
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)