Hugging?Face是LLM新的GitHub
譯文譯者 | 李睿
審校 | 重樓
近年來,大型語言模型(LLM)席卷了科技行業(yè),開辟了創(chuàng)新的新領(lǐng)域,顛覆了從搜索到客戶服務(wù)的一切。支持這場(chǎng)人工智能革命的是GitHub和Hugging Face這樣的開放生態(tài)系統(tǒng),它使開發(fā)人員和企業(yè)能夠快速構(gòu)建、部署和擴(kuò)展LLM。就像GitHub已經(jīng)成為軟件開發(fā)和協(xié)作的首選平臺(tái)一樣,Hugging Face現(xiàn)在正在成為所有與LLM相關(guān)事物的事實(shí)上的中心。
大型語言模型的興起
像GPT-3、BERT和PaLM這樣的LLM可以讓科技界發(fā)揮自己的想象力,它們能夠生成類似人類的文本、回答問題、總結(jié)文檔,甚至根據(jù)簡單的文本提示編寫代碼。根據(jù)麥肯錫公司發(fā)布的一份研究報(bào)告,專注于LLM的自然語言處理初創(chuàng)公司的投資從2020年的1億美元激增至2021年的15億美元以上。
這種興趣激增源于LLM在應(yīng)對(duì)各種人工智能挑戰(zhàn)方面的多功能性。例如,OpenAI公司的ChatGPT擅長于會(huì)話任務(wù),而像Cohere的生成式自然語言處理API這樣的工具可以總結(jié)文本并調(diào)節(jié)內(nèi)容。LLM正在改變企業(yè)的運(yùn)營方式,推動(dòng)從智能搜索到自動(dòng)化客戶支持的各方面的進(jìn)步。
麥肯錫公司估計(jì),到2025年,LLM將在美國經(jīng)濟(jì)中每年創(chuàng)造2000億至3000億美元的經(jīng)濟(jì)價(jià)值。谷歌、Meta和微軟等美國科技巨頭以及初創(chuàng)公司都在競(jìng)相挖掘LLM的潛力。但是在LLM上構(gòu)建、部署和迭代需要專門的基礎(chǔ)設(shè)施和工具。
GitHub在軟件協(xié)作中的關(guān)鍵作用
為了理解Hugging Face作為LLM中心日益重要的意義,可以了解GitHub在軟件開發(fā)中扮演的不可或缺的角色。GitHub于2008年推出,是用于版本控制和源代碼管理的開源Git協(xié)議的先驅(qū)。
如今,GitHub擁有2億多個(gè)代碼庫和8300萬多名開發(fā)人員。它為開發(fā)人員提供了協(xié)作、審查代碼、跟蹤問題和發(fā)布軟件的工具。GitHub已經(jīng)成為軟件團(tuán)隊(duì)運(yùn)作不可或缺的一部分,微軟公司在2018年以75億美元收購GitHub就是一個(gè)例子。
根據(jù)StackOverflow在2021年調(diào)查顯示,90%以上的開發(fā)人員使用GitHub。該平臺(tái)的社交編碼能力打破了軟件開發(fā)中的障礙。開發(fā)人員可以利用開源項(xiàng)目來加速構(gòu)建。而企業(yè)使用GitHub的企業(yè)產(chǎn)品來簡化編碼工作流程。GitHub深深植根于開發(fā)者文化,塑造了軟件社區(qū)創(chuàng)建、擴(kuò)展和部署代碼的方式。
Hugging Face成為LLM的首選平臺(tái)
就像GitHub推動(dòng)了開源開發(fā)一樣,Hugging Face正在引領(lǐng)LLM的開放生態(tài)系統(tǒng)方法。Hugging Face成立于2016年,最初專注于自然語言處理。在2020年,它轉(zhuǎn)向LLM并創(chuàng)建了Transformer庫,該庫將不同的LLM架構(gòu)(例如BERT和GPT-2)與標(biāo)準(zhǔn)化API統(tǒng)一起來。
這個(gè)庫通過抽象掉與LLM一起工作的復(fù)雜性,使LLM的訪問民主化。如今,Hugging Face已經(jīng)成為一個(gè)擁有20多萬用戶的充滿活力的社區(qū)。其主要產(chǎn)品有:
- 模型中心:超過10萬個(gè)人工智能模型的存儲(chǔ)庫,包括OpenAI公司的CLIP和Salesforce公司的BLENDER等LLM。它降低了使用LLM的門檻。
- 標(biāo)記器:預(yù)訓(xùn)練模型用于標(biāo)記和編碼LLM文本。對(duì)數(shù)據(jù)預(yù)處理至關(guān)重要。
- 數(shù)據(jù)集:精心策劃的數(shù)據(jù)集,用于培訓(xùn)和評(píng)估LLM。
- Spaces:用于部署、監(jiān)控和擴(kuò)展LLM驅(qū)動(dòng)的應(yīng)用程序的一個(gè)MLOps平臺(tái)。
- Infinite:基于GPT模型的維基風(fēng)格數(shù)據(jù)集,用于生成自然語言查詢的答案。
這套工具解決了LLM從發(fā)現(xiàn)到部署的整個(gè)開發(fā)生命周期。Hugging Face還構(gòu)建了與Streamlight等平臺(tái)的集成,實(shí)現(xiàn)了無代碼LLM的實(shí)驗(yàn)。
到目前為止,Hugging Face已經(jīng)籌集了1億美元的資金,這反映了其日益飆升的知名度。去年,Hugging Face的估值翻了五倍,達(dá)到20億美元。國際頂級(jí)人工智能實(shí)驗(yàn)室和公司也在與Hugging Face合作。
LLM的GitHub
Hugging Face龐大的模型、數(shù)據(jù)集和開發(fā)工具中心為它贏得了“LLM GitHub”的綽號(hào)。它的模型中心是任何想要與LLM合作的人的起點(diǎn)。開發(fā)人員可以在其網(wǎng)站上找到Meta AI的OPT-175B等模型的優(yōu)化實(shí)現(xiàn)。
然后,他們可以通過Hugging Face的Transformers庫無縫訪問這些模型。這大幅降低了使用先進(jìn)LLM的門檻,企業(yè)不再需要從頭開始構(gòu)建自己的LLM。與其相反,他們可以采用Hugging Face預(yù)先設(shè)定的LLM,并對(duì)其進(jìn)行微調(diào),以適應(yīng)搜索和分析等領(lǐng)域的定制用例。
Spaces支持協(xié)作構(gòu)建、測(cè)試和部署LLM應(yīng)用程序。結(jié)合Hugging Face的開放數(shù)據(jù)集和活躍的社區(qū)論壇,它復(fù)制了GitHub為LLM量身定制的開源精神的核心元素。
美國一家大型科技公司的機(jī)器學(xué)習(xí)工程師Leo Zhao總結(jié)了Hugging Face在LLM工作流程中的融入:“每當(dāng)我們需要一個(gè)新項(xiàng)目的LLM時(shí),Hugging Face是我們所到的第一站。它們的模型中心有大量的選項(xiàng)可供選擇。只需幾行代碼,我們就可以立即標(biāo)記并將數(shù)據(jù)提供給模型。Spaces使得在GPU集群上縮放模型訓(xùn)練變得容易。它確實(shí)是一個(gè)與LLM相關(guān)的一站式平臺(tái)。”
GitHub的類比也適用于Hugging Face如何圍繞LLM培養(yǎng)協(xié)作社區(qū)。它的技術(shù)論壇已經(jīng)成為數(shù)以萬計(jì)的LLM開發(fā)人員和用戶的重要知識(shí)和支持來源。Hugging Face通過其廣受歡迎的LLM會(huì)議進(jìn)一步培養(yǎng)了這個(gè)社區(qū),使最新進(jìn)展的訪問民主化。
克服LLM采用的挑戰(zhàn)
事實(shí)證明,Hugging Face在幫助企業(yè)克服采用LLM的關(guān)鍵障礙方面發(fā)揮了重要作用。根據(jù)麥肯錫公司進(jìn)行的一項(xiàng)研究,企業(yè)在LLM方面面臨的最大挑戰(zhàn)是評(píng)估價(jià)值和確定用例。Hugging Face通過集中廣泛的LLM選擇和推薦的微調(diào)數(shù)據(jù)集來緩解這一問題。
此外,將LLM投入生產(chǎn)會(huì)帶來復(fù)雜的數(shù)據(jù)和基礎(chǔ)設(shè)施問題。Hugging Face的端到端平臺(tái)從模型訪問到部署,為企業(yè)掃清了這些障礙。
大規(guī)模構(gòu)建和運(yùn)行LLM所需的財(cái)務(wù)投資也阻礙了LLM的采用。Hugging Face通過提供易于訪問的預(yù)訓(xùn)練模型來降低成本。Space通過其無服務(wù)器架構(gòu)和對(duì)可擴(kuò)展云計(jì)算硬件(例如TPU)的支持進(jìn)一步優(yōu)化了支出。對(duì)于規(guī)模較小的團(tuán)隊(duì)和初創(chuàng)公司來說,這可以使大型LLM實(shí)驗(yàn)變得可行。
用LLM改變未來
展望未來, Hugging Face似乎有望繼續(xù)發(fā)展成為LLM的中心。它的社區(qū)已經(jīng)超過了流行的人工智能論壇。越來越多的開發(fā)人員和企業(yè)在他們的生產(chǎn)管道中依賴于像Transformers庫和Tokenizers這樣的工具。
LLM將推動(dòng)市場(chǎng)營銷、銷售和財(cái)務(wù)等領(lǐng)域發(fā)生翻天覆地的變化。麥肯錫公司預(yù)計(jì),LLM可以將30%至45%的當(dāng)前工作活動(dòng)實(shí)現(xiàn)自動(dòng)化,從而產(chǎn)生重大的社會(huì)影響。像Hugging Face這樣降低LLM創(chuàng)新門檻的平臺(tái),將是實(shí)現(xiàn)其變革潛力的核心。
就像GitHub加速了軟件工程一樣,Hugging Face使開發(fā)人員和企業(yè)能夠更快速、更有效地利用LLM的能力。對(duì)于日益增長的LLM驅(qū)動(dòng)的經(jīng)濟(jì)來說,Hugging Face代表著通往未來的大門。它的綜合平臺(tái)可以催化新市場(chǎng),開啟人類與人工智能的大規(guī)模合作,開創(chuàng)下一個(gè)技術(shù)進(jìn)步的時(shí)代。
原文標(biāo)題:Hugging Face Is the New GitHub for LLMs,作者:Arvind Bhardwaj