自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大型視覺模型何時(shí)會(huì)有ChatGPT時(shí)刻?

人工智能
2022年11月推出的ChatGPT是自然語(yǔ)言處理(NLP)的一個(gè)分水嶺,因?yàn)樗故玖宿D(zhuǎn)換器(Transformer)架構(gòu)在理解和生成文本數(shù)據(jù)方面的驚人有效性,也被稱為人工智能的ChatGPT時(shí)刻。

2022年11月推出的ChatGPT是自然語(yǔ)言處理(NLP)的一個(gè)分水嶺,因?yàn)樗故玖宿D(zhuǎn)換器(Transformer)架構(gòu)在理解和生成文本數(shù)據(jù)方面的驚人有效性,也被稱為人工智能的ChatGPT時(shí)刻?,F(xiàn)在,隨著預(yù)訓(xùn)練大型視覺模型(LVM)的興起,我們?cè)谟?jì)算機(jī)視覺領(lǐng)域看到了類似的情況。但是,這些模型何時(shí)才能將視覺數(shù)據(jù)廣泛應(yīng)用呢?

自2010年左右以來(lái),計(jì)算機(jī)視覺領(lǐng)域的最先進(jìn)技術(shù)是卷積神經(jīng)網(wǎng)絡(luò)(CNN),這是一種模仿生物大腦中神經(jīng)元相互作用的深度學(xué)習(xí)架構(gòu)。CNN框架,如ResNet,為圖像識(shí)別和分類等計(jì)算機(jī)視覺任務(wù)提供了動(dòng)力,并在工業(yè)中得到了一些應(yīng)用。

在過(guò)去十年左右的時(shí)間里,另一類模型,即擴(kuò)散模型(Diffusion models),在計(jì)算機(jī)視覺界獲得了廣泛的關(guān)注。擴(kuò)散模型是一種生成神經(jīng)網(wǎng)絡(luò),它使用擴(kuò)散過(guò)程來(lái)模擬數(shù)據(jù)的分布,然后可以用類似的方式生成數(shù)據(jù)。流行的擴(kuò)散模型包括Stable diffusion,這是一種基于互聯(lián)網(wǎng)上23億張英文字幕圖像預(yù)訓(xùn)練的開放式圖像生成模型,能夠基于文本輸入生成圖像。

重點(diǎn)來(lái)了

2017年發(fā)生了一次重大的架構(gòu)轉(zhuǎn)變,當(dāng)時(shí)谷歌在其論文《注意力就是你所需要的一切》中首次提出了轉(zhuǎn)換器架構(gòu)。轉(zhuǎn)換器架構(gòu)基于一種根本不同的方法。它省去了卷積和遞歸CNN,以及遞歸神經(jīng)網(wǎng)絡(luò)中的RNN(主要用于NLP),完全依賴于一種稱為注意力機(jī)制的東西,即序列中每個(gè)組件的相對(duì)重要性是相對(duì)于序列中的其他組件計(jì)算的。

這種方法在NLP用例中被證明是有用的,谷歌研究人員首次應(yīng)用了這種方法,并直接導(dǎo)致了大型語(yǔ)言模型(LLM)的創(chuàng)建,如OpenAI的生成預(yù)訓(xùn)練轉(zhuǎn)換器(GPT),它點(diǎn)燃了生成式人工智能領(lǐng)域。但事實(shí)證明,轉(zhuǎn)換器架構(gòu)的核心元素——注意力機(jī)制——并不局限于NLP。正如單詞可以被編碼為標(biāo)記并通過(guò)注意力機(jī)制測(cè)量相對(duì)重要性一樣,圖像中的像素也可以被編碼成標(biāo)記并計(jì)算其相對(duì)值。

2019年,當(dāng)研究人員首次提出將轉(zhuǎn)換器架構(gòu)用于計(jì)算機(jī)視覺任務(wù)時(shí),開始對(duì)轉(zhuǎn)換器進(jìn)行計(jì)算機(jī)視覺的功能修補(bǔ)。從那時(shí)起,計(jì)算機(jī)視覺研究人員一直在改進(jìn)LVM領(lǐng)域。谷歌本身已經(jīng)開源了視覺轉(zhuǎn)換器模型ViT,而Meta則有DINOv2。OpenAI也開發(fā)了基于轉(zhuǎn)換器的LVM,如CLIP,并在其GPT-4v中包含了圖像生成功能。谷歌大腦聯(lián)合創(chuàng)始人吳恩達(dá)創(chuàng)立的LandingAI也將LVM用于工業(yè)用例。多個(gè)提供商提供了可以處理文本和圖像輸入并生成文本和視覺輸出的多模式模型。

與其他計(jì)算機(jī)視覺模型(包括擴(kuò)散模型和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò))相比,基于轉(zhuǎn)換器的LVM既有優(yōu)點(diǎn)也有缺點(diǎn)。不利的一面是,LVM比CNN需要更多數(shù)據(jù)。如果你沒(méi)有大量的圖像可供訓(xùn)練(LandingAI建議至少有100000張未標(biāo)記的圖像),那么它可能不適合你。

另一方面,注意力機(jī)制使LVM比CNN具有根本優(yōu)勢(shì):它們從一開始就具有全局背景,從而提高了準(zhǔn)確率。LVM“慢慢地將整個(gè)模糊圖像聚焦”,而不是像CNN那樣試圖從單個(gè)像素開始并縮小圖像。

簡(jiǎn)而言之,預(yù)訓(xùn)練的LVM的可用性可以提供非常好的開箱即用性能,無(wú)需手動(dòng)訓(xùn)練,對(duì)計(jì)算機(jī)視覺的能量可能與預(yù)訓(xùn)練的LLM對(duì)NLP工作負(fù)載的能量一樣大。

尖端LVM崛起

LVM興起讓Srinivas Kuppa這樣的人感到興奮,他是SymphonyAI的首席戰(zhàn)略和產(chǎn)品官,SymphonyAI是一家長(zhǎng)期為各種行業(yè)提供人工智能解決方案的公司。

根據(jù)Kuppa的說(shuō)法,由于LVM的出現(xiàn),我們正處于計(jì)算機(jī)視覺市場(chǎng)發(fā)生重大變化的風(fēng)口浪尖。Kuppa說(shuō):“我們開始看到,大型視覺模型(LVM)真的以大型語(yǔ)言模型(LLM)的方式出現(xiàn)了?!?/span>

他說(shuō),LVM的一大優(yōu)勢(shì)是它們已經(jīng)(大部分)經(jīng)過(guò)培訓(xùn),消除了客戶從頭開始進(jìn)行模型訓(xùn)練的需要。

Kuppa稱:“這些大型視覺模型的美妙之處在于,它們?cè)诟蟪潭壬辖?jīng)過(guò)了預(yù)訓(xùn)練?!薄耙话銇?lái)說(shuō),人工智能(當(dāng)然還有視覺模型)面臨的最大挑戰(zhàn)是,一旦你接觸到客戶,你就必須從客戶那里獲得大量數(shù)據(jù)來(lái)訓(xùn)練模型。”

SymphonyAI在制造、安全和零售環(huán)境中的客戶互動(dòng)中使用了各種LVM,其中大多數(shù)是開源的,可以在Huggingface上找到。它使用Mistral的120億參數(shù)模型Pixel,以及開源多模態(tài)模型LLaVA。

雖然預(yù)訓(xùn)練的LVM在各種用例中都能很好地開箱即用,但SymphonyAI通常會(huì)使用自己的專有圖像數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),從而提高客戶特定用例的性能。

Kuppa說(shuō):“我們采用這種基礎(chǔ)模型,在將其交給客戶之前對(duì)其進(jìn)行進(jìn)一步的微調(diào)?!??!耙虼耍坏┪覀儍?yōu)化了該版本,當(dāng)它提供給我們的客戶時(shí),效果會(huì)好很多倍。它縮短了客戶的價(jià)值實(shí)現(xiàn)時(shí)間,(這樣他們就不必)在開始使用之前處理自己的圖像、給它們貼標(biāo)簽和擔(dān)心它們。”

例如,SymphonyAI在離散制造領(lǐng)域的長(zhǎng)期服務(wù)記錄使其能夠獲得許多常見設(shè)備(如鍋爐)的圖像。該公司能夠使用這些圖像對(duì)LVM進(jìn)行微調(diào)。然后,該模型作為其Iris產(chǎn)品的一部分進(jìn)行部署,以識(shí)別設(shè)備何時(shí)損壞或何時(shí)未完成維護(hù)。

Kuppa在談到SymphonyAI時(shí)說(shuō):“我們是由50年或60年前的大量收購(gòu)拼湊而成的?!盨ymphonyAI于2017年正式成立,得到了印度裔美國(guó)商人羅梅什·瓦德瓦尼10億美元的投資。“因此,隨著時(shí)間的推移,我們以正確的方式積累了大量數(shù)據(jù)。自生成式人工智能爆炸以來(lái),我們所做的就是查看我們擁有的數(shù)據(jù)類型,然后盡可能匿名化數(shù)據(jù),然后以此為基礎(chǔ)訓(xùn)練這個(gè)模型?!?/span>

LVM繼續(xù)發(fā)展

SymphonyAI為世界上最大的食品制造商之一開發(fā)了LVM。他說(shuō),該公司還與分銷商和零售商合作,實(shí)施LVM,使自動(dòng)駕駛汽車能夠進(jìn)入倉(cāng)庫(kù),并優(yōu)化貨架上的產(chǎn)品擺放。

Kuppa說(shuō):“我希望大型視覺模型能夠開始引起人們的關(guān)注,并看到加速增長(zhǎng)。”“我在Huggingface上看到了足夠多的模型。我看到了一些開源的模型,我們可以利用它們。但我認(rèn)為有機(jī)會(huì)大幅增加(使用)?!?/span>

LVM的限制因素之一(除了需要針對(duì)特定用例對(duì)其進(jìn)行微調(diào)外)是硬件要求。LVM有數(shù)十億個(gè)參數(shù),而像ResNet這樣的CNN通常只有數(shù)百萬(wàn)個(gè)參數(shù)。這給運(yùn)行LVM進(jìn)行推理所需的本地硬件帶來(lái)了壓力。

對(duì)于實(shí)時(shí)決策,LVM將需要大量的處理資源。在許多情況下,它需要連接到云端。Kuppa說(shuō),包括FPGA在內(nèi)的不同處理器類型的可用性可能會(huì)有所幫助,但這仍然是當(dāng)前的需求。

雖然目前LVM的使用并不多,但它的足跡正在增長(zhǎng)。在過(guò)去兩年中,試點(diǎn)和概念驗(yàn)證(POC)的數(shù)量大幅增長(zhǎng),機(jī)會(huì)很大。由于預(yù)先訓(xùn)練的模型,實(shí)現(xiàn)價(jià)值的時(shí)間縮短了,所以他們可以更快地開始看到它的價(jià)值及其結(jié)果,而無(wú)需預(yù)先投入太多資金。但這是否會(huì)轉(zhuǎn)化為更大規(guī)模的企業(yè)級(jí)采用,仍需要時(shí)間去觀察?!?/span>

責(zé)任編輯:華軒 來(lái)源: Ai時(shí)代前沿
相關(guān)推薦

2024-06-13 10:52:43

2023-03-26 00:24:15

2023-01-13 13:59:23

ChatGPT學(xué)術(shù)

2024-08-26 15:32:13

AI人工智能

2023-07-10 08:00:00

2023-04-10 11:18:24

GPT模型

2023-03-27 17:32:56

ChatGPT人工智能

2024-01-19 12:26:08

AI智能車

2024-01-22 12:48:00

數(shù)據(jù)模型

2023-03-10 13:11:12

ChatGPTAI微軟

2024-09-18 13:30:00

2021-09-16 14:26:32

網(wǎng)絡(luò)9.11網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2024-04-16 16:14:01

人工智能LLMRAG

2023-09-27 07:39:57

大型語(yǔ)言模型MiniGPT-4

2024-04-26 08:53:46

自動(dòng)駕駛人工智能大型語(yǔ)言模型

2022-08-03 14:55:42

5G

2010-09-29 11:01:46

2023-03-22 11:44:49

NVIDIAGTC

2023-05-15 13:43:08

ChatGPT語(yǔ)言模型

2025-01-21 12:44:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)