自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)AI:概念、用例、優(yōu)勢(shì)、挑戰(zhàn)及發(fā)展未來(lái) 原創(chuàng)

發(fā)布于 2024-7-18 08:19
瀏覽
0收藏

多模態(tài)AI的應(yīng)用范圍正在不斷擴(kuò)大,那么究竟什么是多模態(tài)AI?它又是如何運(yùn)行的?

生成式AI在短短幾年內(nèi)取得了長(zhǎng)足的進(jìn)步,從基本的文本響應(yīng)發(fā)展到復(fù)雜的散文。隨著多模態(tài)AI(Multi-modal AI)的發(fā)展,這項(xiàng)技術(shù)的界限正在進(jìn)一步擴(kuò)大。如今,多模態(tài)AI正在涉足從醫(yī)療保健到機(jī)器人等多個(gè)行業(yè)。谷歌、OpenAI、Anthropic和Meta等科技巨頭也紛紛推出了自己的多模態(tài)AI模型。

什么是多模態(tài)AI?

多模態(tài)AI是指同時(shí)利用各種類型(或模式)數(shù)據(jù)形成見解、做出預(yù)測(cè)和生成內(nèi)容的AI系統(tǒng)。

多模態(tài)模型能夠處理文本、圖像、視頻、語(yǔ)音等信息,以完成一系列任務(wù),例如根據(jù)食物照片生成食譜,或是將音頻剪輯翻譯成多種語(yǔ)言等。

這與大多數(shù)只能處理單一模式數(shù)據(jù)的AI模型不同。例如,大型語(yǔ)言模型(LLM)只能處理文本數(shù)據(jù),而卷積神經(jīng)網(wǎng)絡(luò)(CNN)只能處理圖像。

簡(jiǎn)單來(lái)說(shuō),多模態(tài)實(shí)際上是在嘗試復(fù)制人類的感知方式:我們將視覺、聲音和觸覺等感官輸入結(jié)合起來(lái),形成對(duì)現(xiàn)實(shí)的更細(xì)致入微的感知,并利用這些數(shù)據(jù)來(lái)做出決定或采取行動(dòng)。多模態(tài)模式也在嘗試做同樣的事情。通過(guò)在單個(gè)模型中集成多種數(shù)據(jù)類型,多模態(tài)AI系統(tǒng)可以更全面地了解其環(huán)境。

多模態(tài)VS單模態(tài)

多模態(tài)AI模型可以同時(shí)處理多種類型的數(shù)據(jù),而單模態(tài)AI模型僅限于單一類型的數(shù)據(jù)輸入,并且只能以特定的數(shù)據(jù)模態(tài)提供輸出。例如,支持ChatGPT免費(fèi)版本的GPT-3.5只支持文本輸入和輸出,它就屬于單模態(tài);但另一款ChatGPT模型GPT- 40可以處理文本、圖像和音頻數(shù)據(jù),它就屬于多模態(tài)。

多模態(tài)AI運(yùn)行原理

多模態(tài)模型通常建立在轉(zhuǎn)換器(Transformer)架構(gòu)上,通過(guò)計(jì)算數(shù)據(jù)點(diǎn)之間的關(guān)系,以理解和生成數(shù)據(jù)序列。它們處理“大量”的文本數(shù)據(jù),刪除一些單詞,然后根據(jù)周圍單詞的上下文預(yù)測(cè)缺失的單詞是什么。對(duì)于圖像、音頻和模型設(shè)計(jì)用來(lái)理解的任何其他類型的數(shù)據(jù),亦是如此操作。

這是通過(guò)一個(gè)稱為“嵌入”(Embedding)的過(guò)程來(lái)完成的,在這個(gè)過(guò)程中,原始數(shù)據(jù)被編碼成系統(tǒng)更容易理解和處理的數(shù)字格式(向量)。例如,文本數(shù)據(jù)被分解成單獨(dú)的標(biāo)記(單詞、字母等),這些標(biāo)記被轉(zhuǎn)換成數(shù)字。音頻數(shù)據(jù)被分割并分解為音高和振幅等特征,這些特征也被轉(zhuǎn)化為數(shù)字。然后將所有這些數(shù)字輸入到轉(zhuǎn)換器中,轉(zhuǎn)換器捕獲不同模態(tài)內(nèi)部和之間的關(guān)系和上下文。

在少數(shù)情況下,模型是“原生多模態(tài)”的——專門為處理多種數(shù)據(jù)類型而構(gòu)建的——Embedding通過(guò)一個(gè)稱為“早期融合”(Early Fusion)的過(guò)程同時(shí)發(fā)生,該過(guò)程將來(lái)自每種模態(tài)的原始數(shù)據(jù)組合、對(duì)齊和處理,使它們都具有相同(或相似)的數(shù)學(xué)表示。例如,這個(gè)模型不僅學(xué)會(huì)了“鴨子”這個(gè)詞,還學(xué)會(huì)了鴨子的樣子和聲音。從理論上講,這使得該模型不僅能夠識(shí)別鴨子的照片、鴨子的嘎嘎聲或字母“D-U-C-K”,而且還能識(shí)別鴨子是什么這一更廣泛的“概念”。

然而,這種方法的實(shí)現(xiàn)并不容易,這就是為什么目前存在的許多多模態(tài)系統(tǒng)都需要在后期通過(guò)一個(gè)稱為“后期融合”(Late Fusion)——即在每種類型的數(shù)據(jù)分別進(jìn)行分析和編碼之后——的過(guò)程合并來(lái)自多個(gè)模態(tài)的信息。后期融合提供了一種結(jié)合和比較不同類型數(shù)據(jù)的方法,這些數(shù)據(jù)在各自的形式中外觀、大小和含義各不相同。

在開發(fā)出多模態(tài)模型后,使用帶有人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和紅隊(duì)等技術(shù)對(duì)其結(jié)果進(jìn)行微調(diào),以減少幻覺、偏見、安全風(fēng)險(xiǎn)和其他有害反應(yīng)。一旦完成,該模型的行為應(yīng)該類似于LLM,但具有處理文本以外的其他類型數(shù)據(jù)的能力。

多模態(tài)AI用例

以下是如今多模態(tài)AI應(yīng)用的一些關(guān)鍵領(lǐng)域。

聊天機(jī)器人

配備多模態(tài)的AI聊天機(jī)器人可以比純文本聊天機(jī)器人更有效地響應(yīng)用戶,提供更豐富、更有用的答案。例如,用戶可以輸入一張垂死的室內(nèi)植物的照片,并獲得如何使其起死回生的建議,或者獲得他們鏈接到的視頻的詳細(xì)解釋。

AI助手

像亞馬遜的Alexa和谷歌助手這樣的AI助手之所以存在,是因?yàn)槎嗄B(tài)AI。這些智能設(shè)備可以通過(guò)簡(jiǎn)單的語(yǔ)音命令進(jìn)行控制,允許用戶調(diào)出特定的圖像和視頻,接收當(dāng)前事件、指令和一般信息(音頻和文本格式),甚至調(diào)整家中的照明和溫度。

醫(yī)療保健

醫(yī)療領(lǐng)域需要解釋幾種形式的數(shù)據(jù),包括醫(yī)學(xué)圖像、臨床記錄、電子健康記錄和實(shí)驗(yàn)室測(cè)試。單模態(tài)AI模型在特定模式下執(zhí)行特定的醫(yī)療保健任務(wù),例如分析X射線或識(shí)別遺傳變異。LLM通常被用來(lái)幫助用簡(jiǎn)單的術(shù)語(yǔ)回答與健康相關(guān)的問(wèn)題?,F(xiàn)在,研究人員開始將多模態(tài)AI引入其中,開發(fā)新的工具,將來(lái)自所有這些不同來(lái)源的數(shù)據(jù)結(jié)合起來(lái),幫助進(jìn)行醫(yī)學(xué)診斷。

自動(dòng)駕駛汽車

由于多模態(tài)AI,自動(dòng)駕駛汽車可以處理和解釋來(lái)自多個(gè)來(lái)源的數(shù)據(jù)。攝像頭提供有關(guān)車輛環(huán)境的視覺信息,雷達(dá)探測(cè)物體及其速度,而激光雷達(dá)測(cè)量物體之間的距離,GPS提供位置和導(dǎo)航數(shù)據(jù)。通過(guò)將所有這些數(shù)據(jù)放在一起并進(jìn)行分析,AI模型可以實(shí)時(shí)了解汽車周圍的環(huán)境并做出相應(yīng)的反應(yīng)——它們可以發(fā)現(xiàn)障礙物,預(yù)測(cè)其他車輛或行人的位置,并決定何時(shí)轉(zhuǎn)向、剎車或加速。

機(jī)器人

配備多模態(tài)AI的機(jī)器人整合了來(lái)自攝像頭、麥克風(fēng)和深度傳感器的數(shù)據(jù),使它們能夠更準(zhǔn)確地感知環(huán)境并做出相應(yīng)的反應(yīng)。例如,它們可以使用攝像頭來(lái)觀察和識(shí)別物體,或者使用麥克風(fēng)來(lái)理解口頭命令。甚至可以通過(guò)傳感器固定,讓它們擁有觸覺、嗅覺和味覺等人類擁有的全部五種感官。無(wú)論是人形機(jī)器人還是裝配線上的協(xié)作機(jī)器人,多模態(tài)AI都能給各種機(jī)器人在不同的環(huán)境中有效地導(dǎo)航。

多模態(tài)AI的優(yōu)勢(shì)

更好地理解上下文

在學(xué)習(xí)過(guò)程中,多模態(tài)模型同時(shí)集成和分析廣泛的數(shù)據(jù)類型,這使它們對(duì)給定主題有了更全面的上下文理解,而非每個(gè)單獨(dú)的數(shù)據(jù)類型單獨(dú)能夠傳達(dá)的內(nèi)容。

例如,如果一個(gè)多模態(tài)模型被提示生成一段獅子的視頻,它不僅會(huì)把“獅子”這個(gè)詞看作是一個(gè)字母序列——它還會(huì)知道獅子的樣子,獅子是如何移動(dòng)的,以及獅子的吼聲是什么樣的。

更準(zhǔn)確的結(jié)果

由于多模態(tài)模型旨在識(shí)別不同類型數(shù)據(jù)之間的模式和聯(lián)系,因此它們往往能夠更準(zhǔn)確地理解和解釋信息。

它們不僅可以通過(guò)分析文本,還可以通過(guò)分析圖像來(lái)加強(qiáng)結(jié)果,從而更準(zhǔn)確地預(yù)測(cè),或者回答以前無(wú)法回答的問(wèn)題。需要注意的是,多模態(tài)AI仍然有可能出錯(cuò),并可能產(chǎn)生偏見或其他有害的結(jié)果。

勝任更廣泛的任務(wù)

多模態(tài)AI系統(tǒng)可以處理比單模式AI系統(tǒng)更廣泛的任務(wù)。根據(jù)特定的模型,它們可以將文本提示轉(zhuǎn)換為AI生成的圖像,用簡(jiǎn)單的語(yǔ)言解釋視頻中的內(nèi)容,根據(jù)照片生成音頻剪輯等等。同時(shí),單模態(tài)系統(tǒng)只能完成其中的一項(xiàng)任務(wù)。

更好地理解用戶意圖

多模態(tài)允許用戶選擇他們想要與AI系統(tǒng)交互的方式,而不是被困在一種交流模式中。

無(wú)論用戶是用動(dòng)作、語(yǔ)言、打字、做手勢(shì)來(lái)表達(dá)自己,這都無(wú)關(guān)緊要。多模態(tài)AI系統(tǒng)可以讓用戶更好地控制他們想要表達(dá)的內(nèi)容,以更好地捕捉他們的真實(shí)意圖。

更直觀的用戶體驗(yàn)

由于多模態(tài)系統(tǒng)允許用戶根據(jù)自己的感覺以幾種不同的方式表達(dá)自己,因此用戶體驗(yàn)“感覺更加直觀”。例如,用戶可以上傳一段音頻片段,而不必描述他們的汽車引擎發(fā)出的聲音,從而獲得有關(guān)問(wèn)題的建議?;蛘撸麄兛梢陨蟼鞅浜褪称穬?chǔ)藏室的照片,而不是列出廚房里所有的食物來(lái)尋求食譜建議。

多模態(tài)AI的挑戰(zhàn)

需要更多的數(shù)據(jù)

由于它們使用多種不同的模式,因此多模態(tài)模型需要大量數(shù)據(jù)才能正常工作。例如,如果一個(gè)模型的目標(biāo)是將文本轉(zhuǎn)換為圖像,反之亦然,那么它需要有一個(gè)健壯的文本和圖像數(shù)據(jù)集。

此外,模型所需的數(shù)據(jù)量還會(huì)隨著模型中參數(shù)(變量)的數(shù)量而增加。隨著參數(shù)數(shù)量的增加,模型需要的數(shù)據(jù)也就越多。

有限的數(shù)據(jù)可用性

并非所有的數(shù)據(jù)類型都很容易獲得,尤其是不太傳統(tǒng)的數(shù)據(jù)類型,比如溫度或手部運(yùn)動(dòng)?;ヂ?lián)網(wǎng)是許多AI模型訓(xùn)練數(shù)據(jù)的重要來(lái)源,它主要由文本、圖像和視頻數(shù)據(jù)組成。因此,如果您想要制作一個(gè)可以處理任何其他類型數(shù)據(jù)的系統(tǒng),則必須從私有存儲(chǔ)庫(kù)購(gòu)買或自己制作。

數(shù)據(jù)很難對(duì)齊

正確地對(duì)齊多個(gè)不同的數(shù)據(jù)類型通常很困難。數(shù)據(jù)的大小、規(guī)模和結(jié)構(gòu)各不相同,需要仔細(xì)處理和集成,以確保它們?cè)趩蝹€(gè)AI系統(tǒng)中有效地協(xié)同工作。

計(jì)算密集且昂貴

在很大程度上,多模態(tài)之所以成為可能,要?dú)w功于當(dāng)今前所未有的計(jì)算資源。這些模型需要能夠同時(shí)處理海量的不同數(shù)據(jù)類型,這需要大量的計(jì)算能力。此外,在應(yīng)用程序中部署多模態(tài)AI還需要強(qiáng)大的硬件基礎(chǔ)設(shè)施,這進(jìn)一步增加了其計(jì)算需求和環(huán)境足跡。

更重要的是,它通常還很昂貴。單模態(tài)模型本身就很昂貴——傳言GPT-3花費(fèi)了OpenAI近500萬(wàn)美元,而Meta估計(jì)在Llama 2上花費(fèi)了2000萬(wàn)美元。多模態(tài)比這些模式還要貴“好幾個(gè)數(shù)量級(jí)”。

加劇現(xiàn)有的GenAI問(wèn)題

常規(guī)GenAI模型的許多問(wèn)題——即偏見、隱私問(wèn)題、幻覺——在多模態(tài)模型中也很普遍。多模態(tài)AI實(shí)際上可能會(huì)加劇這些問(wèn)題。

在數(shù)據(jù)集中,偏差幾乎是不可避免的,因此將來(lái)自不同來(lái)源的數(shù)據(jù)結(jié)合起來(lái)可能會(huì)導(dǎo)致更明顯和更廣泛的偏差結(jié)果。處理不同類型的數(shù)據(jù)還可能涉及敏感信息,進(jìn)一步增加數(shù)據(jù)隱私和安全的風(fēng)險(xiǎn)。此外,整合多種數(shù)據(jù)的復(fù)雜性可能會(huì)增加產(chǎn)生不準(zhǔn)確或誤導(dǎo)性信息的風(fēng)險(xiǎn)。

這些問(wèn)題給機(jī)器人應(yīng)用帶來(lái)了更大的風(fēng)險(xiǎn),因?yàn)樗鼈兊男袨闀?huì)對(duì)物理世界產(chǎn)生直接影響。

您的機(jī)器人——無(wú)論是無(wú)人機(jī)、汽車還是人形機(jī)器人——都將在現(xiàn)實(shí)世界中采取某種行動(dòng),并產(chǎn)生物理后果。如果您在控制機(jī)器人的模型上沒(méi)有任何護(hù)欄,就有可能出現(xiàn)幻覺或?qū)?shù)據(jù)的錯(cuò)誤解釋,導(dǎo)致機(jī)器人采取可能危險(xiǎn)或有害的行動(dòng)。

多模態(tài)AI的未來(lái)

許多專家認(rèn)為,最終,多模態(tài)可能是實(shí)現(xiàn)通用AI(AGI)的關(guān)鍵。通用AI是一種理論形式的AI,可以像人類一樣理解、學(xué)習(xí)和執(zhí)行任何智力任務(wù)。通過(guò)結(jié)合各種類型的數(shù)據(jù),多模態(tài)模型可以對(duì)周圍的世界形成更全面和全面的理解,這反過(guò)來(lái)又可以使它能夠在廣泛的任務(wù)中應(yīng)用知識(shí),甚至比人類更好。

史蒂文斯理工學(xué)院機(jī)械工程系副教授Brendan Englo表示:“在尋求一種看起來(lái)更像人類智能的AI時(shí),它必須是多模態(tài)的。它必須像人類一樣處理盡可能多的輸入模式——視覺、語(yǔ)言、觸覺、身體動(dòng)作——并且能夠以與人類相同的智能對(duì)所有這些事情做出反應(yīng)。”

原文標(biāo)題:Multimodal AI: What It Is and How It Works,作者:Ellen Glover

鏈接:https://builtin.com/articles/multimodal-ai。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2024-7-18 08:22:03修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦