自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)AI:概念、用例、優(yōu)勢、挑戰(zhàn)及發(fā)展未來

譯文 精選
人工智能
多模態(tài)實際上是在嘗試復制人類的感知方式:我們將視覺、聲音和觸覺等感官輸入結合起來,形成對現(xiàn)實的更細致入微的感知,并利用這些數(shù)據(jù)來做出決定或采取行動。多模態(tài)模式也在嘗試做同樣的事情。

譯者 | 晶顏

審校 | 重樓

多模態(tài)AI的應用范圍正在不斷擴大,那么究竟什么是多模態(tài)AI?它又是如何運行的?

生成式AI在短短幾年內取得了長足的進步,從基本的文本響應發(fā)展到復雜的散文。隨著多模態(tài)AI(Multi-modal AI)的發(fā)展,這項技術的界限正在進一步擴大。如今,多模態(tài)AI正在涉足從醫(yī)療保健到機器人等多個行業(yè)。谷歌、OpenAI、Anthropic和Meta等科技巨頭也紛紛推出了自己的多模態(tài)AI模型。

什么是多模態(tài)AI?

多模態(tài)AI是指同時利用各種類型(或模式)數(shù)據(jù)形成見解、做出預測和生成內容的AI系統(tǒng)。

多模態(tài)模型能夠處理文本、圖像、視頻、語音等信息,以完成一系列任務,例如根據(jù)食物照片生成食譜,或是將音頻剪輯翻譯成多種語言等。

這與大多數(shù)只能處理單一模式數(shù)據(jù)的AI模型不同。例如,大型語言模型(LLM)只能處理文本數(shù)據(jù),而卷積神經(jīng)網(wǎng)絡(CNN)只能處理圖像。

簡單來說,多模態(tài)實際上是在嘗試復制人類的感知方式:我們將視覺、聲音和觸覺等感官輸入結合起來,形成對現(xiàn)實的更細致入微的感知,并利用這些數(shù)據(jù)來做出決定或采取行動。多模態(tài)模式也在嘗試做同樣的事情。通過在單個模型中集成多種數(shù)據(jù)類型,多模態(tài)AI系統(tǒng)可以更全面地了解其環(huán)境。

多模態(tài)VS單模態(tài)

多模態(tài)AI模型可以同時處理多種類型的數(shù)據(jù),而單模態(tài)AI模型僅限于單一類型的數(shù)據(jù)輸入,并且只能以特定的數(shù)據(jù)模態(tài)提供輸出。例如,支持ChatGPT免費版本的GPT-3.5只支持文本輸入和輸出,它就屬于單模態(tài);但另一款ChatGPT模型GPT- 40可以處理文本、圖像和音頻數(shù)據(jù),它就屬于多模態(tài)。

多模態(tài)AI運行原理

多模態(tài)模型通常建立在轉換器(Transformer)架構上,通過計算數(shù)據(jù)點之間的關系,以理解和生成數(shù)據(jù)序列。它們處理“大量”的文本數(shù)據(jù),刪除一些單詞,然后根據(jù)周圍單詞的上下文預測缺失的單詞是什么。對于圖像、音頻和模型設計用來理解的任何其他類型的數(shù)據(jù),亦是如此操作。

這是通過一個稱為“嵌入”(Embedding)的過程來完成的,在這個過程中,原始數(shù)據(jù)被編碼成系統(tǒng)更容易理解和處理的數(shù)字格式(向量)。例如,文本數(shù)據(jù)被分解成單獨的標記(單詞、字母等),這些標記被轉換成數(shù)字。音頻數(shù)據(jù)被分割并分解為音高和振幅等特征,這些特征也被轉化為數(shù)字。然后將所有這些數(shù)字輸入到轉換器中,轉換器捕獲不同模態(tài)內部和之間的關系和上下文。

在少數(shù)情況下,模型是“原生多模態(tài)”的——專門為處理多種數(shù)據(jù)類型而構建的——Embedding通過一個稱為“早期融合”(Early Fusion)的過程同時發(fā)生,該過程將來自每種模態(tài)的原始數(shù)據(jù)組合、對齊和處理,使它們都具有相同(或相似)的數(shù)學表示。例如,這個模型不僅學會了“鴨子”這個詞,還學會了鴨子的樣子和聲音。從理論上講,這使得該模型不僅能夠識別鴨子的照片、鴨子的嘎嘎聲或字母“D-U-C-K”,而且還能識別鴨子是什么這一更廣泛的“概念”。

然而,這種方法的實現(xiàn)并不容易,這就是為什么目前存在的許多多模態(tài)系統(tǒng)都需要在后期通過一個稱為“后期融合”(Late Fusion)——即在每種類型的數(shù)據(jù)分別進行分析和編碼之后——的過程合并來自多個模態(tài)的信息。后期融合提供了一種結合和比較不同類型數(shù)據(jù)的方法,這些數(shù)據(jù)在各自的形式中外觀、大小和含義各不相同。

在開發(fā)出多模態(tài)模型后,使用帶有人類反饋的強化學習(RLHF)和紅隊等技術對其結果進行微調,以減少幻覺、偏見、安全風險和其他有害反應。一旦完成,該模型的行為應該類似于LLM,但具有處理文本以外的其他類型數(shù)據(jù)的能力。

多模態(tài)AI用例

以下是如今多模態(tài)AI應用的一些關鍵領域。

聊天機器人

配備多模態(tài)的AI聊天機器人可以比純文本聊天機器人更有效地響應用戶,提供更豐富、更有用的答案。例如,用戶可以輸入一張垂死的室內植物的照片,并獲得如何使其起死回生的建議,或者獲得他們鏈接到的視頻的詳細解釋。

AI助手

像亞馬遜的Alexa和谷歌助手這樣的AI助手之所以存在,是因為多模態(tài)AI。這些智能設備可以通過簡單的語音命令進行控制,允許用戶調出特定的圖像和視頻,接收當前事件、指令和一般信息(音頻和文本格式),甚至調整家中的照明和溫度。

醫(yī)療保健

醫(yī)療領域需要解釋幾種形式的數(shù)據(jù),包括醫(yī)學圖像、臨床記錄、電子健康記錄和實驗室測試。單模態(tài)AI模型在特定模式下執(zhí)行特定的醫(yī)療保健任務,例如分析X射線或識別遺傳變異。LLM通常被用來幫助用簡單的術語回答與健康相關的問題?,F(xiàn)在,研究人員開始將多模態(tài)AI引入其中,開發(fā)新的工具,將來自所有這些不同來源的數(shù)據(jù)結合起來,幫助進行醫(yī)學診斷。

自動駕駛汽車

由于多模態(tài)AI,自動駕駛汽車可以處理和解釋來自多個來源的數(shù)據(jù)。攝像頭提供有關車輛環(huán)境的視覺信息,雷達探測物體及其速度,而激光雷達測量物體之間的距離,GPS提供位置和導航數(shù)據(jù)。通過將所有這些數(shù)據(jù)放在一起并進行分析,AI模型可以實時了解汽車周圍的環(huán)境并做出相應的反應——它們可以發(fā)現(xiàn)障礙物,預測其他車輛或行人的位置,并決定何時轉向、剎車或加速。

機器人

配備多模態(tài)AI的機器人整合了來自攝像頭、麥克風和深度傳感器的數(shù)據(jù),使它們能夠更準確地感知環(huán)境并做出相應的反應。例如,它們可以使用攝像頭來觀察和識別物體,或者使用麥克風來理解口頭命令。甚至可以通過傳感器固定,讓它們擁有觸覺、嗅覺和味覺等人類擁有的全部五種感官。無論是人形機器人還是裝配線上的協(xié)作機器人,多模態(tài)AI都能給各種機器人在不同的環(huán)境中有效地導航。

多模態(tài)AI的優(yōu)勢

更好地理解上下文

在學習過程中,多模態(tài)模型同時集成和分析廣泛的數(shù)據(jù)類型,這使它們對給定主題有了更全面的上下文理解,而非每個單獨的數(shù)據(jù)類型單獨能夠傳達的內容。

例如,如果一個多模態(tài)模型被提示生成一段獅子的視頻,它不僅會把“獅子”這個詞看作是一個字母序列——它還會知道獅子的樣子,獅子是如何移動的,以及獅子的吼聲是什么樣的。

更準確的結果

由于多模態(tài)模型旨在識別不同類型數(shù)據(jù)之間的模式和聯(lián)系,因此它們往往能夠更準確地理解和解釋信息。

它們不僅可以通過分析文本,還可以通過分析圖像來加強結果,從而更準確地預測,或者回答以前無法回答的問題。需要注意的是,多模態(tài)AI仍然有可能出錯,并可能產(chǎn)生偏見或其他有害的結果。

勝任更廣泛的任務

多模態(tài)AI系統(tǒng)可以處理比單模式AI系統(tǒng)更廣泛的任務。根據(jù)特定的模型,它們可以將文本提示轉換為AI生成的圖像,用簡單的語言解釋視頻中的內容,根據(jù)照片生成音頻剪輯等等。同時,單模態(tài)系統(tǒng)只能完成其中的一項任務。

更好地理解用戶意圖

多模態(tài)允許用戶選擇他們想要與AI系統(tǒng)交互的方式,而不是被困在一種交流模式中。

無論用戶是用動作、語言、打字、做手勢來表達自己,這都無關緊要。多模態(tài)AI系統(tǒng)可以讓用戶更好地控制他們想要表達的內容,以更好地捕捉他們的真實意圖。

更直觀的用戶體驗

由于多模態(tài)系統(tǒng)允許用戶根據(jù)自己的感覺以幾種不同的方式表達自己,因此用戶體驗“感覺更加直觀”。例如,用戶可以上傳一段音頻片段,而不必描述他們的汽車引擎發(fā)出的聲音,從而獲得有關問題的建議?;蛘?,他們可以上傳冰箱和食品儲藏室的照片,而不是列出廚房里所有的食物來尋求食譜建議。

多模態(tài)AI的挑戰(zhàn)

需要更多的數(shù)據(jù)

由于它們使用多種不同的模式,因此多模態(tài)模型需要大量數(shù)據(jù)才能正常工作。例如,如果一個模型的目標是將文本轉換為圖像,反之亦然,那么它需要有一個健壯的文本和圖像數(shù)據(jù)集。

此外,模型所需的數(shù)據(jù)量還會隨著模型中參數(shù)(變量)的數(shù)量而增加。隨著參數(shù)數(shù)量的增加,模型需要的數(shù)據(jù)也就越多。

有限的數(shù)據(jù)可用性

并非所有的數(shù)據(jù)類型都很容易獲得,尤其是不太傳統(tǒng)的數(shù)據(jù)類型,比如溫度或手部運動?;ヂ?lián)網(wǎng)是許多AI模型訓練數(shù)據(jù)的重要來源,它主要由文本、圖像和視頻數(shù)據(jù)組成。因此,如果您想要制作一個可以處理任何其他類型數(shù)據(jù)的系統(tǒng),則必須從私有存儲庫購買或自己制作。

數(shù)據(jù)很難對齊

正確地對齊多個不同的數(shù)據(jù)類型通常很困難。數(shù)據(jù)的大小、規(guī)模和結構各不相同,需要仔細處理和集成,以確保它們在單個AI系統(tǒng)中有效地協(xié)同工作。

計算密集且昂貴

在很大程度上,多模態(tài)之所以成為可能,要歸功于當今前所未有的計算資源。這些模型需要能夠同時處理海量的不同數(shù)據(jù)類型,這需要大量的計算能力。此外,在應用程序中部署多模態(tài)AI還需要強大的硬件基礎設施,這進一步增加了其計算需求和環(huán)境足跡。

更重要的是,它通常還很昂貴。單模態(tài)模型本身就很昂貴——傳言GPT-3花費了OpenAI近500萬美元,而Meta估計在Llama 2上花費了2000萬美元。多模態(tài)比這些模式還要貴“好幾個數(shù)量級”。

加劇現(xiàn)有的GenAI問題

常規(guī)GenAI模型的許多問題——即偏見、隱私問題、幻覺——在多模態(tài)模型中也很普遍。多模態(tài)AI實際上可能會加劇這些問題。

在數(shù)據(jù)集中,偏差幾乎是不可避免的,因此將來自不同來源的數(shù)據(jù)結合起來可能會導致更明顯和更廣泛的偏差結果。處理不同類型的數(shù)據(jù)還可能涉及敏感信息,進一步增加數(shù)據(jù)隱私和安全的風險。此外,整合多種數(shù)據(jù)的復雜性可能會增加產(chǎn)生不準確或誤導性信息的風險。

這些問題給機器人應用帶來了更大的風險,因為它們的行為會對物理世界產(chǎn)生直接影響。

您的機器人——無論是無人機、汽車還是人形機器人——都將在現(xiàn)實世界中采取某種行動,并產(chǎn)生物理后果。如果您在控制機器人的模型上沒有任何護欄,就有可能出現(xiàn)幻覺或對數(shù)據(jù)的錯誤解釋,導致機器人采取可能危險或有害的行動。

多模態(tài)AI的未來

許多專家認為,最終,多模態(tài)可能是實現(xiàn)通用AI(AGI)的關鍵。通用AI是一種理論形式的AI,可以像人類一樣理解、學習和執(zhí)行任何智力任務。通過結合各種類型的數(shù)據(jù),多模態(tài)模型可以對周圍的世界形成更全面和全面的理解,這反過來又可以使它能夠在廣泛的任務中應用知識,甚至比人類更好。

史蒂文斯理工學院機械工程系副教授Brendan Englo表示:“在尋求一種看起來更像人類智能的AI時,它必須是多模態(tài)的。它必須像人類一樣處理盡可能多的輸入模式——視覺、語言、觸覺、身體動作——并且能夠以與人類相同的智能對所有這些事情做出反應。”

原文標題:Multimodal AI: What It Is and How It Works,作者:Ellen Glover

鏈接:https://builtin.com/articles/multimodal-ai。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2022-10-27 10:17:06

物聯(lián)網(wǎng)房地產(chǎn)領域

2024-09-09 08:00:00

2021-01-27 14:29:05

人工智能AI生物識別

2010-06-09 13:24:22

UML用例

2023-12-04 07:36:30

DjangoPython

2009-12-24 16:21:33

WiMax技術發(fā)展

2020-11-17 05:51:16

邊緣智能物聯(lián)網(wǎng)設備物聯(lián)網(wǎng)

2024-01-31 09:37:48

2025-04-02 08:00:00

2020-10-11 16:55:06

邊緣計算網(wǎng)絡云計算

2020-09-25 16:27:06

網(wǎng)絡安全

2024-12-09 08:15:43

2025-01-08 08:21:16

2023-08-15 14:18:19

智能研究

2010-01-14 09:40:27

2024-11-07 13:19:03

2024-07-11 15:26:23

2020-12-08 22:26:02

AI人工智能人臉識別
點贊
收藏

51CTO技術棧公眾號