自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

九章云極DataCanvas多模態(tài)大模型平臺的實踐和思考

人工智能 算法
本文將分享九章云極 DataCanvas 在多模態(tài)大模型平臺方面的一些思考和實踐。多模態(tài)大模型可以為我們做很多事情,例如視頻理解,大模型可以幫我們總結(jié)視頻的摘要以及關(guān)鍵信息,從而節(jié)約我們看視頻的時間;大模型還可以幫助我們進行視頻的后期分析,例如節(jié)目分類、節(jié)目收視率統(tǒng)計等;此外,文生圖也是多模態(tài)大模型的一個重要的應(yīng)用領(lǐng)域。

一、多模態(tài)大模型的歷史發(fā)展

圖片

上圖這張照片是1956 年在美國達特茅斯學(xué)院召開的第一屆人工智能workshop,這次會議也被認(rèn)為拉開了人工智能的序幕,與會者主要是符號邏輯學(xué)屆的前驅(qū)(除了前排中間的神經(jīng)生物學(xué)家Peter Milner)。

然而這套符號邏輯學(xué)理論在隨后的很長一段時間內(nèi)都無法實現(xiàn),甚至到 80 年代90年代還迎來了第一次AI寒冬期。直到最近大語言模型的落地,我們才發(fā)現(xiàn)真正承載這個邏輯思維的是神經(jīng)網(wǎng)絡(luò),神經(jīng)生物學(xué)家Peter Milner的工作激發(fā)了后來人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,也正因為此他被邀請參加了這個學(xué)術(shù)研討會。

圖片

2012年,Tesla自動駕駛主管Andrew在博客上發(fā)布了上面這張圖,顯示當(dāng)時美國總統(tǒng)奧巴馬和自己的下屬開玩笑。要讓人工智能去理解這張圖,不僅是一個視覺感知任務(wù),因為除了要識別物體,還需要理解他們之間的關(guān)系;只有知道體重秤的物理原理,才能知道圖里描述的故事:奧巴馬踩了秤,導(dǎo)致秤上的人體重升高,他因此做出了這個奇怪的表情,同時其他人在一旁笑。這樣的邏輯思維顯然已經(jīng)超出了純粹的視覺感知范疇,因此必須將視覺認(rèn)知和邏輯思維結(jié)合到一起,才能擺脫“人工智障”的尷尬,而多模態(tài)大模型的重要性和困難性也體現(xiàn)在這里。

圖片

上圖是人類大腦的解剖結(jié)構(gòu)圖,圖中的語言邏輯區(qū)對應(yīng)的就是大語言模型,而其他的區(qū)域則分別對應(yīng)著不同的感官,包括視覺、聽覺、觸覺、運動、記憶等等。雖然人工神經(jīng)網(wǎng)絡(luò)并不是真正意義上的腦神經(jīng)網(wǎng)絡(luò),但還是可以從中受到一些啟發(fā),即構(gòu)造大模型的時候,可以將不同的功能聯(lián)合在一起,這也是多模態(tài)模型構(gòu)建的基本思想。

1、多模態(tài)大模型可以做什么?

圖片

多模態(tài)大模型可以為我們做很多事情,例如視頻理解,大模型可以幫我們總結(jié)視頻的摘要以及關(guān)鍵信息,從而節(jié)約我們看視頻的時間;大模型還可以幫助我們進行視頻的后期分析,例如節(jié)目分類、節(jié)目收視率統(tǒng)計等;此外,文生圖也是多模態(tài)大模型的一個重要的應(yīng)用領(lǐng)域。

而大模型如果和人的運動,或者機器人的運動聯(lián)合在一起,就會產(chǎn)生一個具身智能體,就像人一樣,基于過往經(jīng)驗規(guī)劃最佳路徑的方法,并應(yīng)用到全新的場景中,解決一些先前沒有遇見過的問題,同時規(guī)避風(fēng)險;甚至可以在執(zhí)行過程中修改原有計劃,直到最后獲得成功。這也是一個具有廣泛前景的應(yīng)用場景。

2、多模態(tài)大模型

圖片

上圖是多模態(tài)大模型在發(fā)展過程中的一些重要節(jié)點:

  • 2020年的ViT模型(Vision Transformer)是大模型的開端,首次將Transformer架構(gòu)用到除語言和邏輯處理外的其它類型數(shù)據(jù)(視覺數(shù)據(jù)),并且顯示了良好的泛化能力;
  • 隨后通過OpenAI開源的CLIP模型,再次證明了通過ViT和大語言模型的使用,視覺任務(wù)實現(xiàn)了很強的長尾泛化能力,即通過常識推測先前沒有見過的類別
  • 到了2023年,各式各樣的多模態(tài)大模型逐漸顯現(xiàn),從PaLM-E(機器人),到 whisper(語音識別),再到ImageBind(圖像對齊),再到Sam(語義分割),最后到地理圖像;還包括微軟的統(tǒng)一多模態(tài)架構(gòu)Kosmos2,多模態(tài)大模型發(fā)展迅速。
  • 特斯拉在6月的CVPR還提出了通用世界模型這樣的愿景。

從上圖可以看出,短短半年時間,大模型就發(fā)生了非常多的變化,其迭代速度是非常快的。

3、模態(tài)對齊架構(gòu)

圖片

上圖是多模態(tài)大模型的通用架構(gòu)圖,包含一個語言模型、一個視覺模型,通過固定語言模型和固定視覺模型進而學(xué)習(xí)對齊模型;而對齊就是將視覺模型的矢量空間和語言模型的矢量空間進行聯(lián)合,進而在統(tǒng)一的矢量空間里完成兩者內(nèi)在邏輯關(guān)系的理解。

圖中所示的Flamingo模型和BLIP2模型都采用類似的結(jié)構(gòu)(Flamingo模型采用Perceiver架構(gòu),而BLIP2模型采用改良版的Transformer架構(gòu));然后通過多種對比學(xué)習(xí)的方法進行預(yù)訓(xùn)練,對海量的token進行大量學(xué)習(xí),獲得較好的對齊效果;最后根據(jù)特定的任務(wù)對模型進行微調(diào)。

二、九章云極DataCanvas的多模態(tài)大模型平臺

1、AI Foundation Software (AIFS)

九章云極DataCanvas是人工智能基礎(chǔ)軟件提供商,同時提供算力資源(包括GPU集群),進行高性能的存儲和網(wǎng)絡(luò)優(yōu)化,在此基礎(chǔ)上提供大模型的訓(xùn)練工具,包括數(shù)據(jù)標(biāo)注建模實驗沙盒等。九章云極DataCanvas不僅支持市面上常見的開源大模型,同時也在自主研發(fā)元識多模態(tài)大模型。在應(yīng)用層,提供了工具對提示詞進行管理,對模型進行微調(diào),并提供模型運維機制。同時,還開源了一款多模向量數(shù)據(jù)庫,讓基礎(chǔ)軟件架構(gòu)更加豐富。

圖片

2、模型工具LMOPS

圖片

九章云極DataCanvas專注于全生命周期的開發(fā)的優(yōu)化,包括數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)標(biāo)注支持人工標(biāo)注和智能標(biāo)注)、模型開發(fā)、模型評估(包括橫向評估和縱向評估)、模型推理(支持模型量化、知識蒸餾等加速推理機制)、模型應(yīng)用等。

3、LMB –Large Model Builder

圖片

在構(gòu)建模型時,進行了很多分布式高效優(yōu)化工作,包括數(shù)據(jù)并行、Tensor并行、管道并行等。這些分布式優(yōu)化工作是一鍵式完成的,并支持可視化調(diào)控,可以大大減少人力成本,提升開發(fā)效率。

4、LMB –Large Model Builder

圖片

對于大模型tuning也進行了優(yōu)化,包括常見的continue training、supervise tuning,以及reinforcement learning中的human feedback等。此外,對于中文也進行了很多優(yōu)化,例如中文詞表的自動擴展。因為很多中文詞匯并未包含在開源大模型中,這些詞匯可能會被拆分成多個token;將這些詞匯進行自動擴充,可以讓模型更好地使用這些詞匯。

5、LMS –Large Model Serving

圖片

大模型的serving也是非常重要的一個組成部分,平臺對模型量化、知識蒸餾等環(huán)節(jié)也進行了大量的優(yōu)化,大大降低了計算成本,并通過逐層知識蒸餾來加速transformer,減少其計算量。與此同時,也做了很多剪枝工作(包括結(jié)構(gòu)化剪枝、稀疏剪枝等),大大提升了大模型的推理速度。

此外,對交互式對話過程也進行了優(yōu)化。例如多輪對話Transformer中,每個tensor的key和value是可以記住的,無需重復(fù)計算。因此,可將其存入Vector DB中,實現(xiàn)對話歷史記憶功能,提升交互過程中的用戶體驗。

6、Prompt Manager

大模型提示詞設(shè)計和構(gòu)建工具Prompt Manager,通過幫助用戶設(shè)計更好的提示詞,引導(dǎo)大模型生成更加準(zhǔn)確、可靠、符合預(yù)期的輸出內(nèi)容。該工具既可面向技術(shù)人員提供development toolkit的開發(fā)模式,也可以面向非技術(shù)人員提供人機交互的操作模式,滿足不同人群使用大模型的需求。

其主要功能包括:AI模型管理、場景管理、提示詞模板管理、提示詞開發(fā)和提示詞應(yīng)用等。

圖片

平臺提供了常用的提示詞管理工具,可實現(xiàn)版本控制,并提供常用模板來加速提示詞的實現(xiàn)。

三、九章云極DataCanvas多模態(tài)大模型的實踐

1、多模態(tài)大模型——有記憶體

介紹完平臺功能,接下來會分享多模態(tài)大模型開發(fā)實踐。

圖片


上圖是九章云極DataCanvas多模態(tài)大模型的基本框架,與其它多模態(tài)大模型不同的一點是,它包含記憶體,可以提升開源大模型的推理能力。

一般開源大模型的參數(shù)量相對較低,如果再耗用一部分參數(shù)量進行記憶,其推理能力將會大幅下降。如果給開源大模型增加記憶體,則會同時提升推理能力和記憶能力。

此外,類似大多數(shù)模型,多模態(tài)大模型也會固定大語言模型和固定數(shù)據(jù)編碼,針對對齊功能進行單獨的模塊化的訓(xùn)練;因此,所有不同的數(shù)據(jù)模態(tài)都會對齊到文本中的邏輯部分;在推理的過程,首先對語言進行翻譯,然后進行融合,最后進行推理工作。

2、非結(jié)構(gòu)化數(shù)據(jù)ETL Pipeline

圖片

由于我們的DingoDB多模向量數(shù)據(jù)庫結(jié)合了多模態(tài)與ETL的功能,因此能夠提供良好的非結(jié)構(gòu)化數(shù)據(jù)管理能力。平臺提供pipeline ETL功能,并做了很多優(yōu)化,包括算子編譯、并行處理,以及緩存優(yōu)化等。

此外,平臺提供Hub,可以將pipeline重復(fù)使用,實現(xiàn)最高效的開發(fā)體驗。同時,支持 Huggingface上的眾多編碼器,可以實現(xiàn)對不同模態(tài)數(shù)據(jù)的最優(yōu)編碼。

3、多模態(tài)大模型構(gòu)建方法

九章云極DataCanvas將元識多模態(tài)大模型作為底座,支持用戶選擇其它開源大模型,也支持用戶使用自己的模態(tài)數(shù)據(jù)進行訓(xùn)練。

多模態(tài)大模型的構(gòu)建大概分為三個階段:

  • 第一階段:固定大語言模型和模態(tài)編碼器訓(xùn)練對齊和查詢;
  • 第二階段(可選,支持多模態(tài)搜索):固定大語言模型,模態(tài)編碼器,對齊和查詢模塊,訓(xùn)練檢索模塊;
  • 第三階段(可選,對特定任務(wù)):指令微調(diào)大語言模型。

4、案例-知識庫建設(shè)

圖片


大模型中的記憶體架構(gòu),可以幫助我們實現(xiàn)多模態(tài)知識庫建設(shè),該知識庫實際上是模型的應(yīng)用。知乎就是一個典型的多模態(tài)知識庫應(yīng)用模塊,其專業(yè)知識是可以溯源的。

為了保證知識的確定性和安全性,往往需要對專業(yè)知識進行溯源,知識庫就可以幫助我們實現(xiàn)這此功能,同時新的知識添加也會比較方便,無需修改模型參數(shù),直接把知識添加進數(shù)據(jù)庫即可。

具體來說,將專業(yè)知識通過編碼器進行不同的編碼選擇,同時根據(jù)不同的評價方法進行統(tǒng)一評價,通過一鍵評價來實現(xiàn)編碼器的選擇。最后應(yīng)用編碼器向量化之后存入DingoDB多模向量數(shù)據(jù)庫,再通過大模型的多模態(tài)模塊進行相關(guān)信息提取,通過語言模型來進行推理。

模型的最后一部分往往需要進行指令精調(diào),由于不同用戶的需求不太一樣,因此需要對整個多模態(tài)大模型進行精調(diào)。由于多模態(tài)知識庫在組織信息這部分特殊的優(yōu)勢,使得模型具備學(xué)習(xí)檢索的能力,這也是我們在文本的段落化過程中做的創(chuàng)新。

一般的知識庫是將文檔進行段落化,然后對每一段進行獨立的文本解鎖。這種方法容易受到噪聲的干擾,對于很多大的文檔,很難判定段落劃分的標(biāo)準(zhǔn)。

而我們的模型中,檢索模塊進行學(xué)習(xí),模型自動尋找合適的結(jié)構(gòu)化信息組織。對于某個具體產(chǎn)品,從產(chǎn)品說明書開始,首先定位大的目錄段落,再定位到具體的段落。同時由于是多模態(tài)的信息集成,除了文字以外往往還會包含圖像表格等,也可以進行向量化表達,再結(jié)合Meta信息,實現(xiàn)聯(lián)合檢索,從而提升檢索效率。

值得說明的是,檢索模塊使用內(nèi)存注意力機制,相較于同類算法可提升10%的召回率;同時可將內(nèi)存注意力機制用于多模態(tài)文檔處理,這也是非常有優(yōu)勢的一個方面。

圖片

圖片

四、對未來的思考與展望

1、企業(yè)數(shù)據(jù)管理 -- 知識庫

圖片

企業(yè)中85%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),只有15%是結(jié)構(gòu)化的數(shù)據(jù)。過去的20年,人工智能主要是圍繞結(jié)構(gòu)化數(shù)據(jù)展開的,而非結(jié)構(gòu)化數(shù)據(jù)是非常難以利用的,需要非常大的精力和代價將其轉(zhuǎn)化處理為結(jié)構(gòu)化數(shù)據(jù)。而借助多模態(tài)大模型和多模態(tài)知識庫,通過人工智能新范式,可以大大提升企業(yè)內(nèi)部管理中非結(jié)構(gòu)化數(shù)據(jù)的利用率,未來可能會帶來10倍的價值增長。

2、知識庫--> 智能體(Agent)

圖片

多模態(tài)知識庫作為智能體的基礎(chǔ),之上的研發(fā)agent、客服agent、銷售agent、法律agent,人力資源agent,企業(yè)運維 agent等功能都可以通過知識庫進行運作。

以銷售agent為例,常見架構(gòu)包括兩個agent同時存在,其中一個負責(zé)決策,另一個負責(zé)銷售階段的分析。這兩個模塊都可以通過多模態(tài)知識庫尋找相關(guān)信息,包括產(chǎn)品信息、歷史銷售統(tǒng)計資料、客戶畫像、過往銷售經(jīng)驗等,這些信息整合到一起,幫助這兩個agent做最好、最正確的決定,這些決定反過來幫助用戶獲得最好的銷售信息,再記錄到多模態(tài)數(shù)據(jù)庫集中,如此循環(huán)往復(fù),不斷提升銷售業(yè)績。

我們相信未來最有價值的企業(yè),是將智能體落到實處的企業(yè)。希望九章云極DataCanvas可以跟大家一路同行,相互助力。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2024-04-30 10:41:12

智算操作系統(tǒng)九章云極

2021-05-18 10:56:39

九章云極人工智能

2021-09-23 11:53:46

九章云極DataCanvas

2023-11-21 18:45:39

九章云極AI算力大模型

2020-04-22 14:58:39

人工智能數(shù)據(jù)科學(xué)深度學(xué)習(xí)

2023-07-03 10:22:44

大模型向量海人工智能
點贊
收藏

51CTO技術(shù)棧公眾號