視覺模型底座超越OpenAI,格靈深瞳開啟多模態(tài)落地的Scaling Law
大模型時代,有個大家普遍焦慮的問題:如何落地?往哪落地?
聚光燈下最耀眼的OpenAI,最近也先被曝出資金告急,后又尋求新一輪10億美元新融資。
但在中國,有這么一家公司:
它的多模態(tài)大模型不僅在多個權威數(shù)據(jù)集上的表現(xiàn)超過了OpenAI,更是用一個個落地案例告訴大家,大模型并不僅僅包括大語言模型,視覺大模型和多模態(tài)大模型在產(chǎn)業(yè)界有更大的想象空間。
這家公司就是格靈深瞳,它曾因“A股AI視覺第一股”的標簽為人熟知,如今以新姿態(tài)再次刷新外界認知:大模型落地先行者。
- 銀行安防領域,AI算法規(guī)模化應用,落地10000+銀行網(wǎng)點
- 城市管理領域,交通治理業(yè)務在10余個省市開展試點及落地應用
- 商業(yè)零售領域,智慧案場解決方案落地全國20余省市近1000個項目
- 體育教育領域,相關產(chǎn)品方案已在全國多個校園試點應用,為100000+名在校師生提供日常教學支持與考試服務
……
取得這樣的成績背后,離不開格靈深瞳在大模型技術層面取得的進展:
- 自研視覺大模型Unicom v2,在多業(yè)務數(shù)據(jù)集上平均優(yōu)于OpenAI的CLIP、Meta的DINOv2和蘋果的DFN
- 基于Unicom的深瞳靈感-7B多模態(tài)大模型在業(yè)界同等規(guī)模的VLM模型中居領先地位,優(yōu)于業(yè)界普遍使用的OpenAI CLIP和谷歌 SigLIP
其中,Unicom v2相關論文還入選AI頂會ECCV 2024。
雖然現(xiàn)在不加限定的使用“大模型”一詞,默認就是指“大型語言模型”,Large Language Model。
但從格靈深瞳的故事中可以看到,視覺大模型、多模態(tài)大模型在原本視覺AI的存量市場依然大有可為,而且壁壘依然深厚。
多模態(tài)給傳統(tǒng)視覺AI帶來什么改變?
早在2022年,格靈深瞳就開始自研視覺大模型,但當時想要推進落地,還是遇到了瓶頸:
今天已為人熟知的大模型、Transformer、Scaling Law等等,當時還未成為行業(yè)共識。彼時的主流是不斷優(yōu)化卷積神經(jīng)網(wǎng)絡,把模型做小、最好能直接在邊緣設備運行。
總而言之,當時很難說服客戶接受大模型這一前沿但成本高昂的技術。
然而ChatGPT橫空出世,徹底改變了這一切。
一方面,它以直觀的人機對話方式向公眾展示了算力與效果的正相關,人們終于意識到“大量投入算力,才能獲得理想中的效果”。
另一方面,硬件也開始主動適配Transformer算法,比如英偉達在Hopper架構GPU中首次引入專用Transformer引擎。
從某種意義上說,ChatGPT是替所有AI公司做好了教育市場的工作。
視覺AI在這一階段經(jīng)歷了與語言模型類似的,從“模塊化”到“一體化”的范式轉變。
傳統(tǒng)的檢測、分割、分類等任務需要針對性設計復雜的特征工程和網(wǎng)絡結構,而視覺大模型則以統(tǒng)一的Transformer骨干直接學習圖像到特征再到應用輸出的端到端映射。
格靈深瞳自研視覺大模型Unicom系列就是這一轉變的成果,通過做大數(shù)據(jù)的規(guī)模、做大計算的規(guī)模來做強通用能力,讓模型以統(tǒng)一的方式對世界進行“理解”和“泛化”。
如果說視覺大模型是讓AI“看到了世界”,再結合語言模型則是讓AI升級為“看懂了世界”,大大拓寬了應用邊界。
以格靈深瞳多年深耕的銀行安防行業(yè)為例,如何讓AI判斷攝像頭畫面中是否有人在打架?
這涉及動作識別、對視角遮擋的推斷等等多項難點,在AI 1.0時代需要復雜的規(guī)則和閾值設計,再加上難以采集的數(shù)據(jù)樣本,工程量巨大且效果有限。
而加入語言模型后,只需把視頻幀連續(xù)輸入并描述場景,模型就能從語義層面判斷這是否屬于打斗行為。
“面對各種長尾、復雜場景,多模態(tài)的優(yōu)勢就體現(xiàn)出來了?!?strong>格靈深瞳工程研發(fā)副總裁周瑞認為,“它讓以前難以想象的應用變成了可能?!?/p>
同樣,在工業(yè)質檢領域,以前要針對每種缺陷去采集標注數(shù)據(jù),代價高昂且泛化性差,更何況一些稀有缺陷數(shù)據(jù)總量根本就不夠。
而通用視覺大模型具備少樣本學習、跨場景泛化的能力,再結合上語言模型的多模態(tài)生成范式,現(xiàn)在AI只要智能識別到缺陷,同時就能給出文字描述,供現(xiàn)場工作人員參考。
除了在單項任務中,多模態(tài)大模型的推理和生成能力,還可以在整個系統(tǒng)中承擔任務分配的“路由”作用。
例如格靈深瞳覆蓋某銀行10000+網(wǎng)點的解決方案,形成總-分-支三層架構:總行利用大模型訓練通用模型,分發(fā)至各地分行。各省分行結合自身業(yè)務特點,定期微調優(yōu)化模型。支行則直接應用本地分行下發(fā)的模型調用服務。
在視頻結構化方面,邊緣端負責提取人、車、物等目標的實時信息并上傳。若無法判別的復雜場景,則發(fā)送至中心端請求二次識別。云端利用多模態(tài)大模型,從語義層面對場景內容做更全面的理解。
此外,基于多模態(tài)大模型強大的數(shù)據(jù)匯聚與語義理解能力,該行還打通了原本割裂的各類監(jiān)控數(shù)據(jù)。目前正著手建設一套覆蓋全行的“AI中臺”,可靈活調度跨網(wǎng)點、跨系統(tǒng)的數(shù)據(jù)和算力,快速響應總分支的各種臨時需求。
這套架構能隨時利用零散的多模態(tài)數(shù)據(jù)對大模型做增量學習提升,讓整個銀行集團的AI平臺像一個不斷進化的“中央大腦”。
弱監(jiān)督學習開啟視覺的Scaling Law
格靈深瞳視覺大模型的進化之路,開始于做自研的視覺基座模型Unicom。
最初的v1版本參考人臉識別的特征學習方式,把網(wǎng)絡直接改成了ViT結構,數(shù)據(jù)也從人臉擴展到4億通用圖像,精度就超過了當時最好的對比學習模型。
但圖像數(shù)據(jù)不像文本,天然就有高密度的語義信息,無需標注就能通過“預測下一個token”任務進行無監(jiān)督學習。
如何擴大視覺大模型數(shù)據(jù)規(guī)模,無需標注也能利用好更多圖像數(shù)據(jù)呢?
格靈深瞳團隊逐漸探索出一種新穎的弱監(jiān)督方式:先用一個特征聚類模型,把相似圖片自動歸類到一起,視為同一類別。然后基于聚類結果,為每張圖像分配一個“軟標簽”,作為訓練目標。
這種做法為無標簽數(shù)據(jù)注入了豐富的語義信息。
具體來說,格靈深瞳開發(fā)了多標簽聚類辨別 (MLCD)方法,在聚類步驟中為每個圖像選擇多個最近的聚類中心作為輔助類標簽,以考慮圖像中不同粒度的視覺信號。
與此配合,他們還設計了一種消除多標簽分類歧義的損失函數(shù)。
不同于常規(guī)的多標簽損失函數(shù)通過縮小類內相似度和類間相似度的相對差距來優(yōu)化,本文引入了另外兩個優(yōu)化目標:最小化類間相似度和最大化類內相似度,從而可以優(yōu)雅地分離正類損失和負類損失,減輕決策邊界上的歧義。
團隊在更大規(guī)模的模型和數(shù)據(jù)集上進行了實驗驗證,進一步證明了所提出方法的有效性和可擴展性。
Unicom v2正是基于這一思路,將數(shù)據(jù)規(guī)模、參數(shù)規(guī)模再次擴大,精度再創(chuàng)新高,成功刷新多項記錄。
有了Unicom強大的通用視覺理解能力,再結合上語言模型,就組成了深瞳靈感-7B多模態(tài)大模型。
該模型不僅在傳統(tǒng)的單圖問答上表現(xiàn)優(yōu)異,在多圖推理、圖文增量學習等前沿任務上也展現(xiàn)出了巨大潛力。
正如格靈深瞳在22年就開始探索ViT架構的視覺大模型落地,現(xiàn)在研究團隊也在思考什么是能超越Transformer的下一代架構。
最近,他們嘗試用RWKV(Receptance Weighted Key Value)這一基于RNN的序列建模方法替代主流的ViT架構,訓練出了視覺語言模型RWKV-CLIP。
RWKV能在線性時間內處理任意長度序列,大幅降低推理時的計算復雜度,有望釋放多模態(tài)AI能力在更多邊緣、終端設備上。
值得一提的是,格靈深瞳還將RWKV-CLIP代碼和模型權重開源到GitHub,供業(yè)界一起探討,共同進步。
視覺AI公司做多模態(tài),是一種不同的打法
放眼當下,不乏大模型公司試水多模態(tài)應用。
但多是簡單的技術Demo、帶上傳圖片的聊天機器人、個人AI助手等輕量級形態(tài)切入,真正深入產(chǎn)業(yè)的尚不多見。
歸根到底,把AI算法與特定行業(yè)場景深度融合的經(jīng)驗,是難以在短期內獲得的。
讓多模態(tài)大模型技術在更多地方發(fā)揮價值,還需要有視覺AI基因、掌握行業(yè)場景的公司。
拿著大模型到處找落地場景,和在已深耕多年的場景用大模型做升級改造,是兩種完全不同的打法。
縱觀歷史,互聯(lián)網(wǎng)作為現(xiàn)代社會的一種基礎設施,幾十年來積累的大量文本數(shù)據(jù),最終成就了大語言模型公司。
接下來,視覺AI時代建設的大量攝像頭、積累的圖像視頻數(shù)據(jù)也會成就一批多模態(tài)大模型公司。
至于為什么是語言模型先一步完成蛻變,格靈深瞳認為是圖像數(shù)據(jù)中的分布更不均勻,比如很容易獲得一家上市公司的財報文檔,但很難通過開放數(shù)據(jù)來獲取一家公司大量的圖像。
到了專業(yè)細分場景,如醫(yī)療影像、工業(yè)缺陷,可獲取的訓練數(shù)據(jù)體量更是遠不及互聯(lián)網(wǎng)語料。
但換個角度從應用價值來看,視覺數(shù)據(jù)直接反映現(xiàn)實世界,與城市治理、工業(yè)生產(chǎn)、商業(yè)運營等領域的痛點訴求高度契合。
從圖像數(shù)據(jù)中提取出價值更難,也更值得做。
格靈深瞳正是這樣一家將技術創(chuàng)新與行業(yè)理解相結合的先行者。十多年來,公司始終堅持在智慧金融、城市治理等領域精耕細作,打磨出一整套面向行業(yè)的數(shù)字化解決方案。
這些方案不僅考慮了算法本身的創(chuàng)新,更融入了大量行業(yè)知識和實踐經(jīng)驗,形成獨特的競爭壁壘。
這種積淀,讓格靈深瞳在多模態(tài)大模型應用落地中先人一步:既能洞悉行業(yè)痛點,設計好落地路徑,又能調動資源快速迭代。大到頂層的商業(yè)模式設計,小到一線的模型適配、部署,公司上下形成了一套成熟的方法論。
大模型帶來的是一個構建行業(yè)AI應用的全新技術范式。多模態(tài)感知、跨域推理、小樣本學習等能力的提升,從根本上拓展了AI的想象空間。
但歸根結底,技術只是實現(xiàn)愿景的工具,行業(yè)才是應用的土壤。惟有深耕行業(yè),AI才能開花結果。