曠視實戰(zhàn)大模型:把多模態(tài)扎進行業(yè)
距離ChatGPT、GPT-4等引爆新一輪人工智能變革的時刻,已經(jīng)過去了整整一年的時間。在這一年里,國內(nèi)外大量公司涌入大模型的“斗獸場”,加速大模型技術(shù)的迭代與躍遷。
大模型前所未有的通用任務(wù)處理能力,讓所有人看到了解鎖更多應(yīng)用場景的可能性。各行各業(yè)開始從自身業(yè)務(wù)出發(fā),探索與大模型結(jié)合的可能性,對大模型的渴求遠勝以往。
但在這喧囂的背后,越來越多的業(yè)內(nèi)外人士開始冷靜思考這樣的問題:
大模型能做什么?大模型何時變現(xiàn)?
置于中國獨特的技術(shù)創(chuàng)新土壤,這是一道難以回避的命題。
△圖:由DALL·E 3生成
中國AI行業(yè)經(jīng)過多年發(fā)展,雖然在生物識別、工業(yè)機器人、自動駕駛這樣的領(lǐng)域,取得了一定程度的突破,但真正被技術(shù)顛覆、大規(guī)模落地的產(chǎn)品和應(yīng)用并未出現(xiàn)。
過去在小模型時代沒有解決的難題,會隨著大模型的到來迎刃而解嗎?
作為國內(nèi)最早一批人工智能創(chuàng)業(yè)公司,曠視經(jīng)歷過AI技術(shù)創(chuàng)新和商業(yè)化探索的起起伏伏。面對大模型引爆的新一輪AI浪潮,曠視是如何看待和布局的?
錨定多模態(tài)大模型
“從技術(shù)演進看,無論是之前的AlphaGo,還是如今的大模型,本質(zhì)上都是深度學(xué)習(xí)的延續(xù)。這輪人工智能技術(shù)的發(fā)展浪潮只有一項核心技術(shù)能力,那就是深度學(xué)習(xí)?!睍缫暵?lián)合創(chuàng)始人、CEO印奇表示,從CNN、ResNet到Transformer,深度學(xué)習(xí)是底層最核心的技術(shù)主軸。
大模型的爆發(fā),源于學(xué)術(shù)界和產(chǎn)業(yè)界過去十幾年在NLP、視覺、語音等深度學(xué)習(xí)核心領(lǐng)域研究成果的積累,這是一個從量變到質(zhì)變的過程。
從小模型走向大模型,變化的是模型的規(guī)模與性能,不變的是深度學(xué)習(xí)這條主線。在印奇看來,深度學(xué)習(xí)引發(fā)的創(chuàng)業(yè)潮中,雖然很多公司聲稱自己是AI公司,但大多數(shù)還是在做AI行業(yè)應(yīng)用。
曠視從成立開始就一直沿著計算機視覺的方向,堅持做深度學(xué)習(xí)的基礎(chǔ)科研。“曠視在深度學(xué)習(xí)領(lǐng)域有核心能力積累,這是我們持續(xù)引領(lǐng)創(chuàng)新的根基”。
如今,隨著大模型技術(shù)的躍遷,視覺模型領(lǐng)域呈現(xiàn)出“大”和“統(tǒng)一”的趨勢?!按蟆币馕吨髷?shù)據(jù)、大算力和大參數(shù)量,“統(tǒng)一”體現(xiàn)在NLP、視覺、語音等模態(tài)的融合,以及感知、理解和生成能力的融合。
作為一家以視覺技術(shù)見長的AI公司,曠視將視覺模型和語言模型結(jié)合,大力發(fā)展多模態(tài)大模型,實現(xiàn)對多模態(tài)信息的綜合理解與分析。
印奇表示,曠視的目標(biāo)從第一天就沒有變過,就是走向AGI。而我們的路徑也比較明確,就是要軟硬結(jié)合。多模態(tài)大模型是當(dāng)前最重要的環(huán)節(jié),我們會專注這個領(lǐng)域的科研。
△圖:由DALL·E 3生成
曠視的研究院團隊從很早開始就投入大模型的研究,在視覺技術(shù)、底層框架和數(shù)據(jù)閉環(huán)等方面積累了大量基礎(chǔ)科研成果和科研人才,為多模態(tài)大模型的持續(xù)迭代奠定了基礎(chǔ)。
曠視提出的多模態(tài)大模型,是視覺在走向“大”和“統(tǒng)一”的過程中,與NLP深度結(jié)合的產(chǎn)物,是多模態(tài)的語言與視覺理解模型。
基于長期積累的行業(yè)經(jīng)驗,曠視將??多模態(tài)?模型定位在數(shù)?億?數(shù)百億參數(shù)級別的中?模型上。位于這個區(qū)間的大模型,本身具備較強的通用屬性,同時在行業(yè)部署成本、效率以及硬件適配等方面也是更優(yōu)解。
隨著OpenAI Sora模型的問世,多模態(tài)大模型近期引燃了各行各業(yè)。雖然視頻生成是Sora最直觀的亮點,但更令人驚嘆的是它揭示出多模態(tài)模型對于圖片、視頻等強大的理解能力。
“Sora展現(xiàn)出的是OpenAI在走向AGI的過程中一個重要的中間態(tài)技術(shù)關(guān)鍵點,我們重點是要理解其底層的技術(shù)框架,而不是Sora應(yīng)用本身。”印奇認為,在圖像視頻的領(lǐng)域,要將“生成”和“理解”分開來看。
如果將Sora作為獨立應(yīng)用來看,它體現(xiàn)的是生成能力,核心應(yīng)用場景更偏C端。而曠視會聚焦在感知理解能力上,其多模態(tài)大模型是針對圖片、視頻、文字等不同模態(tài),綜合實現(xiàn)感知、理解和推理的引擎。
曠視會更專注于理解能力上,并在此基礎(chǔ)上面向2B業(yè)務(wù)打造行業(yè)應(yīng)用。相信多模態(tài)大模型一定能解鎖更多的行業(yè)應(yīng)用場景。
把多模態(tài)大模型扎進行業(yè)中去
盡管行業(yè)內(nèi)外對于大模型的期待頗高,但一個普遍的行業(yè)共識是,目前的基礎(chǔ)大模型對于需求多元化的行業(yè)不具備廣泛的適用性。
在將大模型能力遷移到各行各業(yè)的過程中,不可避免會遇到復(fù)雜的場景需求。企業(yè)用戶在評估大模型的時候,會綜合考量應(yīng)用場景、數(shù)據(jù)安全、升級維護和成本效益等因素。
對于大模型公司而言,這就意味著有大量“最后一公里”的工作要做,例如場景技術(shù)匹配、端到端部署、軟硬件適配和安全性等。
在印奇看來,隨著大模型時代的到來,“最后一公里”的效率會大幅提升、成本會顯著下降。但是,行業(yè)落地“最后一公里”的問題仍然存在。他表示,曠視的路徑選擇,是要堅定地走B端商業(yè)化的路徑。
△圖:由DALL·E 3生成
對于B端業(yè)務(wù)而言,僅僅憑借基礎(chǔ)大模型是難以切實落地的,ROI很難轉(zhuǎn)正。因此,曠視會重點推動多模態(tài)大模型在行業(yè)的應(yīng)用,切入行業(yè)去做行業(yè)大模型。
大模型應(yīng)用到具體行業(yè),需要端到端的方案,門檻并不低,必須具備對于模型、系統(tǒng)、數(shù)據(jù)和行業(yè)的綜合理解能力。
首先,從技術(shù)角度看,絕不是將開源模型稍微調(diào)整一下就好,必須具備端到端的大模型能力。
其次,從行業(yè)角度看,本質(zhì)上還是要以客戶為中心,與客戶共創(chuàng)行業(yè)大模型。行業(yè)know-how的積累,在大模型時代依然是稀缺的能力。
多年來,曠視服務(wù)了眾多的行業(yè)頭部客戶,在重點行業(yè)積累了專業(yè)的知識與經(jīng)驗。目前,曠視正在與金融、運營商、手機、智能汽車等領(lǐng)域的客戶一起,推動大模型在行業(yè)的落地。
“目前走得比較快的還是金融行業(yè)。”曠視科技資深副總裁、云服務(wù)事業(yè)部負責(zé)人趙立威解釋道,“從去年年中開始,我們服務(wù)的一些金融類的客戶就開始大模型探索了。因為它們本身具有一定的基礎(chǔ)能力儲備,再加上對新技術(shù)敏感,因此對創(chuàng)新的渴求異常迫切。”
趙立威表示,大模型在像金融行業(yè)這樣典型的數(shù)據(jù)密集型、知識密集型行業(yè)一定大有可為。在他看來,從實際效果來看,大模型在短期內(nèi)“增效”的效果要大于“降本”,也更能為客戶所接受。
但是,大模型要做到行業(yè)增效,是一項異常復(fù)雜的工程。很多行業(yè)客戶基于大數(shù)據(jù)、ERP、CRM等傳統(tǒng)IT能力,已經(jīng)形成了標(biāo)準業(yè)務(wù)流程。
如果僅僅是將大模型簡單地替換原有的IT體系,增益將會非常有限。只有充分理解已有的業(yè)務(wù)需求和邏輯,顛覆以往的業(yè)務(wù)流程、組織關(guān)系甚至是決策體系,才能發(fā)揮大模型在增效方面的作用。大模型落地,絕不是簡單的技術(shù)問題,而是復(fù)雜的業(yè)務(wù)問題。這一輪大模型的落地,一定是要與客戶共創(chuàng)才能實現(xiàn)。
目前,圍繞金融行業(yè),曠視正在與銀行、保險等客戶合作,在金融風(fēng)控、智能客服、文檔/代碼寫作、圖文分析、市場營銷等業(yè)務(wù)場景進行大模型的探索。
趙立威表示,“今年肯定是一個從0到1的過程,最重要的還是從重點客戶入手,找到一些適合大模型的業(yè)務(wù)場景,并實現(xiàn)業(yè)務(wù)閉環(huán)。這是我們的第一優(yōu)先級?!?/p>