對話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺智能
通用語言模型率先起跑,但通用視覺模型似乎遲到了一步。
究其原因,語言中蘊(yùn)含大量序列信息,能做更深入的推理;而視覺模型的輸入內(nèi)容更加多元、復(fù)雜,輸出的任務(wù)要求多種多樣,需要對物體在時(shí)間、空間上的連續(xù)性有完善的感知,傳統(tǒng)的學(xué)習(xí)方法數(shù)據(jù)量大、經(jīng)濟(jì)屬性上也不理性...... 還沒有一套統(tǒng)一的算法來解決計(jì)算機(jī)對空間信息的理解。
2023 年,Meta AI 發(fā)布了首個(gè) "Segment Anything Model" (SAM),該模型無需專門的類別標(biāo)注,而是通過交互的方式對真實(shí)世界中動(dòng)態(tài)的任意物體進(jìn)行分割。其分割方法通用,可對不熟悉的物體和圖像進(jìn)行零樣本泛化,體現(xiàn)了對空間信息的處理和理解能力。這項(xiàng)工作獲得了 ICCV 2023 Best Paper Honorable Mention。
來自加州大學(xué)伯克利人工智能實(shí)驗(yàn)室 (BAIR) 的肖特特博士是該項(xiàng)工作的主要參與者之一。他評價(jià)說:“以往我們通過增加類別來提升模型效果,但 SAM 放棄了舊時(shí)代的很多枷鎖,放棄了特定的類別標(biāo)注的方式,提升了模型對空間的理解能力?!?/span>
這為 CV 新時(shí)代打開了一道門。
而不同于上一代視覺智能,新時(shí)代下產(chǎn)生的空間智能最大的場景體現(xiàn)在具身智能的應(yīng)用上,它讓機(jī)器人、自動(dòng)駕駛、無人機(jī)等硬件設(shè)備擁有像人類的眼睛一樣,感知世界,并產(chǎn)生與世界互動(dòng)的行動(dòng)力。
這就是 “看見不只是看見,更是理解到行動(dòng)” 的智能產(chǎn)生鏈條。
肖特特于 2015 年以優(yōu)異成績(summa cum laude)獲得了北京大學(xué)智能科學(xué)專業(yè)的理學(xué)學(xué)士學(xué)位,后于 2019 年在加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,并曾在 Facebook AI 研究院從事研究工作。作為年輕一代人工智能學(xué)者的代表樣本,他的多篇重要工作發(fā)表在包括《Science Robotics》、CVPR、ICCV、ECCV 和 NeurIPS 等主要期刊和會(huì)議上。
他認(rèn)為,未來 5-10 年 CV 要解決的是真實(shí)世界的問題,讓 AI 有人類一樣對物理空間的感知能力。
2023 年,特特沒有繼續(xù)留在 Meta,而是選擇了人生新路徑,成立 PromptAI,致力于打造通用視覺智能平臺,為機(jī)器賦予類人的視覺感知能力。
成立一年時(shí)間,PromptAI 獲得來自 UC Bekerley Pieter Abbeel 的投資與 Trevor Darrell 的技術(shù)支持。兩位教授同為伯克利人工智能實(shí)驗(yàn)室(BAIR)聯(lián)合主任,Trevor Darrell 教授在計(jì)算機(jī)視覺領(lǐng)域極大推動(dòng)了大規(guī)模感知的創(chuàng)新研究,而 Pieter Abbeel 教授是深度強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人領(lǐng)域的先驅(qū)人物。
公司其他成員都是十分年輕的 AI 研究員與工程師,在算法架構(gòu)、產(chǎn)品運(yùn)營、工程管理上擁有杰出經(jīng)驗(yàn)。
而追問 What's next 的精神,是 PromptAI 這群年輕的 AI 科學(xué)家找到問題答案的關(guān)鍵。
永遠(yuǎn)在提問 What’s next?
BV:PromptAI 在解決什么問題?
特特:發(fā)明創(chuàng)造跟人一樣有感知能力的空間智能模型,讓機(jī)器和算法成為人類額外的眼睛。
BV:為什么是 “發(fā)明創(chuàng)造”?很少聽到這個(gè)詞。
特特:“發(fā)明創(chuàng)造” 一定是技術(shù)驅(qū)動(dòng),但技術(shù)驅(qū)動(dòng)的東西不一定是 “發(fā)明創(chuàng)造”。舉個(gè)例子,在互聯(lián)網(wǎng)時(shí)代,我們可以用已有的互聯(lián)網(wǎng)技術(shù)來降本增效,這中間產(chǎn)生很多行業(yè)機(jī)會(huì)。這受到新技術(shù)的驅(qū)動(dòng),但并不是 “發(fā)明創(chuàng)造”。
而目前在計(jì)算機(jī)視覺領(lǐng)域,新的方式還沒有出現(xiàn),我們希望發(fā)明創(chuàng)造下一代視覺技術(shù),并定義新的人與機(jī)器交互的方式。
圖片來源:公司官網(wǎng)
BV:是什么時(shí)候產(chǎn)生創(chuàng)業(yè)想法的?
特特:我們看到了 AI 給人類社會(huì)帶來的這個(gè)機(jī)會(huì):人類能看到的東西,計(jì)算機(jī)也能看到。計(jì)算機(jī)能把人類從繁瑣無聊的工作、任務(wù)中解脫出來,擁有更多的時(shí)間和自由去做更喜歡、更擅長的事情。
我覺得 AI 在成熟,它可以變成我們額外的眼睛幫助我們更高效、更快樂地生活。這是我們創(chuàng)業(yè)開始時(shí),在社會(huì)應(yīng)用上的 insights,當(dāng)然,除此之外還有技術(shù)變革上的 insights。
BV:那技術(shù)上推動(dòng)你創(chuàng)業(yè)的原因是什么?
特特:在 PhD 后期,看到視覺領(lǐng)域從 MAE(注:《Masked Autoencoders》,這項(xiàng)工作來自 Meta AI,采用無監(jiān)督學(xué)習(xí)的方式,提高模型的泛化能力和魯棒性。)到 SAM(注:《Segment Anything Model》)的變化,用通用視覺模型去解決大量不同問題是可行的。谷歌的前 CEO 埃里克?施密特在《How Google Works》中,就曾強(qiáng)調(diào)技術(shù)洞見的重要性,這是產(chǎn)品開發(fā)和公司成長的源動(dòng)力。
帶著應(yīng)用和技術(shù)上的想法,我找到我在 UC Bekerley 的導(dǎo)師 Trevor Darrell 教授聊,他很認(rèn)可也很支持。后來又吸納了更多團(tuán)隊(duì)成員,大家都共享一個(gè)理念:新一代視覺技術(shù)的應(yīng)用機(jī)會(huì)以及由此產(chǎn)生的空間智能對人類社會(huì)的價(jià)值。
BV:是什么驅(qū)使你想到這種新范式?
特特:往回看,研究者總是在問:What’s next?這是個(gè)非常自然而發(fā)的問題。
What’s next 問的內(nèi)容有很多種,一種是目前現(xiàn)有的技術(shù)能解決哪些任務(wù),帶來哪些能力上的提升。比如視覺分類研究中,現(xiàn)在能做到準(zhǔn)確率 95%,我能不能推到 97%?推到 99%?
而另一種是,下一代技術(shù)是什么樣子?我們利用下一代技術(shù)能夠做什么事情?比如對數(shù)據(jù)集來說,原來只能看到 20 類物體,后來 80 類,后來 200 類,再往后,能否看到他們其他維度的特性?看到材質(zhì)、結(jié)構(gòu)、組成部分?因?yàn)楹茈y定義類別,能否干脆用自然語言描述物體?這是在研究中水到渠成會(huì)思考到的問題。
這兩種問題一定是交織進(jìn)行、同時(shí)發(fā)生的。當(dāng)前技術(shù)的深挖是很有必要的,不然很難看到他的影響力的擴(kuò)散。但有時(shí)候這個(gè)技術(shù)不一定是最優(yōu)解,這個(gè)時(shí)候就需要我們跳出來,去問問有沒有新的解決方案。
而通用視覺模型,就是面對 CV1.0 時(shí)代中的各種問題而提出的新的解決方案。
肖特特參加 2024 智源大會(huì),分享《A Real-World Approach to Intelligence》
BV:這種 What’s next 既可以問是否加速了過去的應(yīng)用,也可以問是否創(chuàng)造了新的范式。
特特:是的。偉大的公司都想要知道 “what's next”,比如 Google 用了新的技術(shù)方式去管理世界上五花八門的知識;Apple 創(chuàng)造了新的人與計(jì)算機(jī)交互的方式,讓個(gè)人電腦走進(jìn)我們的生活里;英偉達(dá)實(shí)現(xiàn)了加速計(jì)算,用新的硬件形態(tài)去解決計(jì)算領(lǐng)域的問題。
在研究和創(chuàng)業(yè)中,一旦停下對未來技術(shù)的追問,做的事情就會(huì)變得平庸,囿于目前已經(jīng)掌握到的技術(shù),只解決眼前有限的問題,而無法找到下一代技術(shù),解決更多問題。
這種追問的精神,就是我們的團(tuán)隊(duì)信仰。
CV 變革,智能產(chǎn)生:1.0-2.0
BV:什么是 CV1.0 ?解決了哪些任務(wù)?
特特:CV1.0 解決專一的、特定的任務(wù),它在經(jīng)濟(jì)屬性上并不是很理性。
2012 年出現(xiàn) AlexNet,這個(gè)機(jī)器學(xué)習(xí)范式,對圖片識別的能力大大超過了其它技術(shù)路線,可以用在自然語言處理、推薦系統(tǒng)、計(jì)算機(jī)視覺等多個(gè)方向上,瞬間激發(fā)了 AI 的應(yīng)用價(jià)值。互聯(lián)網(wǎng)產(chǎn)品可以利用這種范式來學(xué)習(xí)圖片、視頻當(dāng)中的特質(zhì),來更好地提升用戶體驗(yàn);醫(yī)療上會(huì)利用機(jī)器學(xué)習(xí)來做診斷;工廠里可以做各種質(zhì)量檢測;城市管理當(dāng)中還可以分析人的軌跡、流向。
但這些任務(wù)之間不能互通,比如說,A 工廠生產(chǎn)手機(jī)屏幕,需要一套針對劃痕檢測這個(gè)單一任務(wù)的視覺系統(tǒng);而 B 工廠生產(chǎn)汽車,也需要一套檢測劃痕的視覺系統(tǒng)。但此劃痕非彼劃痕,這是兩套完全不一樣的檢測系統(tǒng)。
總結(jié)下來,我們一直在解決同一個(gè)問題,就是感知。這個(gè)大問題在應(yīng)用中會(huì)被細(xì)分為無數(shù)細(xì)分問題,比如檢測材質(zhì)、大小、位置、組成部分等等。在 CV1.0 時(shí)代,這些問題非常細(xì),并且每個(gè)場景對智能的需求是有限的,我們解決了一個(gè)子問題,卻沒有能力解決另一個(gè)子問題。回到劃痕檢測問題,就算有一個(gè)模型能夠識別世界上所有的劃痕,但你卻識別不了世界上所有的杯子。如此以往,這個(gè)模型就非常的單一、不完善,實(shí)現(xiàn)難度也很大,經(jīng)濟(jì)投入也會(huì)很多。
BV:這種方法跟人類感知物體的方式是不一樣的。這是不是也回答了:為什么過去的 CV 技術(shù)沒有出現(xiàn)很多解決通用行業(yè)問題的產(chǎn)品?
特特:是的。
另外,CV1.0 與人類智能相比,“數(shù)據(jù)輸入” 的模式也并不相通。打個(gè)比方,對 CV1.0 來說,需要標(biāo)注很多數(shù)據(jù),讓計(jì)算機(jī)知道這個(gè)杯子是不銹鋼的,另一個(gè)是玻璃的。如果我再加一類塑料杯,那就又要標(biāo)注成千上萬的這類數(shù)據(jù)。
但是回過頭想,難道我真的需要 “見到” 成千上萬的玻璃杯,才能知道這個(gè)是玻璃杯嗎?人類并不是這樣做判斷的,我們用過玻璃杯,或者是見過玻璃制品,在不需要眾多 “數(shù)據(jù)輸入” 的情況下就可以推斷出來。
BV:正因?yàn)檫@樣,我們需要大模型的能力。
特特:大模型的目的不是把模型做大,價(jià)值并不在于加參數(shù)?;氐絼偛抛R別三種杯子的例子,你可以做出一個(gè)上億級參數(shù)的模型來完成這個(gè)任務(wù),但仍存在無法解決更多任務(wù)的瓶頸。
Foundation Model 和 Pre-training 的好處是,把不同的信息源都學(xué)習(xí)進(jìn)來,我們可能并不知道模型從哪里學(xué)到的關(guān)于 “玻璃” 的概念,但當(dāng)它習(xí)得這個(gè)概念之后,會(huì)把這個(gè)概念抽象出來,并且能把這個(gè)知識運(yùn)用到未來的預(yù)測和感知當(dāng)中。這個(gè)是大模型和過去的技術(shù)不一樣的地方。
BV:CV 2.0 有哪些不同?
特特:區(qū)別在于,第一是讓 AI 具備和人一樣感知世界的智能,解決真實(shí)世界的問題;第二是解決開放世界中通用任務(wù)問題;第三是具有人的常識能力。
BV:從 CV1.0 到 2.0 的分水嶺有哪些?
特特:第一個(gè)關(guān)鍵節(jié)點(diǎn),是 2021 年 OpenAI 的 CLIP 工作(《Learning Transferable Visual Models From Natural Language Supervision》),它講的是如何 “以語言作為監(jiān)督” 學(xué)習(xí)視覺信息。過去,如果我們用預(yù)定類別的方式來做識別,這個(gè)過程跟語言是沒有關(guān)系的。而這篇工作提到,不同的概念在語義上有相關(guān)性,我們可以從人類的語言中獲得這種相關(guān)性。思路就是,讓模型去學(xué)習(xí)圖片對應(yīng)的描述,學(xué)習(xí)圖片的視覺語義信息。
但這個(gè) idea 即使在當(dāng)時(shí)來看也并不新鮮,它獨(dú)特性在于,用更大的數(shù)據(jù)量和計(jì)算量,用幾百個(gè) million 的數(shù)據(jù)來做訓(xùn)練,并且這些數(shù)據(jù)能很容易從互聯(lián)網(wǎng)上獲取。之所以有這個(gè)想法,是因?yàn)檫@項(xiàng)工作來自 OpenAI,當(dāng)時(shí)已經(jīng)開始做 GPT,他們看到了 scale 后模型的變化和影響,這徹底改變了我們對視覺和語言之間的認(rèn)知。
再往后,2023 年 Meta AI 發(fā)布的 SAM(《Segment Anything Model》)相關(guān)工作也是這個(gè)轉(zhuǎn)變過程中的 milestone。
SAM 是 CV 舊時(shí)代的最后一篇工作,新時(shí)代的第一篇工作。原因是,它要解決的是傳統(tǒng)的視覺分割問題,這是一個(gè)舊問題。高等生命的視覺系統(tǒng)都有對物體分割的能力,這個(gè)能力非常重要,但實(shí)現(xiàn) AGI 不會(huì)通過完美解決分割問題而實(shí)現(xiàn)。
盡管如此,SAM 放棄了舊時(shí)代的很多枷鎖,放棄了特定的類別,解決了通用物體分割的問題。以椅子舉例,椅子里有很多零部件,零部件里面可能還有細(xì)分的零部件,那么到底什么才是這個(gè)椅子呢?在 SAM 中,我們無需對椅子及其零部件進(jìn)行標(biāo)注,而是通過交互的方式對任意物體進(jìn)行分割,找到我們希望得到的部分。
這為我們指明了一個(gè)方向:在一個(gè)模型下,一個(gè)通用的視覺模型去解決大量不同問題是可行的。這就是為什么我相信這項(xiàng)工作是為 CV 新時(shí)代開了一道門的原因。
比如,分割人像和分割文字,是兩套系統(tǒng)。但在 SAM 中,是一套系統(tǒng)中需要解決的兩個(gè)任務(wù)。那么思路打開之后,這套系統(tǒng)能解決的問題就很多了,有些人用它來去分割衛(wèi)星的圖像,有人其實(shí)用它來分割古書籍里面的一些文字,還可以去分割微生物體...... 這個(gè)模型完全沒有見過古書字,但依靠良好的泛化性,可以再零樣本情況下取得很好的效果。
BV:那下一個(gè) 10 年 CV 要去解決哪些問題?
特特:未來 5-10 年 CV 要解決的是真實(shí)世界的問題,讓 AI 像人一樣有感知世界的能力。但我們的真實(shí)世界是連續(xù)的視覺信息,不是單幀的,為了感知更多真實(shí)世界的內(nèi)容,我們需要更強(qiáng)的視頻理解能力。這里也有很多難題,比如說如何去表征一個(gè)視頻?如何讓模型去理解時(shí)間的概念?理解動(dòng)作在時(shí)間上的連續(xù)性?理解物體在空間中的具體位置、遠(yuǎn)近大?。?/span>
假如有一個(gè)人經(jīng)過一個(gè)障礙物,在單幀系統(tǒng)中,計(jì)算機(jī)就會(huì)感知不到被擋住的人;但如果是視頻系統(tǒng),就會(huì)捕捉到人經(jīng)過障礙物前后的信息,“看” 到人在障礙物后面。
計(jì)算機(jī)視覺的金標(biāo)準(zhǔn)是人的感知能力。這個(gè)不光是學(xué)術(shù)領(lǐng)域的下一代問題,也是工業(yè)界下一代 AI 的經(jīng)濟(jì)價(jià)值所在的地方。
BV:感知和 “世界模型” 的聯(lián)系是什么?“世界模型” 的本質(zhì)是什么?
特特:當(dāng)有了對真實(shí)世界更多的理解之后,對感知到的信息做未來的預(yù)測,這一套系統(tǒng)就是 “世界模型”?!笆澜缒P汀?是推理的一種形式,這種推理不僅包括邏輯推理,還包括一些 low-level (比如在像素上)的推理。例如,如果我推了球一下,這個(gè)球下一秒在視頻里會(huì)顯示成什么樣子?對球的運(yùn)動(dòng)的推理,就是 “世界模型” 的體現(xiàn)。
這樣的 “世界模型” 固然理想,但它很難構(gòu)建,甚至人也不會(huì)用這樣的推理方式來完成任務(wù)。
其實(shí)世界模型不是一個(gè)全新的概念,麥卡錫、明斯基和香農(nóng)等科學(xué)家在 1956 年達(dá)特茅斯會(huì)議上談?wù)撊斯ぶ悄荛_端的時(shí)候,就提到了 Abstraction(注:抽象指的是 AI 系統(tǒng)對現(xiàn)實(shí)世界的簡化和概念化表示,這種表示使得 AI 能夠進(jìn)行狀態(tài)估計(jì)、預(yù)測、模擬、推理和決策,從而更好地與外部環(huán)境互動(dòng))。Abstraction 是比世界模型更廣泛的定義,世界模型是實(shí)現(xiàn) Abstraction 的一種構(gòu)想,但不會(huì)是唯一的一種方案。我認(rèn)為它甚至大概率不是未來成功實(shí)現(xiàn)智能的方式 —— 智能體對常識的推理能力應(yīng)該是涌現(xiàn)的。
達(dá)特茅斯會(huì)議主要參與者及議題
BV:當(dāng) AI 能更好地理解視頻、建立 “世界模型”,是否就擁有了空間上的智能能力?
特特:這個(gè)問題的關(guān)鍵在于,理解是智能的原因還是智能的現(xiàn)象?
如果理解是智能的現(xiàn)象的話,我們看到一個(gè)智能體,它就應(yīng)該具有理解世界的能力;但如果理解是智能產(chǎn)生的原因,那么只有它學(xué)會(huì)了對世界的預(yù)測、掌握了世界模型之后,它才能成為智能體。
生物進(jìn)化是一個(gè)很復(fù)雜的過程,智能的出現(xiàn)在進(jìn)化的角度是一個(gè)相輔相成的過程。理解能力越強(qiáng),智能體就越強(qiáng)大,智能體越強(qiáng)大,它在進(jìn)化上就更占優(yōu)勢,就會(huì)有更好地理解能力。
下一代 AI 一定是對世界有理解、推理和搭建 “世界模型” 的能力的,但下一代的 AI 未必會(huì)因?yàn)閷W(xué)習(xí) “世界模型” 而產(chǎn)生。
BV:如果學(xué)習(xí)推理未必產(chǎn)生智能,那么智能如何產(chǎn)生?
特特:把 AI 部署到真實(shí)世界中去,在與世界的互動(dòng)中獲得空間智能。
如果一套系統(tǒng)只存活在數(shù)字世界,沒有辦法在真實(shí)世界中一覽天下,那它不一定會(huì)成為真正的智能體。
就像具身智能機(jī)器人,從多模態(tài)環(huán)境里學(xué)到各種各樣的常識,獲得預(yù)測能力。比如踩到了石頭會(huì)摔倒,從手中掉了的杯子可能會(huì)摔碎。我們很難只通過訓(xùn)練世界模型的方式產(chǎn)生下一代智能,所以我們要像滾雪球一樣,讓智能體學(xué)到越來越多的常識,做更多的任務(wù)。說不定有一天智能體可以把自己送到月球上去,自己干活工作,然后回來告訴你它干了什么事情。
BV:智能是在智能體跟環(huán)境的交互過程中產(chǎn)生、涌現(xiàn)。這樣來看,空間智能的產(chǎn)生路徑就很清楚了。
特特:是的,第一步是通過傳感器觀察、理解物理世界,如果沒有辦法觀察物理世界,就沒有辦法理解物理世界。
第二步,跟物理世界做交互,知道如何做抓取、走路、避障、操作物體。
因此,我們需要通用視覺模型來更好地理解感知世界,理解時(shí)間上、空間上的運(yùn)動(dòng)性等特征;另一個(gè)就是 Embodied AI,讓機(jī)器跟環(huán)境交互,在多模態(tài)的真實(shí)世界里產(chǎn)生智能。
比如,在與 Ilija Radosavovic 合作的《Real-World Robot Learning with Masked Visual Pre-training》中,我們通過在大規(guī)模真實(shí)世界圖像和視頻數(shù)據(jù)上進(jìn)行自監(jiān)督視覺預(yù)訓(xùn)練,預(yù)訓(xùn)練后需要在實(shí)際的任務(wù)中做小規(guī)模 finetune,使機(jī)器人在現(xiàn)實(shí)世界任務(wù)中學(xué)習(xí)到豐富的視覺表示,幫助機(jī)器人更好地理解和感知現(xiàn)實(shí)世界中的三維空間信息,并在復(fù)雜環(huán)境中做出合理的決策和行動(dòng)。
做 AI 的人怎么看藝術(shù)生成?
BV:生成呢?在智能產(chǎn)生的過程中,生成到底以什么形式出現(xiàn)?
特特:這個(gè)是目前大家沒有定論的事情。這與人的想象是不同的,人的想象是抽象地去想象可能會(huì)發(fā)生的事情;而現(xiàn)在的生成式 AI,更多是以在細(xì)節(jié)上、以像素級別的水準(zhǔn),把內(nèi)容給生成出來。
大多數(shù)人都不是畫家,我的畫畫的藝術(shù)能力極為落后,但我還是有藝術(shù)上欣賞的能力。
回到達(dá)特茅斯會(huì)議上大家對人工智能的憧憬。大家認(rèn)為生成其實(shí)是 creativity and randomness,計(jì)算機(jī)不是完全按照既定的程序去執(zhí)行每一個(gè)指令。就像人類一樣,無論是我們的思維還是動(dòng)作,都不一定是在執(zhí)行一個(gè)特定的指令,因?yàn)槲覀冇袆?chuàng)造力和想象力。所以我覺得生成是智能的一個(gè)重點(diǎn),但是具體能不能像畫家一樣把它的藝術(shù)性畫出來,就是另一回事。
BV:“熱愛藝術(shù)人” 和 “搞技術(shù)的人” 這兩個(gè)標(biāo)簽的疊加下,讓你對 “AI 是否能創(chuàng)造藝術(shù)” 這個(gè)話題有什么不同的感受?
特特:音樂、美術(shù)、電影,這些在我的生命中是不可或缺的。
第一,藝術(shù)是關(guān)于未來的,不是關(guān)于過去的,無法用過去已有的信息來訓(xùn)練 “生成” 藝術(shù)。藝術(shù)需要經(jīng)歷和感受,是人對外在世界和內(nèi)在世界的抽象理解。
目前,AI 的價(jià)值更多的體現(xiàn)在生產(chǎn)工具的屬性上,我們可以通過 AI 來讓生活更便捷、安全、理想,解放我們的時(shí)間和生產(chǎn)力。但 AI 沒有感情經(jīng)歷,沒有生活經(jīng)歷,跟人類的悲喜并不相通,所以 AI 很難去感受藝術(shù),也就很難生成藝術(shù)。
法國印象派代表人物克勞德?莫奈《日出印象》
回過頭來看,藝術(shù)之所以是藝術(shù),很多時(shí)候是跟觀察者有關(guān)系的,一千個(gè)人里有一千個(gè)不同的哈姆雷特。當(dāng)人們欣賞畫作、音樂的時(shí)候,會(huì)從中得到共鳴,感受到新的東西。
第二,藝術(shù)和內(nèi)容制作很難區(qū)分開來。藝術(shù)是一個(gè)復(fù)雜的過程,其中包括創(chuàng)造 idea 部分,也包括制作內(nèi)容部分。
比如說,畫家畫畫,雕塑家雕刻作品,劇作家創(chuàng)作劇本,我們很難把創(chuàng)造 idea 和制作內(nèi)容區(qū)分開來。這些藝術(shù)行為不僅是一個(gè)靈感想法的產(chǎn)生,更重要的是要把靈感想法串起來、表現(xiàn)出來、制作出來,這中間需要很多 “體力活”。比如羅丹的每一個(gè)雕塑作品,都經(jīng)歷了藝術(shù)家大量繪畫,試驗(yàn),和完善。當(dāng)我們用寫 prompt 的方式去生成一個(gè)內(nèi)容,我們只是利用 AI 制作了內(nèi)容,不一定是創(chuàng)造了藝術(shù)。
第三,我們也要把藝術(shù)和娛樂也要區(qū)分開來。當(dāng)我們聽到一段旋律或是看到一段影像,覺得很好看、很過癮,但不代表它激發(fā)我產(chǎn)生了認(rèn)知上的改變、情緒上的共鳴、對世界新的理解。
目前 AI 更多是在生成娛樂,而不是藝術(shù)。
故事另一面
BV:科研路上,哪些人給你帶來技術(shù)上的啟發(fā)?
特特:2018 年,我在孫劍老師的指導(dǎo)下參加 COCO 競賽(注:Common Objects in Context),題目就是如何做出更強(qiáng)大的物體檢測器。我們用了 256 張 GPU 去訓(xùn)練這個(gè)模型,這個(gè)數(shù)量級的 GPU 讓模型的收斂速度非???,但卻很 “非主流”。因?yàn)楫?dāng)時(shí)的主流觀點(diǎn)是模型并非越大越好,而我們的方案甚至早于第一代 GPT。孫劍老師問我們:這個(gè)東西的邊界、上限在哪里?模型效果好的背后原因到底是什么?
這個(gè)啟發(fā)非常重要:你要不停的問為什么是這樣,而不是那樣?傳統(tǒng)的方式就一定是對的嗎?有沒有下一代解決方案?授人以魚不如授人以漁,總有問題是老師解決不了的,總有問題是需要年輕的頭腦去思考的。而這些思考對剛?cè)腴T的年輕科研者來說是非常重要的一課,能讓我們的工作做的更扎實(shí)。
圖中左三為肖特特,右二為孫劍老師
BV:伯克利人工智能實(shí)驗(yàn)室(BAIR)給你留下什么印象?
特特:BAIR 不是一個(gè) lab,而是一個(gè)很多方向的 super lab 聯(lián)合體。整個(gè)科研樓還挺擠挺小的,很多教授就擠在角落里沒有窗戶的辦公室里搞科研。
BAIR 有很多方向,在計(jì)算機(jī)視覺領(lǐng)域有傳統(tǒng)感知,有 3D 重建,也有圖片和視頻生成,還有視覺和語言中間的 understanding。其他還有 NLP、robotics、AI 倫理、AI for Science 等領(lǐng)域方向。BAIR 成立的背景,就是希望學(xué)生們從不同的方向上做交流,在學(xué)科內(nèi)交叉領(lǐng)域相互碰撞。理解、感知、思考、推理、操作、運(yùn)動(dòng)這些都是 AI 的一部分,更廣一點(diǎn)來看,我們跟心理學(xué)、神經(jīng)科學(xué)、行為科學(xué)也都有關(guān)系。
我的教授 Trevor Darrell 是 BAIR 的 co-founder 和 Founding Director。Trevor Darrell 教授最大的特點(diǎn)就是包容,在一個(gè)有很大變化的研究領(lǐng)域,研究者需要自由的空間去探索感興趣的問題。很多時(shí)候我們的發(fā)現(xiàn)發(fā)明不一定是大家都認(rèn)可的技術(shù)路線,但我們要有空間去追逐這樣不被認(rèn)可的技術(shù)想法。
在 BAIR Lab,從 2021 年開始,我與 Ilija Radosavovic 合作了多篇工作,從《Masked Visual Pre-training for Motor Control》到《Real-World Robot Learning with Masked Visual Pre-training》,以及《Real-world Humanoid Locomotion with Reinforcement Learning》。
我們原來都是學(xué)習(xí)計(jì)算機(jī)視覺的,但都認(rèn)為如果沒有機(jī)器在真實(shí)世界的部署,AI 的發(fā)展就會(huì)陷入瓶頸。之后我們放棄了原有的研究舒適圈,進(jìn)入到?jīng)]接觸過的 robotics 領(lǐng)域,希望探索下一代通用人工智能。
圖片來源:Berkeley Artificial Intelligence Research 官網(wǎng),首排左四為肖特特
BV:創(chuàng)業(yè)之后一定有很多團(tuán)隊(duì)建設(shè)上的思考。組建團(tuán)隊(duì)是否是在找 CEO 的 “復(fù)制粘貼”?
特特:我們團(tuán)隊(duì)非常多元。有剛從學(xué)校出來的 PhD,也有工業(yè)界工作 20 多年的成員,還有大學(xué)輟學(xué)自學(xué)設(shè)計(jì)來做產(chǎn)品的成員。我們在組建團(tuán)隊(duì)的時(shí)候,并不是看這個(gè)人跟我的經(jīng)歷背景、技術(shù)觀點(diǎn)、對未來的想法 “有多像”,而是看他是否能獨(dú)立地帶來不同的觀點(diǎn),提出不同的聲音。因?yàn)槲覀円鲆粋€(gè)新的東西,既然是新的,那它就沒有對錯(cuò)之分。
Debate 是我們的團(tuán)隊(duì)文化之一。Debate 的價(jià)值不是輸贏,不見得每一個(gè)技術(shù)想法我們都需要達(dá)成一致。而越是不一致,我們就可以去討論更多的 corner cases。
我也很鼓勵(lì)大家在職業(yè)早期到創(chuàng)業(yè)公司經(jīng)歷一番,鍛煉自己定義問題的能力,以及在小團(tuán)隊(duì)工作承擔(dān)更多責(zé)任的能力。
BV:如今,AI 領(lǐng)域涌現(xiàn)出新一代年輕有為的創(chuàng)始人。空間智能是下一代 AI 創(chuàng)業(yè)者的機(jī)會(huì)嗎?
特特:我相信所有的新的技術(shù)都會(huì)帶來新的改變,不只是空間智能。而新一代創(chuàng)業(yè)者只是對新一代技術(shù)的理解會(huì)更深刻一些。
但是更重要的是,新一代創(chuàng)業(yè)者有沒有去創(chuàng)造新事物的激情,有沒有對舊世界、舊方法體系的不甘,有沒有問出 what's next 的勇氣。
BV:看到你朋友圈有分享過一句歌詞:What shall be our legacy?What will our children see?你更希望留給世界、留給下一代技術(shù)人些什么呢?
特特:我覺得每一代的人都有每一代人的責(zé)任。
個(gè)體的總和就是世界。我覺得各行各業(yè)的人應(yīng)該對工作有熱情,因?yàn)槲覀兊墓ぷ骶褪菍硐胧澜绲乃茉?,都?huì)最終對世界產(chǎn)生影響。
同時(shí),我們技術(shù)人就像是新世界的守門人,也要保護(hù)技術(shù)不被濫用。開發(fā)和保護(hù),是相輔相成的。這不是兩撥人的責(zé)任,是同一撥人的責(zé)任。
BV:那最后一個(gè)問題:為什么叫 PromptAI?
特特:Maybe leave it for the future. 大家現(xiàn)在都不知道蘋果公司的蘋果為什么少了一塊,對吧。永遠(yuǎn)不滿足于目前的定義,永遠(yuǎn)在提出下一個(gè)問題的路上。