自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT爆火后,NLP技術(shù)不存在了

人工智能 新聞
站在過去和未來的交叉點(diǎn),從學(xué)界和業(yè)界大咖的視角,會(huì)如何看待過去,看待當(dāng)下、看待未來?每一位行業(yè)中人,又該如何應(yīng)對(duì)?

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

從2012年到2022年,機(jī)器學(xué)習(xí)引發(fā)的新一輪人工智能熱潮已經(jīng)十年

巧合的是,2022年的Diffusion和ChatGPT,以大眾可感知、可體驗(yàn)的方式,讓大模型涌現(xiàn)的超能力成功破圈。

從學(xué)術(shù)界到工業(yè)界,從政府到投融資,從巨頭到創(chuàng)業(yè)團(tuán)隊(duì),或興奮、或焦慮、或擔(dān)憂、或冷靜。

站在過去和未來的交叉點(diǎn),從學(xué)界和業(yè)界大咖的視角,會(huì)如何看待過去,看待當(dāng)下、看待未來?每一位行業(yè)中人,又該如何應(yīng)對(duì)?

近日,清華大學(xué)美術(shù)學(xué)院、清華未來實(shí)驗(yàn)室主任徐迎慶教授,微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員、微軟全球合伙人童欣博士,粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院講席科學(xué)家、認(rèn)知計(jì)算與自然語言研究中心負(fù)責(zé)人張家興博士,和小冰公司技術(shù)副總裁王寶元博士,進(jìn)行了一次圓桌對(duì)談。

圖片

以下為對(duì)話實(shí)錄(做了不影響原意的精簡)

王寶元博士:各位老師好。第一個(gè)問題是,面對(duì)ChatGPT,你們是什么樣的心情和心態(tài)?

張家興博士:我是來自IDEA的張家興,剛才寶元也說了,我也是在這一波ChatGPT創(chuàng)業(yè)的大潮里邊,準(zhǔn)備入局。

我個(gè)人的理解,這是一個(gè)非常重大的機(jī)會(huì),因?yàn)檫@代表著人工智能從2012以來的新舊十年。

過去十年,如果只用兩個(gè)詞來說,叫做Deep Understanding,就是Deep Learning加上Content Understanding。

ChatGPT的出現(xiàn),開啟了一個(gè)新十年。新的十年,就是Generative + General,就是未來是屬于生成式AI和通用AI的。

過去十年,Deep Understanding這條路其實(shí)已經(jīng)很成熟了,或者說面臨瓶頸了。現(xiàn)在我們終于找到了一個(gè)新的方向,下一個(gè)十年的方向,所以說我感覺非常興奮。

王寶元博士:童老師呢?

童欣博士:我自己是做圖形和視覺方向的,那么這個(gè)ChatGPT出來對(duì)我來說一方面非常的震撼。

因?yàn)樗憩F(xiàn)的這個(gè)能力,可以說至少在自然語言界是我們長期夢寐以求的,大模型所展現(xiàn)出的能力和技術(shù)特點(diǎn),都值得研究和學(xué)習(xí)。

第二點(diǎn)就是緊迫感,就是說我們做圖形生成的,那么我們的ChatGPT什么時(shí)候出現(xiàn),視覺領(lǐng)域的涌現(xiàn)能力怎么表現(xiàn)?所以是既震撼又緊迫。

王寶元:我覺得前面兩位老師都很激動(dòng),那徐老師你一定也很激動(dòng)。

徐迎慶教授:我覺得ChatGPT打開了一個(gè)新的可能性,它目前主要圍繞著NLP的應(yīng)用,但是未來在設(shè)計(jì)上、在建筑上,也利用類似的思想和技術(shù),做全新的探索。

我昨天從香港到上海,一路上大家都在談?wù)撍?/p>

但我覺得它的應(yīng)用和有效性,還有待于就是用戶真的大批量開始用,并且經(jīng)過一段時(shí)間的檢驗(yàn),才能真正的發(fā)現(xiàn)它到底怎么用、能用多深以及怎么往前走。

我們知道,以前也有過類似的很好的技術(shù)。

但是釋放了以后,比如說一些NLP模型,但是胡說八道,說一些不該說的話,說一些有悖于社會(huì)準(zhǔn)則,就是普遍人類共同認(rèn)知的話,那就會(huì)帶來一些困惑。

如何讓ChatGPT更加合理、更加有效、更加能夠符合人類共同認(rèn)知,能夠讓它真正活躍起來,我覺得可能還有很長的路要走。

但是無論怎樣,它畢竟開拓了一個(gè)新的時(shí)代。ChatGPT不同于過去幾年的技術(shù)創(chuàng)新,它是顛覆性的,所以我很期待它的未來。

王寶元博士:感謝三位老師,大家總體來講都是非常的興奮。

那么我們深入討論下,究竟是什么新突破,令現(xiàn)在所有人一夜之間都對(duì)它充滿了期待?

家興博士,您談一下主要的技術(shù)突破在哪里?

張家興博士:好的,我主要從NLP來談。NLP在過去這些年,隨著深度學(xué)習(xí)有很大進(jìn)步,比如當(dāng)年GPT3就有重大進(jìn)步,但影響力還主要在學(xué)術(shù)和行業(yè),普通大眾沒有感知。

那為什么ChatGPT一來,大家就街頭巷尾人人必談?我覺得深層次看的話,這涉及一個(gè)重大變化,就是AI能力觸達(dá)最終用戶方式的方式變了。

過去的自然語言專家,擅長于自己的領(lǐng)域,有人專門做文本分類、有人專門做信息抽取、有人做問答、有人做閱讀理解。

大家會(huì)定義自然語言領(lǐng)域的各種各樣的任務(wù),這些任務(wù)可能有上百個(gè),非常多。

每個(gè)任務(wù)都有專門的模型和框架,然后還有專門的專家,根據(jù)專門數(shù)據(jù)訓(xùn)練出來,然后擺在那兒供大家調(diào)用,所有這些NLP能力,就像一個(gè)工具集,成百上千個(gè)工具擺在架子上。

那么這個(gè)對(duì)于想觸達(dá)這些能力的人來說,就存在挑戰(zhàn),就是我怎么知道成千上百個(gè)工具,哪個(gè)是適合我的。

所以還需要算法專家進(jìn)一步解釋,你面臨的這個(gè)問題是文本分類問題,那個(gè)問題是閱讀理解問題,再把工具給你。

所以大家可以看到,制造AI能力的人,跟最終使用這個(gè)能力的人中間,是巨大的Gap,如何去彌補(bǔ)?

其實(shí)我們之前一直沒有想到很好的方法,大家做了各種各樣的平臺(tái),都試圖去彌補(bǔ)Gap,但現(xiàn)在看起來都不成功。

最終ChatGPT告訴我們一件事情,彌補(bǔ)AI自然語言能力跟用戶之間Gap的方法,就是自然語言本身,讓用戶他用自然語言去描述,讓大模型去理解用戶想干什么,然后把這個(gè)能力給到它。

舉個(gè)例子,請(qǐng)描述一下中國足球的未來。

這個(gè)容易,如果加一個(gè)約束,請(qǐng)簡短的用三條來描述,這個(gè)在過去的問答系統(tǒng)里邊,你就很難讓實(shí)現(xiàn),需要算法專家把它專門變成一個(gè)有約束的問題。

現(xiàn)在ChatGPT不用了,你能用自然語言去描述你想做什么就可以了,ChatGPT都能理解。

所以大模型實(shí)際上縮短了AI能力跟用戶之間的距離,所有人都可以用了,一下子就火了。

王寶元博士:那可不可以這么理解,原來很多傳統(tǒng)NLP的任務(wù)已經(jīng)不存在了?

張家興博士:如果我們套用《三體》里面非常著名的一句話,“物理學(xué)不存在了”,那么我們今天從某種意義上也可以說,NLP技術(shù)不存在了

王寶元博士:這個(gè)講法非常大膽。

張家興博士:對(duì),NLP技術(shù)不存在了。但還是要加一句解釋,只是傳統(tǒng)的那種。不再需要單純的算法專家去設(shè)計(jì)單個(gè)的NLP能力。

那新的NLP方式是什么,就是努力去做一個(gè)通用的ChatGPT,把所有提供給用戶的能力,都注入到一個(gè)模型里,讓這個(gè)模型可以通過自然語言的方式,給用戶提供所有的能力。

王寶元博士:謝謝家興博士。

童老師,你做Graphics有二十多年了,看到AIGC,特別是文生圖、文生視頻,或文生幾何Mesh,它的進(jìn)程是非??斓?。

那從您的角度看,大模型對(duì)傳統(tǒng)Graphics研究,是不是也帶來了很大沖擊?有沒有具體的一些范式也遷移了?

童欣博士:大模型的出現(xiàn),對(duì)圖形學(xué)和三維的研究,解決了兩個(gè)根本性的問題,提供了全新的路徑和方式。

首先是多模態(tài)帶來的維度躍遷,第一次擺脫了要用圖形的輸入創(chuàng)造圖形的方法,實(shí)現(xiàn)了夢寐以求的跨模態(tài)生成。

另一個(gè)是DreamFusion出現(xiàn)后,第一次實(shí)現(xiàn)了,向大模型里輸入圖片去訓(xùn)練,就能擁有所需要的海量三維數(shù)據(jù),不再需要傳統(tǒng)的三維建模和三維重構(gòu),只需要去思考如何從大模型里有效提取這些三維數(shù)據(jù)。

王寶元博士:所以也是就是說把Language作為Interface,去創(chuàng)造圖形?

童欣博士:對(duì),一是把Language作為Interface;第二就是,從圖片出發(fā),自動(dòng)生成你想要的所有高質(zhì)量的三維內(nèi)容,這個(gè)躍遷以前是做不到的。

王寶元博士:我們自己在小冰內(nèi)部做這個(gè)圖像生成、視頻生成也有同感。

這個(gè)進(jìn)展可能超過想象,所以我們其實(shí)有類似的焦慮感,就是都要花很多的精力去理解,新技術(shù)到底意味著什么,看懂以后還要轉(zhuǎn)化成動(dòng)作。

那么徐老師,您做很多年自然用戶界面設(shè)計(jì),有大量了不起的成就。

您過去幾年做大量嗅覺的研究, ChatGPT跟嗅覺的研究有沒有一些關(guān)系,研究范式會(huì)不會(huì)有變化?

徐迎慶教授:對(duì),我想多說兩句。ChatGPT因?yàn)閿?shù)據(jù)量太大了,不再是過去我們傳統(tǒng)意義上的Domain數(shù)據(jù),那它對(duì)未來的知識(shí)學(xué)習(xí)、傳承都會(huì)產(chǎn)生深遠(yuǎn)的影響。

比如我自己,我現(xiàn)在在美術(shù)學(xué)院當(dāng)老師,但是實(shí)際上我本科是學(xué)代數(shù)的,又做了七年的計(jì)算機(jī)動(dòng)畫和電影電視廣告專業(yè),后來讀了計(jì)算機(jī)博士,然后又做了幾年ERP,后來在MSRA做了幾年研究,現(xiàn)在是清華美術(shù)學(xué)院信息設(shè)計(jì)系教書。

回顧這幾十年很有意思,我是在不斷把已有的知識(shí)為基礎(chǔ),做新的遷移和學(xué)習(xí),不斷的獲取新的知識(shí)。

那這個(gè)過程,我拿自己當(dāng)試驗(yàn),花了30多年。如果有ChatGPT來幫助我,也許三個(gè)月或者三年就夠了,學(xué)習(xí)效率和實(shí)踐成本都會(huì)大大加速和降低。

談到大模型對(duì)研究的影響,我認(rèn)為大模型對(duì)學(xué)科之間的融合、交叉創(chuàng)興,有可能產(chǎn)生革命性、顛覆性的影響。

比如,我們?cè)谧龅男嵊X計(jì)算中包括氣味檢測,人類知識(shí)庫里有很多對(duì)氣味的自然語言描述,比如花香調(diào)的香水,這些香水通過語言描述,會(huì)讓人直接感受到心理學(xué)上的認(rèn)知。

我們?cè)谧鰯?shù)據(jù)的時(shí)候特別需要這一部分。另一個(gè)可能性,是大模型是否可能建立類似幾何空間、色彩空間一樣的嗅覺空間,用少量的參數(shù)就能夠定義和描述。

王寶元博士:謝謝徐老師。家興博士,就是剛才徐老師講嗅覺的表達(dá),以及嗅覺有可能跟語言本身的描述是有這個(gè)關(guān)聯(lián)的。

但是其實(shí)我們看到這樣的工作其實(shí)很少的,那你覺得就是說從NLP的角度,有沒有可能大模型本身已經(jīng)蘊(yùn)含了隱式的嗅覺,我們?cè)趺窗阉o提出來,然后用來做嗅覺相關(guān)的研究?

張家興博士:關(guān)于嗅覺我了解的不是特別多,但嗅覺跟情感是有關(guān)系的。當(dāng)我們討論嗅覺的時(shí)候,很多時(shí)候也是在說情感。

而在情感方面,有這方面的研究,也是清華的學(xué)者研究的,在大模型里面發(fā)現(xiàn)了情感神經(jīng)元,大概意思是輸入一個(gè)正向情感,對(duì)應(yīng)的某個(gè)神經(jīng)元就激活;輸入負(fù)向情感的,另一個(gè)神經(jīng)元就激活。

其實(shí)這一點(diǎn),我覺得跟嗅覺所產(chǎn)生的情感是類似的,我相信如果把嗅覺跟語言放在一起訓(xùn)練的話,那么正向的這種嗅覺感受,它也會(huì)在語言空間會(huì)激活。

現(xiàn)在整個(gè)認(rèn)知科學(xué)里,尤其ChatGPT出來之后,語言跑的比較靠前,原因正如童老師說的,語言原始數(shù)據(jù)多而且成本很低,只要花點(diǎn)人工把它清洗好就可以,這個(gè)跟3D內(nèi)容沒法比。

所以說語言率先實(shí)現(xiàn)了突破,也足夠完整,大家想要的所有東西也許自然語言大模型里都有。

所以或許可以通過語言空間的表示其他的模態(tài),比如包括情感的、視覺的、嗅覺的都牽起來,這是是一個(gè)可能。

徐迎慶教授:我插一句,剛才家興提了非常好的一個(gè)點(diǎn),在自然語言里有很多很多比如情感的表達(dá),或者對(duì)一些味道描述的表達(dá)。

但是這種表達(dá)其實(shí)也是一個(gè)新的挑戰(zhàn),比如我們經(jīng)常會(huì)說一些正面情緒、負(fù)面情緒,但在嗅覺里什么是正面、什么是負(fù)面,其實(shí)是非常不一樣的。

對(duì)群體來說,有趨勢性的正面和趨勢性的負(fù)面,但是放到任何一個(gè)人身上,就完全不一樣。

比如說,統(tǒng)計(jì)上講都喜歡聞比較香的味道,比較舒適的味道,比如花香讓你舒適,那么臭味很少有人喜歡。

但是你換一個(gè)場景,比如你吃臭豆腐、榴蓮的時(shí)候,那個(gè)臭味是非常吸引你的,你要的就是那個(gè)味。

所以在這個(gè)時(shí)候,怎么更加精準(zhǔn)地提供標(biāo)注和分類,實(shí)際上我覺得,這倒是提了一個(gè)很大的難題。

王寶元博士:謝謝家興和徐老師。

童老師,AIGC可能大部分人講的概念可能更多的還是說內(nèi)容生成,但是對(duì)Graphics而言,其實(shí)有很多交互式應(yīng)用。

那我們知道ChatGPT當(dāng)然展示了多輪語言交互,但它還沒有多模態(tài),也許馬上GPT4可能會(huì)多模態(tài),那在圖形學(xué)的交互上,您覺得有哪些新的研究問題會(huì)涌現(xiàn)?

童欣博士:對(duì)我來講,其實(shí)ChatGPT或者大模型接下來,我主要想研究兩件事兒,一個(gè)是最后一公里,一個(gè)是開始一公里。

首先是大模型生成三維模型的落地,需要解決最后一公里的問題,因?yàn)榇竽P蜕傻娜S內(nèi)容和真正使用的三維模型之間還有一個(gè)距離,為什么?

因?yàn)檎嬲褂玫娜S模型的每個(gè)語義、每個(gè)面的東西都是分割好了的,有了這些才能支持后面所有的動(dòng)作、形態(tài)、交互,甚至是兩個(gè)物體之間的交互。

所有這些物理屬性都需要賦予給它,那么大家以前建立了一套很好的流水線來做這個(gè)事情。

那么現(xiàn)在AIGC做了第一步,后續(xù)怎么用新的流水線把這些特性也走完,這是最后一公里的事情。

開始一公里,是說有沒有可能基于新的表達(dá),創(chuàng)造一個(gè)全新的三位內(nèi)容生產(chǎn)方式和流水線?

比如NeRF或者其他的新表達(dá)方式,就要做開始一公里。

過去的流水線很沉重,工業(yè)界被綁架了,甚至大家覺得就應(yīng)該這么用。

但是有了新工具的時(shí)候,也許現(xiàn)在可能是一個(gè)最好的機(jī)會(huì),我們能夠創(chuàng)造一個(gè)全新的三維內(nèi)容生產(chǎn)的一個(gè)方式,整個(gè)的表達(dá)、生成、交互都是完全不同的。

如果有一個(gè)這樣的三維世界模型在這里,可能只需要給video輸出,它不需要去識(shí)別這個(gè)物體是什么,那個(gè)物體是什么,它就能夠做出正確的動(dòng)作。

那么假設(shè)你有一個(gè)神經(jīng)網(wǎng)絡(luò),你給出人的初始動(dòng)作,我就把這個(gè)環(huán)境的所有的視頻、應(yīng)該發(fā)生的改變給你,這有點(diǎn)像“缸中之腦”的那個(gè)概念了。

那么它即使不是三維表達(dá),但是可能已經(jīng)滿足你很多應(yīng)用的需求了,這個(gè)方面我覺得會(huì)有很多非常開腦洞的、全新的課題出來,我是覺得非常激動(dòng)人心的。

王寶元博士:所以不光是用戶體驗(yàn)會(huì)有顛覆性,同時(shí)對(duì)于技術(shù)研究或者是開發(fā)人員來講,無論如何都要去跟進(jìn)、去擁抱、去理解它到底意味著什么。

不過我們講了這么多的范式遷移,童老師講了Graphics新的問題,徐老師講嗅覺的新問題,那大模型依然有很多問題沒有解決,我們?cè)谂d奮的同時(shí)也要冷靜。

就是說有哪些問題其實(shí)是急需要解決的,但是就是目前還感覺沒有找到特別好的辦法?家興先談一下NLP這邊?

張家興博士:現(xiàn)在亟待解決的一個(gè)問題是,如果真如我們所想的那樣,希望用自然語言的形式把NLP的能力呈現(xiàn)給用戶,我們需要把所有的能力都去用這樣一個(gè)ChatGPT去承載的話,那么會(huì)涉及到兩個(gè)問題:

一個(gè)是說我們現(xiàn)有這些大模型,哪怕你是ChatGPT,1000多億參數(shù),這個(gè)容量夠不夠,你可能是存不下所有的能力的,所以這個(gè)是一個(gè)問題。

再一個(gè)問題是,是不是所有的任務(wù)都要灌注到同一個(gè)模型結(jié)構(gòu)。我們過去做了99個(gè)開源訓(xùn)練模型,叫預(yù)訓(xùn)練大模型體系,然后為每個(gè)任務(wù)都有專門的模型結(jié)構(gòu)。

比如自然語言理解的任務(wù),其實(shí)雙向處理的模型是最好的,就是BERT這類,比如我們兩億參數(shù)的BERT模型,我們?cè)诹銟颖痉诸惿暇透胰K Google的5400億參數(shù)的PaLM,這就說明有些任務(wù)它天然適合一個(gè)特定模型。

但是如果要全用ChatGPT呈現(xiàn)給用戶,非要把所有的任務(wù)都要注入到一個(gè)Decoder-Only的Transformer結(jié)構(gòu)里邊,反而讓準(zhǔn)確率再也做不上來?

這是一個(gè)非常大的擔(dān)心,從我做自然語言的角度來說,就是ChatGPT它是通用的、萬能的,但是有些功能永遠(yuǎn)也做不到單一模型那么好,這是我一個(gè)擔(dān)心。

王寶元:對(duì),我有個(gè)非常想問的問題,就是說我們也是覺得對(duì)很多具體的問題來講,會(huì)不會(huì)有“大炮打蒼蠅”的這種問題?

就是說你強(qiáng)迫所有的問題都要統(tǒng)一用這個(gè)GPT的架構(gòu),強(qiáng)迫所有任務(wù)用一個(gè)Model,但是對(duì)于很多小的問題來說,它也許不需要那么大,會(huì)不會(huì)有這樣的?

張家興:是的,這個(gè)問題問的挺好。

這其實(shí)涉及到ChatGPT未來的發(fā)展,到底是我們需要一個(gè)大而全的、什么都能做的,還是說其實(shí)我們需要一個(gè)一個(gè)小的,它可能也是類似ChatGPT的,也能多輪對(duì)話,也具有一定通用性,但是每個(gè)模型尺寸不大,但是只解決一類問題。

終歸來說,我覺得ChatGPT這條總的路線是沒有錯(cuò)的,就是說我們不要再去強(qiáng)調(diào)一定要用戶去按照算法專家所設(shè)計(jì)的格式輸入。

哪怕就是只做抽取信息,抽取實(shí)體、抽取關(guān)系,能不能也做成多輪對(duì)話的?在這個(gè)過程中,你可以不斷地以交互的方式,去提取出里邊所有的東西。

ChatGPT的方式?jīng)]有錯(cuò),但是不是一定需要把所有能力都要壓縮到一個(gè)大模型里邊,這個(gè)我覺得是值得考慮的。

王寶元博士:除了結(jié)構(gòu)的擔(dān)憂以外,現(xiàn)在ChatGPT包括New Bing,曝出有很多問題,比如捏造事實(shí),家興你覺得,有哪些好的辦法?

第一解決溯源問題,大模型生成的內(nèi)容源到底是從哪里來的;第二,怎么確保不要亂講,就是說不要捏造事實(shí)。在這方面有什么想法?

張家興博士:現(xiàn)在ChatGPT最大的問題就是,它不知道自己不知道。它非常自信,什么都想去回答,但是其實(shí)它不知道。

那這個(gè)問題怎么解決呢?

那有人可能就說,第一個(gè)是讓模型自己去學(xué),去學(xué)“自己知道不知道”,或者旁邊放一個(gè)監(jiān)督模型去學(xué)“你知道不知道”,但是恐怕“知道不知道”這個(gè)事情,要比隨機(jī)問答的難度高一個(gè)級(jí)別。

所以如果要解決大模型“知道不知道”的問題,會(huì)是復(fù)雜度上一個(gè)數(shù)量級(jí)的挑戰(zhàn),因?yàn)槟阋屝碌谋O(jiān)督模型知道ChatGPT不知道,新的監(jiān)督模型要比ChatGPT還要復(fù)雜的多。

那么我覺得,在當(dāng)下的技術(shù)水平,更加合理的選擇,還是讓大模型學(xué)會(huì)使用工具。

就是比如說學(xué)會(huì)使用搜索引擎去搜一下,每一次它都是在搜索出結(jié)果的情況下,先做驗(yàn)證,然后輸出,這是目前比較現(xiàn)實(shí)的一個(gè)解決方案。

王寶元博士:有點(diǎn)像Meta前段時(shí)間放出的ToFormer。

張家興:對(duì),這是目前學(xué)術(shù)界一個(gè)熱點(diǎn)了,其實(shí)整個(gè)2022年,大家一直都在做這個(gè)事情,也有很多好的工作了。

王寶元博士:好,謝謝家興。

童老師,您能談一下這個(gè)Graphics這邊您看到的這個(gè)大模型有哪些大的限制,前段時(shí)間那個(gè)ControlNet非常火。

單張圖片生成已經(jīng)非常的驚艷、真實(shí),但如果拿這樣的技術(shù)去做視頻,那么立刻你會(huì)發(fā)現(xiàn)一致性有很大挑戰(zhàn),比如說背景不能動(dòng),衣服要保持,identity不能亂變。

所以這里面肯定有新技術(shù)要突破。那除此之外,童老師您看到哪些大的問題?

童欣博士:我覺得首要的也是本質(zhì)的問題,就是所謂一致性的問題。

之所以很多時(shí)候視覺用三維表達(dá),因?yàn)樗梢蕴峁┮曈X表達(dá)的一致性。

如果你沒有這個(gè)物理世界的表達(dá),你直接去學(xué)的時(shí)候,這個(gè)一致性能表達(dá),當(dāng)大模型學(xué)會(huì)這個(gè)一致性,就意味著它知道了隱含的三維表達(dá),只不過它的表達(dá)是隱性、顯性,這肯定是第一個(gè)根本的問題。

第二個(gè)問題就是,How and Why。

How是說,假如有這么一個(gè)類似ChatGPT的視覺大模型,那用什么方式把三維數(shù)據(jù)提取出來,就像現(xiàn)在大家用Prompt方法抽取語言大模型,這是一個(gè)技術(shù)上的挑戰(zhàn)。

還有一個(gè)問題就是,怎么保證大模型輸出的東西是事實(shí)。

在視覺領(lǐng)域類似的情況是,如果生成一張圖或一個(gè)三維內(nèi)容,如果只是天馬行空,那怎么漂亮怎么來。

但如果要落地在實(shí)際應(yīng)用中,比如在一個(gè)Game Engine,它要去動(dòng),它要合理的時(shí)候,它要符合一些基礎(chǔ)物理規(guī)則,那么我們靠什么東西,就像事實(shí)檢測一樣,我們?cè)趺粗肋@個(gè)東西它該不該動(dòng)、動(dòng)起來是不是合理呢?

我們需要一個(gè)檢測器,比如有Fake Call Simulator,可以給你提供反饋。

我覺得這是另外一個(gè)非常有趣的研究方向,就是怎么通過檢測器給大模型反饋,讓它能夠?qū)W會(huì)生成符合規(guī)則的內(nèi)容。

王寶元博士:就是說現(xiàn)在的AIGC大模型,它本身并不提供物理特性、物流規(guī)則,所以說它只能是一種參考,它達(dá)不到這種物理仿真的級(jí)別。

童欣博士:對(duì),或者說它只有一個(gè)前向的生成過程,然后這個(gè)生成了以后,你是沒辦法給它另外一個(gè)反饋?zhàn)屗纬梢粋€(gè)閉環(huán)的,現(xiàn)在這個(gè)反饋來自于人,通過RLHF來做。

但我希望,未來有一個(gè)自動(dòng)的物理反饋給它,那這兩個(gè)東西互相動(dòng),那也許生成的就不太一樣了。

王寶元博士:徐老師有沒有補(bǔ)充的?

徐迎慶教授:ChatGPT現(xiàn)象發(fā)生的時(shí)候,我是最興奮的。

因?yàn)槲易鋈藱C(jī)交互,覺得它為人機(jī)交互和人機(jī)協(xié)同工作打開了一個(gè)全新的時(shí)代。ChatGPT代表了最最重要的新一代交互模式,所以各位開發(fā)者,我建議在這個(gè)方向可以下功夫。

第一點(diǎn),是大模型的邏輯推理還需要優(yōu)化。

比如剛才李笛講了一個(gè)例子,說ChatGPT無法回答“刺殺林肯的兇手和林肯是不是在同一個(gè)大陸上”。

然后小冰鏈(X-CoTA)可以做到,然后它基于時(shí)序推理、上下文推理,先問什么時(shí)候發(fā)生的、然后在哪兒等等推理了一大堆,然后最后得到結(jié)論是在一個(gè)大陸上。

但其實(shí)人不是這么想問題的,如果人機(jī)交互,人就跟機(jī)器說笨蛋,在19世紀(jì),一個(gè)人要刺殺另一個(gè)人,一定得在同一個(gè)環(huán)境下,不然他怎么開槍呢?他也沒有現(xiàn)在的遠(yuǎn)程武器。

所以人類想問題和所有的大模型推理是不太一樣的,這是第一點(diǎn)。

第二點(diǎn),剛才兩位也都談到Physical Based Modeling和Physical Based Simulation。

這需要經(jīng)過物理試驗(yàn),才能真正應(yīng)用在創(chuàng)新。舉個(gè)例子,現(xiàn)在要設(shè)計(jì)一輛新車,需要上百個(gè)設(shè)計(jì)師、工程師做好幾年,然后進(jìn)行各種各樣的測試。

但是在未來,可能當(dāng)ChatGPT的知識(shí)足夠的時(shí)候,說我們要給20出頭、剛工作的年輕人設(shè)計(jì)一個(gè)城市通勤和郊游為主的新車,那它可能一晚上給你100個(gè)方案。

這些方案一定不是完美的,但它能包括外觀、材料、底盤、發(fā)動(dòng)機(jī)、油箱等總成,還包括去哪兒采購,供應(yīng)鏈關(guān)系等,甚至市場推廣怎么做都做好了,然后用少量的設(shè)計(jì)師、工程師和相關(guān)人力,就可以完成了。

所以未來就是人類可以做很多外叉的事情,那么目前機(jī)器做的大部分是內(nèi)叉的任務(wù),少部分是外叉。那么以前三年、三十年的任務(wù),未來也許三個(gè)月就完成了。

所以我覺得ChatGPT未來一個(gè)非常大的影響,可能是正面的,也可能是負(fù)面的。

正面的是,會(huì)大大加速社會(huì)進(jìn)步、技術(shù)進(jìn)步;負(fù)面的是,很多人確實(shí)要考慮自己的工作應(yīng)該怎么保住,我就講這個(gè)。

王寶元博士:徐老師引出非常好的一個(gè)問題,不過我想稍微反問一下,就是說那ChatGPT學(xué)出來的創(chuàng)造的能力,它也是從人類大量的作品學(xué)出來的對(duì)吧?

徐迎慶教授:對(duì)。

王寶元博士:那它不一定能夠生成真正有用的知識(shí),或者有用的這種創(chuàng)意的idea,會(huì)嗎?應(yīng)該是以怎么樣的方式去結(jié)合,跟人去協(xié)同創(chuàng)造?

徐迎慶教授:對(duì),是這樣。

比如說我們以前做過一個(gè)案例,我們自己的人工智能系統(tǒng),給它看了4萬張椅子的照片,然后說要生成一把新椅子,生成了31萬把椅子,人工看是看不過來的,加了一個(gè)約束后得到了十幾把。

這十幾把椅子的概念,有的合理、有的不合理,我們挑了一個(gè)最喜歡的,就真的做了一把椅子出來,從設(shè)計(jì)師的角度看是非??岬?,它既有明代風(fēng)格,又有現(xiàn)代風(fēng)格,融合了很多東西。

那這樣的人機(jī)協(xié)同設(shè)計(jì),就變得非常現(xiàn)實(shí),這就是我說的一定要人機(jī)協(xié)同工作,光靠大模型肯定不行,無論如何都不行。

王寶元博士:非常同意徐老師這個(gè)觀點(diǎn)。

最后有一個(gè)問題非常重要,我也想最后每個(gè)人都總結(jié)一下,就是今天來了這么多的開發(fā)者,我想大家都是可能非常年輕的剛進(jìn)入這個(gè)行業(yè),有的還是學(xué)生。

各位有沒有一些具體的建議,告訴他們應(yīng)該以什么樣的心態(tài),去面對(duì)新技術(shù)帶來的變革?

徐迎慶教授:第一個(gè)就是,大家不要怕這個(gè)東西。

因?yàn)槠鋵?shí)我們想一想歷史,比如當(dāng)攝影術(shù)剛發(fā)明的時(shí)候,很多畫家很恐慌,因?yàn)樗嬃税肽?、一年,結(jié)果那個(gè)鎂光燈一亮,整個(gè)影像就記錄下來了。

那其實(shí)對(duì)當(dāng)時(shí)以貴族、商人肖像畫為主的畫家?guī)砹撕艽蟮耐{,反而逼著新的藝術(shù)流派誕生。

走到今天,攝影成了一個(gè)單獨(dú)的門類,藝術(shù)繪畫還在那里。

第二個(gè),學(xué)會(huì)掌握新的工具,ChatGPT是你大腦里的一支畫筆。

最早人類記錄影像、文字,是有顏色的石塊,后來是木棍、鵝毛、鉛筆、鋼筆、鼠標(biāo)、數(shù)字筆,他們都是筆的延伸。

數(shù)字筆在數(shù)字板上是很滑的,不像在紙上的感覺,所以比較難學(xué),但ChatGPT比數(shù)字筆還要難適應(yīng)。但你要去適應(yīng)它,如果你不去適應(yīng),那你永遠(yuǎn)用不好這桿筆。

第三個(gè),當(dāng)然我作為一個(gè)老師,這就更逼著大家,特別是年輕的一代,要去學(xué)習(xí)一些全新的知識(shí),逼著自己去學(xué),不學(xué)習(xí)沒有出路。

現(xiàn)在一個(gè)很明顯的現(xiàn)象,據(jù)我所知有很多非常先進(jìn)的設(shè)備,但能開的人非常少,為什么?

因?yàn)樗獌?chǔ)存和具備足夠的知識(shí)和技能,那ChatGPT是一樣的。如果每個(gè)人都以另外一種方式在前進(jìn),而你還不會(huì),那就和這個(gè)時(shí)代脫節(jié)了。

這些不一定對(duì),但是跟大家分享。

王寶元博士:謝謝徐老師,家興。

張家興博士:我做過學(xué)術(shù)研究,也在工業(yè)界做過各種技術(shù)落地,經(jīng)過多年的觀察和思考,我的建議時(shí)候,當(dāng)我們把自己定位成技術(shù)人的時(shí)候,我們不能只是低頭走路,還要抬頭看看天。

這個(gè)時(shí)代變化太快。大家今天為ChatGPT驚呼,但再往前推,其來有自。2020年是GPT3,2018年是BERT,2017年是Transformer,2015年ResNet,2012年深度學(xué)習(xí)興起,技術(shù)范式的變化是加速度,而不是是勻速?;緝赡暌粋€(gè)大變局。

其實(shí)當(dāng)年GPT3和BERT出來的時(shí)候,已經(jīng)沖擊非常大了,很多當(dāng)時(shí)做NLP的就不知道接下來論文該怎么寫了,要跟BERT比還是不比?

而且當(dāng)時(shí)一個(gè)趣事是,BERT最開始大家覺得這個(gè)只是學(xué)術(shù)界用,但實(shí)際上也就三個(gè)月到半年,工業(yè)界就都用了,所以技術(shù)范式的變化速度真是大家以前想象不到的。

所以我的建議是,大家除了每天學(xué)好技術(shù)細(xì)節(jié),做好手頭工作之外,一定一定要關(guān)注,整體技術(shù)范式的變化,多做一些更深層次的、更抽象的、更大框架下的思考,到底我們這個(gè)時(shí)代,技術(shù)在發(fā)生什么變化,有些時(shí)候可能你聽別人講很多,但大家得形成自己的思想和判斷。

當(dāng)你自己的思想和判斷越來越準(zhǔn),這時(shí)你自己選擇說,我該投身于哪個(gè)技術(shù)方向,還是要帶一個(gè)更大的團(tuán)隊(duì),甚至為一個(gè)公司制定技術(shù)戰(zhàn)略,這都是非常重要的。

這些能力,要從年輕的時(shí)候開始積累和培養(yǎng),這就是我的建議。

王寶元博士:童老師。

童欣博士:剛才兩位老師講了很多關(guān)于技術(shù)、關(guān)于知識(shí)儲(chǔ)備、學(xué)習(xí)方面的,我講點(diǎn)稍微不一樣的。

我做研究做了二十多年,可以說做了很多工作,但是我現(xiàn)在越來越意識(shí)到,就是現(xiàn)在真的是太卷了。

這個(gè)時(shí)代也許會(huì)越來越卷,因?yàn)榧夹g(shù)的發(fā)展進(jìn)入奇點(diǎn)時(shí)代,只會(huì)越來越快,但是我想跟大家講的是,就是說什么時(shí)候,都不要忘了你首先是一個(gè)人。

什么意思呢?在你不斷的做這些工作的時(shí)候,最重要的還是學(xué)會(huì)享受你生活中的樂趣。

當(dāng)你最后回顧自己的一生,你不會(huì)說ChatGPT這個(gè)那個(gè),你想到的,最終還是你生活中特別幸福美好的那些瞬間。

別忘了,那些瞬間最重要,不管時(shí)代怎么變,你永遠(yuǎn)是幸福的。我越來越意識(shí)到,讓自己感到幸福,比技術(shù)還重要。

王寶元博士:謝謝。我聽完三位老師最后的建議,我自己的焦慮感都瞬間少了很多,不管你們信不信,反正我是全信了。因?yàn)闀r(shí)間關(guān)系,今天就聊到這兒,再次感謝三位嘉賓,謝謝大家。

附:圓桌對(duì)談金句摘要

張家興博士

1、過去十年屬于Deep Understanding,未來十年屬于Generative和General。這是一個(gè)讓人興奮的新時(shí)代。

2、傳統(tǒng)的NLP技術(shù)不存在了。

3、如何解決大模型一本正經(jīng)胡說八道的問題?目前比較好的方式,是讓大模型學(xué)會(huì)使用工具,比如搜索引擎。

4、技術(shù)人不能只是低頭走路,還要抬頭看天。做好日常重要,更重要的是關(guān)注整體技術(shù)范式的變化,多做深層次的、抽象的、更大框架下的思考,得有自己的思想和判斷。

童欣博士

1、ChatGPT非常震撼,它涌現(xiàn)出很多夢寐以求的能力。這給我們帶來了緊迫感,視覺領(lǐng)域的大模型涌現(xiàn)能力該如何表現(xiàn)?

2、大模型的出現(xiàn),解決了兩個(gè)根本性的問題,提供了全新的路徑和方式。

首先是多模態(tài)帶來的維度躍遷,實(shí)現(xiàn)了夢寐以求的跨模態(tài)生成;另一個(gè)是DreamFusion第一次實(shí)現(xiàn)了,輸入圖片獲得三維數(shù)據(jù)。傳統(tǒng)的三維建模和三維重構(gòu)不重要了。

3、大模型生成三維內(nèi)容的落地,需要解決兩個(gè)一公里的問題?,F(xiàn)在AIGC走出了革新的第一步,往下有沒有機(jī)會(huì),創(chuàng)造出一個(gè)全新的三維內(nèi)容的生產(chǎn)方式與流程?

4、視覺領(lǐng)域的大模型生成,目前還需要解決一些限制和挑戰(zhàn)。

比如,大模型生成的三維表達(dá)和真實(shí)世界物理三維表達(dá)一致性的問題;大模型生成三維輸出的How和Why的問題,這個(gè)領(lǐng)域的prompt該如何做;其三是大模型生成的三維表達(dá)如何在具體場景里自動(dòng)學(xué)習(xí)、遵守相應(yīng)的規(guī)則。

5、人生的幸福瞬間,比技術(shù)變革更重要。任何時(shí)候都要先記得,自己首先是一個(gè)人,不是機(jī)器。你回顧一生的時(shí)候,你首先想到的,都是特別幸福的那些瞬間。

徐迎慶教授

1、大模型對(duì)學(xué)科之間的融合、交叉創(chuàng)興,有可能產(chǎn)生革命性、顛覆性的影響。

我們?cè)谧龅男嵊X計(jì)算中包括氣味檢測,人類知識(shí)庫里有很多對(duì)氣味的自然語言描述,比如花香調(diào)的香水,這些香水通過語言描述,會(huì)讓人直接感受到心理學(xué)上的認(rèn)知,我們?cè)谧鰯?shù)據(jù)的時(shí)候特別需要這一部分。

另一個(gè)可能性,是大模型是否可能建立類似幾何空間、色彩空間一樣的嗅覺空間,用少量的參數(shù)就能夠定義和描述。

2、ChatGPT為人機(jī)交互和人機(jī)協(xié)同,打開了一個(gè)全新的時(shí)代。它能讓人類更好地發(fā)揮創(chuàng)造力,可能三個(gè)月就能完成三年、三十年才能完成的任務(wù)。

3、ChatGPT是一支新的筆,在你的大腦里,用它來描繪出什么,取決于你是不是能掌握它,用好它。如果你沒有足夠的知識(shí)和技能,沒有足夠的創(chuàng)造力,那你可能就會(huì)和這個(gè)時(shí)代脫節(jié)。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-13 08:25:59

DML操作SQL

2017-12-26 08:25:57

硬盤數(shù)據(jù)丟失

2023-05-28 13:56:48

ChatGPT人工智能

2018-07-03 10:09:18

閃存

2024-07-22 08:03:55

2024-12-17 10:40:26

2024-05-14 09:22:51

模型技術(shù)

2015-10-20 10:30:59

創(chuàng)業(yè)時(shí)機(jī)

2018-07-19 06:14:09

2021-01-25 07:21:24

GitHub 開源代碼下載

2023-09-12 08:02:13

viewport斷點(diǎn)

2009-09-12 09:34:18

Windows 7中國售價(jià)

2018-07-03 14:20:10

數(shù)據(jù)庫恢復(fù)備份

2010-01-05 13:52:02

2022-12-05 15:03:01

2020-11-03 10:23:22

云計(jì)算容器技術(shù)

2022-12-13 15:56:43

信息安全人工智能ChatGPT

2009-05-05 17:07:56

2023-06-03 13:28:35

ChatGPTAItoken

2017-12-07 14:57:13

404互聯(lián)網(wǎng)錯(cuò)誤代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)