自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度解析以Decoder為核心的無(wú)BEV的大一統(tǒng)端到端架構(gòu) | 對(duì)話(huà)CCF-CV學(xué)術(shù)新銳獎(jiǎng)賈蕭松博士

人工智能 新聞
端到端自動(dòng)駕駛,像剛才說(shuō)的一個(gè)最原始的設(shè)定,就是希望神經(jīng)網(wǎng)絡(luò)自動(dòng)通過(guò)K通過(guò)軌跡的好壞的關(guān)聯(lián),自動(dòng)找到像素空間上哪些pixel對(duì)我這個(gè)決策是有作用。

論文的一些巧思

1. 人開(kāi)車(chē)其實(shí)并沒(méi)有最優(yōu)解,請(qǐng)問(wèn)如何確定學(xué)習(xí)時(shí)的參考數(shù)據(jù)呢?

開(kāi)車(chē)其實(shí)也是多種多樣的,然后你模仿學(xué)習(xí)本質(zhì)上就是告訴他你只能這樣做,你做了別的那個(gè)mass loss還會(huì)懲罰他。其實(shí)就是我們說(shuō)的,我們其實(shí)就不能通過(guò)模仿來(lái)做。我們應(yīng)該通過(guò)告訴他,你這個(gè)事情做的到底對(duì)不對(duì),你要對(duì)了,我就不管你怎么做的,你都是對(duì)的對(duì)吧?所以說(shuō)這個(gè)就是這樣一個(gè)理念。

2. Drivetransformer為什么還要直接出感知?我覺(jué)得是這樣的,就是說(shuō)端到端自動(dòng)駕駛,像剛才說(shuō)的一個(gè)最原始的設(shè)定,就是希望神經(jīng)網(wǎng)絡(luò)自動(dòng)通過(guò)K通過(guò)軌跡的好壞的關(guān)聯(lián),自動(dòng)找到像素空間上哪些pixel對(duì)我這個(gè)決策是有作用。這就是本質(zhì)上最原始的想法。就像ResNet它通過(guò)訓(xùn)練能自動(dòng)找到。比如說(shuō)我classify鳥(niǎo)的時(shí)候,我就看看那些翅膀之類(lèi)的。 但是自動(dòng)駕駛作為一個(gè)高維的還是一個(gè)環(huán)視,就很難在環(huán)視相當(dāng)于是超高維的場(chǎng)景。因?yàn)榄h(huán)視首先是6到11個(gè)相機(jī),其次我的圖并不是ImageNet那種224幼稚的圖。我們是一分辨率是幾百幾千的圖片,然后6張到11張,然后我們還是多幀的,可以看到我們這個(gè)空間是非常瘋狂的,超高維的。這就是大家機(jī)器學(xué)習(xí)第一課。Curse of dimension問(wèn)題會(huì)非常嚴(yán)重,就導(dǎo)致其實(shí)我覺(jué)得在現(xiàn)階段,就大家還沒(méi)有瘋狂到能不借助任何輔助的一些東西來(lái)讓它收斂。

3. 加detection的好處是什么?

我們可以通過(guò)看detection transformer初步學(xué)一些邏輯。就是說(shuō)車(chē)這個(gè)東西我都告訴你很重要了,這樣我們我們也能有效利用這個(gè)標(biāo)注。

所以說(shuō)我覺(jué)得在現(xiàn)階段我們標(biāo)注還是有一定作用的,尤其是可以從閉環(huán)、數(shù)據(jù)效率、scale up角度看這個(gè)問(wèn)題。

4. 然后有人問(wèn)我的方法是decoder only嗎?

其實(shí)并不是的,就是也是有image backbone,只不過(guò)之前的方法scale up的都是encoder部分,我這個(gè)方法其實(shí)想更多的研究一下scale up decoder的收益 因?yàn)镚PT是在scale up decoder,包括其實(shí)VLM scale up的過(guò)程中 Scale up VIT的收益,其實(shí)不如scale up LLM來(lái)得快。就比如說(shuō)可能LLM都從7B到70B能力有個(gè)飛躍。但VIT從400M變到6B或者說(shuō)多大 好像你要說(shuō)能有多大的飛躍 其實(shí)對(duì) 就是還有待觀(guān)察。

生成模型與世界模型

5. 生成模型出來(lái)的圖像符合物理世界規(guī)律嗎

我們?cè)谶@篇工作中,就Bench2drive的后續(xù)工作中,我們的物理規(guī)律是通過(guò)框的推演進(jìn)行的。

所以說(shuō)我從一開(kāi)始就跟組里同學(xué)討論,我們不做video diffusion model。因?yàn)槲覀冋J(rèn)為pixel to pixel的映射學(xué)到物理規(guī)律很難,這都是英偉達(dá)或者DeepMind的那個(gè)級(jí)別,可能能真的幾十萬(wàn)卡10萬(wàn)卡能訓(xùn)出來(lái),真的通過(guò)視頻pixel到pixel學(xué)出物理規(guī)律,不然的話(huà)其實(shí)很容易就從pixel到pixel學(xué)出反物理規(guī)律的東西。

所以說(shuō)我們做的是基于框的condition的生成模型。然后這一點(diǎn)其實(shí)跟做重建的同學(xué)也異曲同工。就是重建的是更相信自己手中的規(guī)則,我們還是希望做的更scalable一點(diǎn)。對(duì),大概是從像素到框,其實(shí)這個(gè)有非常多的經(jīng)典工作可以搜索,也有非常多的surry可以搜一搜。其實(shí)包括也可以看看我們的論文,我們也是基于很多前沿的工作,這點(diǎn)其實(shí)有非常多的經(jīng)典模型。

6. 世界模型的定義

世界模型的定義 我覺(jué)得世界模型其實(shí)是有兩種定義 第一個(gè)是用于決策的那種world model的世界模型 然后那個(gè)就是model based rl 可以學(xué)習(xí)一下。

就是model based rl 尤其dreamer系列我覺(jué)得是非常非常聰明 就值得每一個(gè)人都看的一個(gè)經(jīng)典,畢竟DeepMind的經(jīng)典工作;然后另一種呢就是當(dāng)然就是video diffusion 就是這種呢是用于仿真的,就是各有各的浩。我只能說(shuō)world model和端道端一樣,現(xiàn)在都是框,就是什么都可以往里裝,然后其實(shí)大家也不必糾結(jié)于詞匯。,就是只要理清楚要做什么這個(gè)模型就可以。

強(qiáng)化學(xué)習(xí)相關(guān)

7. 強(qiáng)化學(xué)習(xí)訓(xùn)練端到端難點(diǎn)是沒(méi)有仿真?

可以用Carla。我覺(jué)得從研究模型角度來(lái)看,研究Carla完全沒(méi)有問(wèn)題。我還是那個(gè)觀(guān)點(diǎn),就是凡是dissCarla的,你先給我搞定卡拉再說(shuō)。反正目前我們或者說(shuō)世界范圍沒(méi)有搞定的特別好的。你覺(jué)得你瞧不起太簡(jiǎn)單,那為什么這么厲害呢?我覺(jué)得其實(shí)Carla可以做。

8. 模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合有沒(méi)有好的paper推薦

我覺(jué)得這個(gè)可以直接谷歌搜索。其實(shí)這些探索也非常多的。

9. 強(qiáng)化學(xué)習(xí)的reward設(shè)計(jì)?

是的,我覺(jué)得強(qiáng)化學(xué)習(xí)也是我們團(tuán)隊(duì)非常欣慰的。我們團(tuán)隊(duì)中的成員其實(shí)有很多都是強(qiáng)化學(xué)習(xí)出身,都是沉浸了七八年。有的從本科開(kāi)始,本碩博一路做上來(lái),所以說(shuō)也很欣慰。昨天比如說(shuō)拿了個(gè)圖靈,當(dāng)然也不是蹭熱度了,就只能說(shuō)很欣慰。不管是春節(jié)期間deep sick的爆火,還是最近的圖靈獎(jiǎng),都說(shuō)明世界開(kāi)始認(rèn)可了強(qiáng)化學(xué)習(xí)原來(lái)是真的是走向智能的最后后一步。所以說(shuō)我理解。所以說(shuō)我覺(jué)得我還是覺(jué)得大家強(qiáng)化學(xué)習(xí)方面可以更多研究,是更值得他研究的新時(shí)代方向。

10. RL學(xué)到的結(jié)果是否不像人開(kāi)的,體驗(yàn)不好?

RL學(xué)到的結(jié)果是否不像人 體驗(yàn)不好 好問(wèn)題。然后有人說(shuō)強(qiáng)化學(xué)習(xí)的reward設(shè)計(jì)。是的,我覺(jué)得強(qiáng)化學(xué)習(xí)也是我們團(tuán)隊(duì)非常欣慰的。我們團(tuán)隊(duì)中的成員其實(shí)有很多都是強(qiáng)化學(xué)習(xí)出身,都是沉浸了七八年。有的從本科開(kāi)始,本碩博一路做上來(lái),所以說(shuō)也很欣慰。昨天比如說(shuō)拿了個(gè)圖靈,當(dāng)然也不是蹭熱度了,就只能說(shuō)很欣慰。不管是春節(jié)期間deep sick的爆火,還是最近的圖靈獎(jiǎng),都說(shuō)明世界開(kāi)始認(rèn)可了強(qiáng)化學(xué)習(xí)原來(lái)是真的是走向智能的最后后一步。所以說(shuō)我理解。所以說(shuō)我覺(jué)得我還是覺(jué)得大家強(qiáng)化學(xué)習(xí)方面可以更多研究,是更值得他研究的新時(shí)代方向。

所以說(shuō)我們?cè)谖业腎CCV23的oral的工作中研究了我們其實(shí)RL之后,就是相當(dāng)于是很有趣,就是pre-training然后。RL學(xué)到的結(jié)果是否不像人 體驗(yàn)不好 好問(wèn)題 所以說(shuō)我們?cè)谖业腎CCV23的oral的工作中 研究了我們其實(shí) RL之后 就是相當(dāng)于是很有趣 就是pre-training.所以也歡迎關(guān)注我ICCV23的DriverAdapter。

11. 強(qiáng)化學(xué)習(xí)中如何提高學(xué)習(xí)稀疏報(bào)酬對(duì)效率影響

對(duì) 我覺(jué)得這個(gè)也是一直強(qiáng)化學(xué)習(xí)中的難題。就肯定是 一方面希望 RLM可能可以做一些類(lèi)似工作另一方面可能。目前當(dāng)然是靠大家設(shè)置然后。

12. 如何看顯式建模障礙物行為和隱式生成去建模

理解顯示中障礙物行為的建模,需要分析障礙物在視覺(jué)環(huán)境中的表現(xiàn)方式及其互動(dòng)。這包括研究它們的移動(dòng)、碰撞檢測(cè)以及對(duì)用戶(hù)輸入的響應(yīng)。視覺(jué)效果的生成則側(cè)重于創(chuàng)造沉浸式和逼真的體驗(yàn)。這一過(guò)程通常結(jié)合了光照、陰影和粒子效果等技術(shù),以提升整體的視覺(jué)吸引力。通過(guò)將這兩個(gè)方面結(jié)合起來(lái),設(shè)計(jì)師可以打造出動(dòng)態(tài)且引人入勝的顯示效果,既能有效模擬現(xiàn)實(shí)世界的互動(dòng),又能保持美學(xué)品質(zhì)。

13. 然后說(shuō)RL加AD的挑戰(zhàn)?

我覺(jué)得這就是我們?yōu)槭裁捶浅O矚g做這個(gè)RL加AD,覺(jué)得很exciting的原因。因?yàn)樗鋵?shí)是一個(gè)比甚至我覺(jué)得比在LLM做RL更exciting的。因?yàn)槲覀兪窃谧鑫锢砜臻g的,它的不管是這個(gè)動(dòng)態(tài)性還是這個(gè)觀(guān)測(cè)的復(fù)雜度都要復(fù)雜的多。因?yàn)長(zhǎng)LM本質(zhì)上是完美觀(guān)測(cè),就你問(wèn)啥問(wèn)題,數(shù)學(xué)題告訴你,你要解解出來(lái),我們這個(gè)觀(guān)測(cè)都要靠自己來(lái)解決,所以說(shuō)有很多exciting的topic值得做。其實(shí)AD我覺(jué)得到了今天反而是RL的值得最興盛的時(shí)期。

端到端的一些思考以及未來(lái)研究方向

14. 端到端絕不是像素到Control

我深深尊重任何像素到像素模型,因?yàn)樗鼈凅w現(xiàn)了通用人工智能(AGI)的理想。然而,我在生成建模中的目標(biāo)是創(chuàng)造智能。因此,我更喜歡一條更快的路徑,專(zhuān)注于在空間環(huán)境中明確地建模障礙物。

我深深尊重任何像素到像素模型,因?yàn)樗鼈凅w現(xiàn)了通用人工智能(AGI)的理想。然而,我在生成建模中的目標(biāo)是創(chuàng)造智能。因此,我更喜歡一條更快的路徑,專(zhuān)注于在空間環(huán)境中明確地建模障礙物。仍然需要一些中間協(xié)助。當(dāng)時(shí),根據(jù)當(dāng)前情況,或許可以通過(guò)溝通來(lái)處理。包括那些詢(xún)問(wèn)如何基于Vector做出決策的人。

15. 請(qǐng)問(wèn)你認(rèn)為現(xiàn)在做vector輸入的決策覺(jué)得還有研究前景嗎?

我認(rèn)為現(xiàn)在是做出決策的最佳時(shí)代。前幾年,大家普遍認(rèn)為這是感知的時(shí)代,感知領(lǐng)域取得了許多卓越的成果,每天都有令人目不暇接的進(jìn)展。然而,我認(rèn)為低垂的果實(shí)已經(jīng)被摘取,因?yàn)楦兄举|(zhì)上相對(duì)容易實(shí)現(xiàn)。 其實(shí),大家?guī)缀醵家呀?jīng)明白了。我覺(jué)得應(yīng)對(duì)這個(gè)艱巨的挑戰(zhàn)相當(dāng)有趣。

16. 為什么需要像人一樣駕駛呀?如果能避開(kāi)車(chē)輛,加減速平滑,駕駛車(chē)輛并不一定要像人一樣啊

其實(shí)有人曾問(wèn)我,你每天都在研究端到端模型,但缺乏可解釋性。我的觀(guān)點(diǎn)是,我觀(guān)看了Martin Casado的一場(chǎng)演講。有人問(wèn)他關(guān)于可解釋性的問(wèn)題,他反問(wèn)道:“從那個(gè)角度來(lái)看,你的目標(biāo)檢測(cè)器是可解釋的嗎?你知道它為什么檢測(cè)到它所檢測(cè)的東西嗎?你會(huì)因此失眠嗎?例如,你的檢測(cè)器會(huì)解釋它先看到馬的頭,然后是馬的身體,最后才檢測(cè)到馬嗎?你對(duì)此感到擔(dān)憂(yōu)嗎?”我認(rèn)為可解釋性值得尊重,但這取決于它如何被使用。我認(rèn)為我們應(yīng)該更加務(wù)實(shí)。關(guān)于RL(強(qiáng)化學(xué)習(xí))與AD(自動(dòng)駕駛)結(jié)合的挑戰(zhàn),這正是我們覺(jué)得研究RL與AD如此令人興奮的原因。

17. Bench2Drive是目前最好用的嗎

開(kāi)個(gè)玩笑,我認(rèn)為Bench2Drive提供了一個(gè)非常易于上手的解決方案。跑過(guò)Carla v2的人都知道,Carla v2的難度非常高,跑半天可能只能得到個(gè)位數(shù)的分?jǐn)?shù),而我們這里可能得到幾十分。大家發(fā)論文和改進(jìn)都很方便。我們還提供了一個(gè)訓(xùn)練集,數(shù)據(jù)方面也不用擔(dān)心。此外,我們?cè)贑arla上實(shí)現(xiàn)了UNIAD、VAD,模型也可以使用我們寫(xiě)好的code base。我們召集了許多編程能力很強(qiáng)的同學(xué),花了很長(zhǎng)時(shí)間才開(kāi)發(fā)出來(lái),因此可以為大家節(jié)省大量時(shí)間。

18. 端到端的范式需要中間過(guò)程比如感知的監(jiān)督,那是不是同樣存在傳感器布局的問(wèn)題?

我覺(jué)得是存在的。對(duì)我我覺(jué)得是存在的。然后因?yàn)楫?dāng)然其實(shí)我覺(jué)得也是一個(gè)魯棒性問(wèn)題。我也看過(guò)一些魯棒性工作,試圖訓(xùn)一個(gè)unify的detector來(lái)針對(duì)傳感器。這個(gè)我就不是專(zhuān)業(yè)領(lǐng)域了,大家可以再查查相關(guān)工作,我覺(jué)得也是很很好的課題。

29. 然后如何看待顯示的建模障礙物行為和隱式的生成?

隱式的pixel,我還是剛才那個(gè)觀(guān)點(diǎn),pixel到pixel的任何模型我都很尊重,因?yàn)樗麄冇蠥GI理想。但是我做生成本質(zhì)是要是想把智能做出來(lái),所以說(shuō)我會(huì)更走一個(gè)更快的路徑,還是顯示的建模空間中的障礙物質(zhì)。對(duì),然后還有一個(gè)人說(shuō)端到端絕不是像素到control這一點(diǎn)我也非常認(rèn)同。我覺(jué)得還是需要就從目前來(lái)看,還是需要一些中間的輔助的。誰(shuí)知道?過(guò)了50年,數(shù)據(jù)量沒(méi)準(zhǔn)成了1萬(wàn)倍,到時(shí)候可能硬性也能搞定了。目前來(lái)看也許還是需要一些中間過(guò)程。

20. 做決策基于vector的決策還有研究前景嗎?

我作為一個(gè)決策出身的干,我覺(jué)得現(xiàn)在是做決策最好的時(shí)代。前幾年是相信大家都覺(jué)得是感知的時(shí)代,就感知大一統(tǒng),涌現(xiàn)了非常多優(yōu)秀的工作,每天都目不暇接。但我覺(jué)得low-high-in-foot已經(jīng)都達(dá)到了。因?yàn)楦兄举|(zhì)上是非常好做的。感知其實(shí)大家搞定的差不多了,我覺(jué)得啃這個(gè)硬骨頭還是非常有意思的對(duì)。

21. 有人也提出為什么一定要像人一樣駕駛?

要不說(shuō)這個(gè)其實(shí)是一個(gè)非常唯心的觀(guān)點(diǎn)。其實(shí)包括有人問(wèn)我說(shuō),你端你每天搞端到端沒(méi)有可解釋性怎么辦?然后我其實(shí)的觀(guān)點(diǎn)就是我也看過(guò)凱明大神和愷明大神的一個(gè)talk,就有人問(wèn)他可解釋性,他的當(dāng)時(shí)的反問(wèn)是:我想請(qǐng)問(wèn)一下你的目標(biāo)檢測(cè)的detector,如果只從那個(gè)角度看是可解釋的嗎?你知道你為什么會(huì)detect出來(lái)這個(gè)嗎?你會(huì)每天擔(dān)心的睡不著覺(jué)嗎?就是說(shuō)你的detector,你怎么沒(méi)告訴我,我是先看到頭了,然后看到馬燈的身體,然后我才檢測(cè)出來(lái)這個(gè)馬,你會(huì)很擔(dān)心這個(gè)事情。就可解釋性我覺(jué)得是值得尊重,但是看怎么用。對(duì)我覺(jué)得還是要實(shí)用主義一點(diǎn)。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-03-20 09:29:41

2023-07-17 08:03:03

Shell腳本SQL

2017-12-15 17:14:10

云端

2014-07-29 13:25:43

WWDC 2014 S

2015-05-06 13:52:52

微軟外媒

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2012-02-28 09:54:01

Windows 8微軟賬戶(hù)

2023-09-14 09:44:29

2022-11-29 15:15:47

AI模型

2024-04-23 13:38:00

AI數(shù)據(jù)

2025-03-13 10:18:42

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2024-01-24 09:24:19

自動(dòng)駕駛算法

2017-06-27 10:49:48

Intel 300Wi-Fi芯片

2025-03-18 09:29:54

2023-05-10 14:58:06

開(kāi)源模型

2021-04-18 22:18:39

SQL數(shù)據(jù)分析工具

2023-07-22 13:17:33

人工智能框架

2023-10-20 09:43:56

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)