自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

來(lái)聊聊近期火爆的幾個(gè)大模型和自動(dòng)駕駛概念

人工智能 新聞
寫這篇文章,一方面是發(fā)現(xiàn)其實(shí)包括我在內(nèi),在過(guò)去其實(shí)都混淆了一些很相關(guān)但其實(shí)不同的概念,另一方面從這些概念延伸出來(lái)有一些有意思的思考,值得和大家一起分享和探討。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

近期大模型各種應(yīng)用依然火爆,10月初前后出現(xiàn)了一系列頗有噱頭的文章,試圖把大模型應(yīng)用于自動(dòng)駕駛。和很多朋友最近也聊了很多相關(guān)的話題,寫這篇文章,一方面是發(fā)現(xiàn)其實(shí)包括我在內(nèi),在過(guò)去其實(shí)都混淆了一些很相關(guān)但其實(shí)不同的概念,另一方面從這些概念延伸出來(lái)有一些有意思的思考,值得和大家一起分享和探討。

大(語(yǔ)言)模型

這無(wú)疑是目前最為火爆的一個(gè)方向,也是論文最為集中的熱點(diǎn)。那大語(yǔ)言模型究竟能怎么幫助到自動(dòng)駕駛?一方面是像GPT-4V一樣,通過(guò)和圖像的對(duì)齊,提供極其強(qiáng)大的語(yǔ)義理解能力,這里暫時(shí)按下不表;另一方面便是把LLM作為agent去直接實(shí)現(xiàn)駕駛行為。后者其實(shí)也是目前最為sexy的研究方向,和embodied AI這一系列工作有著千絲萬(wàn)縷的聯(lián)系。

目前看到的絕大部分后一類工作都是將LLM:1) 直接使用 2) 通過(guò)supervised learning的方式微調(diào) 3) 通過(guò)reinforcement learning的方式微調(diào) 用于駕駛?cè)蝿?wù)。本質(zhì)上并沒有逃脫出之前基于learning方法去駕駛的范式框架。那其實(shí)很直接的一個(gè)問(wèn)題就是,為什么用LLM做這件事情可能會(huì)更好?直覺上來(lái)說(shuō)用語(yǔ)言去開車是一個(gè)很低效而啰嗦的事情。后來(lái)有一天突然想明白了LLM其實(shí)通過(guò)語(yǔ)言實(shí)現(xiàn)了一個(gè)對(duì)agent的pretrain!之前RL很難具有泛化性很重要的一個(gè)原因是難以統(tǒng)一起來(lái)各種不同的任務(wù),去用各種通用的數(shù)據(jù)去pretrain,只能是每種任務(wù)from scratch訓(xùn)練,但是LLM很好解決了這樣的問(wèn)題。但其實(shí)也有幾個(gè)并沒有很好解決的問(wèn)題:1) 完成pretrain之后,一定要保留語(yǔ)言作為輸出的接口嗎?這其實(shí)在很多任務(wù)中帶來(lái)了很多的不便,也一定程度上造成了冗余的計(jì)算量。2) LLM as agent的做法上仍然沒有克服現(xiàn)有RL類model free方法的本質(zhì)問(wèn)題,所有model free有的問(wèn)題這樣的方法仍然存在。最近也看到一些model based + LLM as agent的嘗試,這可能會(huì)是一個(gè)有意思的方向。

最后想吐槽的一句各篇paper的是:并不是接上LLM,讓LLM輸出一個(gè)reason就能讓你的模型變得可解釋。這個(gè)reason仍然是可能胡說(shuō)八道的。。。原先不會(huì)有保障的東西,并不會(huì)因?yàn)檩敵鲆痪湓捑妥兊糜斜U狭恕?/p>

大(視覺)模型

純粹的大視覺模型其實(shí)目前仍然沒有看到那神奇的“涌現(xiàn)”時(shí)刻。談到大視覺模型,一般有兩個(gè)可能的所指:一個(gè)是基于CLIP或者DINO或者SAM這樣海量的web data預(yù)訓(xùn)練實(shí)現(xiàn)的超強(qiáng)視覺信息特征提取器,這大大提升了模型的語(yǔ)義理解能力;另一個(gè)是指以GAIA為代表的world model實(shí)現(xiàn)的對(duì)(image, action,etc...)的聯(lián)合模型。

前者其實(shí)我認(rèn)為只是沿著傳統(tǒng)的思路繼續(xù)linear scale up的結(jié)果,目前很難看到對(duì)自動(dòng)駕駛量變的可能性。后者其實(shí)在今年Wayve和Tesla的不斷宣傳之下,不斷走入了研究者的視野。大家在聊world model的時(shí)候,往往夾雜著這個(gè)模型是端到端(直接輸出action)且和LLM是相關(guān)聯(lián)的。其實(shí)這樣的假設(shè)是片面的。對(duì)于world model的我的理解也是非常有限,這里推薦一下Lecun的訪談和 @俞揚(yáng) 老師的這篇model based RL的survey,就不展開了:

俞揚(yáng):關(guān)于環(huán)境模型(world model)的學(xué)習(xí)
https://zhuanlan.zhihu.com/p/533855468

純視覺自動(dòng)駕駛

這其實(shí)很容易理解,是指僅依賴于視覺傳感器的自動(dòng)駕駛系統(tǒng)。這其實(shí)也是自動(dòng)駕駛最美好的一個(gè)終極愿望:像人一樣靠一雙眼睛來(lái)開車。這樣的概念一般都會(huì)和上述兩個(gè)大模型聯(lián)系起來(lái),因?yàn)閳D像復(fù)雜的語(yǔ)義需要很強(qiáng)的抽象能力來(lái)提取有用的信息。在Tesla最近不斷的宣傳攻勢(shì)下,這個(gè)概念也和下面要提到的端到端重合起來(lái)。但其實(shí)純視覺駕駛有很多種實(shí)現(xiàn)的路徑,端到端自然是其中的一條,但也不是僅有的一條。實(shí)現(xiàn)純視覺自動(dòng)駕駛最為困難的問(wèn)題就是視覺天生對(duì)于3D信息的不敏感,大模型也并未本質(zhì)上改變這一點(diǎn)。具體體現(xiàn)在:1) 被動(dòng)接收電磁波的方式使得視覺不像其他傳感器可以測(cè)量3D空間中的幾何信息;2) 透視使得遠(yuǎn)處的物體對(duì)于誤差的敏感程度極高。這對(duì)于下游默認(rèn)在一個(gè)等誤差的3D空間中實(shí)現(xiàn)的planning和control來(lái)說(shuō)非常不友好。但是,人靠視覺開車等同于人能準(zhǔn)確估計(jì)3D距離和速度嗎?我覺得這才是純視覺自動(dòng)駕駛除了語(yǔ)義理解之外,值得深入研究的representation的問(wèn)題。

端到端自動(dòng)駕駛

這個(gè)概念是指從傳感器到最終輸出的控制信號(hào)(其實(shí)我認(rèn)為也可以廣義地包括到更上游一層planning的路點(diǎn)信息)使用一個(gè)聯(lián)合優(yōu)化的模型。這既可以是像早在80年代的ALVINN一樣輸入傳感器數(shù)據(jù),直接通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)輸出控制信號(hào)的直接端到端方法,也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個(gè)共同要點(diǎn)都是通過(guò)下游的監(jiān)督信號(hào)能夠直接傳遞給到上游,而不是每個(gè)模塊只有自己自定的優(yōu)化目標(biāo)。整體來(lái)說(shuō)這是正確的一個(gè)思路,畢竟深度學(xué)習(xí)就是靠著這樣的聯(lián)合優(yōu)化發(fā)家的。但是對(duì)于自動(dòng)駕駛或者通用機(jī)器人這種往往復(fù)雜程度極高,且和物理世界打交道的系統(tǒng)來(lái)說(shuō),工程實(shí)現(xiàn)和數(shù)據(jù)組織和利用效率上都存在很多需要克服的難題。

Feed-Forward端到端自動(dòng)駕駛

這個(gè)概念好像很少有人提到,但其實(shí)我發(fā)現(xiàn)端到端本身的存在是有價(jià)值的,但是問(wèn)題在于對(duì)于觀測(cè)這種Feed-Forward的使用方式。包括我在內(nèi),其實(shí)之前也都會(huì)默認(rèn)端到端駕駛一定是Feed-Forward形式的,因?yàn)槟壳?9%基于深度學(xué)習(xí)的方法都假設(shè)了這樣的結(jié)構(gòu),也就是說(shuō)最終關(guān)心的輸出量(比如控制信號(hào))u = f(x),x是傳感器的各種觀測(cè)。這里f可以是一個(gè)很復(fù)雜的函數(shù)。但其實(shí),我們?cè)谀承﹩?wèn)題里,我們希望能夠使得最終的輸出量滿足或接近某些性質(zhì),這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x) <= c 這樣的約束優(yōu)化形式(某種意義上來(lái)說(shuō),這也算引入了反饋,姑且不準(zhǔn)確地叫做Feedback端到端自動(dòng)駕駛吧)。其實(shí)在CV領(lǐng)域也有一些工作是試圖將這兩者的優(yōu)勢(shì)結(jié)合起來(lái),比如我比較熟悉的通過(guò)Implict Function構(gòu)造導(dǎo)數(shù)的方式,這在之前的文章里面多次提到過(guò)。這樣的范式其實(shí)我認(rèn)為才會(huì)是取兩家之長(zhǎng)的一個(gè)完美端到端方案。

隨著大模型的發(fā)展,這種直接式的Feed-Forward端到端自動(dòng)駕駛的方案又迎來(lái)了一波復(fù)興。大模型當(dāng)然是非常強(qiáng)大的,但是我拋出一個(gè)問(wèn)題希望大家來(lái)想想:如果大模型端到端是萬(wàn)能的,那是不是意味著大模型就應(yīng)該可以端到端下圍棋/五子棋呢?類似AlphaGo的范式就應(yīng)該已經(jīng)毫無(wú)意義了?相信大家也都知道這個(gè)答案是否定的。當(dāng)然這種Feed-Forward的方式可以作為一個(gè)快速的近似求解器,在大部分場(chǎng)景下取得不錯(cuò)的結(jié)果。

以目前公開了自己使用了Neural Planner的各家方案來(lái)看,neural的部分只是為后續(xù)的優(yōu)化方案提供了若干初始化的proposal去緩解后續(xù)優(yōu)化高度非凸的問(wèn)題。這本質(zhì)上和AlphaGo里的fast rollout做的事情是一模一樣的。但是AlphaGo不會(huì)把后續(xù)的MCTS搜索叫做一個(gè)“兜底”方案。。。

最后,希望這些能夠幫助大家理清這些概念之間的區(qū)別與聯(lián)系,大家在討論問(wèn)題的時(shí)候也能夠明確在說(shuō)的究竟是什么東西。。。

原文鏈接:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2023-02-13 12:15:41

自動(dòng)駕駛算法

2023-07-24 09:41:08

自動(dòng)駕駛技術(shù)交通

2024-01-30 09:39:36

自動(dòng)駕駛仿真

2023-10-17 09:35:46

自動(dòng)駕駛技術(shù)

2021-10-26 15:31:28

自動(dòng)駕駛技術(shù)安全

2022-08-08 13:12:04

自動(dòng)駕駛決策

2023-07-17 11:27:56

2022-12-30 09:57:54

自動(dòng)駕駛應(yīng)用

2022-08-14 15:26:05

自動(dòng)駕駛智能

2018-09-04 19:30:29

人工智能自動(dòng)駕駛機(jī)器學(xué)習(xí)

2022-10-27 10:18:25

自動(dòng)駕駛

2023-11-09 09:48:46

2022-07-13 10:20:14

自動(dòng)駕駛3D算法

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動(dòng)駕駛

2023-12-08 10:10:56

模型論文調(diào)研

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2023-10-30 09:42:29

自動(dòng)駕駛模型

2022-01-04 12:19:12

自動(dòng)駕駛系統(tǒng)開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)