自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強(qiáng)化學(xué)習(xí)再登Nature封面,自動(dòng)駕駛安全驗(yàn)證新范式大幅減少測試?yán)锍?/h1>

人工智能 新聞
引入密集強(qiáng)化學(xué)習(xí),用 AI 驗(yàn)證 AI。

自動(dòng)駕駛汽車 (AV) 技術(shù)的快速發(fā)展,使得我們正處于交通革命的風(fēng)口浪尖,其規(guī)模是自一個(gè)世紀(jì)前汽車問世以來從未見過的。自動(dòng)駕駛技術(shù)具有顯著提高交通安全性、機(jī)動(dòng)性和可持續(xù)性的潛力,因此引起了工業(yè)界、政府機(jī)構(gòu)、專業(yè)組織和學(xué)術(shù)機(jī)構(gòu)的共同關(guān)注。

過去 20 年里,自動(dòng)駕駛汽車的發(fā)展取得了長足的進(jìn)步,尤其是隨著深度學(xué)習(xí)的出現(xiàn)更是如此。到 2015 年,開始有公司宣布他們將在 2020 之前量產(chǎn) AV。不過到目前為止,并且沒有 level 4 級別的 AV 可以在市場上買到。

導(dǎo)致這一現(xiàn)象的原因有很多,但最重要的是,自動(dòng)駕駛汽車的安全性能仍大大低于人類駕駛員。對于美國的普通駕駛員來說,在自然駕駛環(huán)境 (NDE) 中發(fā)生碰撞的概率約為 1.9 × 10^?6 per mile。相比之下,根據(jù)加利福尼亞 2021 年的脫離報(bào)告(Disengagement Reports)顯示,最先進(jìn)的自動(dòng)駕駛汽車的脫離率約為 2.0 × 10^?5 / 英里。

注:脫離率是評定自動(dòng)駕駛可靠性的重要指標(biāo),它描述的是系統(tǒng)運(yùn)行每 1000 英里需要駕駛員接管的次數(shù)。系統(tǒng)的脫離率越低,意味著可靠性越佳。當(dāng)脫離率等于 0 時(shí),也就從某種程度上說明這個(gè)自動(dòng)駕駛系統(tǒng)已經(jīng)達(dá)到無人駕駛級別。

盡管脫離率會因?yàn)榇嬖谄姸艿脚u,但它已被廣泛用于評價(jià)自動(dòng)駕駛汽車安全性能。

提高自動(dòng)駕駛汽車安全性能存在的一個(gè)關(guān)鍵瓶頸是安全驗(yàn)證效率低下。目前流行的是通過軟件模擬、封閉測試軌道和道路測試相結(jié)合的方式來測試自動(dòng)駕駛汽車的無損檢測。這樣一來,AV 開發(fā)人員必須支付大量的經(jīng)濟(jì)和時(shí)間成本來評估,從而阻礙了 AV 部署的進(jìn)展。

在 NDE 環(huán)境中,進(jìn)行 AV 安全性能驗(yàn)證非常復(fù)雜。例如,駕駛環(huán)境在時(shí)空上是復(fù)雜的,因此定義此類環(huán)境所需的變量是高維的。隨著變量維數(shù)呈指數(shù)增長,計(jì)算復(fù)雜度也呈指數(shù)增長。在這種情況下,即使給定大量數(shù)據(jù),深度學(xué)習(xí)模型也很難學(xué)習(xí)。

本文中,來自密歇根大學(xué)安娜堡分校、清華大學(xué)等機(jī)構(gòu)的研究者,他們提出密集深度強(qiáng)化學(xué)習(xí) (D2RL,dense deep-reinforcement-learning) 方法來解決這一挑戰(zhàn)。

該研究登 Nature 封面。

圖片

  • 論文地址:https://www.nature.com/articles/s41586-023-05732-2
  • 項(xiàng)目地址:https://github.com/michigan-traffic-lab/Dense-Deep-Reinforcement-Learning

論文一作封碩,目前是清華大學(xué)自動(dòng)化系終身助理教授(Tenure-Track Assistant Professor),此外,他還是密歇根大學(xué)交通研究所 (UMTRI) 的助理研究科學(xué)家。他于 2014 年和 2019 年在清華大學(xué)自動(dòng)化系獲得學(xué)士和博士學(xué)位,師從張毅教授。2017 年至 2019 年,他在密歇根大學(xué)土木與環(huán)境工程專業(yè)做訪問博士,師從 Henry X. Liu 教授(本文通訊作者)。

研究介紹

D2RL 方法的基本思想是識別和去除非安全關(guān)鍵(non-safety-critical)數(shù)據(jù),并利用安全關(guān)鍵數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。由于只有一小部分?jǐn)?shù)據(jù)是安全關(guān)鍵的,因此其余數(shù)據(jù)的信息將被大量密集化。

與 DRL 方法相比,D2RL 方法可以在不損失無偏性(unbiasedness)的情況下顯著減少多個(gè)數(shù)量級的策略梯度估計(jì)方差。這種顯著的方差減少可以使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和完成 DRL 方法難以處理的任務(wù)。

對于 AV 測試,該研究利用 D2RL 方法,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練周圍車輛 (background vehicles,BV) 學(xué)習(xí)何時(shí)執(zhí)行何種對抗性操作,旨在提高測試效率。D2RL 在基于 AI 的對抗性測試環(huán)境下可以將 AV 所需的測試?yán)锍虦p少多個(gè)數(shù)量級,同時(shí)確保了測試的無偏性。

D2RL 方法可以應(yīng)用于復(fù)雜的駕駛環(huán)境,包括多條高速公路、十字路口和環(huán)島,這是以前基于場景的方法無法實(shí)現(xiàn)的。并且,該研究提出的方法可以創(chuàng)建智能測試環(huán)境,即使用 AI 來驗(yàn)證 AI。這是一種范式轉(zhuǎn)變,它為其他安全關(guān)鍵系統(tǒng)進(jìn)行加速測試和訓(xùn)練打開了大門。

為了證明基于 AI 的測試方法是有效的,該研究使用大規(guī)模實(shí)際駕駛數(shù)據(jù)集對 BV 進(jìn)行了訓(xùn)練,并進(jìn)行了模擬實(shí)驗(yàn)和物理測試軌道的現(xiàn)場實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下圖 1 所示。

圖片

密集深度強(qiáng)化學(xué)習(xí)

為了利用 AI 技術(shù),該研究將 AV 測試問題表述為馬爾可夫決策過程 (MDP),其中 BV 的操作是根據(jù)當(dāng)前狀態(tài)信息決定的。該研究旨在訓(xùn)練一個(gè)由神經(jīng)網(wǎng)絡(luò)建模的策略(DRL 智能體),它可以控制 BV 與 AV 交互的操作,以最大限度地提高評估效率并確保無偏性。然而,如上文所述,受維數(shù)和計(jì)算復(fù)雜度的限制,如果直接應(yīng)用 DRL 方法,很難甚至根本無法學(xué)習(xí)有效策略。

由于大多數(shù)狀態(tài)都是非關(guān)鍵的,無法為安全關(guān)鍵事件提供信息,因此 D2RL 的重點(diǎn)是去除這些非關(guān)鍵狀態(tài)的數(shù)據(jù)。對于 AV 測試問題,可以利用許多安全指標(biāo)來識別具有不同效率和有效性的關(guān)鍵狀態(tài)。該研究利用的關(guān)鍵性度量指標(biāo)是當(dāng)前狀態(tài)特定時(shí)間范圍內(nèi)(例如 1 秒)內(nèi) AV 碰撞率的外部近似值。然后該研究編輯了馬爾可夫過程,丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù),并將剩余數(shù)據(jù)用于 DRL 訓(xùn)練的策略梯度估計(jì)和 Bootstrap。

如下圖 2 所示,相比于 DRL,D2RL 的優(yōu)勢是能夠最大化訓(xùn)練過程中的獎(jiǎng)勵(lì)。

圖片

AV 仿真測試

為了評估 D2RL 方法的準(zhǔn)確性、效率、可擴(kuò)展性和通用性,該研究進(jìn)行了仿真測試。對于每個(gè)測試集,該研究模擬了一段固定距離的交通行駛,然后記錄并分析測試結(jié)果,如下圖 3 所示。

圖片

為了進(jìn)一步研究 D2RL 的可擴(kuò)展性和泛化性,該研究對 AV-I 模型進(jìn)行了不同車道數(shù) (2 車道和 3 車道) 和行駛距離 (400 米、2 公里、4 公里和 25 公里) 的實(shí)驗(yàn)。本文對 25 公里行程進(jìn)行了研究 ,因?yàn)樵诿绹?,平均通勤者單程旅行約為 25 公里。結(jié)果如表 1 所示:?

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-10-08 09:53:17

AI算法

2023-08-31 13:37:00

訓(xùn)練模型

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛

2023-07-27 13:12:55

自動(dòng)駕駛RGB機(jī)器

2023-07-17 11:27:56

2017-07-30 15:16:31

深度強(qiáng)化學(xué)習(xí)遷移交叉路口

2023-08-05 13:08:54

2024-04-10 14:10:33

自動(dòng)駕駛強(qiáng)化學(xué)習(xí)

2021-11-01 13:53:24

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-10-25 09:50:07

自動(dòng)駕駛訓(xùn)練

2021-10-15 15:29:59

自動(dòng)駕駛數(shù)據(jù)人工智能

2025-04-25 09:08:00

2024-11-08 12:18:39

SynthID谷歌AI

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2022-02-21 17:41:32

自動(dòng)駕駛安全技術(shù)

2021-05-18 15:37:39

自動(dòng)駕駛麥肯錫汽車

2025-03-24 09:50:00

大模型自動(dòng)駕駛AI

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2022-04-23 10:47:49

英國交通部自動(dòng)駕駛駕駛員

2021-06-06 17:54:42

自動(dòng)駕駛AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號