自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICRA 2025|清華x光輪:自駕世界模型生成和理解事故場(chǎng)景

人工智能 新聞
光輪智能(Lightwheel)和來(lái)自來(lái)自清華、香港科技大學(xué)、吉林大學(xué)、南京理工大學(xué)、北京理工大學(xué)、復(fù)旦大學(xué)等的研究團(tuán)隊(duì),提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行業(yè)的自動(dòng)駕駛事故場(chǎng)景的安全能力。

近年來(lái),自動(dòng)駕駛技術(shù)快速發(fā)展,蘿卜快跑已經(jīng)無(wú)縫融入了武漢的交通,不少車企的智駕系統(tǒng)也都上路了。

然而,在復(fù)雜交通環(huán)境中,如何理解和預(yù)防事故仍然是一個(gè)巨大挑戰(zhàn)。比如前段時(shí)間特斯拉 FSD 終于入華。但中國(guó)版 FSD 似乎有些「水土不服」,頻繁闖紅燈、開(kāi)上人行道、逆行,被網(wǎng)友調(diào)侃為「美國(guó)司機(jī)直接來(lái)中國(guó)開(kāi)車」。

同時(shí),現(xiàn)有的方法往往難以準(zhǔn)確解釋事故發(fā)生的原因,并缺乏有效的預(yù)防策略。此外,由于事故數(shù)據(jù)較為稀缺,自動(dòng)駕駛系統(tǒng)在面對(duì)突發(fā)情況時(shí)往往難以作出合理決策。

為了解決這一問(wèn)題,光輪智能(Lightwheel)和來(lái)自來(lái)自清華、香港科技大學(xué)、吉林大學(xué)、南京理工大學(xué)、北京理工大學(xué)、復(fù)旦大學(xué)等的研究團(tuán)隊(duì),提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行業(yè)的自動(dòng)駕駛事故場(chǎng)景的安全能力。

AVD2 是一個(gè)創(chuàng)新的事故視頻生成與描述框架,旨在提升自動(dòng)駕駛系統(tǒng)對(duì)事故場(chǎng)景的理解。通過(guò)生成與自然語(yǔ)言描述和推理高度一致的事故視頻,AVD2 增強(qiáng)了對(duì)事故場(chǎng)景的建模能力。

同時(shí),該團(tuán)隊(duì)還貢獻(xiàn)了 EMM-AU(Enhanced Multi-Modal Accident Video Understanding)數(shù)據(jù)集,以推動(dòng)事故分析和預(yù)防的研究。

  • 項(xiàng)目主頁(yè)鏈接:https://an-answer-tree.github.io/
  • 論文鏈接:https://arxiv.org/abs/2502.14801
  • EMM-AU 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip
  • 代碼鏈接:https://github.com/An-Answer-tree/AVD2

模型架構(gòu)

AVD2 框架包含兩個(gè)主要部分:視頻生成和事故分析。通過(guò)生成與事故描述一致的高質(zhì)量視頻,并結(jié)合自然語(yǔ)言解釋,AVD2 能夠更深入地理解事故場(chǎng)景。

視頻生成

AVD2 的視頻生成部分旨在基于輸入的事故描述生成具有現(xiàn)實(shí)感的交通事故視頻。該部分使用了 Open-Sora 1.2 模型,并通過(guò)兩個(gè)階段的微調(diào)來(lái)優(yōu)化模型:

1. 第一階段 Finetune:基于 MM-AU 數(shù)據(jù)集 對(duì) Open-Sora 1.2 模型進(jìn)行預(yù)訓(xùn)練,生成與事故場(chǎng)景相關(guān)的視頻。

2. 第二階段 Finetune:利用選取的 2,000 個(gè)詳細(xì)事故場(chǎng)景視頻進(jìn)一步微調(diào)模型,以確保生成的視頻與真實(shí)事故場(chǎng)景高度一致。

通過(guò)這一過(guò)程,AVD2 能夠根據(jù)描述生成多個(gè)具有高保真度的事故視頻,用于進(jìn)一步的事故理解和分析。

  • 生成視頻的增強(qiáng)

為了提高視頻質(zhì)量,AVD2 框架采用 RRDBNet 模型,在 Real-ESRGAN 框架下進(jìn)行超分辨率處理。每個(gè)生成的低分辨率視頻幀都被提升到更高的分辨率,以增強(qiáng)細(xì)節(jié)并減少偽影,從而為后續(xù)的分析提供高質(zhì)量的視頻數(shù)據(jù)。

事故分析

AVD2 的事故分析部分結(jié)合了視頻理解與自然語(yǔ)言處理技術(shù),主要包括兩個(gè)任務(wù):

  • 車輛行為描述和原因分析(如何規(guī)避)

AVD2 生成兩個(gè)自然語(yǔ)言描述:

1. 車輛行為描述:基于輸入的視頻,生成描述車輛動(dòng)作的句子(例如:“車輛右轉(zhuǎn)”)。

2. 原因解釋:解釋為什么車輛執(zhí)行這一動(dòng)作(例如:“因?yàn)榍胺浇煌ㄐ盘?hào)燈變綠”)。同時(shí)進(jìn)一步給出如何規(guī)避事故的發(fā)生(例如:“轉(zhuǎn)彎前應(yīng)環(huán)顧四周注意直行車輛”)。

這兩個(gè)任務(wù)共同協(xié)作,利用 Vision-Language Transformer(視覺(jué) - 語(yǔ)言 Transformer)來(lái)進(jìn)行多任務(wù)學(xué)習(xí)。模型同時(shí)學(xué)習(xí)生成描述與推理任務(wù),增強(qiáng)了兩者之間的關(guān)聯(lián)性,從而提高了整體性能。

  • 多任務(wù)學(xué)習(xí)與文本生成

多任務(wù)學(xué)習(xí)方法使得 AVD2 能夠聯(lián)合訓(xùn)練行為描述任務(wù)和事故原因理解任務(wù),以及預(yù)防措施任務(wù)。

通過(guò)這種方式,AVD2 在生成的事故視頻基礎(chǔ)上,結(jié)合視覺(jué)特征與文本特征進(jìn)行分析,不僅可以描述事故發(fā)生的過(guò)程,還能為事故的預(yù)防提供有價(jià)值的建議。

AVD2 的整體架構(gòu)

在圖中,輸入視頻通過(guò) SwinBERT 進(jìn)行處理,生成視頻特征,隨后這些特征被輸入到不同的任務(wù)模塊中進(jìn)行預(yù)測(cè)和描述生成。同時(shí),SCST(自我批判序列訓(xùn)練)機(jī)制被用來(lái)優(yōu)化生成文本的質(zhì)量。

生成與分析模塊的協(xié)同工作

AVD2 框架中的生成模塊與分析模塊緊密配合,生成的事故視頻不僅為自動(dòng)駕駛系統(tǒng)提供了訓(xùn)練數(shù)據(jù),還為系統(tǒng)提供了關(guān)于事故行為的詳細(xì)解釋和原因分析。兩者結(jié)合,大大提升了系統(tǒng)的透明度和可解釋性。

實(shí)驗(yàn)結(jié)果

該團(tuán)隊(duì)通過(guò)多種機(jī)器評(píng)測(cè)指標(biāo)(如 BLEU、METEOR、CIDEr 等)對(duì) AVD2 進(jìn)行了評(píng)估,并與現(xiàn)有的先進(jìn)方法進(jìn)行了對(duì)比。

以下是 AVD2 與 ADAPT 框架 (Jin et al., 2023) 在描述任務(wù)與解釋和預(yù)防任務(wù)上的比較結(jié)果:(MM-AU 為原始數(shù)據(jù)集 (Fang et al., 2024),EMM-AU 為該團(tuán)隊(duì)結(jié)合生成的事故數(shù)據(jù)集新提出的數(shù)據(jù)集,SR 為經(jīng)過(guò)超分處理后的數(shù)據(jù)集)

如上所示,AVD2 在所有評(píng)測(cè)指標(biāo)上優(yōu)于 ADAPT,尤其是在 CIDEr 指標(biāo)上,AVD2 在動(dòng)作描述和原因解釋(預(yù)防措施)兩個(gè)方面都表現(xiàn)出了更好的性能。

可視化結(jié)果

以下是 AVD2 對(duì)事故場(chǎng)景的可視化結(jié)果,在此展示兩個(gè)不同的事故視頻及對(duì)視頻的分析:

第一張圖示例:車輛變道未打轉(zhuǎn)向燈,未給優(yōu)先通行車輛讓路,導(dǎo)致了潛在的碰撞風(fēng)險(xiǎn)。

 第二張圖示例:由于過(guò)快的車速,剎車距離不足,造成了跟車過(guò)近的危險(xiǎn)情況。

未來(lái),該團(tuán)隊(duì)將計(jì)劃進(jìn)一步優(yōu)化 AVD2 框架,并將此新技術(shù)通過(guò)光輪智能的端到端自動(dòng)駕駛應(yīng)用于客戶的上車訓(xùn)練評(píng)測(cè)中,以促進(jìn)自動(dòng)駕駛技術(shù)的安全在產(chǎn)業(yè)界真正落地。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-24 14:22:00

3D視覺(jué)模型

2025-03-27 10:54:06

2024-10-16 09:50:32

2024-12-27 10:00:00

數(shù)據(jù)自動(dòng)駕駛

2024-06-25 08:43:25

C#編程模型

2025-03-12 10:07:06

2023-10-23 10:11:36

自動(dòng)駕駛技術(shù)

2024-04-18 12:16:37

MetaAIOpenEQA

2023-07-12 09:56:24

智能

2025-03-05 00:22:00

2024-09-10 10:07:19

2025-04-08 09:30:00

模型AI機(jī)器人

2025-04-03 10:12:30

2025-01-27 09:37:33

2024-02-19 08:58:00

模型AI

2025-03-07 08:00:00

LLM蒸餾和量化大模型

2024-02-27 09:19:13

谷歌AI

2024-12-25 09:50:00

2024-12-24 10:30:00

2023-06-02 13:35:11

AI檢索
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)