自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

空間智能版ImageNet來了!李飛飛吳佳俊團(tuán)隊(duì)出品

人工智能 新聞
HourVideo,一個(gè)用于評(píng)估多模態(tài)模型對(duì)長(zhǎng)達(dá)一小時(shí)視頻理解能力的基準(zhǔn)數(shù)據(jù)集,包含多種任務(wù)。

空間智能版ImageNet來了,來自斯坦福李飛飛吳佳俊團(tuán)隊(duì)!

HourVideo,一個(gè)用于評(píng)估多模態(tài)模型對(duì)長(zhǎng)達(dá)一小時(shí)視頻理解能力的基準(zhǔn)數(shù)據(jù)集,包含多種任務(wù)。

通過與現(xiàn)有模型對(duì)比,揭示當(dāng)前模型在長(zhǎng)視頻理解上與人類水平的差距。

圖片

2009年,李飛飛團(tuán)隊(duì)在CVPR上首次對(duì)外展示了圖像識(shí)別數(shù)據(jù)集ImageNet,它的出現(xiàn)極大推動(dòng)計(jì)算機(jī)視覺算法的發(fā)展——懂CV的都是知道這里面的門道有多深。

現(xiàn)在,隨著多模態(tài)迅猛發(fā)展,團(tuán)隊(duì)認(rèn)為“現(xiàn)有的視頻基準(zhǔn)測(cè)試,大多集中在特定領(lǐng)域或短視頻上”,并且“這些數(shù)據(jù)集的平均視頻長(zhǎng)度較短,限制了對(duì)長(zhǎng)視頻理解能力的全面評(píng)估”。

于是,空間智能版ImageNet應(yīng)運(yùn)而生。

HourVideo包含500個(gè)來自Ego4D數(shù)據(jù)集的第一人稱視角視頻,時(shí)長(zhǎng)在20到120分鐘之間,涉及77種日?;顒?dòng)。

評(píng)測(cè)結(jié)果表示,人類專家水平顯著優(yōu)于目前長(zhǎng)上下文多模態(tài)模型中最厲害的Gemini Pro 1.5(85.0%對(duì)37.3%)。

在多模態(tài)能力上,大模型們還任重而道遠(yuǎn)。

HourVideo如何煉成?

之所以提出HourVideo,是因?yàn)檠芯咳藛T發(fā)現(xiàn)目前長(zhǎng)視頻理解越來越重要,而現(xiàn)有評(píng)估benchmark存在不足。

多模態(tài)越來越卷,人們期待AI被賦予autonomous agents的類似能力;而從人類角度來看,由于人類具備處理長(zhǎng)時(shí)間視覺處理的能力,因此能在現(xiàn)實(shí)視覺中感知、計(jì)劃和行動(dòng)。

因此,長(zhǎng)視頻理解對(duì)實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。

而當(dāng)前的多模態(tài)評(píng)估benchmark,主要還是集中在評(píng)測(cè)單張圖像或短視頻片段(幾秒到三分鐘),對(duì)長(zhǎng)視頻理解的探索還有待開發(fā)。

不可否認(rèn)的是,AI評(píng)估長(zhǎng)視頻理解面臨諸多挑戰(zhàn),譬如要設(shè)計(jì)任務(wù)、避免通過先驗(yàn)知識(shí)或簡(jiǎn)短片斷回答等。

因此,團(tuán)隊(duì)提出HourVideo。

這是一個(gè)為長(zhǎng)視頻理解而設(shè)計(jì)的基準(zhǔn)數(shù)據(jù)集。

為了設(shè)計(jì)出需要長(zhǎng)期理解的任務(wù),團(tuán)隊(duì)首先提出了一個(gè)新的任務(wù)對(duì)應(yīng)套件,包含總結(jié)、感知(回憶、跟蹤)、視覺推理(空間、時(shí)間、預(yù)測(cè)、因果、反事實(shí))和導(dǎo)航(房間到房間、對(duì)象檢索)任務(wù),共18個(gè)子任務(wù)。

其中,總結(jié)任務(wù)要求模型對(duì)視頻中的關(guān)鍵事件、主要交互等進(jìn)行概括性描述,例如總結(jié)出脖子上掛了個(gè)相機(jī)的人在超市中有什么關(guān)鍵交互行為。

圖片

感知任務(wù)由兩部分構(gòu)成,

一個(gè)是回憶任務(wù),包括事實(shí)回憶(比如脖子上掛了個(gè)相機(jī)的人,在超市拿起的乳制品)和序列回憶(比如那個(gè)人在超市稱完西紅柿過后做了什么),以及對(duì)時(shí)間距離的判斷(比如吃了多久的披薩才扔掉盒子)。

還有一個(gè)是跟蹤任務(wù),主要用來識(shí)別脖子上掛了個(gè)相機(jī)的人在特定場(chǎng)景(比如超市、藥店)中互動(dòng)的獨(dú)特個(gè)體。

圖片

接下來是視覺推理任務(wù),分為空間推理和時(shí)間推理。

空間推理負(fù)責(zé)判斷物體之間的空間關(guān)系、空間接近度(如微波爐與冰箱或水槽相比是否更近)以及空間布局(如選擇正確描繪脖子上掛相機(jī)的人的公寓的布局圖)。

時(shí)間推理則包括對(duì)活動(dòng)持續(xù)時(shí)間的比較、事件發(fā)生頻率的判斷、活動(dòng)的先決條件、預(yù)測(cè)(如洗完衣服后最可能做的活動(dòng))、因果關(guān)系(如第二次離開車庫的原因)以及反事實(shí)推理(如用烤箱做土豆泥會(huì)怎樣)。

圖片

導(dǎo)航任務(wù)包含了房間到房間的導(dǎo)航、對(duì)象檢索導(dǎo)航。

以上每個(gè)任務(wù)有精心設(shè)計(jì)的問題原型,以確保正確回答問題需要對(duì)長(zhǎng)視頻中的多個(gè)時(shí)間片段進(jìn)行信息識(shí)別和綜合,從而有效測(cè)試模型的長(zhǎng)期理解能力。

圖片

與此同時(shí),研究人員通過pipeline來生成了HourVideo數(shù)據(jù)集。

第一步,視頻篩選。

團(tuán)隊(duì)從Ego4D數(shù)據(jù)集中手動(dòng)審核1470個(gè)20到120分鐘的視頻,讓5位人類專家選擇了其中500個(gè)視頻,

至于為啥要從Ego4D中選呢,一來是其以自我為中心的視角與autonomous agents和助手的典型視覺輸入非常一致;二來是它具有廣泛的視覺敘述,有助于創(chuàng)建多樣化的題;三來Ego4D的訪問許可非常友好。

第二步,候選MCQ生成。

這需要在長(zhǎng)視頻中跨多個(gè)時(shí)間片段,進(jìn)行信息分析和合成。

具體來說,研究人員以20分鐘為間隔分割了視頻,提取信息轉(zhuǎn)化為結(jié)構(gòu)化格式供大模型處理。最終一共開發(fā)了25個(gè)特定任務(wù)的prompts。

第三步,LLM優(yōu)化與人工反饋。

在這個(gè)階段,團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)人工反饋系統(tǒng),7名經(jīng)驗(yàn)豐富的人員人工評(píng)估每個(gè)問題的有效性、答案準(zhǔn)確性、錯(cuò)誤選項(xiàng)合理性。最終收集了400多個(gè)小時(shí)的人工反饋,然后設(shè)計(jì)prompt,自動(dòng)優(yōu)化 MCQ?得到 MCQ?。

第四步,盲選。

這一階段的目標(biāo)是消除可以通過大模型先驗(yàn)知識(shí)的問題,或者消除那些可以在不用視頻中任何信息就可以回答的問題。

團(tuán)隊(duì)用兩個(gè)獨(dú)立的大模型——GPT-4-turbo和GPT-4,對(duì)MCQ?進(jìn)行盲篩,確保剩余 MCQ?高質(zhì)量且專門測(cè)試長(zhǎng)視頻語言理解。

第五步也是最后一步,專家優(yōu)化。

這一步是用來提升MCQ?質(zhì)量,將寬泛?jiǎn)栴}精確化,經(jīng)此階段得到高質(zhì)量 MCQ?。

4個(gè)專家干的事be like,把 “掛著相機(jī)的人把鑰匙放在哪里了?” 精確成“掛著相機(jī)的人購物回家后,把自行車鑰匙放在哪里了?”

如上pipeline中,研究圖納隊(duì)使用了GPT-4來遵循復(fù)雜的多步驟指令,同時(shí)還使用了CoT提示策略。

此外,pipeline中涉及大模型的所有階段的問題被設(shè)為0.1。

圖片

據(jù)統(tǒng)計(jì),HourVideo涵蓋77種日常生活場(chǎng)景,包含500個(gè)Ego4D視頻,視頻時(shí)長(zhǎng)共381個(gè)小時(shí)、平均時(shí)長(zhǎng)45.7分鐘,其中113個(gè)視頻時(shí)長(zhǎng)超過1小時(shí)。

每個(gè)視頻有約26個(gè)高質(zhì)量五選一題,共計(jì)12976個(gè)問題。

除因果、反事實(shí)和導(dǎo)航任務(wù)外,問題在任務(wù)套件中均勻分布。

圖片

最好表現(xiàn)仍遠(yuǎn)低于人類專家水平

在實(shí)驗(yàn)評(píng)估方面,HourVideo采用五選多任務(wù)問答(MCQ) 任務(wù),以準(zhǔn)確率作為評(píng)估指標(biāo),分別報(bào)告每個(gè)任務(wù)以及整個(gè)數(shù)據(jù)集的準(zhǔn)確率。

由于防止信息泄露是評(píng)估長(zhǎng)視頻中的MCQ時(shí)的一個(gè)重要挑戰(zhàn)——理想情況下,每個(gè)MCQ應(yīng)獨(dú)立評(píng)估,但這種方法計(jì)算成本巨高,且十分耗時(shí)。

因此,實(shí)際評(píng)估中按任務(wù)或子任務(wù)對(duì)問題進(jìn)行分批評(píng)估,對(duì)于預(yù)測(cè)任務(wù),提供精確的時(shí)間戳以便對(duì)視頻進(jìn)行有針對(duì)性的剪輯,從而平衡計(jì)算成本和評(píng)估準(zhǔn)確性。

研究團(tuán)隊(duì)比較了不同的多模態(tài)模型在零鏡頭設(shè)置下理解長(zhǎng)視頻的性能。

主要評(píng)估了三類模型,所有這些模型都在一個(gè)通用函數(shù)下運(yùn)行:

盲LLM:

指是指在評(píng)估過程中,不考慮視頻內(nèi)容,僅依靠自身預(yù)先訓(xùn)練的知識(shí)來回答問題的大型語言模型。

實(shí)驗(yàn)中以GPT-4為代表。它的存在可以揭示模型在多大程度上依賴于其預(yù)訓(xùn)練知識(shí),而不是對(duì)視頻中實(shí)際視覺信息的理解。

蘇格拉底模型:

對(duì)于大多數(shù)當(dāng)前的多模態(tài)模型,直接處理非常長(zhǎng)的視頻存在困難。

因此,采用Socratic模型方法,將視頻(總時(shí)長(zhǎng)為t分鐘)分割成1分鐘的間隔,每個(gè)間隔獨(dú)立加字幕,然后將這些字幕聚合形成一個(gè)全面的基于語言的視頻表示,并與通用任務(wù)無關(guān)的提示一起作為輸入進(jìn)行長(zhǎng)視頻問答。

實(shí)驗(yàn)中分別使用GPT-4和LLaVA- NEXT-34-DPO 為視頻字幕生成器,并最終使用GPT-4進(jìn)行實(shí)際問題回答。

原生多模態(tài)模型:

像Gemini 1.5 Pro這樣的原生多模態(tài)模型,在多模態(tài)數(shù)據(jù)(包括音頻、視頻、圖像和文本)上聯(lián)合訓(xùn)練,能夠處理非常長(zhǎng)的上下文長(zhǎng)度*((2M +),適合直接對(duì)HourVideo進(jìn)行端到端評(píng)估。

圖片

為了與模型性能進(jìn)行對(duì)比,實(shí)驗(yàn)人員從基準(zhǔn)數(shù)據(jù)集中選取了14個(gè)視頻,涵蓋>18種場(chǎng)景,包括手工制作/繪畫、烹飪、建筑/裝修、園藝、清潔/洗衣和庭院工作等。

然后邀請(qǐng)了3位人類專家,對(duì)上述總時(shí)長(zhǎng)11.2小時(shí)的視頻內(nèi)容進(jìn)行進(jìn)行評(píng)估,共涉及213個(gè)MCQ。

為確保評(píng)估的公正性,參與評(píng)估的人類專家未參與過這些視頻的早期注釋工作。

最終,人類專家在評(píng)估中的準(zhǔn)確率達(dá)到了85.0% 。

而盲LLM的準(zhǔn)確率為19.6%,Socratic模型準(zhǔn)確率略高,原生多模態(tài)模型準(zhǔn)確率最高,達(dá)到了37.3%,仍然遠(yuǎn)低于人類專家水平。

圖片

此外,獨(dú)立評(píng)估每個(gè)MCQ與按任務(wù)級(jí)別評(píng)估相比,性能下降2.1%,但成本增加3倍以上,證明了任務(wù)級(jí)評(píng)估方法的效率和有效性。

最后,團(tuán)隊(duì)表示未來計(jì)劃擴(kuò)展基準(zhǔn)測(cè)試,包括更多樣化的視頻來源(如體育和YouTube視頻),納入音頻模態(tài)支持,并探索其他感官模態(tài)。

同時(shí)強(qiáng)調(diào)在開發(fā)模型時(shí)需考慮隱私、倫理等問題。

團(tuán)隊(duì)成員

HourVideo項(xiàng)目來自斯坦福李飛飛和吳佳俊團(tuán)隊(duì)。

論文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士二年級(jí)學(xué)生,從事計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)研究,導(dǎo)師是李飛飛和斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室(SVL)聯(lián)合主任胡安·卡洛斯·尼貝萊斯。

圖片

共同一作Agrim Gupta是斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的博士生,2019年秋季入學(xué),同樣是李飛飛的學(xué)生。

此前,他曾在微軟、DeepMind,有Meta的全職經(jīng)歷,也在Google做過兼職。2018年時(shí),他就跟隨李飛飛一同在CVPR上發(fā)表了論文。

目前,Agrim的Google Scholar論文被引用量接近6400次。

圖片

李飛飛是大家熟悉的AI教母,AI領(lǐng)域內(nèi)最具影響力的女性和華人之一。

她33歲成為斯坦福計(jì)算機(jī)系終身教授,44歲成為美國國家工程院院士,現(xiàn)任斯坦福以人為本人工智能研究院(HAI)院長(zhǎng)。

計(jì)算機(jī)視覺領(lǐng)域標(biāo)桿成果ImageNet亦是由她一手推動(dòng)。

此前,李飛飛也曾短暫進(jìn)入工業(yè)界,出任谷歌副總裁即谷歌云AI首席科學(xué)家。她一手推動(dòng)了谷歌AI中國中心正式成立,這是Google在亞洲設(shè)立的第一個(gè)AI研究中心。并帶領(lǐng)谷歌云推出了一系列有影響力的產(chǎn)品,包括AutoML、Contact Center AI、Dialogflow Enterprise等。

今年,李飛飛宣布創(chuàng)辦空間智能公司W(wǎng)orld Labs,公司成立不到4個(gè)月時(shí)間,估值突破10億美元。

所謂空間智能,即“視覺化為洞察;看見成為理解;理解導(dǎo)致行動(dòng)”。

圖片

吳佳俊,現(xiàn)任斯坦福大學(xué)助理教授,隸屬于斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室(SVL)和斯坦福人工智能實(shí)驗(yàn)室(SAIL)。

他在麻省理工學(xué)院完成博士學(xué)位,本科畢業(yè)于清華大學(xué)姚班,曾被譽(yù)為“清華十大學(xué)神”之一。

同時(shí),他也是李飛飛創(chuàng)業(yè)公司W(wǎng)orld Labs的顧問。

圖片

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-20 14:24:21

2024-05-21 12:23:00

模型訓(xùn)練

2024-11-15 09:36:07

2023-11-10 12:58:00

模型數(shù)據(jù)

2025-04-10 09:10:00

模型AI評(píng)測(cè)

2024-12-13 14:20:00

AI模型訓(xùn)練

2024-11-29 16:35:50

模型訓(xùn)練

2024-09-03 14:30:00

機(jī)器人模型

2024-08-07 13:00:00

2024-01-22 12:31:18

模型訓(xùn)練

2024-05-06 07:10:00

李飛飛智能空間

2024-12-05 09:53:18

智能體AI

2024-05-16 12:44:30

模型訓(xùn)練

2024-09-23 15:20:00

2024-12-23 13:50:00

數(shù)據(jù)訓(xùn)練模型

2023-12-14 12:57:00

模型數(shù)據(jù)

2021-08-27 10:04:53

機(jī)器人

2024-09-30 13:30:00

2020-04-07 15:22:56

李飛飛AI人工智能

2024-11-04 15:30:00

機(jī)器人訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)