大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用 精華
情緒識別作為人機(jī)交互中的關(guān)鍵一環(huán),能夠提升智能系統(tǒng)的反應(yīng)靈敏度和人性化程度。但是傳統(tǒng)的情緒標(biāo)注方法面臨著諸多挑戰(zhàn)和局限性,人工情緒標(biāo)注過程既耗時(shí)又昂貴,并且標(biāo)注員可能會(huì)因個(gè)人主觀性帶來不同的評估標(biāo)準(zhǔn),從而影響標(biāo)注的一致性和準(zhǔn)確性。
人工標(biāo)注不僅成本高且效率低下,標(biāo)注員需要長時(shí)間精心標(biāo)注數(shù)據(jù),這不但要求大量人力資源,還會(huì)引入人類認(rèn)知中的固有變異性和潛在偏見。情緒標(biāo)注任務(wù)的主觀性和細(xì)微差別增加了標(biāo)注的復(fù)雜性。探索高效、準(zhǔn)確的自動(dòng)化情緒標(biāo)注方法迫在眉睫,以減輕人工負(fù)擔(dān)并提高標(biāo)注質(zhì)量。
2 月 20 日,arXiv發(fā)表的《Benchmarking Zero-Shot Facial Emotion Annotation with Large Language Models: A Multi-Class and Multi-Frame Approach in DailyLife》探索了大型語言模型(LLMs)在零樣本面部情緒標(biāo)注中的可行性,并評估其在多類和多幀情緒分類任務(wù)中的性能。通過采用GPT-4o-mini模型進(jìn)行快速零樣本標(biāo)注,研究團(tuán)隊(duì)希望發(fā)現(xiàn)一種既能減少標(biāo)注成本,又能提高標(biāo)注效率的新策略。研究還將探討多幀整合和情緒分類簡化方法在提高標(biāo)注準(zhǔn)確性方面的作用,為今后大規(guī)模情緒標(biāo)注任務(wù)提供指導(dǎo)。
本研究由賓夕法尼亞州立大學(xué)信息科學(xué)與技術(shù)學(xué)院的He Zhang和中國清華大學(xué)未來實(shí)驗(yàn)室的Xinyi Fu共同完成。He Zhang專注于人工智能、計(jì)算機(jī)視覺和自然語言處理技術(shù)的應(yīng)用,尤其是情緒識別和人機(jī)交互領(lǐng)域。Xinyi Fu則致力于人工智能與多模態(tài)交互的應(yīng)用,特別關(guān)注提升大規(guī)模數(shù)據(jù)處理和注釋的效率與準(zhǔn)確性。兩位華人研究者結(jié)合跨國合作的優(yōu)勢,旨在探索LLMs在情緒標(biāo)注中的應(yīng)用潛力,推動(dòng)技術(shù)進(jìn)步并為實(shí)際應(yīng)用提供成本效益高且可擴(kuò)展的解決方案。
相關(guān)工作
在情緒標(biāo)注領(lǐng)域,傳統(tǒng)的人工標(biāo)注方法一直占據(jù)主導(dǎo)地位。標(biāo)注員通過觀察視頻或圖像,依靠自身的理解和判斷,對人類情緒進(jìn)行分類和標(biāo)注。雖然這種方法能提供高度準(zhǔn)確的標(biāo)注,但由于其勞動(dòng)密集型特性,導(dǎo)致了高成本和低效率。此外,標(biāo)注員之間的主觀性差異和評估標(biāo)準(zhǔn)的不同,使得標(biāo)注結(jié)果存在一致性問題,這進(jìn)一步加劇了標(biāo)注過程的復(fù)雜性。
為了提高標(biāo)注效率和降低成本,研究人員提出了半自動(dòng)化和自動(dòng)化的情緒標(biāo)注方法。半自動(dòng)化方法結(jié)合了人工和自動(dòng)化標(biāo)注技術(shù),通過模型初步標(biāo)注后再由人類標(biāo)注員進(jìn)行審核和修改。這種方法在一定程度上提高了效率,但仍無法完全擺脫人工干預(yù)。隨著計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,全自動(dòng)化的標(biāo)注方法逐漸興起。這些方法依賴于訓(xùn)練好的模型來自動(dòng)識別人類情緒,大大減少了人工參與,顯著提高了標(biāo)注效率。
眾包標(biāo)注是一種加速標(biāo)注過程的有效手段。通過將標(biāo)注任務(wù)分配給大量的眾包人員,可以快速完成大量數(shù)據(jù)的標(biāo)注工作。然而眾包標(biāo)注在處理需要細(xì)致理解和專家判斷的任務(wù)時(shí),常常表現(xiàn)不足。眾包標(biāo)注的質(zhì)量控制也是一大挑戰(zhàn),需要設(shè)計(jì)合理的機(jī)制來確保標(biāo)注結(jié)果的準(zhǔn)確性和一致性。
大型語言模型(LLMs)的崛起為情緒標(biāo)注領(lǐng)域帶來了新的機(jī)遇。LLMs 在自然語言處理中的成功使其在多模態(tài)任務(wù)中的應(yīng)用成為可能。近年來研究人員開始探索LLMs在文本、圖像和音頻等多模態(tài)數(shù)據(jù)中的應(yīng)用,尤其是在情緒識別和標(biāo)注任務(wù)中的表現(xiàn)。
現(xiàn)有的研究表明,LLMs在情緒識別和標(biāo)注任務(wù)中具備一定的潛力。例如,一些研究評估了LLMs從圖像生成的字幕中預(yù)測情緒的能力、進(jìn)行圖像檢索和生成描述性字幕的能力。值得注意的是,2024年初的一項(xiàng)研究將GPT-4和Bard等LLMs與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)等傳統(tǒng)監(jiān)督模型在圖像數(shù)據(jù)情緒識別方面的性能進(jìn)行了比較。結(jié)果表明,專門為此任務(wù)訓(xùn)練的深度學(xué)習(xí)模型通常比LLMs具有更高的準(zhǔn)確性,但LLMs在降低訓(xùn)練和應(yīng)用成本方面表現(xiàn)出色。
雖然傳統(tǒng)的監(jiān)督模型在準(zhǔn)確性上仍占據(jù)優(yōu)勢,但LLMs通過優(yōu)化提示工程和重組標(biāo)注策略,能夠?qū)崿F(xiàn)與傳統(tǒng)模型相當(dāng)?shù)男阅?,同時(shí)具備更高的成本效益和可擴(kuò)展性。因此,研究人員不斷探索LLMs在情緒標(biāo)注任務(wù)中的應(yīng)用,特別是在多模態(tài)數(shù)據(jù)處理和零樣本學(xué)習(xí)方面,LLMs展示出巨大的潛力。
方法
在本研究中,研究團(tuán)隊(duì)探索了大型語言模型(LLMs)在零樣本面部情緒標(biāo)注中的可行性,并評估了其在多類和多幀情緒分類任務(wù)中的性能。
數(shù)據(jù)集選擇
研究團(tuán)隊(duì)選擇了公開的FERV39k數(shù)據(jù)集,該數(shù)據(jù)集包含了豐富的視頻片段,涵蓋多種日常生活中的情緒表達(dá)。FERV39k數(shù)據(jù)集中的DailyLife子集尤為重要,因?yàn)樗巳粘;顒?dòng)、互動(dòng)和情緒表達(dá)的場景,是現(xiàn)實(shí)條件的代表,增強(qiáng)了研究團(tuán)隊(duì)研究工作的可轉(zhuǎn)移性和適用性。
在該數(shù)據(jù)集中,情緒被分為七類:“憤怒”、“厭惡”、“恐懼”、“快樂”、“中立”、“悲傷”和“驚訝”。這些情緒類別為情緒識別任務(wù)提供了一個(gè)全面的分類框架。研究團(tuán)隊(duì)之所以選擇DailyLife子集,是因?yàn)樗?339個(gè)視頻片段,每個(gè)片段都被手動(dòng)標(biāo)注了明確的情緒標(biāo)簽,并基于上下文和可見的情緒線索提供了準(zhǔn)確的標(biāo)簽。這為研究團(tuán)隊(duì)的研究提供了一個(gè)廣泛認(rèn)可的基準(zhǔn)。
模型選擇
研究團(tuán)隊(duì)選擇了GPT-4o-mini模型,這是GPT-4架構(gòu)的一個(gè)變體,優(yōu)化了效率和快速推理能力。選擇GPT-4o-mini的理由主要有兩個(gè)方面:首先,它具備強(qiáng)大的零樣本學(xué)習(xí)能力,能夠在無需特定任務(wù)訓(xùn)練的情況下執(zhí)行任務(wù);其次,它集成了視覺能力,能夠接受圖像輸入并解釋圖形信息,適合多模態(tài)處理。
在成本和性能方面,GPT-4o-mini在保證高效性能的同時(shí),能夠平衡操作成本,成為本研究的理想選擇。
標(biāo)注過程設(shè)計(jì)
在標(biāo)注過程中,研究團(tuán)隊(duì)采用了零樣本標(biāo)注策略,直接應(yīng)用LLMs進(jìn)行情緒分類。模型根據(jù)簡單的預(yù)定義指令對提取的關(guān)鍵幀進(jìn)行標(biāo)注,無需額外的訓(xùn)練或微調(diào)。這種策略不僅加快了標(biāo)注速度,還降低了操作成本。
提示工程(Prompt Engineering)
為了有效利用GPT-4o-mini模型進(jìn)行圖像情緒標(biāo)注,研究團(tuán)隊(duì)精心設(shè)計(jì)了提示,以指導(dǎo)模型生成準(zhǔn)確的情緒標(biāo)簽。初始提示設(shè)定模型為“專業(yè)圖像情緒分析助手”,明確列出了預(yù)定義情緒標(biāo)簽,確保模型在期望的上下文中操作并理解分類框架。每個(gè)圖像(或多幀整合圖像)的分析提示中,包括了文本指令和圖像本身,通過這種多模態(tài)輸入的方式,使模型能夠同時(shí)處理視覺和文本數(shù)據(jù)。
標(biāo)注策略
研究團(tuán)隊(duì)采用了多種標(biāo)注策略,以評估大型語言模型(LLMs)在不同情緒分類任務(wù)中的表現(xiàn)。這些策略分為七類情緒分類策略和三類情緒分類策略。
圖1:視頻(圖像/片段)數(shù)據(jù)中情感識別的多策略注釋框架說明
七類情緒分類策略
策略A1:單幀標(biāo)注
該策略基于對每個(gè)視頻片段中的五個(gè)選定幀進(jìn)行獨(dú)立標(biāo)注。這些選定幀包括初始幀、Q1位置幀、中間幀、Q3位置幀和最終幀。每個(gè)幀被獨(dú)立地標(biāo)注為七類情緒中的一種:“憤怒”、“厭惡”、“恐懼”、“快樂”、“中立”、“悲傷”和“驚訝”。每個(gè)幀的預(yù)測情緒標(biāo)簽與數(shù)據(jù)集中提供的真實(shí)標(biāo)簽進(jìn)行比較,以計(jì)算準(zhǔn)確性。
策略B1:多數(shù)投票決定主要情緒
在策略B1中,所有五個(gè)標(biāo)注幀的情緒標(biāo)簽進(jìn)行匯總,以確定整個(gè)視頻片段的主要情緒。如果某種情緒在標(biāo)注幀中占絕對多數(shù),則該情緒標(biāo)簽被分配給整個(gè)視頻片段。在情緒分布平局的情況下,選擇中間幀的情緒標(biāo)簽作為視頻片段的整體情緒狀態(tài)。
策略C1:排除“中立”后的多數(shù)投票
策略C1在確定主要情緒時(shí)排除“中立”類別。如果在排除“中立”后某種情緒在標(biāo)注幀中占絕對多數(shù),則該情緒被分配給視頻片段。如果五個(gè)幀均被標(biāo)記為“中立”,則該片段被分配“中立”標(biāo)簽。在情緒分布平局的情況下,選擇中間幀的情緒標(biāo)簽代表整個(gè)視頻片段的情緒狀態(tài)。這一方法旨在通過聚焦更明顯的積極或消極情緒狀態(tài),提高標(biāo)注準(zhǔn)確性,減輕LLMs在分類“中立”情緒時(shí)的歧義性。
策略D1:多幀整合后整體標(biāo)注
策略D1采用多幀整合方法,將五個(gè)選定幀連接成一個(gè)復(fù)合輸入。具體而言,將初始幀、Q1位置幀、中間幀、Q3位置幀和最終幀按順序連接形成統(tǒng)一的圖像輸入,并將其提交給GPT-4o-mini模型進(jìn)行單步驟標(biāo)注。通過整合多個(gè)幀,該策略利用時(shí)間上下文,使模型能夠考慮視頻片段內(nèi)情緒的進(jìn)展,提高標(biāo)注準(zhǔn)確性,捕捉單個(gè)幀標(biāo)注可能錯(cuò)過的情緒過渡狀態(tài)。
大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用-AI.x社區(qū)
圖2:七類和三類注釋策略的精度比較。這兩張圖都展示了每種策略的單獨(dú)指標(biāo)和總體平均值(宏觀和加權(quán))
三類情緒分類策略
策略A2:將七類映射為三類進(jìn)行標(biāo)注
策略A2將策略A1的結(jié)果應(yīng)用于三類情緒分類。在此策略中,策略A1中的每個(gè)標(biāo)注幀直接映射到三個(gè)更廣泛的類別之一:“積極”、“中立”或“消極”。具體而言,被分類為“憤怒”、“厭惡”、“恐懼”和“悲傷”的情緒歸類為“消極”,而“快樂”和“驚訝”歸類為“積極”?!爸辛ⅰ睒?biāo)簽保持不變。每個(gè)幀的七類標(biāo)簽根據(jù)此映射轉(zhuǎn)換為相應(yīng)的三類標(biāo)簽,然后計(jì)算準(zhǔn)確性,以評估模型在簡化情緒分類任務(wù)中的表現(xiàn)。
策略B2:三類情緒的多數(shù)投票
策略B2首先應(yīng)用策略A2,將七類標(biāo)簽重新組織為三類。然后采用類似于策略B1的方法,返回占絕對多數(shù)的情緒標(biāo)簽,或在情緒趨勢得分平局時(shí)使用中間幀的情緒標(biāo)簽。
策略C2:排除“中立”后的三類多數(shù)投票
策略C2首先應(yīng)用策略A2,將七類標(biāo)簽重新組織為三類,然后采用類似于策略C1的方法,減輕LLMs在分類“中立”情緒時(shí)的歧義性。
策略D2:多幀整合后的三類情緒標(biāo)注
策略D2類似于策略D1的多幀整合方法,但使用三類分類方法。在此策略中,五個(gè)選定幀被連接成一個(gè)復(fù)合輸入,并將其提交給GPT-4o-mini模型,為整個(gè)視頻片段分配單一的三類情緒標(biāo)簽(“積極”、“中立”或“消極”)。
這些標(biāo)注策略為研究團(tuán)隊(duì)提供了全面評估LLMs在零樣本情緒標(biāo)注任務(wù)中的性能的機(jī)會(huì),并幫助研究團(tuán)隊(duì)發(fā)現(xiàn)最佳的標(biāo)注方法,以提高準(zhǔn)確性和效率。
實(shí)驗(yàn)結(jié)果與分析
在評估情緒分類策略時(shí),研究團(tuán)隊(duì)采用了精度、召回率、F1分?jǐn)?shù)、支持度和準(zhǔn)確率等指標(biāo)。精度(Precision)衡量的是模型正確預(yù)測的正樣本占所有預(yù)測為正樣本的比例。召回率(Recall)反映了模型能識別出所有真實(shí)正樣本的能力。F1分?jǐn)?shù)是精度和召回率的調(diào)和平均數(shù),平衡了二者,特別適用于類別分布不均的情況。準(zhǔn)確率(Accuracy)則是所有正確預(yù)測樣本占總樣本的比例。此外,研究團(tuán)隊(duì)還報(bào)告了宏平均(Macro Average)和加權(quán)平均(Weighted Average)兩個(gè)指標(biāo)。宏平均將每個(gè)類別視為同等重要,計(jì)算各類別精度和召回率的平均值,而加權(quán)平均則根據(jù)每個(gè)類別的支持度(Support,即每個(gè)類別的真實(shí)樣本數(shù)量)進(jìn)行加權(quán),以反映類別不平衡的影響。
七類情緒分類結(jié)果
對于七類情緒分類,研究團(tuán)隊(duì)采用了四種不同的標(biāo)注策略(A1、B1、C1和D1)。策略A1的整體準(zhǔn)確率為38%,在“快樂”類別的精度達(dá)到0.84,但在“厭惡”類別的精度僅為0.04,顯示出模型在某些情緒分類上的顯著挑戰(zhàn)。策略B1通過多數(shù)投票的方式,略微提升了整體準(zhǔn)確率至41%,尤其在“快樂”類別上精度上升至0.89,而“厭惡”類別也有小幅改善。策略C1通過排除“中立”類別的多數(shù)投票,將整體準(zhǔn)確率提升至46%,特別是在“悲傷”類別的召回率提高到0.76,顯示出通過專注于更明顯的情緒狀態(tài),可以減輕“中立”分類帶來的不準(zhǔn)確性。策略D1采用多幀整合方法,與策略C1達(dá)到相同的46%準(zhǔn)確率,通過整合多個(gè)幀的時(shí)間上下文,捕捉到情緒動(dòng)態(tài)變化,進(jìn)一步提高了模型的情緒識別能力。
分析混淆矩陣可以發(fā)現(xiàn),各策略在區(qū)分“中立”和“快樂”等細(xì)微情緒變化時(shí)仍存在挑戰(zhàn),但通過聚合多個(gè)幀或排除“中立”類別,可以顯著提升某些類別的識別準(zhǔn)確率。
三類情緒分類結(jié)果
對于三類情緒分類(A2、B2、C2和D2),策略簡化顯著提高了模型性能。策略A2實(shí)現(xiàn)了57%的準(zhǔn)確率,“積極”類別精度為0.72,而“中立”類別表現(xiàn)一般,精度為0.27,召回率為0.41。策略B2通過多數(shù)投票,準(zhǔn)確率提高至65%,“積極”類別精度上升至0.79,“消極”類別表現(xiàn)強(qiáng)勁,精度為0.70,召回率為0.74。策略C2采用排除“中立”類別的多數(shù)投票,也達(dá)到了65%的準(zhǔn)確率,“消極”類別精度為0.67,召回率提升至0.87,而“積極”類別保持一致性能。策略D2采用多幀整合方法,同樣實(shí)現(xiàn)了65%的準(zhǔn)確率,通過利用時(shí)間上下文和簡化情緒類別,確保了高效且準(zhǔn)確的標(biāo)注。
圖3:使用混淆矩陣的分類策略的性能比較。每個(gè)混淆矩陣代表數(shù)據(jù)集上特定策略的分類結(jié)果。
通過混淆矩陣分析,可以看到,三類分類策略在“中立”和“積極”情緒之間的混淆情況較多,而對“消極”情緒的識別準(zhǔn)確性較高。這表明在簡化情緒分類的情況下,模型能夠更有效地區(qū)分主要情緒狀態(tài),從而提升整體性能。
不同策略的性能總結(jié)
在七類和三類情緒分類任務(wù)中,各種標(biāo)注策略展現(xiàn)了不同的性能。通過實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)策略的聚合和整合方法在提升標(biāo)注準(zhǔn)確性方面尤為有效。策略B1、C1和D1中的多數(shù)投票和多幀整合策略在情緒識別中表現(xiàn)出色,通過匯總多個(gè)標(biāo)注幀或整合時(shí)間上下文,能夠捕捉到視頻片段內(nèi)的情緒進(jìn)展,增強(qiáng)了模型對情緒動(dòng)態(tài)變化的理解。這些策略在處理復(fù)雜多變的情緒表達(dá)時(shí),顯著提高了模型的表現(xiàn)。
聚合和整合方法的有效性
聚合方法通過匯總多個(gè)幀的情緒標(biāo)注,減少了單一幀標(biāo)注帶來的誤差和不一致性。在多數(shù)投票策略下,通過對視頻片段內(nèi)多個(gè)幀的情緒進(jìn)行綜合考慮,能夠提高整體標(biāo)注的準(zhǔn)確性。多幀整合策略則通過將多個(gè)關(guān)鍵幀整合為一個(gè)復(fù)合輸入,使模型能夠考慮情緒的時(shí)間上下文。這種方法不僅提高了標(biāo)注的準(zhǔn)確性,還能夠捕捉到單個(gè)幀標(biāo)注可能錯(cuò)過的情緒過渡狀態(tài),從而提供更全面的情緒識別。
時(shí)間上下文在情緒識別中的作用
在情緒識別中,時(shí)間上下文起到了至關(guān)重要的作用。情緒的表達(dá)往往是一個(gè)動(dòng)態(tài)的過程,通過整合多個(gè)時(shí)間點(diǎn)的情緒信息,模型能夠更好地捕捉到情緒的變化和發(fā)展趨勢。多幀整合策略利用時(shí)間上下文,通過考慮視頻片段內(nèi)情緒的進(jìn)展,顯著提高了模型的情緒識別能力。時(shí)間上下文的引入,使模型能夠更準(zhǔn)確地識別情緒過渡和細(xì)微變化,從而提高整體標(biāo)注的質(zhì)量。
與基線的比較
為了驗(yàn)證研究團(tuán)隊(duì)標(biāo)注策略的有效性,研究團(tuán)隊(duì)將其與隨機(jī)猜測基線和現(xiàn)有訓(xùn)練模型基線進(jìn)行了比較。
隨機(jī)猜測基線
在七類情緒分類任務(wù)中,隨機(jī)猜測的預(yù)期準(zhǔn)確率約為14.3%。在三類情緒分類任務(wù)中,隨機(jī)猜測的預(yù)期準(zhǔn)確率為33.3%。研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,所有提出的策略均顯著超過了隨機(jī)猜測的基線水平。例如,在七類分類任務(wù)中,表現(xiàn)最好的策略(C1和D1)達(dá)到了46%的準(zhǔn)確率,是隨機(jī)猜測基線的三倍多。在三類分類任務(wù)中,策略B2、C2和D2達(dá)到了65%的準(zhǔn)確率,幾乎是隨機(jī)猜測基線的兩倍。這一顯著的改進(jìn)表明,研究團(tuán)隊(duì)的聚合和整合方法在基于LLMs的零樣本分類任務(wù)中提高了標(biāo)注準(zhǔn)確性。
現(xiàn)有訓(xùn)練模型基線
為了進(jìn)一步驗(yàn)證研究團(tuán)隊(duì)的標(biāo)注策略,研究團(tuán)隊(duì)將其與FERV39k數(shù)據(jù)集論文中報(bào)告的基線模型進(jìn)行了比較?;€模型包括ResNet-18(R18)、ResNet-50(R50)、VGG13(VGG13)、VGG-16(VGG16)及其LSTM增強(qiáng)變體。這些模型的性能指標(biāo)包括加權(quán)平均召回率(WAR)和非加權(quán)平均召回率(UAR)。其中,VGG13-LSTM和Two VGG13-LSTM模型表現(xiàn)最佳,分別達(dá)到46.07%和46.92%的WAR。
相比之下,研究團(tuán)隊(duì)的策略D1(多幀整合)在七類分類任務(wù)中實(shí)現(xiàn)了46%的WAR,接近這些頂尖基線模型的性能。此外,策略D1還顯著超過了基線模型的平均WAR(約38.98%)。在UAR方面,策略D1在各類情緒的召回率方面表現(xiàn)優(yōu)異,超過了所有基線模型。這表明研究團(tuán)隊(duì)的策略不僅在整體加權(quán)表現(xiàn)上表現(xiàn)出色,還確保了所有情緒類別的公平識別,包括不常見的類別。
成本效益與可擴(kuò)展性
研究團(tuán)隊(duì)詳細(xì)考慮了模型的成本效益和可擴(kuò)展性,這對于大規(guī)模情緒標(biāo)注任務(wù)尤為關(guān)鍵。
模型成本考慮
最初,研究團(tuán)隊(duì)測試了全幀率標(biāo)注方法,即為每秒的視頻片段標(biāo)注25幀圖像。然而,由于任務(wù)量巨大,該方法的財(cái)務(wù)可行性極低。根據(jù)初步估算,這種全幀率標(biāo)注的API成本大約為每11,000張圖像100美元,顯然這種高成本方法無法在大規(guī)模應(yīng)用中持續(xù)進(jìn)行。因此,他們需要找到一種更具成本效益的解決方案。
全幀率標(biāo)注的成本估算
對于每秒25幀的全幀率標(biāo)注,成本快速累積。假設(shè)每幀圖像的標(biāo)注成本為0.01美元,對于一個(gè)包含2,339個(gè)視頻片段、每個(gè)視頻片段時(shí)長為1-2秒的數(shù)據(jù)集,總成本將達(dá)到數(shù)千美元。這種高昂的成本使得全幀率標(biāo)注在實(shí)際應(yīng)用中難以維持。
采用關(guān)鍵幀和多幀整合策略的成本節(jié)約
為了降低成本,研究團(tuán)隊(duì)采用了關(guān)鍵幀選擇和多幀整合策略。具體而言,從每個(gè)視頻片段中選擇五個(gè)關(guān)鍵幀(初始幀、Q1位置幀、中間幀、Q3位置幀和最終幀),并將這五個(gè)幀整合為一個(gè)復(fù)合輸入。這種方法不僅減少了標(biāo)注的幀數(shù),還顯著降低了令牌使用量。通過這種策略,研究團(tuán)隊(duì)大幅度減少了API請求的數(shù)量,從而降低了整體標(biāo)注成本,同時(shí)保持了較高的標(biāo)注準(zhǔn)確性。
運(yùn)營成本與標(biāo)注效率的權(quán)衡
在平衡運(yùn)營成本與標(biāo)注效率時(shí),研究團(tuán)隊(duì)的策略顯示出了明顯優(yōu)勢。通過零樣本標(biāo)注,研究團(tuán)隊(duì)能夠在無需特定任務(wù)訓(xùn)練的情況下,快速部署和適應(yīng)各種標(biāo)注任務(wù),極大地提高了標(biāo)注效率。與傳統(tǒng)的監(jiān)督模型相比,零樣本標(biāo)注不僅減少了訓(xùn)練成本,還避免了因數(shù)據(jù)標(biāo)注需求而產(chǎn)生的額外資源消耗。這使得研究團(tuán)隊(duì)的標(biāo)注方法在大規(guī)模應(yīng)用中更加經(jīng)濟(jì)可行。
零樣本標(biāo)注在實(shí)際應(yīng)用中的經(jīng)濟(jì)可行性
本研究中的零樣本標(biāo)注方法展示了良好的經(jīng)濟(jì)可行性。通過采用GPT-4o-mini模型,研究團(tuán)隊(duì)能夠在不進(jìn)行特定任務(wù)訓(xùn)練的情況下,快速且準(zhǔn)確地進(jìn)行情緒標(biāo)注。這種方法不僅降低了模型訓(xùn)練和應(yīng)用的成本,還提高了標(biāo)注任務(wù)的擴(kuò)展性,使其能夠適應(yīng)不同情緒標(biāo)注任務(wù)的需求。
大規(guī)模情緒標(biāo)注任務(wù)的可擴(kuò)展性
研究團(tuán)隊(duì)的零樣本標(biāo)注策略在大規(guī)模情緒標(biāo)注任務(wù)中展現(xiàn)了極大的可擴(kuò)展性。通過關(guān)鍵幀選擇和多幀整合策略,研究團(tuán)隊(duì)能夠在降低成本的同時(shí),保持較高的標(biāo)注準(zhǔn)確性。這種高效的標(biāo)注方法為大規(guī)模情緒識別任務(wù)提供了一種可行的解決方案,適用于各種實(shí)際應(yīng)用場景,如駕駛員注意力檢測、直播平臺內(nèi)容管理和健康管理系統(tǒng)。
討論
自動(dòng)化標(biāo)注的效率和速度是LLMs的顯著優(yōu)勢。通過利用大型語言模型,研究團(tuán)隊(duì)能夠在零樣本的情況下,快速進(jìn)行情緒標(biāo)注,而無需花費(fèi)大量時(shí)間進(jìn)行特定任務(wù)的模型訓(xùn)練。LLMs能夠根據(jù)預(yù)定義的指令和提示,在沒有先驗(yàn)知識的情況下,準(zhǔn)確分類和標(biāo)注情緒,這大大提高了標(biāo)注效率和速度。
然而,LLMs在辨別細(xì)微情緒差異時(shí)仍存在挑戰(zhàn)。盡管模型在處理主要情緒類別時(shí)表現(xiàn)出色,但在區(qū)分類似情緒如“快樂”和“驚訝”時(shí),準(zhǔn)確率會(huì)有所下降。這主要是因?yàn)榍榫w表達(dá)的主觀性和復(fù)雜性,加之LLMs在處理多樣化和細(xì)微變化的數(shù)據(jù)時(shí),容易受到模型本身的局限性影響。
聚合技術(shù)和時(shí)間上下文在情緒識別中的影響非常重要。多幀信息的整合顯著提高了情緒識別的準(zhǔn)確率。通過聚合來自多個(gè)時(shí)間點(diǎn)的情緒數(shù)據(jù),模型能夠更全面地捕捉情緒的動(dòng)態(tài)變化,從而提供更準(zhǔn)確的標(biāo)注結(jié)果。時(shí)間上下文的整合使模型在識別連續(xù)變化的情緒時(shí)表現(xiàn)更佳,避免了單幀標(biāo)注可能導(dǎo)致的誤差和不一致性。
排除“中立”類別的策略效果顯著。通過專注于更加明顯的積極或消極情緒狀態(tài),模型在情緒分類任務(wù)中的表現(xiàn)得到了提升。這一策略有效地減輕了LLMs在分類中立情緒時(shí)的歧義性,增強(qiáng)了情緒標(biāo)注的準(zhǔn)確性。
簡化情緒分類對提升模型性能有顯著作用。三類情緒分類法(“積極”、“中立”和“消極”)通過降低分類的復(fù)雜度,使模型能夠更有效地區(qū)分主要情緒狀態(tài),提高了整體準(zhǔn)確率。在復(fù)雜任務(wù)中,降低分類復(fù)雜度有助于提升模型的表現(xiàn),同時(shí)減少分類錯(cuò)誤。
任務(wù)復(fù)雜度與模型性能之間存在顯著關(guān)系。通過簡化分類任務(wù),模型能夠更專注于主要情緒類別,減少因多樣化數(shù)據(jù)帶來的分類挑戰(zhàn),從而提高標(biāo)注的準(zhǔn)確性和可靠性。
大型語言模型在情緒標(biāo)注任務(wù)中的成功應(yīng)用,展示了其在其他多模態(tài)數(shù)據(jù)標(biāo)注任務(wù)中的巨大潛力。LLMs可以擴(kuò)展到更廣泛的應(yīng)用場景,如駕駛員注意力檢測、直播平臺內(nèi)容管理和健康管理系統(tǒng),通過高效的自動(dòng)化標(biāo)注,提高各類多模態(tài)數(shù)據(jù)處理的效率和準(zhǔn)確性。
在實(shí)際應(yīng)用中,LLMs的高效性和可擴(kuò)展性對人機(jī)交互和情感計(jì)算領(lǐng)域有深遠(yuǎn)影響。通過自動(dòng)化情緒識別,智能系統(tǒng)可以更靈敏地響應(yīng)用戶的情緒變化,提供更人性化和個(gè)性化的服務(wù),提升用戶體驗(yàn)。此外,LLMs在情感計(jì)算中的應(yīng)用,將進(jìn)一步推動(dòng)人機(jī)交互技術(shù)的發(fā)展,實(shí)現(xiàn)更加自然和流暢的交流互動(dòng)。(END)
參考資料:https://arxiv.org/pdf/2502.12454
本文轉(zhuǎn)載自??獨(dú)角噬元獸??,作者: FlerkenS
