視覺語言指令微調數(shù)據(jù)如何構建?
1、構建策略
視覺語言指令微調數(shù)據(jù)構建策略主要有以下兩種:
標注適配
由于視覺模型的發(fā)展,已有規(guī)模巨大、多樣性且高質量的標注數(shù)據(jù)。這些數(shù)據(jù)適合于廣泛的下游任務,并可容易地改造為指令數(shù)據(jù)。許多工作將已有的標注數(shù)據(jù)轉化為標準的指令數(shù)據(jù)格式。
指令部分(Instruction)主要用于解釋任務的本質,典型的構建方法是手寫,然后作為候選指令池。有些研究使用手寫指令作為種子,以引導LLM進行重寫或擴展指令池,以增強指令的多樣性。
輸入(Input)由圖像和可選的上下文組成,主要從原始的標注數(shù)據(jù)中獲取,以形成指令數(shù)據(jù)的完整部分。
響應(Response)對應于已標注數(shù)據(jù)中的結果,表示指令數(shù)據(jù)的輸出部分。
如果原始標注數(shù)據(jù)滿足用戶的需求,不需要多少改動就可以直接轉化。但是,對于特定下游任務如分類、判斷或簡要Caption,典型的只會生成幾個單詞或簡單句子,此時原始的答案需要基于輸入信息利用LLM進行擴展,以避免可能得過擬合或其他相關問題。值得注意的是,有些工作將這樣精簡的響應作為正式的指令,因此在指令中選擇融合合適的有限語言解決這類問題。
自我指導Self-Instruct
指令的規(guī)模、多樣性和創(chuàng)造性往往受到現(xiàn)有任務和相應標注數(shù)據(jù)的限制,阻礙了使用這些數(shù)據(jù)進行調整的多模態(tài)大型語言模型的通用性。標準指令格式在適應不斷變化的現(xiàn)實世界應用場景和滿足用戶需求方面面臨挑戰(zhàn)。因此,為了獲得與現(xiàn)實世界情況更相關的額外指令數(shù)據(jù),自我指導開始整合更廣泛的標注數(shù)據(jù)。這種方法將促使大型語言模型生成更多樣化和內容豐富的遵循指令數(shù)據(jù)。
具體來說,這種方法利用大型語言模型強大的理解和生成能力。如圖所示,它們根據(jù)模板、大型語言模型等將標注信息(如標題、邊界框、標簽等)組織成關于圖像的詳細描述,然后引導僅語言的大型語言模型生成問答對或直接進入多輪對話。其中,為了正確引導大型語言模型,這些方法會手動定制詳細的系統(tǒng)提示和一些示例,并通過上下文學習進一步提高生成內容的質量。自我指導消除了對數(shù)據(jù)的嚴格限制,允許在指令和響應中都增加多樣性和復雜性。
數(shù)據(jù)混合
當然,為了在確保指令數(shù)據(jù)具有良好多樣性等屬性的同時擴大指令數(shù)據(jù)的規(guī)模,許多方法同時使用上述兩種方法并構建大規(guī)模的指令數(shù)據(jù)。最近,一些多模態(tài)大型語言模型甚至將來自不同來源的多組指令數(shù)據(jù)進行合并,以進一步提高多模態(tài)大型語言模型的性能。
2、構建原則
原則 1. 正確性:每個視覺語言指令微調(VLIT)數(shù)據(jù)(即指令-響應對)中的視覺信息和文本內容必須完全匹配,確保生成內容中對視覺信息或外部知識的描述沒有不準確之處。
原則 2. 任務多樣性:視覺語言指令微調數(shù)據(jù)應包含足夠多樣的任務,包括文本任務和視覺任務。
原則 3. 指令多樣性:在視覺語言指令微調數(shù)據(jù)中,每個任務必須包含足夠多樣的不同指令句子。
原則 4. 響應多樣性:在視覺語言指令微調數(shù)據(jù)中,每個任務的響應文本需要保持足夠的可區(qū)分性。
原則 5. 指令復雜性:在視覺語言指令微調數(shù)據(jù)中,必須確保一些指令文本需要足夠復雜的邏輯才能完成。
原則 6. 對象/粒度復雜性:在視覺語言指令微調數(shù)據(jù)中,指令對象操作的粒度必須表現(xiàn)出足夠的復雜性。在多模態(tài)場景具備適當復雜度的高質量VLIT數(shù)據(jù)可進一步引導MLLM在不同粒度上聯(lián)合理解視覺和文本語義。
原則 7. 在視覺語言指令微調數(shù)據(jù)中,任務分布需要均勻,不存在明顯的長尾現(xiàn)象。不均衡的數(shù)據(jù)設置可能導致大型模型中的遺忘現(xiàn)象,嚴重阻礙其整體性能。
3、構建流程
數(shù)據(jù)收集
在收集數(shù)據(jù)時,必須全面考慮標注數(shù)據(jù)的類型、來源、規(guī)模和質量等因素。這可以確保收集的信息生成符合正確性、多樣性和復雜性要求的視覺語言指令微調數(shù)據(jù)。具體而言,經(jīng)過人工審查且廣泛使用的標注數(shù)據(jù)可信度更高,不會因標注不準確而導致后續(xù)錯誤。同時,不同類型的標注數(shù)據(jù)通常可以擴展來定義各種任務,顯著增強最終視覺語言指令微調數(shù)據(jù)的多樣性。當來自同一來源的多模態(tài)數(shù)據(jù)包含不同類型的標注時,甚至可以在原始簡單視覺任務之上生成更復雜的上下文和新的任務類型,確保復雜性。
指令響應生成
當提供一幅圖像和相應的各種類型的標注數(shù)據(jù)時,需要為每種類型的標注數(shù)據(jù)設計合適的模板,以確保插入的標注數(shù)據(jù)符合標準語言表示。通過結合所有標注數(shù)據(jù)源,可以獲得對圖像的詳細且準確的描述,這對僅使用語言的大型語言模型來說是一個可理解的視覺線索。為確保生成內容的多樣性和復雜性,有必要編寫足夠詳細的提示來引導大型語言模型,并手動編寫足夠數(shù)量的示例指令-響應對。
在系統(tǒng)提示設計中,遵循正確性、多樣性、復雜性原則,并通過靈活使用具有不同附加約束(例如,擴展知識、負面樣本、多輪對話等)的系統(tǒng)提示來引導生成器生成更多樣化和復雜的指令-響應對。同時,設計的上下文示例足夠充分,符合全面性和隨機性的特點,與所涉及的邊界相對應,并提供所有可能場景的適當示例,以便生成器能正確理解提示的含義。此外,為了在生成過程中確保足夠的多樣性,還冗余設置了系統(tǒng)提示和上下文示例的關鍵點,即多次重復某些關鍵點(如不生成不確定內容、避免模糊回答等)。
質量控制
由于大型語言模型本身可能存在錯誤以及生成數(shù)據(jù)分布的不可控性,對大型語言模型直接輸出的視覺語言指令微調數(shù)據(jù)進行質量控制至關重要。
正確性:對于準確性評估,引入多語言大型語言模型和手動編寫的指導示例,對給定的視覺語言指令微調數(shù)據(jù)進行多次準確性評估,取最高頻率作為最終準確性得分。
多樣性:使用基于圖的方法來計算指令多樣性,即,在去除停用詞后,將具有相同任務標簽的指令文本基于共現(xiàn)關系轉換為元素圖,并使用重疊社區(qū)劃分方法(即自我分裂)來計算簇的數(shù)量以評估指令多樣性。
復雜度:首先使用經(jīng)典的語義依存分析來計算指令中的元素數(shù)量,然后利用 LLaMA-2 作為判別模型,在給定樣本的指導下提供定量的難度評分。
平衡度:利用獲得的任務標簽來計算不同任務的樣本大小方差,作為平衡指標。同時,通過從各種任務標簽中隨機且均勻地抽樣,可以獲得具有類別平衡的視覺語言指令微調數(shù)據(jù)。