自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越GPT 3.5的小模型來了!

人工智能 新聞
多模態(tài)思想的力量很強(qiáng)大。

去年年底,OpenAI 向公眾推出了 ChatGPT,一經(jīng)發(fā)布,這項(xiàng)技術(shù)立即將 AI 驅(qū)動(dòng)的聊天機(jī)器人推向了主流話語(yǔ)的中心,眾多研究者并就其如何改變商業(yè)、教育等展開了一輪又一輪辯論。

隨后,科技巨頭們紛紛跟進(jìn)投入科研團(tuán)隊(duì),他們所謂的「生成式 AI」技術(shù)(可以制作對(duì)話文本、圖形等的技術(shù))也已準(zhǔn)備就緒。

眾所周知,ChatGPT 是在 GPT-3.5 系列模型的基礎(chǔ)上微調(diào)而來的,我們看到很多研究也在緊隨其后緊追慢趕,但是,與 ChatGPT 相比,他們的新研究效果到底有多好?近日,亞馬遜發(fā)布的一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》中,他們提出了包含視覺特征的 Multimodal-CoT,該架構(gòu)在參數(shù)量小于 10 億的情況下,在 ScienceQA 基準(zhǔn)測(cè)試中,比 GPT-3.5 高出 16 個(gè)百分點(diǎn) (75.17%→91.68%),甚至超過了許多人類。

這里簡(jiǎn)單介紹一下 ScienceQA 基準(zhǔn)測(cè)試,它是首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集 ,由 UCLA 和艾倫人工智能研究院(AI2)提出,主要用于測(cè)試模型的多模態(tài)推理能力,有著非常豐富的領(lǐng)域多樣性,涵蓋了自然科學(xué)、語(yǔ)言科學(xué)和社會(huì)科學(xué)領(lǐng)域,對(duì)模型的邏輯推理能力提出了很高的要求。

圖片

論文地址:https://arxiv.org/abs/2302.00923

項(xiàng)目地址:https://github.com/amazon-science/mm-cot

下面我們來看看亞馬遜的語(yǔ)言模型是如何超越 GPT-3.5 的。

包含視覺特征的 Multimodal-CoT

大型語(yǔ)言模型 (LLM) 在復(fù)雜推理任務(wù)上表現(xiàn)出色,離不開思維鏈 (CoT) 提示的助攻。然而,現(xiàn)有的 CoT 研究只關(guān)注語(yǔ)言模態(tài)。為了在多模態(tài)中觸發(fā) CoT 推理,一種可能的解決方案是通過融合視覺和語(yǔ)言特征來微調(diào)小型語(yǔ)言模型以執(zhí)行 CoT 推理。

然而,根據(jù)已有觀察,小模型往往比大模型更能頻繁地胡編亂造,模型的這種行為通常被稱為「幻覺(hallucination)」。此前谷歌的一項(xiàng)研究也表明( 論文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ),基于 CoT 的提示只有在模型具有至少 1000 億參數(shù)時(shí)才有用!

也就是說,CoT 提示不會(huì)對(duì)小型模型的性能產(chǎn)生積極影響,并且只有在與 ~100B 參數(shù)的模型一起使用時(shí)才會(huì)產(chǎn)生性能提升。

然而,本文研究在小于 10 億參數(shù)的情況下就產(chǎn)生了性能提升,是如何做到的呢?簡(jiǎn)單來講,本文提出了包含視覺特征的 Multimodal-CoT,通過這一范式(Multimodal-CoT)來尋找多模態(tài)中的 CoT 推理。

Multimodal-CoT 將視覺特征結(jié)合在一個(gè)單獨(dú)的訓(xùn)練框架中,以減少語(yǔ)言模型有產(chǎn)生幻覺推理模式傾向的影響??傮w而言,該框架將推理過程分為兩部分:基本原理生成(尋找原因)和答案推理(找出答案)。 

圖片

Multimodal CoT 兩階段過程:使用文本(問題 + 上下文)和視覺特征來產(chǎn)生邏輯依據(jù)。

數(shù)據(jù)集

本文主要關(guān)注 ScienceQA 數(shù)據(jù)集,該數(shù)據(jù)集將圖像和文本作為上下文的一部分,此外,該數(shù)據(jù)集還包含對(duì)答案的解釋,以便可以對(duì)模型進(jìn)行微調(diào)以生成 CoT 基本原理。此外,本文利用 DETR 模型生成視覺特征。

較小的 LM 在生成 CoT / 基本原理時(shí)容易產(chǎn)生幻覺,作者推測(cè),如果有一個(gè)修改過的架構(gòu),模型可以利用 LM 生成的文本特征和圖像模型生成的視覺特征,那么 更有能力提出理由和回答問題。

架構(gòu)

總的來說,我們需要一個(gè)可以生成文本特征和視覺特征并利用它們生成文本響應(yīng)的模型。

又已知文本和視覺特征之間存在的某種交互,本質(zhì)上是某種共同注意力機(jī)制,這有助于封裝兩種模態(tài)中存在的信息,這就讓借鑒思路成為了可能。為了完成所有這些,作者選擇了 T5 模型,它具有編碼器 - 解碼器架構(gòu),并且如上所述,DETR 模型用于生成視覺特征。

T5 模型的編碼器負(fù)責(zé)生成文本特征,但 T5 模型的解碼器并沒有利用編碼器產(chǎn)生的文本特征,而是使用作者提出的共同注意式交互層(co-attention-styled interaction layer)的輸出。

拆解來看,假設(shè) H_language 是 T5 編碼器的輸出。X_vision 是 DETR 的輸出。第一步是確保視覺特征和文本特征具有相同的隱藏大小,以便我們可以使用注意力層。

注意:所有代碼片段均來自論文的 GitHub:https://github.com/amazon-science/mm-cot/blob/main/model.py

self.image_dense = nn.Linear(self.patch_dim, config.d_model)

W_h 本質(zhì)上是一個(gè)線性層,H_vision 對(duì)應(yīng)最終的視覺特征。W_h 有助于更改視覺特征的大小以匹配文本特征的大小。

下面我們需要添加一個(gè)注意力層,以便視覺和文本特征可以相互交互。為此,作者使用單頭注意力層,將 H_language 作為查詢向量,將 H_vision 作為鍵和值向量。

self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, 
kdim=config.hidden_size, vdim=config.hidden_size,
num_heads=1, batch_first=True)


image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)

現(xiàn)在我們有了包含來自文本和視覺特征的信息的嵌入。隨后,作者利用門控融合來生成最終的一組特征,這些特征將被發(fā)送到解碼器。門控融合有兩個(gè)步驟:

  1. 獲取一個(gè)介于 0 和 1 之間的分?jǐn)?shù)向量,以確定每個(gè)注意力特征的重要性。
  2. 利用 score 融合 text 和 attention 特征。

圖片

W_I 和 W_v 本質(zhì)上是兩個(gè)線性層。

self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) 
self.sigmoid = nn.Sigmoid()


hidden_states = encoder_outputs[0]
merge = torch.cat([hidden_states, image_att], dim=-1)
gate = self.sigmoid(self.gate_dense(merge))
hidden_states = (1 - gate) * hidden_states + gate * image_att

最后,融合的特征被傳遞給解碼器。

decoder_outputs = self.decoder( input_ids=decoder_input_ids, 
attention_mask=decoder_attention_mask,
inputs_embeds=decoder_inputs_embeds,
past_key_values=past_key_values,
encoder_hidden_states=hidden_states,

這幾乎就是作者所遵循的架構(gòu)!但是,請(qǐng)記住有兩個(gè)階段。第一個(gè)階段是產(chǎn)生基本原理 / CoT。第二階段利用第一階段產(chǎn)生的 CoT 來產(chǎn)生答案,如上圖所示。

結(jié)果

作者使用 UnifiedQA 模型的權(quán)重作為 T5 模型的初始化點(diǎn),并在 ScienceQA 數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。他們觀察到他們的 Multimodal CoT 方法優(yōu)于所有以前的基準(zhǔn),包括 GPT-3.5。

有趣的地方在于,即使只有 2.23 億個(gè)參數(shù)的基本模型也優(yōu)于 GPT-3.5 和其他 Visual QA 模型!這突出了擁有多模態(tài)架構(gòu)的力量。

作者還展示了他們的兩階段方法優(yōu)于單階段方法。

圖片

結(jié)論

這篇論文帶來的最大收獲是多模態(tài)特征在解決具有視覺和文本特征的問題時(shí)是多么強(qiáng)大。

作者展示了利用視覺特征,即使是小型語(yǔ)言模型(LM)也可以產(chǎn)生有意義的思維鏈 / 推理,而幻覺要少得多,這揭示了視覺模型在發(fā)展基于思維鏈的學(xué)習(xí)技術(shù)中可以發(fā)揮的作用。

從實(shí)驗(yàn)中,我們看到以幾百萬(wàn)個(gè)參數(shù)為代價(jià)添加視覺特征的方式,比將純文本模型擴(kuò)展到數(shù)十億個(gè)參數(shù)能帶來更大的價(jià)值。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)