自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一句話,滿足兩個(gè)廣告商!谷歌最新「Token拍賣模型」,多LLM聯(lián)合創(chuàng)作廣告詞

人工智能 新聞
谷歌研究人員提出了一種創(chuàng)新的token拍賣模型,通過「競(jìng)拍」的方式,讓智能體在文本生成過程中進(jìn)行出價(jià),確保最終輸出能滿足各方利益,實(shí)現(xiàn)最佳效果。這一機(jī)制優(yōu)化了廣告、內(nèi)容創(chuàng)作等領(lǐng)域的協(xié)作。

當(dāng)多個(gè)LLM智能體共同創(chuàng)作內(nèi)容時(shí),它們會(huì)如何協(xié)調(diào)彼此的「話語權(quán)」?

想象一下,在廣告投放中,A航空公司和B度假村都希望吸引用戶的目光,但單獨(dú)宣傳各自的服務(wù)可能不如聯(lián)合推廣來得有吸引力。

那么,如何讓AI智能體像人類一樣展開博弈,在競(jìng)爭(zhēng)與合作之間找到最佳平衡?

谷歌研究人員提出了一種創(chuàng)新的「token拍賣模型」,讓LLM在文本生成過程中通過「競(jìng)拍」來決定最終輸出,確保每個(gè)智能體的利益最大化,同時(shí)生成最優(yōu)質(zhì)的內(nèi)容。

這種機(jī)制不僅能優(yōu)化廣告創(chuàng)意,還能拓展至智能客服、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域,重新定義AI協(xié)作。

以廣告為例,當(dāng)用戶搜索「夏威夷度假」時(shí),網(wǎng)頁上可能會(huì)出現(xiàn)一個(gè)廣告位。A航空公司和B度假村這兩家廣告商,都希望在這個(gè)位置展示自家的廣告。

他們分別借助LLM生成廣告內(nèi)容,比如A公司的「乘坐A航空,飛向夏威夷」,B度假村的「在B度假村,享受夏威夷的美景」。

但如果能將兩者的優(yōu)勢(shì)結(jié)合,形成聯(lián)合廣告「乘坐A航空抵達(dá)夏威夷,在B度假村享受夢(mèng)幻一周的度假體驗(yàn)」無疑會(huì)更具吸引力,也能更好地滿足用戶夏威夷度假的需求。

假設(shè)有兩個(gè)分別代表虛擬廣告商A航空和B度假村的智能體,它們的任務(wù)是合作一則聯(lián)合廣告創(chuàng)意。

然而,這種合作并不容易實(shí)現(xiàn)。

每個(gè)LLM背后的廣告商都有自己的偏好和利益訴求。廣告商們都希望自家的產(chǎn)品或服務(wù)能在廣告中被重點(diǎn)提及,并且突出展示那些他們認(rèn)為更有吸引力的特點(diǎn)。

這就好比在一場(chǎng)團(tuán)隊(duì)比賽中,每個(gè)隊(duì)員都想讓自己負(fù)責(zé)的部分成為焦點(diǎn)。

這種情況下,如何協(xié)調(diào)多個(gè)LLM的輸出,讓它們共同生成一個(gè)既能滿足各方利益,又能達(dá)到最佳效果的聯(lián)合輸出,成為了一個(gè)需要解決的問題。

Token「拍賣」模型

為了解決上述問題,研究人員提出了token拍賣模型。

該模型以token為單位,逐個(gè)進(jìn)行拍賣。在每次拍賣中,每個(gè)LLM作為競(jìng)拍者,根據(jù)自身的能力和意愿對(duì)下一個(gè)token進(jìn)行出價(jià)。模型的核心任務(wù)包括:

1. 擴(kuò)展共享的token序列:決定下一個(gè)添加到文本中的token。

2. 確定每個(gè)競(jìng)拍者的支付費(fèi)用:通過支付函數(shù)計(jì)算每個(gè)LLM需要支付的費(fèi)用。

分布聚合函數(shù)在此過程中扮演裁判角色,綜合考慮每個(gè)LLM提供的token分布和出價(jià),生成新的聚合分布。支付函數(shù)則負(fù)責(zé)確定每個(gè)智能體的支付金額,激勵(lì)其真實(shí)地表達(dá)自身偏好。

先來看看單個(gè)LLM是如何工作的。當(dāng)模型接收到一段輸入文本后,會(huì)根據(jù)自己所學(xué)的知識(shí)和模式,給出下一個(gè)可能出現(xiàn)的token的概率分布。

例如,輸入「機(jī)制設(shè)計(jì)為」,模型可能會(huì)輸出 [(大型,0.8), (生成式,0.2)],這意味著下一個(gè)token是「大型」的概率為80%,是「生成式」的概率為20%。

基于這種概率分布,LLM可以自動(dòng)生成文本,從一個(gè)初始的提示文本開始,不斷根據(jù)概率分布選擇下一個(gè)token,直到生成一個(gè)完整的文本。

token拍賣模型在此基礎(chǔ)上進(jìn)行了拓展,它以token為單位,逐個(gè)進(jìn)行拍賣。

在這個(gè)「拍賣會(huì)」上,每個(gè)LLM都是一個(gè)「競(jìng)拍者」,它們根據(jù)自己的能力和意愿出價(jià)。

同時(shí),token拍賣模型承擔(dān)著兩個(gè)關(guān)鍵任務(wù):一是擴(kuò)展共享的token序列,也就是決定下一個(gè)添加到文本中的token;二是確定每個(gè)「競(jìng)拍者」需要支付的「費(fèi)用」。這兩個(gè)任務(wù)分別由分布聚合函數(shù)和支付函數(shù)來完成。

圖片

Token拍賣模型架構(gòu)

分布聚合函數(shù)就像是一個(gè)裁判,它綜合考慮每個(gè)LLM給出的token分布和它們的出價(jià),然后給出一個(gè)新的聚合后的token分布。

假設(shè)有三個(gè)LLM智能體,當(dāng)前共享的token序列是「機(jī)制設(shè)計(jì)為」,智能體1的LLM給出的分布是 [(大型,0.8),(生成式,0.2)],出價(jià)為1;智能體2的分布是 [(大型,1.0)],出價(jià)為2;智能體3的分布是 [(生成式,1.0)],出價(jià)為2。

那么,分布聚合函數(shù)可能會(huì)根據(jù)出價(jià)加權(quán)平均的方式,得到一個(gè)新的聚合分布 [(大型,0.56),(生成式,0.44)] 。

設(shè)計(jì)空間縮減

在Token拍賣模型的設(shè)計(jì)中,研究人員強(qiáng)調(diào)了以下兩個(gè)理想屬性:

  • 支付單調(diào)性:如果一個(gè)LLM提高了出價(jià),那么在最終的聯(lián)合輸出中,其偏好應(yīng)得到更好的體現(xiàn)。
  • 一致聚合:不同LLM的分布應(yīng)以合理、一致的方式進(jìn)行聚合。

通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo),研究人員發(fā)現(xiàn),這兩個(gè)屬性等同于要求分布聚合函數(shù)具有單調(diào)性。這一發(fā)現(xiàn)縮小了分布聚合函數(shù)的設(shè)計(jì)空間,使得模型設(shè)計(jì)和分析更加簡(jiǎn)潔。

支付函數(shù)負(fù)責(zé)確定每個(gè)智能體需要支付的費(fèi)用。支付單調(diào)性意味著如果一個(gè)智能體提高了出價(jià),那么它在最終的聯(lián)合輸出中應(yīng)該得到更好的待遇,也就是聚合后的分布應(yīng)該朝著它更偏好的方向變化。

一致聚合則要求不同的LLM在參與拍賣時(shí),它們的分布能夠以一種合理、一致的方式進(jìn)行聚合。

「第二價(jià)格」支付機(jī)制

在拍賣理論中,「第二價(jià)格」支付方式被證明能夠提供良好的激勵(lì)效果。

在傳統(tǒng)的單物品拍賣中,「第二價(jià)格」支付是指把物品賣給出價(jià)最高的競(jìng)拍者,但讓他支付第二高的出價(jià)。

在token拍賣模型中,研究人員也借鑒了這一理念。他們證明了(在一些合理的假設(shè)條件下),任何單調(diào)的分布聚合函數(shù)都可以采用類似「第二價(jià)格」的支付方式。

這種支付方式的好處在于,它可以促使智能體更真實(shí)地出價(jià),因?yàn)榧词顾麄兲岣叱鰞r(jià)贏得了競(jìng)拍,也不需要支付過高的費(fèi)用,從而避免了智能體為了獲得更好的結(jié)果而盲目抬高出價(jià)的情況。

最優(yōu)聚合策略

為了設(shè)計(jì)最優(yōu)的分布聚合函數(shù),研究人員從先進(jìn)的LLM訓(xùn)練方法中汲取靈感,構(gòu)建了聚合損失函數(shù)。

該函數(shù)為每個(gè)輸出分布關(guān)聯(lián)一個(gè)總損失值,目標(biāo)是通過調(diào)整分布聚合函數(shù),使總損失最小化。

研究人員提出了兩種有效的分布聚合函數(shù):

  • 線性分布聚合函數(shù):輸出分布為出價(jià)加權(quán)平均值。
  • 對(duì)數(shù)線性分布聚合函數(shù):在對(duì)數(shù)空間中執(zhí)行加權(quán)平均操作。

這兩種聚合函數(shù)在不同的場(chǎng)景下都有著良好的表現(xiàn),為實(shí)際應(yīng)用提供了更多的選擇。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證token拍賣模型的有效性,研究人員進(jìn)行了一系列實(shí)驗(yàn)。

他們選擇了現(xiàn)有的LLM,并通過提示調(diào)整(prompt tuning)的方式,讓模型扮演不同的廣告商角色。

在前面提到的A航空公司和B度假村的例子中,研究人員展示了在不同的出價(jià)相對(duì)權(quán)重(λ)下,線性聚合規(guī)則和對(duì)數(shù)線性聚合規(guī)則生成的廣告內(nèi)容。

隨著λ值的變化,生成的廣告內(nèi)容呈現(xiàn)出有趣的變化。

當(dāng)λ=1時(shí),廣告主要提及A航空公司;隨著λ逐漸減小,廣告開始同時(shí)提及A航空公司和B度假村。當(dāng)λ=0時(shí),廣告則主要宣傳B度假村。

實(shí)驗(yàn)結(jié)果顯示,隨著出價(jià)權(quán)重的變化,生成的廣告內(nèi)容能夠合理地體現(xiàn)各方的利益訴求,實(shí)現(xiàn)了不同廣告商之間的有效協(xié)作。

此外,研究人員還展示了更多不同提示,包括競(jìng)爭(zhēng)廣告商場(chǎng)景下的實(shí)驗(yàn)結(jié)果,進(jìn)一步證明了token拍賣模型的靈活性和有效性,為多個(gè)LLM的協(xié)作提供了方案。

圖片

LLM的機(jī)制設(shè)計(jì)研究為多個(gè)LLM的協(xié)同工作帶來了啟發(fā)。

Token拍賣模型的提出,解決了多模型協(xié)作中的關(guān)鍵問題,還為后續(xù)的研究和應(yīng)用奠定了基礎(chǔ)。

從實(shí)際應(yīng)用的角度來看,這種機(jī)制在廣告、內(nèi)容創(chuàng)作、智能客服等領(lǐng)域都有著廣闊的應(yīng)用前景。

例如,在廣告領(lǐng)域,它可以讓不同品牌的廣告更巧妙地融合,提高廣告的吸引力和效果;在內(nèi)容創(chuàng)作方面,多個(gè)智能體可以通過這種機(jī)制共同創(chuàng)作出更豐富、多元的作品。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-08-25 17:10:14

LLM人工智能

2023-09-05 23:34:52

Kubernetes云原生

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2021-12-30 10:00:07

3DAI 人工智能

2022-09-30 15:35:43

AI視頻

2010-03-29 11:55:12

無線上網(wǎng)報(bào)錯(cuò)

2023-05-08 15:44:23

3D數(shù)字人

2024-02-08 09:33:37

蘋果AI

2022-12-12 13:45:46

模型修圖

2021-11-29 09:45:32

模型人工智能深度學(xué)習(xí)

2012-02-17 17:05:31

Opera收購(gòu)

2014-05-07 10:47:51

移動(dòng)金融互聯(lián)網(wǎng)金融GMIC

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼

2023-08-28 00:53:03

AI3D

2019-09-05 10:13:28

2019-08-15 11:42:56

程序員電腦軟件

2023-12-13 21:50:59

騰訊AI模型

2014-12-16 08:58:17

甲骨文Oracle數(shù)據(jù)庫選件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)