自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

涼宮春日、李云龍等32個(gè)人物都能扮演,這個(gè)聊天機(jī)器人很懂劇情,代碼可商用

人工智能 新聞
涼宮春日是谷川流創(chuàng)作的《涼宮春日系列》輕小說(shuō)及其衍生作品的女主角,設(shè)定為高中生。雖然項(xiàng)目名字里只有「涼宮春日」,但「Chat 涼宮春日」可以模仿的人物達(dá)到了 32 個(gè),包括李云龍(《亮劍》男主角)、哈利?波特、張牧之(電影《讓子彈飛》男主角)、Sheldon(美劇《生活大爆炸》男主角)等等。

讓 AI 模仿特定人物聊天是 ChatGPT 類大語(yǔ)言模型的一個(gè)常見玩法,有些公司還開發(fā)了專門的 APP,如 character.ai。在國(guó)內(nèi),一個(gè)名叫「Chat 涼宮春日」的項(xiàng)目充分地滿足了這種需求。

涼宮春日是谷川流創(chuàng)作的《涼宮春日系列》輕小說(shuō)及其衍生作品的女主角,設(shè)定為高中生。雖然項(xiàng)目名字里只有「涼宮春日」,但「Chat 涼宮春日」可以模仿的人物達(dá)到了 32 個(gè),包括李云龍(《亮劍》男主角)、哈利?波特、張牧之(電影《讓子彈飛》男主角)、Sheldon(美劇《生活大爆炸》男主角)等等。在聊天時(shí),這個(gè)模型不僅可以模仿這些人物的語(yǔ)氣、個(gè)性,還能充分結(jié)合劇情。

以下是生成效果:

「Chat涼宮春日」是由李魯魯、冷子昂、陳啟源發(fā)起的Luotuo(駱駝)的子項(xiàng)目之一,在魔搭社區(qū)主辦的Create@AI馬拉松大賽中獲得二等獎(jiǎng)(top3)。我們可以在B站上看到他們的項(xiàng)目介紹視頻。

視頻鏈接:https://www.bilibili.com/video/BV1Xh411A7kC/?vd_source=12c1d661b492e88e254fc63d0a861962

近期,項(xiàng)目作者還發(fā)布了系統(tǒng)的技術(shù)報(bào)告,這份報(bào)告介紹了他們打造「Chat 涼宮春日」的過(guò)程以及一個(gè)支持 32 個(gè)人物的 54k 對(duì)話數(shù)據(jù)集的制作過(guò)程。同時(shí),他們也在 HuggingFace 上發(fā)布了他們的數(shù)據(jù)集。

  • 技術(shù)報(bào)告鏈接:https://arxiv.org/pdf/2308.09597.pdf
  • GitHub 鏈接:https://github.com/LC1332/Chat-Haruhi-Suzumiya
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/silk-road/ChatHaruhi-54K-Role-Playing-Dialogue

項(xiàng)目作者之一冷子昂表示,「除了項(xiàng)目本身之外,我們的貢獻(xiàn)者除了我和魯魯都是從社區(qū)拉起來(lái)的隊(duì)伍,是一個(gè)眾人拾柴火焰高的事情,后面我們還會(huì)持續(xù)做更多的內(nèi)容和嘗試,希望社區(qū)的小伙伴可以一起支持我們?!?/span>

本項(xiàng)目采用 Apache 2.0 協(xié)議,也就是說(shuō),你可以利用項(xiàng)目中的代碼進(jìn)行商用。但是你仍然需要遵守以下事項(xiàng):1. 角色本身的版權(quán)方的協(xié)議;2. 項(xiàng)目中使用的接口方,比如 OpenAI 的協(xié)議;3. 項(xiàng)目中使用的模型的協(xié)議(比如如果后期采用了 LlaMA 或者 GLM 的模型。)

以下是項(xiàng)目的大體內(nèi)容。

讓 AI 扮演特定角色有一定難度

用 AI 模型進(jìn)行角色扮演在游戲、創(chuàng)意產(chǎn)業(yè)等許多領(lǐng)域具有潛在的應(yīng)用前景。

在開源角色扮演的實(shí)現(xiàn)中,開發(fā)者或用戶已經(jīng)采用了類似的 Prompt,將它們持續(xù)輸入到 ChatGPT 或者作為 system whisper 接入到語(yǔ)言模型中:

I want you to act like {character} from {series}. I want you to respond and answer like {character} using the tone, manner and vocabulary {character}  would use. Do not write any explanations. Only answer like {character}. You must know all of the knowledge of {character}. My first sentence is "Hi {character}." 

因?yàn)?ChatGPT 或 Claude 在訓(xùn)練的時(shí)候已經(jīng)閱讀過(guò)很多故事,再加上更大的語(yǔ)言模型所表現(xiàn)的「智能」行為。用戶們發(fā)現(xiàn)模型往往能在這樣的 prompt 下表現(xiàn)出一定的角色扮演能力。然而,這樣的實(shí)現(xiàn)雖然簡(jiǎn)單,卻有以下缺點(diǎn): 

  1. 這樣的 prompt 使用高度依賴大語(yǔ)言模型本來(lái)的記憶。如果大語(yǔ)言模型對(duì)于角色的記憶本身是模糊的,則無(wú)法模仿特定的角色。 
  2. 這里的「know all of the knowledge of {character} 」的定義也是模糊的,無(wú)法很好地防御大語(yǔ)言模型幻覺效應(yīng)的產(chǎn)生。 
  3. 即使是使用這樣的 prompt,聊天機(jī)器人的對(duì)話風(fēng)格還是會(huì)很大程度受到語(yǔ)言模型的影響,調(diào)整 prompt 或許能夠緩解這樣的問(wèn)題,但是每一個(gè)特定的角色都要非常精細(xì)地調(diào)整 prompt。 

這些缺點(diǎn)明顯限制了這種角色扮演聊天機(jī)器人的使用。

另一種簡(jiǎn)單的思路是將角色對(duì)話微調(diào)到模型中,作者發(fā)現(xiàn)不少開發(fā)者進(jìn)行了這樣的嘗試。在擁有足夠多的語(yǔ)料下,語(yǔ)言模型確實(shí)有能力掌握一個(gè)特定角色的語(yǔ)氣,但是這樣也會(huì)帶來(lái)新的問(wèn)題。在一個(gè)初步的實(shí)驗(yàn)中,他們發(fā)現(xiàn)微調(diào)后的 ChatBot 會(huì)產(chǎn)生更多的幻覺效果。并且對(duì)于大量的非主角角色,很難形成如此多的語(yǔ)料對(duì)模型進(jìn)行微調(diào)。綜上所述,讓語(yǔ)言模型更好地進(jìn)行角色扮演,模仿輸出角色的經(jīng)典臺(tái)詞是個(gè)非瑣碎的問(wèn)題。

模擬特定角色的大體思路

「Chat 涼宮春日」項(xiàng)目的主要目標(biāo)是研究自然語(yǔ)言模型能否在對(duì)話中扮演來(lái)自動(dòng)漫、影視作品的真實(shí)角色。在這個(gè)過(guò)程中,作者認(rèn)為一個(gè)虛擬角色由三個(gè)核心部分構(gòu)成:

第一,知識(shí)與背景:每個(gè)虛擬人物都有自己所處在的背景,比如涼宮春日處在一個(gè)日本的高中里。所以 ChatBot 需要了解對(duì)應(yīng)故事的設(shè)定。這對(duì)于大型語(yǔ)言模型的記憶能力是較大的考驗(yàn),需要通過(guò)外部知識(shí)庫(kù)的引入去解決。

第二,人格或性格:人格和性格的設(shè)定在整部作品中需要是一致的,所以作者希望 ChatBot 所反應(yīng)的人格和性格,與作品原來(lái)的設(shè)定也是一致的。

第三,語(yǔ)言習(xí)慣:這一點(diǎn)是最容易進(jìn)行模仿的,只要在大型語(yǔ)言模型上下文中給出合適的例子,語(yǔ)言模型往往會(huì)進(jìn)行模仿輸出。作者希望這樣的文學(xué)影視作品的愛好者與 ChatBot 互動(dòng)時(shí),能夠「復(fù)現(xiàn)」文學(xué)影視作品的經(jīng)典橋段,這樣會(huì)讓這些作品的愛好者獲得更好的體驗(yàn)。

「Chat 涼宮春日」項(xiàng)目的關(guān)鍵想法,是抽取盡可能多的原劇本,形成角色的記憶數(shù)據(jù)庫(kù)。在用戶給出新的提問(wèn)時(shí),系統(tǒng)會(huì)搜索相關(guān)的經(jīng)典劇情,并且結(jié)合人物設(shè)定的 prompt,去組合控制語(yǔ)言模型,爭(zhēng)取對(duì)角色形成更精確的模仿。同時(shí),受到 CAMEL 和 Baize 項(xiàng)目的啟發(fā),作者設(shè)計(jì)了一套自動(dòng)對(duì)話語(yǔ)料生成的系統(tǒng),對(duì)于性格鮮明,但是原本對(duì)話較少的角色,他們可以進(jìn)一步生成符合角色性格設(shè)定的語(yǔ)料。這樣就可以生成充分的語(yǔ)料使得微調(diào)一個(gè)本地的模型成為可能。

完整的開發(fā)計(jì)劃如下圖所示:

項(xiàng)目的主要貢獻(xiàn)可以概括為以下幾點(diǎn):

1、基于大型的語(yǔ)言模型,作者提出了一套完整的角色扮演的算法系統(tǒng)。這套算法可以有效地組織角色的過(guò)往記憶,使得語(yǔ)言模型能夠模仿特定影視、動(dòng)漫角色的語(yǔ)氣和知識(shí)進(jìn)行對(duì)話。這套系統(tǒng)可以使用 OpenAI 的 ChatGPT 或者 Claude 這樣的預(yù)訓(xùn)練大模型,也可以使用較小的 7B 規(guī)模的本地模型。

圖片

作者提出的算法在扮演涼宮春日,注意用戶的提問(wèn)和原來(lái)的劇情相關(guān)但不是完全一致,而「Chat 涼宮春日」的回答基本可以引用原劇情。

2、作者提出了一個(gè)角色扮演的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包括了超過(guò) 30 個(gè)不同的中文 / 英文影視角色。通過(guò)收集電影、小說(shuō)、劇本的語(yǔ)料,并進(jìn)行結(jié)構(gòu)化的抽取,他們收集了超過(guò) 23000 條以上的對(duì)話信息。這些對(duì)話數(shù)據(jù)可以用來(lái)訓(xùn)練和檢驗(yàn)角色扮演的語(yǔ)言模型。同時(shí),使用作者提出的算法,借助 GPT3 和 GPT4,他們?yōu)檫@些角色額外模擬生成了超過(guò) 27000 條以上的對(duì)話。合并形成了 ChatHaruhi-54k 數(shù)據(jù)集。

圖片

3、為了檢驗(yàn)和比較不同方式形成的角色扮演 ChatBot 的性能,他們使用自動(dòng)測(cè)評(píng)和人工測(cè)評(píng)兩個(gè)方式對(duì)角色扮演機(jī)器人進(jìn)行了測(cè)評(píng)(部分測(cè)評(píng)結(jié)果還未公布)。在自動(dòng)測(cè)評(píng)中,他們測(cè)試角色是否能夠?qū)”局械慕?jīng)典的劇情進(jìn)行響應(yīng),給出和原劇本近似的回答。在人工測(cè)評(píng)中,他們提出了兩個(gè)不同的指標(biāo),讓被試去評(píng)估兩個(gè)不同的指標(biāo):吻合度:機(jī)器人的回答是否符合角色的原來(lái)設(shè)定;回答質(zhì)量:機(jī)器人的回答的語(yǔ)言質(zhì)量是否較好。結(jié)果發(fā)現(xiàn),在使用同樣的基礎(chǔ)語(yǔ)言模型的情況下,他們的算法可以給出更好的角色扮演的性能。

下圖是「Chat 涼宮春日」的核心對(duì)話系統(tǒng)示意圖,包含 system prompt、為用戶查詢 q 檢索到的角色記憶 D (q, R) 以及規(guī)劃歷史 H。

下圖是項(xiàng)目數(shù)據(jù)集中涉及的角色數(shù)據(jù)列表:

圖片

在實(shí)驗(yàn)中,作者定性比較了 5 個(gè)方案??梢钥吹剑诩尤虢?jīng)典對(duì)話以及修正 system prompt 之后,使用 ChatGPT 等模型可以有效的使聊天機(jī)器人體現(xiàn)特定人物的對(duì)話風(fēng)格。同時(shí),經(jīng)過(guò)微調(diào)的 7B 模型也可以有效的將整個(gè)系統(tǒng)的 prompt 學(xué)習(xí)到。

更多細(xì)節(jié)請(qǐng)參見原報(bào)告:https://github.com/LC1332/Chat-Haruhi-Suzumiya/blob/main/notebook/arxiv_paper.md

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-12-18 19:05:34

2023-10-29 21:20:04

谷歌Bard聊天機(jī)器人

2022-07-05 06:42:01

聊天機(jī)器人人工智能

2024-11-01 07:30:00

2016-10-25 14:42:52

白宮開源機(jī)器人代碼

2017-08-21 13:31:44

AI聊天機(jī)器人facebook

2020-02-20 09:00:00

網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)技術(shù)

2021-11-30 10:56:43

ChatterBot機(jī)器人人工智能

2021-05-24 15:29:24

人工智能機(jī)器人聊天

2022-08-04 07:03:41

AnswersInfobip無(wú)代碼

2020-02-02 09:19:14

聊天機(jī)器人機(jī)器人智能

2019-12-19 16:08:40

人工智能機(jī)器人數(shù)據(jù)

2022-07-03 10:23:06

機(jī)器人場(chǎng)景個(gè)性化

2023-06-29 15:04:21

微軟ChatGPT

2016-02-16 14:46:33

聊天機(jī)器人機(jī)器學(xué)習(xí)自然語(yǔ)言

2017-03-28 12:21:21

機(jī)器人定義

2020-12-02 13:00:17

Recast.AI聊天機(jī)器人人工智能

2022-09-30 13:55:46

Python機(jī)器人

2019-04-19 14:40:15

代碼Python機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)