自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中文創(chuàng)意寫作能力超GPT-4,「最會(huì)寫」的中文大模型Weaver來了

人工智能 新聞
近日,波形智能的大模型團(tuán)隊(duì)發(fā)布了一款專精 AI 寫作的專業(yè)大模型 Weaver。通過寫作領(lǐng)域?qū)I(yè)預(yù)訓(xùn)練和一套創(chuàng)新性的數(shù)據(jù)生成和 Alignment 算法,Weaver 在寫作領(lǐng)域的各種任務(wù)上均取得了領(lǐng)先 GPT-4 和眾多中文通用大模型的效果。

ChatGPT 等通用大模型支持的功能成百上千,但是對(duì)于普通日常用戶來說,智能寫作一定是最常見的,也是大模型最能真正幫上忙的使用場(chǎng)景之一。盡管大模型經(jīng)常能寫出看起來像模像樣的文字,但是大多數(shù)情況下內(nèi)容的創(chuàng)意程度和文風(fēng)都經(jīng)不起深究。尤其是在創(chuàng)作領(lǐng)域,大模型常見的 “GPT 文風(fēng)” 更是讓利用大模型進(jìn)行創(chuàng)意寫作看起來簡單,實(shí)際卻困難重重。

近日,波形智能的大模型團(tuán)隊(duì)發(fā)布了一款專精 AI 寫作的專業(yè)大模型 Weaver。通過寫作領(lǐng)域?qū)I(yè)預(yù)訓(xùn)練和一套創(chuàng)新性的數(shù)據(jù)生成和 Alignment 算法,Weaver 在寫作領(lǐng)域的各種任務(wù)上均取得了領(lǐng)先 GPT-4 和眾多中文通用大模型的效果,尤其是在生成內(nèi)容的創(chuàng)意性和文風(fēng)質(zhì)量上大幅領(lǐng)先,是一款更能寫出 “人話” 的大模型。

圖片


  • 論文地址:https://arxiv.org/pdf/2401.17268.pdf
  • 在線 Demo:https://www.wawawriter.com/

ChatGPT 等大模型在通用指令跟隨和問答任務(wù)中效果出色,但是將大模型應(yīng)用于專業(yè)寫作,尤其是需要?jiǎng)?chuàng)造性和個(gè)性化文風(fēng)的創(chuàng)意寫作領(lǐng)域卻依然面臨重重阻礙。其中最大的問題就是大模型生成內(nèi)容風(fēng)格過于平淡,或者說文風(fēng)過于 “GPT”,缺少創(chuàng)造性。

為了解決這個(gè)問題,訓(xùn)練出更適合專業(yè)寫作的大模型,波形智能的研究團(tuán)隊(duì)分析了為什么 GPT 和其他通用大模型都做不好創(chuàng)意寫作類任務(wù)。首先,通用大模型的預(yù)訓(xùn)練過程,因?yàn)橄M屇P驮诟嗟臄?shù)據(jù)中自監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練的數(shù)據(jù)集中常常會(huì)包含非常多的低質(zhì)量內(nèi)容,真正由專業(yè)作家和內(nèi)容創(chuàng)作者寫作的高質(zhì)量文本內(nèi)容可能只占預(yù)訓(xùn)練數(shù)據(jù)總量的 0.1% 不到。因此,經(jīng)過預(yù)訓(xùn)練后的語言模型在建模了整個(gè)互聯(lián)網(wǎng)的文本分布之后,自然會(huì)傾向于輸出較為普通的內(nèi)容。而在模型的對(duì)齊階段,OpenAI 等公司眾包標(biāo)注指令微調(diào)數(shù)據(jù)集的過程中的標(biāo)注員的教育 / 寫作水平有限,沒有對(duì)標(biāo)注者的寫作 / 創(chuàng)作能力進(jìn)行篩選。另外標(biāo)注的過程中的標(biāo)準(zhǔn)也主要強(qiáng)調(diào)回答的無害性 (harmlessness) 和有效性 (helpfulness),而沒有考慮回答內(nèi)容的創(chuàng)造性和語言 / 寫作風(fēng)格。因此,經(jīng)過指令微調(diào)的語言模型反而更容易生成平庸無趣的文字。最后,在 RLHF/DPO 等 alignment 算法中,模型的訓(xùn)練數(shù)據(jù)和 Reward Model 均由經(jīng)過指令微調(diào)后的模型生成或訓(xùn)練得到,因此對(duì)于文風(fēng)和創(chuàng)造性上,RLHF/DPO 的過程也只能是 “矮子里拔將軍”,無法強(qiáng)化出真正擅長寫作的大模型。

基于此觀察,波形智能的大模型團(tuán)隊(duì)提出了一個(gè)尤其適合創(chuàng)意寫作領(lǐng)域的垂域?qū)I(yè)模型訓(xùn)練 pipeline,并基于此方案訓(xùn)練了 Weaver,一個(gè)全球領(lǐng)先的創(chuàng)意寫作大模型。該方案覆蓋了模型的 (持續(xù)) 預(yù)訓(xùn)練,指令微調(diào) (instruction tuning),和對(duì)齊 (RLHF/DPO) 階段。在預(yù)訓(xùn)練階段,團(tuán)隊(duì)進(jìn)行了非常仔細(xì)的數(shù)據(jù)篩選和過濾,利用人工 + 規(guī)則 + 機(jī)器學(xué)習(xí)模型協(xié)同的方案,從開源預(yù)訓(xùn)練數(shù)據(jù)集中找到了高質(zhì)量的小說 / 短故事 / 創(chuàng)意文案等類別的文本內(nèi)容,舍棄掉了大量的低質(zhì)量內(nèi)容和代碼 / 廣告等數(shù)據(jù),并下采樣了一部分高質(zhì)量的新聞數(shù)據(jù),同時(shí)結(jié)合了大規(guī)模的私有創(chuàng)作領(lǐng)域數(shù)據(jù) (小說,短故事等),構(gòu)建出了超過 200B 的可以讓模型專注學(xué)習(xí)創(chuàng)作能力的預(yù)訓(xùn)練數(shù)據(jù)。

在指令微調(diào)階段,波形智能的數(shù)據(jù)生成團(tuán)隊(duì)參考并改進(jìn)了 Meta 提出的 LongForm 和 HumpBack 方案,構(gòu)建了一套可以基于一段高質(zhì)量內(nèi)容,自動(dòng)生成各種寫作相關(guān)任務(wù)指令和對(duì)應(yīng)的高質(zhì)量輸出的 Instruction Backtranslation 流水線。團(tuán)隊(duì)總結(jié)并定義了 “寫內(nèi)容”,“寫大綱”,“擴(kuò)寫”,“潤色”,“精簡”,“風(fēng)格遷移 (仿寫)”,“審校”,“頭腦風(fēng)暴”,“起標(biāo)題”,和 “寫作相關(guān)對(duì)話” 十個(gè)類別的任務(wù)。對(duì)于一類任務(wù),如 “潤色”,標(biāo)注 Prompt 中首先解釋任務(wù)的定義和幾個(gè)輸入輸出樣例,之后給出一個(gè)從一段文本中自動(dòng)挖掘潤色任務(wù)指令 / 輸入 / 輸出的例子和標(biāo)注的思考過程: “首先在文本中找到一段寫的很好的句子,假設(shè)這句話是經(jīng)過一次潤色而來的,之后猜測(cè)在潤色之前這句話會(huì)是什么樣子,最后分析潤色前后的變化,推理出潤色的指令會(huì)是什么樣子。” 之后標(biāo)注的 Prompt 中輸入需要標(biāo)注的例子并指示大模型按照例子中的標(biāo)注流程進(jìn)行輸出,最后 parse 出模型輸出中標(biāo)注的 “指令 / 輸入 / 輸出” 部分,組合成一條寫作指令數(shù)據(jù)。

相比 OpenAI 等公司的標(biāo)準(zhǔn)眾包標(biāo)注指令數(shù)據(jù)的流程,波形智能的標(biāo)注策略更高效 (眾包標(biāo)注者只需要挑選特定領(lǐng)域高質(zhì)量的內(nèi)容即可,后續(xù)標(biāo)注流程由 AI 完成),而眾包標(biāo)注和目前常用的 self-instruct 類的全自動(dòng)標(biāo)注流程相比,波形智能的標(biāo)注流程能夠生成更高質(zhì)量的數(shù)據(jù) (因?yàn)檩敵鍪鞘止ぬ暨x的高質(zhì)量內(nèi)容或其中的一部分)?;谶@個(gè)策略,波形智能的大模型團(tuán)隊(duì)收集了涵蓋小說寫作,創(chuàng)意寫作,專業(yè)寫作,營銷文案寫作這四大領(lǐng)域中高質(zhì)量的內(nèi)容并進(jìn)行了自動(dòng)化標(biāo)注,產(chǎn)出了 100 萬 + 高質(zhì)量的寫作領(lǐng)域指令微調(diào)數(shù)據(jù)集。

圖片

圖 1: Weaver 訓(xùn)練數(shù)據(jù)分布和來源

接下來,在對(duì)齊 (Alignment) 階段,波形智能的數(shù)據(jù)生成團(tuán)隊(duì)提出了 Constitutional DPO, 一套全新的,基于原則高效將模型和專業(yè)作家 / 創(chuàng)作者對(duì)齊的方案。和以往基于模型輸出 + 人類 / 大模型評(píng)估的對(duì)齊策略不同。Constitutional DPO 以人類創(chuàng)作者創(chuàng)作的高質(zhì)量的輸出作為正樣本,利用人類作家 / 編輯整理提煉出的各個(gè)領(lǐng)域?qū)懽鞯?“原則 (Principles)”,用這些原則去生成能夠教會(huì)模型更好地遵守這些原則的負(fù)樣本。具體來說,專業(yè)作家 / 編輯首先整理出四大領(lǐng)域十個(gè)任務(wù)中,好的內(nèi)容需要遵循的共 200 余條原則。對(duì)于每一個(gè)原則,編輯總結(jié)出原則的詳細(xì)解釋和一對(duì)符合 / 違背該原則的例子,并用幾句話解釋出符合 / 違背原則的原因。之后,對(duì)于每一個(gè)正樣本,負(fù)例生成的 prompt 中首先展示出領(lǐng)域 - 任務(wù)上的原則集合和原則對(duì)應(yīng)的例子和解釋,之后展示出正樣本,要求大模型分析出正樣本最符合哪幾條原則,并推理出如何修改能夠在作出較少改變的情況下讓正樣本轉(zhuǎn)而違背這個(gè)原則,從而變成一條質(zhì)量沒那么好的輸出。團(tuán)隊(duì)精選了各個(gè)領(lǐng)域高評(píng)分 / 高閱讀量 / 高點(diǎn)贊評(píng)論數(shù)的內(nèi)容作為正樣本,通過 Consitutional DPO 的流水線生成出了數(shù)萬條偏好數(shù)據(jù) (preference data),并利用這些數(shù)據(jù)對(duì)模型利用 DPO 進(jìn)行了對(duì)齊訓(xùn)練。

圖片

圖 2 - Constitutional DPO 方法示意圖

圖片

圖 3 - 專家標(biāo)注的寫作原則

除此之外,波形智能的數(shù)據(jù)生成團(tuán)隊(duì)還設(shè)計(jì)了一套支持 RAG-aware training 的數(shù)據(jù)生成方案,過濾 / 精選出了一系列輸出內(nèi)容明顯基于其他內(nèi)容的樣本,通過 10 余個(gè)常用的 RAG 模版,構(gòu)造出了 10 萬余條的 RAG 訓(xùn)練數(shù)據(jù),使得 Weaver 模型能夠原生支持 RAG,能夠結(jié)合參考文獻(xiàn)和范文進(jìn)行高質(zhì)量的創(chuàng)作 / 仿寫。除此之外,團(tuán)隊(duì)還設(shè)計(jì)了一套讓 Weaver 支持 Function Calling 的數(shù)據(jù)生成方案。最終 Weaver 的微調(diào)數(shù)據(jù)量總和達(dá)到了 100 萬 + 量級(jí)。

Weaver 模型家族一共包括四個(gè)不同大小的模型,名字叫做 Weaver-mini/base/pro/ultra, 分別包括 18 億,60 億,140 億和 340 億參數(shù)。為了評(píng)估 Weaver 模型和通用大模型的寫作能力,波形智能的模型評(píng)估團(tuán)隊(duì)構(gòu)建了一個(gè)新的用戶大模型專業(yè)寫作能力評(píng)估的 Benchmark。Benchmark 中精選了涵蓋四大寫作領(lǐng)域 30 余個(gè)子領(lǐng)域的十項(xiàng)寫作任務(wù)的有代表性指令,共包含 2000 + 條指令。團(tuán)隊(duì)收集了 Weaver 和 10 余個(gè)有代表性的開源 + 閉源模型在 Benchmark 上的輸出,并分別進(jìn)行了人工對(duì)比評(píng)估和基于 GPT4 的自動(dòng)評(píng)估。

評(píng)估結(jié)果顯示,Weaver Ultra 在 Benchmark 中對(duì)生成內(nèi)容的新穎度和文風(fēng)的評(píng)估中對(duì)比包括 GPT-4 在內(nèi)的通用大模型均有顯著領(lǐng)先,在生成內(nèi)容的流暢性和切題程度上也和行業(yè)領(lǐng)先的 GPT-4 相當(dāng),領(lǐng)先其他開源 / 閉源模型。而其他較小的 Weaver 模型也都在各項(xiàng)指標(biāo)中相比大 2-3 倍的通用大模型有明顯優(yōu)勢(shì)。

圖片

圖 4: Weaver 在 WriteBench 的評(píng)測(cè)結(jié)果

除了標(biāo)準(zhǔn) Benchmark 的人工和自動(dòng)評(píng)估以外,波形智能的模型評(píng)估團(tuán)隊(duì)還在包含人機(jī)交互的實(shí)際應(yīng)用場(chǎng)景中對(duì) Weaver Ultra 和 GPT-4 進(jìn)行了用戶體驗(yàn)測(cè)評(píng)。由 4 位人類寫手在同樣的 Chat Interface 分別使用 Weaver Ultra 和 GPT-4,以相同的主題分別創(chuàng)作一個(gè)短故事,一個(gè)小紅書文案,一個(gè)商業(yè)計(jì)劃書,和一個(gè)課程論文。測(cè)評(píng)結(jié)果顯示,人類寫手利用 Weaver 進(jìn)行創(chuàng)作的效率相比使用 GPT-4 提升了約 40%,而專業(yè)編輯對(duì)創(chuàng)作內(nèi)容的質(zhì)量評(píng)比中也以 9:3 的比分更傾向于采用 Weaver 創(chuàng)作的文案。分析顯示,Weaver 帶來的效率提升主要來自于生成內(nèi)容的文風(fēng)更得體,需要的后編輯更少,以及創(chuàng)作過程中 Weaver 交互更加直接,不會(huì)輸出無用的廢話和疑問。而來自專業(yè)編輯的反饋主要集中在基于 Weaver 創(chuàng)作的作品風(fēng)格往往更符合實(shí)用標(biāo)準(zhǔn),以及創(chuàng)作的內(nèi)容個(gè)新穎程度更高,不死板。

圖片

圖 5: Weaver 和其他大模型在人工評(píng)測(cè)中的 ELO Rating

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-01-30 21:18:57

模型智能CMMLU

2024-04-01 08:00:00

AI模型

2024-07-08 08:38:00

模型推理

2024-05-07 11:42:54

MoE模型GPT-4

2023-03-16 19:17:57

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2022-05-20 10:43:30

AI模型

2024-01-16 12:31:13

OpenAIGLM-4大模型

2023-03-28 08:23:38

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-06-08 11:27:10

模型AI

2025-03-21 09:35:29

2023-10-21 12:42:06

數(shù)據(jù)模型

2024-04-19 14:52:13

MetaGPT-4模型

2023-10-12 14:18:06

2023-04-09 16:17:05

ChatGPT人工智能

2023-06-19 08:19:50

2023-05-08 12:47:48

IBM模型

2024-02-06 17:55:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)