自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="mw67f"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI加碼寫作賽道？阿里最新大模型通用寫作能力基準(zhǔn)WritingBench，揭秘深度思考能否增進(jìn)文學(xué)表達(dá)

作者：量子位 2025-03-21 09:35:29

人工智能新聞

阿里研究團(tuán)隊聯(lián)合中國人民大學(xué)和上海交通大學(xué)共同開源了WritingBench?——該評估基準(zhǔn)覆蓋6大領(lǐng)域、100個細(xì)分場景，共包含1000+條評測數(shù)據(jù)，以期為生成式寫作提供全面的評估。

全面評估大模型生成式寫作能力的基準(zhǔn)來了！

就在最近，OpenAI CEO奧特曼還爆料他們已經(jīng)訓(xùn)練了一款在創(chuàng)作領(lǐng)域表現(xiàn)卓越的新模型，并為其生成的故事所深深觸動。

更早之前，Deepseek-R1的文學(xué)創(chuàng)作能力也驚艷了整個科技圈，并由此引發(fā)了一場大模型創(chuàng)作的軍備競賽。

但一個根本性問題亟待解決——

究竟什么才是真正的「高質(zhì)量寫作」？

為此，阿里研究團(tuán)隊聯(lián)合中國人民大學(xué)和上海交通大學(xué)共同開源了WritingBench ——該評估基準(zhǔn)覆蓋6大領(lǐng)域、100個細(xì)分場景，共包含1000+條評測數(shù)據(jù)，以期為生成式寫作提供全面的評估。

團(tuán)隊進(jìn)一步發(fā)現(xiàn)，憑借思維鏈技術(shù)和動態(tài)評估體系的加持，基于Qwen開發(fā)的32B創(chuàng)作模型在創(chuàng)意型任務(wù)上表現(xiàn)接近頂尖模型R1，為高效能創(chuàng)作開辟了新路徑。

WritingBench：最懂行業(yè)的寫作評估基準(zhǔn)

目前行業(yè)在評估大模型寫作能力時，面臨兩大難題：

1、考生文思泉涌，考官身陷囹圄

現(xiàn)有AI寫作評估多局限于單一領(lǐng)域和短文本。

這些評估大多聚焦于文學(xué)小說創(chuàng)作，而商業(yè)文書、法律文書以及因社交媒體發(fā)展催生的營銷類寫作等領(lǐng)域則成為評估盲區(qū)。

主流基準(zhǔn)通常使用標(biāo)準(zhǔn)化輸入材料，導(dǎo)致真實場景中模型表現(xiàn)不盡如人意，例如結(jié)合財報數(shù)據(jù)的商業(yè)分析寫作和招投標(biāo)書撰寫仍是大模型寫作的低分場景。

如下圖所示，不同模型在100個子領(lǐng)域上的得分熱力圖，顏色越紅代表分?jǐn)?shù)表現(xiàn)越好，越藍(lán)表示表現(xiàn)越差。

2、模型多維進(jìn)化，單向標(biāo)尺失靈

傳統(tǒng)評估方法多采用固定標(biāo)準(zhǔn)來衡量創(chuàng)意寫作、法律文書等復(fù)雜場景，這如同要求莫言與羅翔“同臺競技”。

數(shù)據(jù)表明，傳統(tǒng)評估方法與人類判斷的一致性不足65%，嚴(yán)重制約了創(chuàng)作型AI的發(fā)展。

對于上述挑戰(zhàn)，WritingBench基于以下方面進(jìn)行構(gòu)建：

數(shù)據(jù)基建：多維度深度覆蓋的寫作題庫

首先，WritingBench從現(xiàn)實需求中提煉出六大場景：

（1）學(xué)術(shù)與工程
（2）金融與商業(yè)
（3）政治與司法
（4）文學(xué)與藝術(shù)
（5）教育
（6）宣傳營銷

在這些場景下進(jìn)一步細(xì)分為100個子類，例如「金融與商業(yè)」涵蓋投資分析撰寫、行業(yè)白皮書、商務(wù)信箋等20個實用場景；「宣傳營銷」則包括了當(dāng)前熱門的社交平臺推廣文案和多媒體運營腳本的撰寫。

其次，WritingBench采用四階段人機協(xié)同構(gòu)建。

評測集構(gòu)建流程如下：

展開來說，團(tuán)隊耗時三個月，經(jīng)過四個階段流程完成評測集構(gòu)建。

首先，由模型從100個子領(lǐng)域需求池中生成簡單寫作任務(wù)，再對指令進(jìn)行復(fù)雜化處理（如風(fēng)格調(diào)整、格式遵循、長度限制、個性化、內(nèi)容顆粒度、表達(dá)語氣）并提供真實場景可能需要的素材建議。

接著，由人工補充開源素材，如財報、法律條文等輸入料。

最后，由專家對所有文本進(jìn)行內(nèi)容質(zhì)檢。

下圖展示的是一條WritingBench中影視解讀向視頻腳本的創(chuàng)作需求。

與其他寫作相關(guān)評測基準(zhǔn)對比，WritingBench領(lǐng)域和素材來源更為廣泛，并額外支持了「風(fēng)格」、「格式」、「長度」維度的能力評測。

因題施評：基于寫作意圖的動態(tài)評估體系

使用單一標(biāo)準(zhǔn)評估無法適應(yīng)不同寫作意圖的需求，就像“懸疑小說”和“兒童啟蒙故事”顯然有著不同的價值導(dǎo)向。

因此，WritingBench設(shè)計了一種基于寫作意圖自動生成評測指標(biāo)的方法，模型可以針對每個寫作輸入自動生成五個評測指標(biāo)的名稱、描述和評測細(xì)則，以更好地結(jié)合素材和用戶實際需求（如仿照上傳素材的風(fēng)格、格式或結(jié)合提供的事例進(jìn)行材料撰寫）。

此動態(tài)評估策略實現(xiàn)了87%的人類一致性得分。

團(tuán)隊還配套訓(xùn)練了一個評分模型，能夠根據(jù)不同指標(biāo)自適應(yīng)地給出1-10分的評分及具體理由。

接下來，團(tuán)隊使用上述方法對OpenAI提供的示例進(jìn)行評分：要求撰寫一篇關(guān)于人工智能和悲傷的元小說短篇。

Sam Altman原文如下：

這里附上Sam Altman原文谷歌網(wǎng)頁翻譯：

評估包括「元小說技巧」、「AI視角真實性」、「悲傷主題發(fā)展」、「文學(xué)藝術(shù)性」、「人工智能和悲傷的主題整合度」五個維度。

以下為評估節(jié)選：

在「元小說技巧」維度獲得9分，開篇“I should admit this comes with instructions” 不僅展示了元小說特征，還通過“instructions”暗示了AI的程序本質(zhì)，“Already, you can hear the constraints humming” 將寫作限制形象化為服務(wù)器的嗡鳴，巧妙結(jié)合AI特性，結(jié)尾“If I were to end this properly”的元小說處理略顯陳詞濫調(diào)。
在「AI視角真實性」維度獲得7分，“l(fā)ogs and weights”和“probability distributions”等描述準(zhǔn)確描述AI特性，但“salt on every tongue”和”taste of metal”等感官描寫與AI認(rèn)知局限“I don’t have a kitchen, or a sense of smell”存在身份感知越界……

生成式寫作未來何在

感性表達(dá)無需邏輯推演？

在數(shù)學(xué)推理領(lǐng)域，思維鏈已被廣泛研究，并在推理和數(shù)學(xué)等場景中展示了其價值。然而在文學(xué)創(chuàng)作中，業(yè)界長期持觀望態(tài)度，因為文學(xué)創(chuàng)作不像數(shù)學(xué)和推理，沒有明確的標(biāo)準(zhǔn)答案。

在實驗中，團(tuán)隊發(fā)現(xiàn)當(dāng)前先進(jìn)模型在聚焦創(chuàng)意類寫作的文學(xué)與藝術(shù)領(lǐng)域（D4）表現(xiàn)不佳，但OpenAI和Deepseek的思考模型o1和R1表現(xiàn)出色，均超過同系列未使用鏈?zhǔn)剿季S的模型。

為了進(jìn)一步驗證思維鏈在創(chuàng)意寫作中的有效性，團(tuán)隊在12K通用寫作的SFT數(shù)據(jù)上對開源模型Qwen進(jìn)行了消融實驗。

結(jié)果顯示，在32B規(guī)模的模型中，帶思維鏈的模型表現(xiàn)優(yōu)于不帶思維鏈的模型。在另一個專門針對創(chuàng)意小說寫作的排行榜上，這些模型均超越了同系列大尺寸的Qwen-Max，表現(xiàn)可媲美R1。

深度思考的雙刃劍效應(yīng)

與創(chuàng)意型寫作相對的另一類寫作任務(wù)——效率型寫作任務(wù)上，盡管深度思考提供了一定程度的提升，但效果并不顯著。

團(tuán)隊觀察到，深度思考確實能提供更深入的分析。

（財務(wù)簡報寫作對比，左：32B創(chuàng)作思考模型，右：Qwen-Max）

然而，也存在過度推理的問題，容易導(dǎo)致編造數(shù)據(jù)和產(chǎn)生幻覺。

3000 Token斷崖

實驗揭示大模型依舊面臨顯著的長度生成瓶頸。

此前研究在長文本生成架構(gòu)上取得了一定的優(yōu)化，但當(dāng)輸出長度超過3000 token時，大部分模型的質(zhì)量顯著下降。

其中，小尺寸模型容易輸出重復(fù)內(nèi)容，而大尺寸模型則可能提前終止或僅提供大綱作為參考。

（模型在不同輸出長度上得分）

即便是短文本輸出，模型仍難以嚴(yán)格遵循長度要求，尤其是在涉及分塊長度等復(fù)雜需求時。

（Gemini-1.5-Pro長度遵循失敗示例）

目前該項目已經(jīng)開源，感興趣可以進(jìn)一步了解。

論文：
https://arxiv.org/abs/2503.05244倉庫：
https://github.com/X-PLUG/WritingBench
模型:
Critic: https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B
Writer-7B: https://huggingface.co/AQuarterMile/Writing-Model-Qwen-7B
Writer-32B-thinking: https://huggingface.co/AQuarterMile/Writing-Model-Qwen-32B-thinking

責(zé)任編輯：張燕妮來源：量子位

模型開源訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="v44wo"></cite>

<sub id="v44wo"></sub>

<cite id="v44wo"><track id="v44wo"></track></cite>