自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖文并茂,三步速出「原神」文稿!首個(gè)70億參數(shù)圖文混合創(chuàng)作大模型正式開源,一鍵生成神作

人工智能 新聞
AI動(dòng)嘴的時(shí)代,創(chuàng)意文稿誰還用手寫。上海人工智能實(shí)驗(yàn)室推出了首個(gè)圖文混合創(chuàng)作大模型「書生·浦語靈筆」,三步就能生成圖文并茂的神作,現(xiàn)正式開源。

解放雙手,動(dòng)嘴碼字時(shí)代真的來了。

當(dāng)你想寫一份「原神」的宣傳文稿時(shí),根本完全不用上網(wǎng)翻找收集各種材料,只需要給模型一個(gè)指令「幫我以原神為題寫一篇文章」。

游戲背景現(xiàn)、上市時(shí)間、影響力等要點(diǎn)已經(jīng)成文。接下來,你還可以讓LLM自動(dòng)插入趣味、生動(dòng)的配圖。

一眨眼的功夫,專屬定制的神作就完成了。

那么,究竟是什么模型有如此神力?

它就是,書生·浦語靈筆(InternLM-XComposer,以下簡稱「浦語靈筆」)。這是上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)推出的首個(gè)圖文混合創(chuàng)作大模型。

圖片

依托強(qiáng)大的多模態(tài)性能,可以解鎖「一鍵生成」圖文混合文章的創(chuàng)作能力,為大模型落地應(yīng)用提供更多可能。

目前,浦語靈筆已開源其中的智能創(chuàng)作和對話(InternLM-XComposer-7B)及多任務(wù)預(yù)訓(xùn)練(InternLM-XComposer-VL-7B)版本,并提供免費(fèi)商用。

圖片

開源鏈接:https://github.com/InternLM/InternLM-XComposer

技術(shù)報(bào)告:https://arxiv.org/abs/2309.15112

今年7月以來,上海AI實(shí)驗(yàn)室陸續(xù)開源了書生·浦語大語言模型的7B(InterLM-7B)及20B(InternLM-20B)版本,為業(yè)界提供了完整的大模型研發(fā)與應(yīng)用基座,以及全鏈條工具體系。

基于書生·浦語大語言模型(InternLM),浦語靈筆接受視覺和語言模態(tài)輸入,不僅在圖文對話方面表現(xiàn)優(yōu)秀,更具備圖文并茂文章的「一鍵生成」能力。

準(zhǔn)確圖文理解,一鍵圖文并茂

浦語靈筆能夠進(jìn)行流利的中英文圖文對話,準(zhǔn)確理解圖像內(nèi)容。得益于書生·浦語高質(zhì)量多語言預(yù)訓(xùn)練的優(yōu)勢,浦語靈筆表現(xiàn)出對中國文化深厚的知識(shí)積淀。

例如,向浦語靈筆輸入相關(guān)畫作,其迅速識(shí)別并反饋畫作表現(xiàn)主題為《赤壁之戰(zhàn)》典故,亦能準(zhǔn)確介紹影響成敗的關(guān)鍵因素,體現(xiàn)出在圖像內(nèi)容理解和知識(shí)儲(chǔ)備方面的優(yōu)秀性能。

浦語靈筆識(shí)別中國文化典故

在多模態(tài)圖文對話的「基本功」之上,浦語靈筆更是解鎖了圖文并茂文章創(chuàng)作的全新能力。

大語言模型(LLM)具備文本寫作的能力,然而高質(zhì)量文章往往需要準(zhǔn)確且有趣的插圖才「更顯生動(dòng)」。

浦語靈筆團(tuán)隊(duì)將書生·浦語強(qiáng)大的語言能力向多模態(tài)拓展,使其能夠完成多模態(tài)文章創(chuàng)作。用戶僅需提供主題,便可一鍵生成圖文并茂的文章,體驗(yàn)全新的視覺與文本創(chuàng)作范式。

例如,向浦語靈筆提出創(chuàng)作一篇旅游攻略,該模型可迅速生成涵蓋歷史沿革、主要景點(diǎn)文物介紹的長篇文章,并在適當(dāng)位置自動(dòng)插入與文字信息對應(yīng)的圖片。

除自動(dòng)配圖能力外,浦語靈筆還提供了配圖推薦和更換功能,根據(jù)用戶實(shí)際需求定制圖文內(nèi)容。

浦語靈筆生成中文旅游攻略

目前,浦語靈筆已支持科普文稿、營銷廣告、新聞稿件、影視評論、生活指南等類型文章的圖文并茂生成,并將逐漸開放更多能力,適應(yīng)更多樣化任務(wù)需求。

浦語靈筆生成英文電影評論

圖文文章創(chuàng)作「三步走」

浦語靈筆為圖文文章創(chuàng)作設(shè)計(jì)了「三步走」的算法流程。

浦語靈筆圖文文章創(chuàng)作流程

理解用戶指令,創(chuàng)作符合主題要求的長文章:浦語靈筆具有強(qiáng)大的寫作能力,根據(jù)用戶輸入的主題,創(chuàng)作出文采斐然的文章。

智能分析文章,模型自動(dòng)規(guī)劃插圖的理想位置,并生成所需圖像的內(nèi)容要求:浦語靈筆自動(dòng)分析文章內(nèi)容和段落布局,規(guī)劃需要插圖圖片的位置。對于每個(gè)模型判斷需要插圖的位置,同時(shí)生成對圖片內(nèi)容需求的描述。

多層次智能篩選,利用多模態(tài)大模型的圖像理解能力,從圖庫中鎖定最完美的圖片:采用從粗篩到精選的配圖策略,根據(jù)生成圖像內(nèi)容需求,浦語靈筆會(huì)首先采用圖文檢索(Text-Image Retrieval)方式從海量圖庫中選擇出一組候選圖片。隨后,利用多模態(tài)大模型強(qiáng)大的圖像理解能力,將候選圖片作為輸入內(nèi)容,讓模型自動(dòng)選擇最符合文章上下文內(nèi)容和整體圖像風(fēng)格的圖片,完成文章的自動(dòng)配圖。

能力評測:綜合領(lǐng)先開源多模態(tài)大模型

浦語靈筆出色的圖文創(chuàng)作效果,得益于其多任務(wù)預(yù)訓(xùn)練模型(InternLM-XComposer-VL-7B)強(qiáng)大的多模態(tài)理解能力。

研究人員采用5個(gè)主流的多模態(tài)大模型評測對InternLM-XComposer-VL-7B的能力進(jìn)行了詳細(xì)測試,包含:

- MME Benchmark:包括14個(gè)子任務(wù)的多模態(tài)模型全面評測,關(guān)注模型的感知(Perception)和認(rèn)知(Recognition)能力;

- MMBench:包括20個(gè)能力緯度和使用ChatGPT循環(huán)評估策略的多模態(tài)評測;

- MMBench-CN:簡體中文版本問題和答案的MMBench評測;

- Seed-Bench:提供包括人工標(biāo)注的1.9萬道多模態(tài)多選題目的多模態(tài)評測;

- CCBench:針對中國文化理解的中文多模態(tài)評測。

評測結(jié)果顯示,在上述5項(xiàng)中英文多模態(tài)評測中,浦語靈筆均體現(xiàn)出卓越性能。

浦語靈筆與其他開源模型的性能對比

MME Benchmark關(guān)注模型的感知(Perception)和認(rèn)知(Recognition)能力,浦語靈筆綜合性能領(lǐng)先。

MMBench包括了20個(gè)能力項(xiàng),浦語靈筆取得了最佳成績。

圖片

MMBench-CN是中文版本的MMBench評測,關(guān)注模型的中文多模態(tài)理解能力,浦語靈筆亦取得了最佳成績,體現(xiàn)了強(qiáng)大的中文能力。

圖片

SEED-Bench 提供包括人工標(biāo)注的1.9萬道多模態(tài)多選題目,覆蓋12個(gè)評測維度,浦語靈筆在圖像內(nèi)容理解上準(zhǔn)確率表現(xiàn)出色。

圖片

在針對中國文化理解設(shè)計(jì)的多模態(tài)評測CCBench,浦語靈筆評測成績均大幅度領(lǐng)先,生動(dòng)體現(xiàn)其在中國文化方面深厚的知識(shí)積淀。

圖片

浦語靈筆現(xiàn)已開源,同時(shí)上線GitHub、Hugging Face及魔搭社區(qū)(ModelScope),歡迎開發(fā)者下載試用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-07-04 10:13:18

2022-07-18 14:33:05

PythonPDF報(bào)告

2011-01-18 18:08:28

Thunderbird

2011-11-21 15:12:54

Java斷點(diǎn)Eclipse

2011-01-18 18:29:28

Thunderbird

2011-01-19 17:30:21

Postfix郵件投遞

2011-01-19 17:34:39

Postfix如何接收郵件

2012-07-23 14:39:27

移動(dòng)

2023-05-16 08:01:13

架構(gòu)網(wǎng)站演進(jìn)

2011-01-20 09:13:18

Postfix

2021-12-27 08:04:49

架構(gòu)網(wǎng)站高并發(fā)

2011-01-19 10:30:20

UbuntuThunderbird

2011-01-21 10:28:06

2011-08-03 15:21:23

ORM XCode 數(shù)據(jù)庫

2012-05-29 14:27:34

PHP

2012-07-27 10:27:19

OfficeWord

2022-04-20 18:30:00

算法架構(gòu)粗排

2009-07-15 14:49:16

2011-07-04 16:57:36

QT 布局 界面

2023-12-19 15:45:07

Linux工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號