萬(wàn)字梳理:阿里、騰訊等8家中國(guó)互聯(lián)網(wǎng)大廠的50款大模型及應(yīng)用,能否全面超越GPT-4?
自美國(guó)OpenAI公司推出的ChatGPT風(fēng)靡全球,并引發(fā)新一輪人工智能浪潮,國(guó)內(nèi)外科技巨頭爭(zhēng)相布局大模型領(lǐng)域。
此次,鈦媒體AGI梳理了2023年至今,阿里、百度、字節(jié)、騰訊、華為、小紅書(shū)、美圖、科大訊飛、三六零8家互聯(lián)網(wǎng)科技公司在 AI 領(lǐng)域的最新技術(shù)成果,共計(jì)包含50款A(yù)I大模型及AI應(yīng)用,以幫助讀者快速了解互聯(lián)網(wǎng)大廠在AI領(lǐng)域的最新技術(shù)動(dòng)向。
阿里巴巴
2024年3月
中國(guó)版“Sora”,文生視頻框架——AtomoVideo
產(chǎn)品介紹:AtomoVideo是阿里巴巴推出的一個(gè)高保真圖像視頻生成框架,該框架利用高質(zhì)量的數(shù)據(jù)集和訓(xùn)練策略,保持了時(shí)間性、運(yùn)動(dòng)強(qiáng)度、一致性和穩(wěn)定性,并具有高靈活性,可應(yīng)用于長(zhǎng)序列視頻預(yù)測(cè)任務(wù)。
因與Open AI此前推出的文生視頻模型Sora功能相似,AtomoVideo也被稱(chēng)為中國(guó)版“Sora"。
產(chǎn)品功能:用戶只需上傳一張照片就能生成對(duì)應(yīng)的視頻。據(jù)悉AtomoVideo的核心在于多粒度圖像注入技術(shù),這一技術(shù)使得生成的視頻對(duì)于給定的圖像具有更高的保真度,能夠更好地保留原始圖像的細(xì)節(jié)和特征,從而使得生成的視頻更加逼真。
另外,AtomoVideo的架構(gòu)也具有很高的靈活性,它可以靈活地?cái)U(kuò)展到視頻幀預(yù)測(cè)任務(wù),通過(guò)迭代生成實(shí)現(xiàn)長(zhǎng)序列預(yù)測(cè),使得AtomoVideo在處理長(zhǎng)序列的視頻預(yù)測(cè)任務(wù)時(shí),也能夠保持良好的性能。
目前,阿里只發(fā)布了AtomoVideo的論文,代碼,試玩頁(yè)面還未公布。
適用人群或場(chǎng)景:視頻創(chuàng)作者、影視拍攝
論文地址:https://arxiv.org/abs/2403.01800
電商人的AIGC創(chuàng)作平臺(tái)——繪蛙
產(chǎn)品介紹:繪蛙是阿里AI電商團(tuán)隊(duì)針對(duì)淘寶、電商達(dá)人推出的一款可以生成文案和圖片的智能創(chuàng)作平臺(tái),旨在提升電商營(yíng)銷(xiāo)效率。
產(chǎn)品功能:主要是AI文案生成和AI圖片生成。在AI文案中,商家可以實(shí)現(xiàn)單商品種草、小紅書(shū)爆文改寫(xiě)、穿搭分享等。以爆文改寫(xiě)為例,商家只需輸入?yún)⒖脊P記內(nèi)容,然后添加種草商品賣(mài)點(diǎn)、人設(shè)、筆記話題,即可生成小紅書(shū)風(fēng)格文案。
AI生圖中,用戶可以通過(guò)選擇商品、選擇模特和選擇參考圖生成自己想要的商品圖片,支持自己上傳模特圖,也有自帶的數(shù)字模特庫(kù)可供使用,可以定制專(zhuān)屬自己的AI模特,幫助商家節(jié)省商品拍攝和模特成本。
適用人群:淘寶、天貓店家、帶貨主播、電商達(dá)人
上線時(shí)間:未知
體驗(yàn)地址:https://www.ihuiwa.com/(需邀請(qǐng)碼)
AI 圖片-音頻-視頻模型——EMO
產(chǎn)品介紹:EMO是阿里巴巴推出的AI圖片-音頻-視頻模型,該模型采用了 Stable Diffusion 的生成能力和 Audio2Video 擴(kuò)散模型,能夠生成富有表現(xiàn)力的人像視頻。
不同于 OpenAI 的文生視頻模型 Sora,EMO 主攻的是直接以圖+音頻生成視頻方向,能夠直接從給定的圖像和音頻,剪輯生成一段帶有豐富人物表情的人物頭部視頻。
產(chǎn)品功能:用戶只需要上傳一張照片和一段任意音頻,EMO就可以根據(jù)圖片和音頻生成一段會(huì)說(shuō)話唱歌的AI視頻。視頻中人物具備豐富流暢的面部表情,能做到人物開(kāi)口說(shuō)話和唱歌時(shí)和和音頻保持一致,最長(zhǎng)時(shí)間可達(dá)1分30秒左右。
比如,你可以上傳一張高啟強(qiáng)的照片+一段羅翔老師的音頻,就能得到一段“高啟強(qiáng)普法”視頻?;蛘?,你可以上傳一張蒙娜麗莎的照片,讓蒙娜麗莎給你唱現(xiàn)代歌曲,唱rap等。
適用人群:有演講需求人群、電商主播、視頻自媒體及講師等
GitHub:https://github.com/HumanAIGC/EMO
論文地址:https://arxiv.org/abs/2402.17485
項(xiàng)目主頁(yè): https://humanaigc.github.io/emote-portrait-alive/
2024年1月
性能堪比Gemini Ultra的多模態(tài)大模型——Qwen-VL-Max
產(chǎn)品介紹:Qwen-VL是阿里推出的開(kāi)源多模態(tài)視覺(jué)模型,2024年1月,繼Plus版本之后,阿里又推出了Qwen-VL-Max版本。
產(chǎn)品功能:基礎(chǔ)能力方面,Qwen-VL-Max能夠準(zhǔn)確描述和識(shí)別圖片信息,并根據(jù)圖片進(jìn)行信息推理和擴(kuò)展創(chuàng)作。這一特性使得該模型在多個(gè)權(quán)威測(cè)評(píng)中表現(xiàn)出色,整體性能堪比GPT-4V和Gemini Ultra。
視覺(jué)推理方面,Qwen-VL-Max可以理解并分析復(fù)雜的圖片信息,包括識(shí)人、答題、創(chuàng)作和寫(xiě)代碼等任務(wù)。同時(shí)該模型還具備視覺(jué)定位功能,可根據(jù)畫(huà)面指定區(qū)域進(jìn)行問(wèn)答。
此外,Qwen-VL-Max在圖像文本處理方面也取得了顯著進(jìn)步,中英文文本識(shí)別能力顯著提高,支持百萬(wàn)像素以上的高清分辨率圖和極端寬高比的圖像,不僅能完整復(fù)現(xiàn)密集文本,還能從表格和文檔中提取信息。
體驗(yàn)地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max
AI 生成3D動(dòng)畫(huà)工具——Motionshop
產(chǎn)品介紹:Motionshop是阿里巴巴智能計(jì)算研究院推出的一個(gè)AI角色動(dòng)畫(huà)框架,該框架利用視頻處理、角色檢測(cè)/分割/追蹤、姿態(tài)分析、模型提取和動(dòng)畫(huà)渲染等多種技術(shù),使得動(dòng)態(tài)視頻中的主角能夠輕松跨越現(xiàn)實(shí)與虛擬的界限,一鍵變身為3D角色模型且不改變視頻中的其他場(chǎng)景和人物。
產(chǎn)品功能:用戶只需上傳視頻,AI便能智能識(shí)別視頻中的主要人物,并將其無(wú)縫轉(zhuǎn)換為生動(dòng)的3D角色模型。同時(shí)保持視頻中人物動(dòng)作同步與真實(shí)感,能精確復(fù)刻原視頻中人物的動(dòng)作細(xì)節(jié),確保3D角色的動(dòng)作流暢自然,提供高度逼真的視覺(jué)效果。此外,Motionshop能將現(xiàn)實(shí)世界的人物與3D虛擬角色得以完美融合,創(chuàng)造出跨越現(xiàn)實(shí)與虛擬界限的全新體驗(yàn),為視頻內(nèi)容增添無(wú)限可能。
適用人群或場(chǎng)景:視頻內(nèi)容生產(chǎn)者、影視拍攝
項(xiàng)目主頁(yè): https://aigc3d.github.io/motionshop/
體驗(yàn)地址:https://www.modelscope.cn/studios/Damo_XR_Lab/motionshop/summary
能讓圖片開(kāi)口說(shuō)話、唱歌的模型框架——DreamTalk
產(chǎn)品介紹:DreamTalk是由清華大學(xué)、阿里巴巴和華中科大共同開(kāi)發(fā)的一個(gè)可以讓人物照片開(kāi)口說(shuō)話、唱歌的模型框架。
產(chǎn)品功能:上傳一張照片和音頻,DreamTalk能夠生成人物臉部動(dòng)作看起來(lái)很真實(shí)的高質(zhì)量視頻,而且嘴唇動(dòng)作能和音頻都能一一對(duì)應(yīng)。同時(shí)DreamTalk還支持多種語(yǔ)言,無(wú)論是中文、英文還是其他語(yǔ)言都能很好地同步。
據(jù)悉,DreamTalk 由三個(gè)關(guān)鍵組件組成:降噪網(wǎng)絡(luò)、風(fēng)格感知唇部專(zhuān)家和風(fēng)格預(yù)測(cè)器。通過(guò)三項(xiàng)技術(shù)結(jié)合的方式,DreamTalk 能夠生成具有多種說(shuō)話風(fēng)格的逼真說(shuō)話面孔,并實(shí)現(xiàn)準(zhǔn)確的嘴唇動(dòng)作。
適用人群或場(chǎng)景:演講、產(chǎn)品講解、開(kāi)會(huì),直播、電商、線上授課等
項(xiàng)目主頁(yè): https://dreamtalk-project.github.io/
論文地址: https://arxiv.org/pdf/2312.09767.pdfGithub
地址: https://github.com/ali-vilab/dreamtalk
2023年12月
可控視頻生成框架——DreamMoving
產(chǎn)品介紹:DreaMoving是一種基于擴(kuò)散模型打造的可控視頻生成框架,通過(guò)圖文就能制作高質(zhì)量人類(lèi)跳舞視頻。
產(chǎn)品功能:用戶只需上傳一張人像,以及一段提示詞,就能生成對(duì)應(yīng)的視頻,而且改變提示詞,生成的人物的背景和身上的衣服也會(huì)跟著變化。簡(jiǎn)單來(lái)說(shuō)就是,一張圖、一句話就能讓任何人或角色在任何場(chǎng)景里跳舞。
適用人群或場(chǎng)景:娛樂(lè)主播、視頻制作
論文鏈接:https://arxiv.org/pdf/2311.17117.pdf
項(xiàng)目地址:https://humanaigc.github.io/animate-anyone/
體驗(yàn)地址:https://huggingface.co/spaces/xunsong/Moore-AnimateAnyone
2023年11月
文生視頻模型——I2VGen-XL
產(chǎn)品介紹:I2VGen-XL是阿里云推出的一款高清圖像生成視頻模型,這款模型的核心組件由兩個(gè)部分構(gòu)成,用以解決語(yǔ)義一致性和清晰度問(wèn)題。
產(chǎn)品功能:用戶只需上傳一張圖片,即可生成一段分辨率為1280*720的高清視頻。由于在大規(guī)模混合視頻和圖像數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,并在少量高質(zhì)量數(shù)據(jù)集上進(jìn)行了微調(diào),這些數(shù)據(jù)集具有廣泛的分布和多樣的類(lèi)別,這使得I2VGen-XL展示了良好的泛化能力,適用于不同類(lèi)型的數(shù)據(jù)。
此外,為了提高視頻質(zhì)量,該研究訓(xùn)練了一個(gè)單獨(dú)的 VLDM,專(zhuān)門(mén)處理高質(zhì)量、高分辨率數(shù)據(jù),并對(duì)第一階段生成的視頻采用 SDEdit 引入的噪聲去噪過(guò)程。
視頻生成效果方面,與 Gen2、Pika 生成效果相比, I2VGen-XL 生成的視頻動(dòng)作更加豐富,主要表現(xiàn)在更真實(shí)、更多樣的動(dòng)作,而 Gen-2 和 Pika 生成的視頻似乎更接近靜態(tài)。
使用人群及場(chǎng)景:視頻內(nèi)容創(chuàng)作者、影視制作
項(xiàng)目地址:https://i2vgen-xl.github.io/
論文地址:https://arxiv.org/abs/2311.04145
Github:https://arxiv.org/abs/2311.04145
開(kāi)源的圖像到視頻動(dòng)畫(huà)合成框架——AnimateAnyone
產(chǎn)品介紹:Animate Anyone是一款能將靜態(tài)圖像轉(zhuǎn)換為角色視頻的模型框架。該框架在擴(kuò)散模型的基礎(chǔ)之上,引入了ReferenceNet、Pose Guider姿態(tài)引導(dǎo)器和時(shí)序生成模塊等技術(shù),以實(shí)現(xiàn)照片動(dòng)起來(lái)時(shí)保持一致性、可控性和穩(wěn)定性,輸出高質(zhì)量的動(dòng)態(tài)化視頻。
產(chǎn)品功能:角色視頻生成,利用驅(qū)動(dòng)信號(hào)從靜態(tài)圖像生成逼真的角色視頻;擴(kuò)散模型支持,借助擴(kuò)散模型的力量,提供高質(zhì)量的動(dòng)畫(huà)效果;ReferenceNet設(shè)計(jì),通過(guò)空間注意力合并詳細(xì)特征,保持外觀特征的一致性;姿勢(shì)指導(dǎo)器,引入高效的姿勢(shì)指導(dǎo)器,確保角色動(dòng)作的可控性和連續(xù)性;平滑過(guò)渡:采用有效的時(shí)間建模方法,保證視頻幀之間的平滑過(guò)渡。
目前,Animate Anyone已在GitHub上斬獲了近1.3萬(wàn)個(gè)星標(biāo),并在國(guó)內(nèi)外引起了熱烈討論。
適用人群或場(chǎng)景:時(shí)尚行業(yè),展示服裝、造型;視頻內(nèi)容創(chuàng)作者、電商、舞者
論文鏈接:https://arxiv.org/pdf/2311.17117.pdf
項(xiàng)目鏈接:https://humanaigc.github.io/animate-anyone/
2023年4-7月
通義系列大模型——通義千問(wèn)、通義萬(wàn)相和通義聽(tīng)悟
產(chǎn)品介紹:通義千問(wèn)是阿里自研的 AI 大語(yǔ)言模型,可以幫助用戶解決生活和工作中的問(wèn)題,提供智能問(wèn)答服務(wù)。2023年10月31日,通義千問(wèn)2.0正式發(fā)布,阿里也隨之推出通義千問(wèn)App。相較于1.0版本,通義千問(wèn)2.0在復(fù)雜指令理解、文學(xué)創(chuàng)作、通用數(shù)學(xué)、知識(shí)記憶、幻覺(jué)抵御等能力上均有顯著提升。
通義萬(wàn)相是阿里通義大模型家族中的一款A(yù)I繪畫(huà)大模型,可輔助人類(lèi)進(jìn)行圖片創(chuàng)作。基于阿里研發(fā)的組合式生成模型Composer,通義萬(wàn)相提出了基于擴(kuò)散模型的「組合式生成」框架,通過(guò)對(duì)配色、布局、風(fēng)格等圖像設(shè)計(jì)元素進(jìn)行拆解和組合,提供了高度可控性和極大自由度的圖像生成效果。
通義聽(tīng)悟是是依托通義千問(wèn)大模型和音視頻AI模型的AI助手,旨在幫助用戶及客戶在泛音視頻內(nèi)容場(chǎng)景下提升信息生產(chǎn)、整理、挖掘、洞察效率。
產(chǎn)品功能:通義千問(wèn)具備多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解及多語(yǔ)言支持等功能。用戶可以就任何問(wèn)題與其對(duì)話互動(dòng),比如可以問(wèn)他生活類(lèi)常識(shí)、講故事、寫(xiě)作文或文案、解答數(shù)學(xué)題等,但通義千問(wèn)不具備多模態(tài)能力,不具備圖像生成功能。
通義萬(wàn)相主要功能有三個(gè),即文生圖、相似圖生成和風(fēng)格遷移。在基礎(chǔ)文生圖功能中,可根據(jù)用戶提示詞生成水彩、扁平插畫(huà)、二次元、油畫(huà)、3D卡通畫(huà)等風(fēng)格圖像;相似圖片生成功能中,用戶上傳任意圖片后,即可進(jìn)行創(chuàng)意發(fā)散,生成內(nèi)容、風(fēng)格相似的AI畫(huà)作。此外該模型還支持圖像風(fēng)格遷移,用戶上傳原圖和風(fēng)格圖,可自動(dòng)把原圖處理為指定的風(fēng)格圖。
通義聽(tīng)悟融合融合了十多項(xiàng) AI 功能,面向線上線下各種泛音視頻場(chǎng)景,通義聽(tīng)悟可以提供音視頻內(nèi)容的實(shí)時(shí)字幕 / 轉(zhuǎn)寫(xiě)、多語(yǔ)言翻譯、內(nèi)容理解 / 摘要,涵蓋全文概要、章節(jié)速覽、發(fā)言總結(jié)等高階 AI 功能。
適用人群或場(chǎng)景:通義千問(wèn)適用人群較為廣泛,通義萬(wàn)相適用于藝術(shù)繪畫(huà)創(chuàng)作,設(shè)計(jì)師、動(dòng)漫愛(ài)好者;通義聽(tīng)悟可應(yīng)用于智能客服、智能家居、智能音箱、智能穿戴設(shè)備等領(lǐng)域。
通義千問(wèn)體驗(yàn)地址:https://tongyi.aliyun.com/qianwen/
通義萬(wàn)相體驗(yàn)地址:https://tongyi.aliyun.com/wanxiang/
通義聽(tīng)悟體驗(yàn)地址:https://tingwu.aliyun.com/home
百度
2024年1月
統(tǒng)一模態(tài)視頻生成系統(tǒng)——UniVG
產(chǎn)品介紹:UniVG是百度推出的一款統(tǒng)一模態(tài)視頻生成系統(tǒng),其獨(dú)特之處在于針對(duì)高自由度和低自由度兩種任務(wù)采用不同的生成方式,以更好地平衡兩者之間的關(guān)系。
產(chǎn)品功能:用戶只需提供一張圖片或一段文字,就能生成一段流暢的視頻,與早期的AI視頻生成工具相比,UniVG所生成的每一幀畫(huà)面都更加穩(wěn)定、連貫。
據(jù)悉,UniVG系統(tǒng)引入了“多條件交叉注意力”技術(shù),用于高自由度視頻生成,以生成與輸入圖像或文本語(yǔ)義一致的視頻。而在低自由度視頻生成方面,采用了“偏置高斯噪聲”的方法,相較于傳統(tǒng)的完全隨機(jī)高斯噪聲更能有效地保留輸入條件的原始內(nèi)容。
適用人群及場(chǎng)景:視頻內(nèi)容創(chuàng)作者
項(xiàng)目地址:https://top.aibase.com/tool/univg
項(xiàng)目演示頁(yè)面: https://univg-baidu.github.io/
統(tǒng)一圖像生成框架——UNIMO-G
產(chǎn)品介紹:百度推出的UNIMO-G統(tǒng)一圖像生成框架,通過(guò)多模態(tài)條件擴(kuò)散實(shí)現(xiàn)文本到圖像生成,克服了文本描述簡(jiǎn)潔性對(duì)生成復(fù)雜細(xì)節(jié)圖像的挑戰(zhàn)。
產(chǎn)品功能:用戶只要給出一張圖,然后給出各種提示詞,UNIMO-G就能根據(jù)提示詞在圖像基礎(chǔ)上按照提示生成對(duì)應(yīng)圖像,比如上傳一張馬斯克圖像,輸入提示詞給他穿上警服,就能得到一張身穿警服的馬斯克圖像。
據(jù)了解,UNIMO-G的核心組件包括多模態(tài)大語(yǔ)言模型和基于編碼的多模態(tài)輸入生成圖像的條件去噪擴(kuò)散網(wǎng)絡(luò)。這一框架還采用了精心設(shè)計(jì)的數(shù)據(jù)處理管道,涉及語(yǔ)言基礎(chǔ)和圖像分割,用以構(gòu)建多模態(tài)提示。
在測(cè)試中,UNIMO-G在文本到圖像生成和零樣本主題驅(qū)動(dòng)合成方面表現(xiàn)卓越,特別是在處理包含多個(gè)圖像實(shí)體的復(fù)雜多模態(tài)提示時(shí),生成高保真圖像的效果顯著。
適用人群及場(chǎng)景:藝術(shù)創(chuàng)作者、漫畫(huà)愛(ài)好者、攝影師
項(xiàng)目地址:https://top.aibase.com/tool/unimo-g
論文地址:https://arxiv.org/pdf/2401.13388.pdf
2023年3月
文心大模型系列產(chǎn)品——文心一言、文心一格和文心千帆
產(chǎn)品介紹:文心大模型是百度于2019年推出的自然語(yǔ)言處理大模型。該模型基于ERNIE系列模型具備跨模態(tài)、跨語(yǔ)言的深度語(yǔ)義理解與生成能力。2023年10月,文心大模型4.0 版本發(fā)布,實(shí)現(xiàn)基礎(chǔ)模型的全面升級(jí),理解、生成、邏輯、記憶四大能力顯著提升,綜合能力可直接對(duì)標(biāo)GPT-4。
文心一言是百度基于文心大模型打造的生成式AI產(chǎn)品,與阿里的”通義千問(wèn)”類(lèi)似,可以進(jìn)行任何內(nèi)容的問(wèn)答對(duì)話,可作為生活中的智能小助手。
文心一格是百度基于文心大模型推出的AI藝術(shù)創(chuàng)作平臺(tái),可以生成多樣化AI創(chuàng)意圖片,輔助創(chuàng)意設(shè)計(jì)。
文心千帆是百度旗下企業(yè)級(jí)大模型生產(chǎn)平臺(tái),提供包括文心一言在內(nèi)的大模型服務(wù)及第三方大模型服務(wù),還提供大模型開(kāi)發(fā)和應(yīng)用的整套工具鏈。
產(chǎn)品功能:文心一言具有文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、音頻、圖像生成等多模態(tài)生成能力。比如用戶可以用文心一言解答任何生活及工作問(wèn)題,幫助用戶撰寫(xiě)任何領(lǐng)域的文案,解答數(shù)學(xué)邏輯題,用語(yǔ)音講故事等。
文心一格的主要功能就是圖像生成功能。用戶只需要輸入一句話或提示詞,文心一格就能按照指示自動(dòng)生成圖像,且用戶可以追加更詳細(xì)的提示詞對(duì)圖像進(jìn)一步優(yōu)化或改變圖像風(fēng)格等。同時(shí)文心一格還具有二次編輯圖片和圖片疊加功能,比如可以涂抹掉圖像中不滿意的部分,讓模型重新調(diào)整生成。或者給出兩張圖片,模型會(huì)自動(dòng)生成一張疊加后的創(chuàng)意圖。此外,文心一格還推出了海報(bào)創(chuàng)作、圖片擴(kuò)展和提升圖片清晰度等功能,提供多種生圖服務(wù)滿足用戶需求。
文心千帆主要功能有兩個(gè):其一是文心千帆以文心一言為核心,為企業(yè)提供大模型服務(wù),幫助客戶改造產(chǎn)品和生產(chǎn)流程。其二,作為一個(gè)大模型生產(chǎn)平臺(tái),企業(yè)可以在文心千帆上基于任何開(kāi)源或閉源的大模型,開(kāi)發(fā)自己的專(zhuān)屬大模型。
適用人群及場(chǎng)景:文心一言受眾群體廣泛,文心一格適合有繪畫(huà)創(chuàng)作和圖像設(shè)計(jì)需求群體。文心千帆主要面向企業(yè)級(jí)B端客戶。
體驗(yàn)地址:
文心一格:https://yige.baidu.com/creation
文心千帆:https://cloud.baidu.com/product/wenxinworkshop
字節(jié)跳動(dòng)
2024年2月
字節(jié)版DALL·E文生圖模型——SDXL-Lightning
產(chǎn)品介紹:SDXL-Lightning是一款由字節(jié)跳動(dòng)開(kāi)發(fā)的開(kāi)源免費(fèi)的文生圖模型,能根據(jù)文本快速生成相應(yīng)的高分辨率圖像。
產(chǎn)品功能:用戶在SDXL-Lightning上輸入提示詞,然后選擇推理步驟(選擇范圍為1步—8步),等待數(shù)秒即可生成一張高清圖像。
與以往的文生圖模型相比,SDXL-Lightning的生成速度有顯著提高,能夠在最少步驟內(nèi)完成文本到1024px分辨率圖像的生成,適用于需要快速響應(yīng)的應(yīng)用場(chǎng)景。
SDXL-Lightning的生成速度之所以能夠顯著提升,主要是因?yàn)樗ㄟ^(guò)結(jié)合漸進(jìn)式蒸餾和對(duì)抗式蒸餾的方法,解決了擴(kuò)散模型在生成過(guò)程中存在的速度慢和計(jì)算成本高的問(wèn)題,同時(shí)保持生成圖像的高質(zhì)量和多樣性,避免了傳統(tǒng)蒸餾方法中存在的圖像模糊問(wèn)題。
使用SDXL-Lightning模型,可在幾秒鐘之內(nèi)生成高達(dá)1024像素分辨率的圖像。目前,該模型已經(jīng)在Hugging Face平臺(tái)上開(kāi)源,并且下載量超過(guò)2200次,登上了Hugging Face流行趨勢(shì)第三名,超越了gemma-2b,僅次于最新的谷歌gemma-7b,以及stabilityai/stable-cascade。
適用人群或場(chǎng)景:視頻內(nèi)容創(chuàng)作者、影視制作
體驗(yàn)地址:https://huggingface.co/spaces/AP123/SDXL-Lightning
文生視頻模型——Boximator
產(chǎn)品介紹:Boximator是字節(jié)跳動(dòng)推出的一款文生視頻模型。與Gen-2、Pink1.0等模型不同的是,Boximator可以通過(guò)文本精準(zhǔn)控制生成視頻中人物或物體的動(dòng)作。
產(chǎn)品功能:與Open AI發(fā)布的文生視頻模型類(lèi)似,Boximator也是通過(guò)用戶給出文字描述或提示,就能按照指示生成對(duì)應(yīng)的視頻。據(jù)了解,為了實(shí)現(xiàn)對(duì)視頻中物體、人物的動(dòng)作控制,Boximator使用了“軟框”和“硬框”兩種約束方法。
硬框可精確定義目標(biāo)對(duì)象的邊界框。用戶可以在圖片中畫(huà)出感興趣的對(duì)象,Boximator會(huì)將其視為硬框約束,在之后的幀中精準(zhǔn)定位該對(duì)象的位置。
軟框定義一個(gè)對(duì)象可能存在的區(qū)域,形成一個(gè)寬松的邊界框。對(duì)象需要停留在這個(gè)區(qū)域內(nèi),但位置可以有一定變化,實(shí)現(xiàn)適度的隨機(jī)性。
兩類(lèi)框都包含目標(biāo)對(duì)象的ID,用于在不同幀中跟蹤同一對(duì)象。此外,框還包含坐標(biāo)、類(lèi)型等信息的編碼。
不過(guò),據(jù)字節(jié)跳動(dòng)相關(guān)人士稱(chēng),Boximator是視頻生成領(lǐng)域控制對(duì)象運(yùn)動(dòng)的技術(shù)方法研究項(xiàng)目,目前還無(wú)法作為完善的產(chǎn)品落地,距離國(guó)外領(lǐng)先的視頻生成模型在畫(huà)面質(zhì)量、保真率、視頻時(shí)長(zhǎng)等方面還有很大差距。
適用人群或場(chǎng)景:短視頻創(chuàng)作者、影視制作
論文地址: https://arxiv.org/abs/2402.01566
項(xiàng)目地址: https://boximator.github.io/
文生圖AIGC工具——Dreamina
產(chǎn)品介紹:Dreamina是字節(jié)跳動(dòng)旗下的AIGC工具,可以根據(jù)用戶的文字提示生成創(chuàng)意圖片。
產(chǎn)品功能:用戶只需輸入一段文字,Dreamina即可生成四幅由AI生成的創(chuàng)意圖像。同時(shí)Dreamina支持多種圖像風(fēng)格,包括抽象、寫(xiě)實(shí)等,以滿足不同用戶的審美需求。此外,Dreamina還具備圖像調(diào)整功能,用戶可以對(duì)生成的圖片進(jìn)行修整,包括調(diào)整圖片的大小比例和選擇不同的模板類(lèi)型。這種靈活性使得用戶可以根據(jù)個(gè)人喜好或特定需求調(diào)整生成的圖像。
適用人群或場(chǎng)景:藝術(shù)創(chuàng)作者、漫畫(huà)愛(ài)好者
體驗(yàn)地址:https://dreamina.jianying.com/ai-tool/platform
AI 開(kāi)發(fā)平臺(tái)——Coze扣子
產(chǎn)品介紹:Coze扣子是字節(jié)跳動(dòng)AI部門(mén)Flow開(kāi)發(fā)的一站式 AI 開(kāi)發(fā)平臺(tái),無(wú)論用戶是否有編程基礎(chǔ),都可以利用Coze在30秒內(nèi)輕松創(chuàng)建專(zhuān)屬自己的“AI機(jī)器人”。
產(chǎn)品功能:在注冊(cè)、登陸賬號(hào)之后,用戶可以通過(guò)首頁(yè)超過(guò)60個(gè)的插件能力,以及創(chuàng)建Bot,實(shí)現(xiàn)多個(gè)能力應(yīng)用。例如,我們希望有一個(gè)“新聞搜索助手”,通過(guò)簡(jiǎn)單的對(duì)話在30秒內(nèi)就可以自動(dòng)生成一個(gè) AI 機(jī)器人,不需要任何代碼編程,小白也能輕松上手。
同時(shí),“扣子”平臺(tái)也有一些自帶的bot,涵蓋旅游、出行和娛樂(lè)等場(chǎng)景,可以直接點(diǎn)擊使用,而且還具備可無(wú)限擴(kuò)展的能力集,全面實(shí)現(xiàn)個(gè)性化定義 AI 機(jī)器人技術(shù)能力。
此外,coze還支持上傳創(chuàng)建自己所需bot的數(shù)據(jù),可以與自己的數(shù)據(jù)進(jìn)行交互,并且扣子還具備長(zhǎng)期的對(duì)話記憶能力,通過(guò)數(shù)據(jù)交互和持久記憶為用戶提供更加精準(zhǔn)的回答。
適用人群或場(chǎng)景:所有用戶都可適用
體驗(yàn)地址:https://www.coze.cn/store/bot
2024年1月
AI視頻生成模型——MagicVideo-V2
產(chǎn)品介紹:MagicVideo-V2 是字節(jié)推出的AI視頻生成模型,它將文本到圖像模型、視頻運(yùn)動(dòng)發(fā)生器、參考圖像嵌入模塊和幀插值模塊集成到端到端視頻生成管道中。這種結(jié)構(gòu)使 MagicVideo-V2 能夠制作高分辨率、美觀的視頻,并具有出色的保真度和流暢度。
產(chǎn)品功能:文本轉(zhuǎn)圖像功能,MagicVideo-V2 擁有先進(jìn)的文本到圖像模型,可以將文字轉(zhuǎn)換為圖像元素,為生成視頻提供基礎(chǔ)素材;視頻運(yùn)動(dòng)生成功能:利用視頻運(yùn)動(dòng)生成器,可以自動(dòng)生成視頻,節(jié)省用戶的時(shí)間和精力;參考圖像嵌入功能,MagicVideo-V2 支持參考圖像嵌入功能,在生成視頻時(shí)可以參考指定圖像,使視頻內(nèi)容更加準(zhǔn)確和多樣化。此外,MagicVideo-V2 的幀插值模塊能夠平滑過(guò)渡視頻中的每一幀,使生成的視頻更加流暢和連貫。
適用人群或場(chǎng)景:電影制作、創(chuàng)意廣告視頻、創(chuàng)意短片
論文地址:https://arxiv.org/abs/2401.04468
項(xiàng)目網(wǎng)站:https://magicvideov2.github.io
2023年12月
AI 劇情互動(dòng)平臺(tái)——BagelBell
產(chǎn)品介紹:BagelBell是字節(jié)推出的一款A(yù)I 劇情互動(dòng)平臺(tái),用戶可以通過(guò) AI 身份圖、故事名稱(chēng)和故事介紹了解不同的 AI 故事并與自己喜歡的故事互動(dòng)。
產(chǎn)品功能:BageBel 為用戶提供了一個(gè)充滿活力和創(chuàng)造力的虛擬世界,讓用戶可以在這個(gè)世界中探索故事、創(chuàng)作角色,并與 AI角色進(jìn)行互動(dòng)。這種獨(dú)特的體驗(yàn)不僅可以讓用戶享受到故事帶來(lái)的樂(lè)趣,還可以激發(fā)用戶的創(chuàng)造力和想象力。目前 BagelBell 故事類(lèi)型十分豐富,涉及狼人、校園、懸疑、霸總、女仆、年下等多個(gè)類(lèi)別,不過(guò)多為戀愛(ài)題材。
適用群體或場(chǎng)景:劇本創(chuàng)作、游戲創(chuàng)作
體驗(yàn)地址:https://www.anybagel.com/
2023年11月
字節(jié)海外版AI智能助手——ChitChop
產(chǎn)品介紹:ChitChop是字節(jié)跳動(dòng)在海外推出的AI智能助手,可以為用戶提供多達(dá)200+的智能機(jī)器人服務(wù),通過(guò)提供創(chuàng)造性靈感、提高工作效率等方式輔助用戶的工作和生活。
產(chǎn)品功能:首先ChitChop具有豐富的應(yīng)用場(chǎng)景,提供AI創(chuàng)作、AI繪圖、娛樂(lè)休閑、學(xué)習(xí)提升、工作提效、生活助手六大場(chǎng)景的AI小工具,為用戶提供創(chuàng)造性靈感,提高工作效率。
其次,輸入簡(jiǎn)單輸入提示即可互動(dòng),只需輸入幾個(gè)簡(jiǎn)單的提示詞,你就可以把你的想法變成藝術(shù)圖像或者與A!進(jìn)行交流互動(dòng)。
再次,文件智能分析和總結(jié)功能,添加上傳一個(gè)文件,即可分析、總結(jié)和對(duì)文件內(nèi)容發(fā)起討論,幫助用戶高效地學(xué)習(xí)和分析內(nèi)容。
最后是實(shí)時(shí)互聯(lián)網(wǎng)搜索功能,可以與人工智能交互進(jìn)行搜索。此外,還內(nèi)置200多個(gè)智能機(jī)器人,可幫助用戶提高創(chuàng)造力,學(xué)習(xí)新話題,甚至與人工智能虛擬角色玩游戲。
適用人群或場(chǎng)景:海外用戶均適用
體驗(yàn)地址:https://www.chitchop.com/tool
2023年8月
AI智能聊天助手——豆包和Cici
產(chǎn)品介紹:豆包和Cici都是字節(jié)跳動(dòng)基于云雀模型開(kāi)發(fā)的AI智能聊天助手,可以回答各種問(wèn)題并進(jìn)行對(duì)話,幫助用戶獲取信息,只不過(guò)豆包是針對(duì)國(guó)內(nèi)用戶開(kāi)放的,Cici是豆包的海外版本。
產(chǎn)品功能:豆包和Cici的功能一致,提供問(wèn)答、智能創(chuàng)作、聊天等服務(wù)。進(jìn)入豆包/Cici官網(wǎng)首頁(yè)登陸后,用戶可直接與豆包/Cici對(duì)話,比如可以讓豆包幫助寫(xiě)爆款文案、生成圖片、英語(yǔ)翻譯等。豆包/Cici還支持創(chuàng)建專(zhuān)屬的智能助手,比如可以定制自己的智能導(dǎo)游,可以幫助自己做旅游形成規(guī)劃,提供更多包含交通、景點(diǎn)及美食的旅游相關(guān)的信息。此外,豆包/Cici還有具備很多現(xiàn)成的AI智能體可供使用,涉及生活、娛樂(lè)、寫(xiě)作、情感和游戲多領(lǐng)域。
適用人群或場(chǎng)景:所有C端用戶均適用
體驗(yàn)地址:https://www.doubao.com/chat/bot/discover
字節(jié)跳動(dòng)大語(yǔ)言模型——云雀
產(chǎn)品介紹:云雀是字節(jié)跳動(dòng)自研的大語(yǔ)言模型,該模型采用 Transformer 架構(gòu),能夠通過(guò)便捷的自然語(yǔ)言交互,高效完成互動(dòng)對(duì)話、信息獲取、協(xié)助創(chuàng)作等任務(wù)。
產(chǎn)品功能:內(nèi)容創(chuàng)作功能,可以根據(jù)用戶指令進(jìn)行內(nèi)容創(chuàng)作,生成文案大綱及廣告、營(yíng)銷(xiāo)文案等;智能問(wèn)答功能,用戶可以通過(guò)云雀快速獲取生活常識(shí)、工作技能,助力高效解決工作、生活等各類(lèi)場(chǎng)景中的問(wèn)題;邏輯推理能力,可進(jìn)行思維、常識(shí)、科學(xué)推理 通過(guò)分析問(wèn)題的前提條件和假設(shè)來(lái)推理出答案或解決方案,給出新的想法和見(jiàn)解;代碼生成 功能,作為大語(yǔ)言模型,云雀具備代碼生成能力和知識(shí)儲(chǔ)備,可高效的輔助代碼生產(chǎn)場(chǎng)景;信息提取能力,云雀可以深入理解文本信息之間的邏輯關(guān)系,從非結(jié)構(gòu)化的文本信息中抽取所需的結(jié)構(gòu)化信息。
體驗(yàn)地址:https://www.volcengine.com/contact/yunque
多模態(tài)大模型——BuboGPT
產(chǎn)品介紹:BuboGPT是字節(jié)研發(fā)的一款多模態(tài)大模型,通過(guò)整合文本、圖像和音頻輸入,可以執(zhí)行跨模態(tài)交互并做到對(duì)多模態(tài)的細(xì)粒度理解。
產(chǎn)品功能:首先是多模態(tài)理解能力,BuboGPT實(shí)現(xiàn)了文本、視覺(jué)和音頻的聯(lián)合多模態(tài)理解和對(duì)話功能;其次是視覺(jué)對(duì)接能力,BuboGPT能夠?qū)⑽谋九c圖像中的特定部分進(jìn)行準(zhǔn)確關(guān)聯(lián),實(shí)現(xiàn)細(xì)粒度的視覺(jué)對(duì)接;再次是音頻理解能力,BuboGPT能夠準(zhǔn)確描述音頻片段中的各個(gè)聲音部分,即使對(duì)人類(lèi)來(lái)說(shuō)一些音頻片段過(guò)于短暫難以察覺(jué);最后是對(duì)齊和非對(duì)齊理解能力;BuboGPT能夠處理匹配的音頻-圖像對(duì),實(shí)現(xiàn)完美的對(duì)齊理解,并能對(duì)任意音頻-圖像對(duì)進(jìn)行高質(zhì)量的響應(yīng)。
項(xiàng)目地址:https://bubo-gpt.github.io/
論文地址:https://arxiv.org/abs/2307.08581
騰訊
2024年1月
多模態(tài)音樂(lè)生成模型——M2UGen
產(chǎn)品介紹:M2UGen是一款多模態(tài)音樂(lè)生成模型,融合了音樂(lè)理解和多模態(tài)音樂(lè)生成任務(wù),旨在助力用戶進(jìn)行音樂(lè)藝術(shù)創(chuàng)作。
產(chǎn)品功能:M2UGen具備音樂(lè)理解和生成能力,不僅可以從文字生成音樂(lè),它還支持圖像、視頻和音頻生成音樂(lè),還可以編輯生成的音樂(lè)。
該模型利用MERT等編碼器進(jìn)行音樂(lè)理解,ViT進(jìn)行圖像理解,ViViT進(jìn)行視頻理解,并使用MusicGen/AudioLDM2模型作為音樂(lè)生成模型(音樂(lè)解碼器)。用戶可以輕松移除或替換特定樂(lè)器,調(diào)整音樂(lè)的節(jié)奏和速度。這使得用戶能夠創(chuàng)造出符合其獨(dú)特創(chuàng)意的音樂(lè)作品。
適用人群或場(chǎng)景:音樂(lè)創(chuàng)作、音頻視頻剪輯
論文地址:https://arxiv.org/pdf/2311.11255.pdf
體驗(yàn)地址:https://crypto-code.github.io/M2UGen-Demo/
2023年12月
AI視頻大模型——AnimateZero
產(chǎn)品介紹:AnimateZero是騰訊AI團(tuán)隊(duì)發(fā)布的一款A(yù)I視頻生成模型,通過(guò)改進(jìn)預(yù)訓(xùn)練的視頻擴(kuò)散模型(Video Diffusion Models),能夠更精確地控制視頻的外觀和運(yùn)動(dòng)。
產(chǎn)品功能:用戶可以通過(guò)輸入文本和圖像來(lái)生成視頻,比如由動(dòng)漫人物的圖片生成的視頻,不僅人物動(dòng)作流暢,還融入了眼睛變色、頭發(fā)蓬蓬的小細(xì)節(jié)。
而且AnimateZero還能通過(guò)插入文本嵌入來(lái)控制視頻的動(dòng)態(tài)效果,比如將車(chē)子顏色更改:
適用人群或場(chǎng)景:視頻內(nèi)容創(chuàng)作者、影視制作
項(xiàng)目地址:https://vvictoryuki.github.io/animatezero.github.io/
GitHub:https://github.com/vvictoryuki/AnimateZero?tab=readme-ov-file
2023年10月
開(kāi)源AI視頻生成模型——VideoCrafter
產(chǎn)品介紹:VideoCrafter是由騰訊和香港科技大學(xué)聯(lián)手打造的AI視頻生成大模型,能夠根據(jù)用戶提供的文本描述生成高質(zhì)量、流暢的視頻作品。2024年1月,騰訊對(duì)VideoCrafter進(jìn)行升級(jí)更新,推出了VideoCrafter2模型。
產(chǎn)品功能:用戶只需輸入提示詞就能生成對(duì)應(yīng)的視頻,并可通過(guò)集成編輯器對(duì)生成的視頻進(jìn)行編輯修改,在修改調(diào)整后,用戶還可以將視頻保存為MP4、MOV和AVI等多種格式。相比前一代產(chǎn)品,VideoCrafter2采用更為先進(jìn)的圖像處理技術(shù),顯著提高視頻的視覺(jué)質(zhì)量,使圖像更為清晰、細(xì)膩;同時(shí)VideoCrafter2動(dòng)態(tài)效果明顯增強(qiáng),不僅關(guān)注靜態(tài)畫(huà)面,還專(zhuān)注于提升視頻中的動(dòng)態(tài)效果,使得運(yùn)動(dòng)更加流暢自然。
此外, VideoCrafter2在視頻概念的組合方面表現(xiàn)出色,能夠更好地整合不同元素,創(chuàng)造出更有深度和創(chuàng)意的影片。
項(xiàng)目地址:https://ailab-cvc.github.io/videocrafter2/
GitHub:https://github.com/AILab-CVC/VideoCrafter
2023年9月
通用大語(yǔ)言模型——混元大模型
產(chǎn)品介紹:混元大模型是騰訊自研的大語(yǔ)言模型,具備強(qiáng)大的中文創(chuàng)作能力,復(fù)雜語(yǔ)境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。
產(chǎn)品功能:騰訊混元大模型主要功能包含:智能互動(dòng)問(wèn)答、內(nèi)容創(chuàng)作、邏輯推理及圖像生成等。
內(nèi)容創(chuàng)作方面,該模型可以在多種場(chǎng)景下處理超長(zhǎng)文本,通過(guò)位置編碼優(yōu)化,提升長(zhǎng)文的處理效果和性能。結(jié)合指令跟隨優(yōu)化,讓產(chǎn)出內(nèi)容更符合字?jǐn)?shù)要求。
邏輯推理能力方面,能夠準(zhǔn)確理解用戶意圖,基于輸入數(shù)據(jù)或信息進(jìn)行推理、分析。
2023年10月,混元大模型開(kāi)放文生圖功能,用戶可以根據(jù)關(guān)鍵詞生成圖片,具有強(qiáng)大的中文理解能力。能夠生成各種風(fēng)格的圖片,包括景觀、人物、動(dòng)漫等。生成的圖片具有真實(shí)感和自然度。
適用人群或場(chǎng)景:適用于文檔、會(huì)議、廣告營(yíng)銷(xiāo)等多場(chǎng)景
體驗(yàn)地址:https://hunyuan.tencent.com/
華為
2024年3月
圖像生成模型——PixArt-Σ
產(chǎn)品介紹:PIXART-Σ是華為推出的圖像生成模型,采用Diffusion Transformer (DiT) 架構(gòu),可直接生成 4K 分辨率的 AI 圖像。
產(chǎn)品功能:用戶只需輸入一段文字描述就能生成具有4K高分辨率的圖像,相較于前身PixArt-α,它提供了更高的圖像保真度和與文本提示更好的對(duì)齊。
具體來(lái)看,高質(zhì)量的訓(xùn)練數(shù)據(jù)和高效的 Token 壓縮。PIXART-Σ結(jié)合了更高質(zhì)量的圖像數(shù)據(jù),配對(duì)更精確和詳細(xì)的圖像標(biāo)題,同時(shí)在 DiT 框架內(nèi)提出了一個(gè)新的注意力模塊,可以壓縮鍵(Key)和值(Value),顯著提高效率,促進(jìn)超高分辨率圖像的生成。
正是由于這些改進(jìn),PIXART-Σ才能以較小的模型規(guī)模(6億參數(shù))實(shí)現(xiàn)優(yōu)于現(xiàn)有文本到圖像擴(kuò)散模型(如 SDXL(26億參數(shù))和 SD Cascade(51億參數(shù)))的圖像質(zhì)量和用戶提示遵從能力。此外,PIXART-Σ 能夠生成4K 圖像,為創(chuàng)建高分辨率海報(bào)和壁紙?zhí)峁┝酥С?,有效地增?qiáng)了電影和游戲等行業(yè)中高質(zhì)量視覺(jué)內(nèi)容的制作。
適用人群或場(chǎng)景:藝術(shù)創(chuàng)作者、漫畫(huà)、繪畫(huà)、插畫(huà)師
項(xiàng)目地址:https://pixart-alpha.github.io/PixArt-sigma-project/
論文地址:https://arxiv.org/abs/2401.05252
2024年2月
華為微小模型——盤(pán)古π系列(PanGu-π-1B Pro 和 PanGu-π-1.5B Pro)
產(chǎn)品介紹: PanGu-π-1B Pro 和 PanGu-π-1.5B Pro是華為近期推出的參數(shù)規(guī)模分別為10億/15億的微小模型。
產(chǎn)品功能:以一個(gè) 1B 大小的語(yǔ)言模型作為載體,在分詞器裁剪、模型架構(gòu)調(diào)優(yōu)、參數(shù)繼承、多輪訓(xùn)練等方面具有巨大優(yōu)勢(shì),GPU 的推理速度和效率遠(yuǎn)超GPT-3.5。具體來(lái)看,首先,通過(guò)分詞器裁剪,刪除低頻詞匯,降低 Token 數(shù)量,減少計(jì)算開(kāi)銷(xiāo),為模型主體留足空間。
其次,模型架構(gòu)調(diào)優(yōu)成為關(guān)鍵,深度、寬度對(duì)小語(yǔ)言模型效果有著極大影響。通過(guò)對(duì)深度、寬度和擴(kuò)展率的實(shí)驗(yàn),找到了最適合小模型的架構(gòu)配置。再次,運(yùn)用參數(shù)繼承,有效提升小模型的效果并加速收斂。
最后,與大多數(shù)大模型只進(jìn)行一輪訓(xùn)練不同,小模型的多輪訓(xùn)練被證明對(duì)于克服遺忘問(wèn)題非常有效。通過(guò)第一輪訓(xùn)練的數(shù)據(jù)篩選和精煉,可以優(yōu)化第二輪訓(xùn)練的效果。實(shí)驗(yàn)證明,多輪訓(xùn)練在小模型上表現(xiàn)出色,使得模型在有限的資源下也能取得顯著提升。
盤(pán)古 π 論文鏈接:https://arxiv.org/pdf/2312.17276.pdf
“小” 模型訓(xùn)練論文鏈接:https://arxiv.org/pdf/2402.02791.pdf
GitHub:https://github.com/YuchuanTian/RethinkTinyLM
2023年7月
華為通用多模態(tài)大模型—盤(pán)古3.0系列
產(chǎn)品介紹:盤(pán)古大模型 3.0 是一個(gè)面向行業(yè)的AI大模型系列,旨在提升核心競(jìng)爭(zhēng)力,協(xié)助客戶、合作伙伴、開(kāi)發(fā)者在各行業(yè)落地人工智能并創(chuàng)造價(jià)值。
產(chǎn)品功能:盤(pán)古大模型 3.0系列包含自然語(yǔ)言、視覺(jué)、多模態(tài)、預(yù)測(cè)、科學(xué)計(jì)算大模型等五個(gè)基礎(chǔ)大模型,可以為用戶提供知識(shí)問(wèn)答、文案生成、代碼生成,以及多模態(tài)大模型的圖像生成、圖像理解等能力。
同時(shí)盤(pán)古模型3.0提供參數(shù)范圍從100億到1000億的不同規(guī)模參數(shù),可以滿足不同客戶的需求。目前,盤(pán)古模型已在金融、制造、藥品研發(fā)、煤炭、鐵路等各個(gè)行業(yè)成功落地。
適用人群或場(chǎng)景:B端用戶
體驗(yàn)地址:https://pangu.huaweicloud.com/
小紅書(shū)
2024年1月
小紅書(shū)文案生成器——紅薯智語(yǔ)
產(chǎn)品介紹:紅薯智語(yǔ)是一種利用人工智能技術(shù),自動(dòng)生成小紅書(shū)風(fēng)格文案的工具。
產(chǎn)品功能:首先是文案生成功能,用戶只需要上傳一張圖片,通過(guò)人工智能技術(shù)對(duì)圖片內(nèi)容進(jìn)行分析,就能生成符合圖片內(nèi)容的文案。
其次是擁有1500萬(wàn)小紅書(shū)文案庫(kù),這些文案都是經(jīng)過(guò)小紅書(shū)用戶驗(yàn)證過(guò)的,符合小紅書(shū)平臺(tái)的風(fēng)格和用戶需求。用戶可以直接從文案庫(kù)中選擇合適的文案,無(wú)需自己編寫(xiě)。
最后是自定義功能,用戶可以自定義關(guān)鍵詞、文案風(fēng)格、場(chǎng)景標(biāo)簽,以生成符合個(gè)人需求的文案。例如,用戶可以輸入“椰香雞肉”作為關(guān)鍵詞,選擇“美食”場(chǎng)景,生成介紹椰香雞肉食材和制作方法的文案。
適用人群或場(chǎng)景:小紅書(shū)創(chuàng)作者
體驗(yàn)地址: 適用人群或場(chǎng)景:適合所有用戶 體驗(yàn)地址:內(nèi)測(cè)地址,暫無(wú)鏈接 產(chǎn)品介紹:Trik AI是小紅書(shū)推出的一款A(yù)I圖像創(chuàng)作平臺(tái),專(zhuān)注于“一眼中國(guó)風(fēng)”方向的無(wú)限探索。 產(chǎn)品功能:用戶輸入文本提示,就能生成具有“中國(guó)風(fēng)”卡通或動(dòng)漫圖像。用戶可以通過(guò)該平臺(tái)將設(shè)計(jì)作品融入東方文化的美學(xué)元素中,實(shí)現(xiàn)化繁為簡(jiǎn)的效果。 適用人群或場(chǎng)景:適合中式美學(xué)設(shè)計(jì)師、繪畫(huà)者 體驗(yàn)地址:https://www.trikai.com/ 產(chǎn)品介紹:美圖 AI 視覺(jué)大模型 MiracleVision(奇想智能)于 2023 年 6 月內(nèi)測(cè),具備強(qiáng)大的視覺(jué)表現(xiàn)力和創(chuàng)作力,為美圖秀秀、美顏相機(jī)、Wink、美圖設(shè)計(jì)室、WHEE、美圖云修等知名影像與設(shè)計(jì)產(chǎn)品提供 AI 模型能力的同時(shí),也幫助美圖公司搭建起由底層、中間層和應(yīng)用層構(gòu)建的人工智能產(chǎn)品生態(tài)。 產(chǎn)品功能:MiracleVision(奇想智能)的主要功能包含文生圖、圖生圖、文生視頻、圖生視頻和模型訓(xùn)練、圖片局部修改等,該模型目前已應(yīng)用于美圖旗下多個(gè)產(chǎn)品,比如美圖秀秀、WHEE等,用戶可自行前往官網(wǎng)或下載APP體驗(yàn)。 據(jù)悉,MiracleVision(奇想智能)目前已升級(jí)至 4.0 版本,除全面應(yīng)用于美圖旗下產(chǎn)品,還在逐步助力電商、廣告、游戲、動(dòng)漫、影視五大行業(yè)。 適用人群或場(chǎng)景:影視制作、動(dòng)漫、游戲 體驗(yàn)地址:http://www.miraclevision.com/ 產(chǎn)品介紹:WHEE 是美圖基于MiracleVision 大模型打造的AI生圖藝術(shù)創(chuàng)作平臺(tái),旨在為用戶提供一站式 AI 視覺(jué)創(chuàng)作服務(wù),為視覺(jué)創(chuàng)作提供更多想象力和靈感。 產(chǎn)品功能:WHEE 主要功能包括文生圖、圖生圖、風(fēng)格模型訓(xùn)練、AI超清、AI生視頻和AI改圖等。文生圖不多贅述,圖生圖可以根據(jù)上傳的圖片生成一幅風(fēng)格類(lèi)似的圖片;風(fēng)格模型訓(xùn)練適合設(shè)計(jì)或繪畫(huà)等專(zhuān)業(yè)人士,可以訓(xùn)練生成自己的繪畫(huà)模型;AI超清是最近上新的一鍵修復(fù)老照片功能,可以還原照片高清畫(huà)質(zhì);AI視頻功能目前顯示在內(nèi)測(cè),不過(guò)經(jīng)測(cè)試,文生視頻生成速度較快,但畫(huà)面真實(shí)感欠缺,圖生視頻生成時(shí)長(zhǎng)需幾分鐘,視頻畫(huà)面略顯僵硬,不夠自然。 值得一提的是,2023年12月,WHEE移動(dòng)端App正式上線,用戶可自行下載在手機(jī)端就可實(shí)時(shí)體驗(yàn)AI賦能藝術(shù)創(chuàng)作的魅力。 適用人群或場(chǎng)景:藝術(shù)創(chuàng)作者、設(shè)計(jì)師、插畫(huà)師 體驗(yàn)地址:https://www.whee.com/ 產(chǎn)品介紹:開(kāi)拍是一款幫助口播視頻創(chuàng)作者從腳本靈感到高清畫(huà)質(zhì)拍攝、視頻人像精修、后期智能剪輯全鏈路的影像生產(chǎn)力工具。 產(chǎn)品功能:包含AI 腳本、數(shù)字人主播、提詞器、高清畫(huà)質(zhì)、美顏美妝等。AI腳本是用戶可以輸入關(guān)鍵詞一鍵生成口播文案或幫助生成小紅書(shū)爆款文案、潤(rùn)色文案內(nèi)容;數(shù)字人主播是用戶可以自定義或創(chuàng)建數(shù)字人主播,支持更換人物形象和視頻背景;提詞器功能讓口播不用背稿,勻速模式支持自定義字幕滾動(dòng)速度;高清畫(huà)質(zhì)功能,提升視頻清晰度,支持 4K 畫(huà)質(zhì)視頻錄制、濾鏡調(diào)節(jié),同時(shí)支持美顏功能,可自定義參數(shù),素顏也可以錄視頻。 適用人群或場(chǎng)景:視頻內(nèi)容創(chuàng)作者、主播 體驗(yàn)地址: https://www.kaipai.com/home 產(chǎn)品介紹:Winkstudio是一款A(yù)I視頻人像精修工具,旨在提升攝影師、后期師、MCN機(jī)構(gòu)、自媒體博主視頻剪輯效率。 產(chǎn)品功能:WinkStudio提供配方批量出片、智能畫(huà)質(zhì)修復(fù)、智能發(fā)絲級(jí)摳像、批量色調(diào)統(tǒng)一等功能,滿足不同用戶的個(gè)性化需求。同時(shí),WinkStudio支持高質(zhì)視頻輸出,最高支持導(dǎo)出4K超清視頻,保證高清流暢的視覺(jué)體驗(yàn)。 適用人群或場(chǎng)景:視頻內(nèi)容創(chuàng)作者、攝影師、視頻后期 體驗(yàn)地址:https://wink.meitu.com/?channel=wsllbd7&bd_vid=12130296699805568259 產(chǎn)品介紹:美圖設(shè)計(jì)室是美圖推出的一款A(yù)I商業(yè)設(shè)計(jì)工具,旨在助力提升商業(yè)設(shè)計(jì)制圖效率。 產(chǎn)品功能:AI商品圖功能,上傳商品圖后,AI可自動(dòng)摳出產(chǎn)品主體,支持美容、鞋帽、家居等十余種產(chǎn)品品類(lèi)識(shí)別,百余種推薦場(chǎng)景幫你生成多種風(fēng)格,還原真實(shí)使用場(chǎng)景;AI LOGO功能,給出提示詞和商品slogan就能幫助自動(dòng)生成商品logo;AI模特功能,用戶只需上傳衣服或假發(fā)等商品圖,選擇系統(tǒng)AI模特和場(chǎng)景就能生成全新商品圖,不僅可以提升制作商品圖效率,同時(shí)也降低了邀請(qǐng)模特拍攝成本;AI海報(bào)功能,可以幫助生成商品封面圖、活動(dòng)優(yōu)惠圖以及各種活動(dòng)營(yíng)銷(xiāo)封面。 此外,還有AI消除和智能摳圖功能,可以對(duì)視頻或者圖片進(jìn)行一鍵涂抹去除不要的圖像元素。 適用人群或場(chǎng)景:電商、帶貨 體驗(yàn)地址:https://www.x-design.com/logo-design/?from=home 產(chǎn)品介紹:DreamAvatar是美圖旗下的AI數(shù)字人生成工具,專(zhuān)注于數(shù)字人和AIGC技術(shù)的深度融合, 為推動(dòng)數(shù)字時(shí)尚、營(yíng)銷(xiāo)推廣、企業(yè)數(shù)字化的創(chuàng)新帶來(lái)更多想象。 產(chǎn)品功能:DreamAvatar“AI演員”數(shù)字人的生成,不需要專(zhuān)業(yè)設(shè)備,一臺(tái)手機(jī)就能輕松搞定。用戶只需要將拍攝好的視頻素材導(dǎo)入,并指定視頻里的人物,AI會(huì)進(jìn)行人體檢測(cè)、跟蹤、擦除、替換,以及背景修復(fù),自動(dòng)把真人替換成數(shù)字人。利用3D人體姿態(tài)估計(jì)和驅(qū)動(dòng)算法,DreamAvatar的AI演員能夠做到動(dòng)作與真人完美同步。 DreamAvatar還能通過(guò)相機(jī)姿態(tài)估計(jì)和跟蹤,以及光照估計(jì)算法,讓數(shù)字人和環(huán)境自然融合,更具真實(shí)感。最后,將前面這一系列AI處理,匯總到3D渲染并輸出。 目前,DreamAvatar“AI演員”支持最長(zhǎng)10秒視頻的轉(zhuǎn)化,共推出了機(jī)器人、獸人、類(lèi)人三大題材共計(jì)11個(gè)不同風(fēng)格的數(shù)字人形象,每個(gè)題材從造型風(fēng)格、渲染風(fēng)格都做了不同方向的細(xì)化,給到用戶多樣性的體驗(yàn)和選擇。 適用人群或場(chǎng)景:AI模特、AI主播、AI客服、AI演員 體驗(yàn)地址:https://www.dreamavatar.com/ 產(chǎn)品介紹:RoboNeo是美圖推出的一款A(yù)I助手,通過(guò)與其對(duì)話可幫助用戶修圖、設(shè)計(jì)和繪畫(huà) 。 產(chǎn)品功能:RoboNeo的特色在于能將自然語(yǔ)言轉(zhuǎn)化為修圖指令。通過(guò)與RoboNeo對(duì)話,用戶能夠輕松完成以往需要手動(dòng)操作的影像創(chuàng)作任務(wù)。比如告訴RoboNeo “幫我消除路人甲”、“幫我制作視頻宣傳片”、“幫我設(shè)計(jì)海報(bào)”, RoboNeo都能一一實(shí)現(xiàn)。 由于修圖過(guò)程通過(guò)對(duì)話進(jìn)行,用戶擁有更高的自由度。RoboNeo的創(chuàng)作效果也不會(huì)受限于本地客戶端的功能或素材約束,能激發(fā)無(wú)限的創(chuàng)意。 此外,RoboNeo還能根據(jù)語(yǔ)言指令對(duì)圖片進(jìn)行效果改進(jìn),提升創(chuàng)作者的生產(chǎn)效率。 適用人群或場(chǎng)景:設(shè)計(jì)師、插畫(huà)師、美術(shù)創(chuàng)作者 產(chǎn)品介紹:星火語(yǔ)音大模型是一款A(yù)I語(yǔ)音模型,該模型能將識(shí)別、翻譯和多語(yǔ)種分類(lèi)等多種功能統(tǒng)一交換并進(jìn)行訓(xùn)練,實(shí)現(xiàn)多種任務(wù)信息的共通,使語(yǔ)音識(shí)別效果大幅提升。 產(chǎn)品功能:主要是大模型語(yǔ)音識(shí)別和超擬人語(yǔ)音合成,前者能將短音頻(≤60秒)精準(zhǔn)識(shí)別成文字,除中文普通話和英文外,支持37個(gè)語(yǔ)種自動(dòng)判別,說(shuō)話過(guò)程中可以無(wú)縫切換語(yǔ)種,并實(shí)時(shí)返回對(duì)應(yīng)語(yǔ)種的文字結(jié)果。 超擬人語(yǔ)音合成功能,通過(guò)對(duì)口語(yǔ)化及副語(yǔ)言現(xiàn)象進(jìn)行建模,還原真人口語(yǔ)表達(dá)和語(yǔ)流變化等韻律特點(diǎn),實(shí)現(xiàn)生動(dòng)自然更接近真人的語(yǔ)音合成能力,滿足不同場(chǎng)景個(gè)性化需求。 適用人群或場(chǎng)景:語(yǔ)音搜索、智能客服、人機(jī)交互、聊天輸入、語(yǔ)音助手等 體驗(yàn)地址:https://xinghuo.xfyun.cn/speechllm 產(chǎn)品介紹:星火內(nèi)容運(yùn)營(yíng)大師是一個(gè)集選題,寫(xiě)作,配圖,排版,潤(rùn)色,發(fā)布,數(shù)據(jù)分析等一體的內(nèi)容運(yùn)營(yíng)工作平臺(tái)。該平臺(tái)基于訊飛星火大模型打造,致力于為內(nèi)容運(yùn)營(yíng)、品牌內(nèi)容等崗位提供易用的生產(chǎn)力工具。 產(chǎn)品功能:AI選題推薦,AI智能生成標(biāo)題,緊跟熱點(diǎn),激發(fā)創(chuàng)作靈感;AI文章創(chuàng)作,輸入主體,AI一鍵寫(xiě)稿,還支持模仿生成和選擇風(fēng)格生成;AI審查校對(duì),提供校對(duì)文本、審查糾錯(cuò)、合規(guī)風(fēng)險(xiǎn)提示等功能,讓創(chuàng)作者能夠更加專(zhuān)注于內(nèi)容創(chuàng)作;AI配圖排版,AI可以根據(jù)關(guān)鍵詞生成圖片,一鍵排版,圖文并茂;支持多平臺(tái)內(nèi)容分發(fā),支持分發(fā)到今日頭條和微信公眾號(hào),并可監(jiān)測(cè)數(shù)據(jù)。 適用人群或場(chǎng)景:自媒體創(chuàng)作者、媒體作者、文案策劃等 體驗(yàn)地址:https://turbodesk.xfyun.cn/home?channelid=bd6&bd_vid=11782091658338351641 產(chǎn)品介紹:訊飛智文是科大訊飛基于星火認(rèn)知大模型推出的一款人工智能PPT生成工具,只需輸入一句話或者添加要演示的文稿即可一鍵生成PPT。 產(chǎn)品功能:主題創(chuàng)建模式,一句話式主題輸入,快速把你的想法變?yōu)?nbsp;PPT 文檔,可根據(jù)需求進(jìn)行 AI改寫(xiě),完善文檔內(nèi)容;文本創(chuàng)建模式,添加一段話或者一篇文章,AI 幫你總結(jié)、拆分、提煉,最終生成高度相關(guān)的PPT文檔;PPT文案優(yōu)化,內(nèi)置SPARK AI助手,可以進(jìn)行文案的潤(rùn)色、擴(kuò)寫(xiě)、翻譯、縮寫(xiě)、拆分、總結(jié)、提煉、糾錯(cuò)、改寫(xiě)等;演講備注功能,可以秒速生成備注內(nèi)容,幫你將演講內(nèi)容梳理清晰,避免PPT演講中途卡頓;此外,平臺(tái)內(nèi)置多種模板可一鍵為PPT切換主題和模板,讓你的創(chuàng)作更出色更高效。 適用人群及場(chǎng)景:會(huì)議演講、工作匯報(bào) 體驗(yàn)地址:https://zhiwen.xfyun.cn/ 產(chǎn)品介紹:訊飛星火是科大訊飛推出的新一代認(rèn)知智能大模型,擁有跨領(lǐng)域的知識(shí)和語(yǔ)言理解能力,能夠基于自然對(duì)話方式理解與執(zhí)行任務(wù)。 產(chǎn)品功能:內(nèi)容生成能力,可以進(jìn)行多風(fēng)格多任務(wù)長(zhǎng)文本生成,例如郵件、文案、公文、作文、對(duì)話等;語(yǔ)言理解能力,可以進(jìn)行多層次跨語(yǔ)種語(yǔ)言理解,實(shí)現(xiàn)語(yǔ)法檢查、要素抽取、語(yǔ)篇?dú)w整、文本摘要、情感分析、多語(yǔ)言翻譯等;知識(shí)問(wèn)答能力,可以回答各種各樣的問(wèn)題,包括生活知識(shí)、工作技能、醫(yī)學(xué)知識(shí)等;推理能力,擁有基于思維鏈的推理能力,能夠進(jìn)行科學(xué)推理、常識(shí)推理等;多題型步驟級(jí)數(shù)學(xué)能力,具備數(shù)學(xué)思維,能理解數(shù)學(xué)問(wèn)題,覆蓋多種題型,并能給出解題步驟; 代碼理解與生成能力,可以進(jìn)行代碼理解、代碼修改以及代碼生成等工作。 2024年1月,星火認(rèn)知大模型V3.5發(fā)布,實(shí)現(xiàn)了在文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力、代碼能力以及多模態(tài)能力等方面的全面提升。具體來(lái)看,文本生成提升7.3%,語(yǔ)言理解提升7.6%,知識(shí)問(wèn)答提升4.7%,邏輯推理提升9.5%,數(shù)學(xué)能力提升9.8%,代碼能力提升8.0%,多模態(tài)能力提升6.6%。 與同類(lèi)競(jìng)品相比,據(jù)稱(chēng)星火認(rèn)知大模型V3.5在語(yǔ)言理解和數(shù)學(xué)方面的能力已經(jīng)超過(guò)了GPT-4 Turbo,代碼能力達(dá)到了GPT-4 Turbo的96%,而多模態(tài)理解能力則達(dá)到了GPT-4V的91%。 適用人群或場(chǎng)景:適合所有用戶 體驗(yàn)地址:https://xinghuo.xfyun.cn/&wd=&eqid=addca757000746550000000664993589 產(chǎn)品介紹:星火開(kāi)源 -13B是科大訊飛發(fā)布的全棧國(guó)產(chǎn)化開(kāi)源大模型,它是首個(gè)基于全國(guó)產(chǎn)化算力平臺(tái)”飛星一號(hào)”的開(kāi)源大模型。擁有 130 億參數(shù),包含基礎(chǔ)模型iFlytekSpark-13B-base、精調(diào)模型iFlytekSpark-13B-chat,開(kāi)源了微調(diào)工具iFlytekSpark-13B-Lora、人設(shè)定制工具iFlytekSpark-13B-Charater。學(xué)術(shù)企業(yè)研究可以基于全棧自主可控的星火優(yōu)化套件,更便利地訓(xùn)練自己的專(zhuān)用大模型。 產(chǎn)品功能:具備通用任務(wù)處理能力和生產(chǎn)力功能,如聊天、問(wèn)答、文本提取、分類(lèi)、數(shù)據(jù)分析和代碼生成等,同時(shí)基于強(qiáng)大的 AI能力,支持企業(yè)和學(xué)術(shù)研究訓(xùn)練專(zhuān)用大模型,優(yōu)化學(xué)習(xí)輔助、數(shù)學(xué)推理等領(lǐng)域的應(yīng)用。 適用人群或場(chǎng)景:適合需要進(jìn)行 AI模型訓(xùn)練和應(yīng)用開(kāi)發(fā)B端企業(yè) 體驗(yàn)地址:https://xihe.mindspore.cn/modelzoo/iflytekspark/introduce 產(chǎn)品介紹:訊飛寫(xiě)作是一款全能在線AI寫(xiě)作工具,旨在為用戶提供高效、準(zhǔn)確的文本生成服務(wù)。 產(chǎn)品功能:對(duì)話寫(xiě)作,訊飛寫(xiě)作采用對(duì)話式交互設(shè)計(jì),用戶只需輸入關(guān)鍵詞指令,系統(tǒng)就會(huì)根據(jù)用戶需求生成相應(yīng)的文本內(nèi)容;AI模板寫(xiě)作,訊飛寫(xiě)作具備豐富的模板庫(kù),涵蓋了各種類(lèi)型的文本,如會(huì)議紀(jì)要、演講稿、財(cái)經(jīng)新聞、實(shí)踐報(bào)告等。用戶可以根據(jù)自己的需求選擇合適的模板,然后進(jìn)行信息填寫(xiě),就可以完成文本創(chuàng)作;AI素材寫(xiě)作,訊飛寫(xiě)作內(nèi)置了多種AI工具,如擴(kuò)寫(xiě)、縮寫(xiě)、改寫(xiě)、續(xù)寫(xiě)、文本校對(duì)等。這些工具可以幫助用戶優(yōu)化文本結(jié)構(gòu),提高表達(dá)效果。此外,為提升寫(xiě)作效率,訊飛寫(xiě)作還支持導(dǎo)音頻、視頻、文本等多種格式的素材,方便用戶在文本中插入和使用。用戶可以將這些素材直接拖拽到編輯器中,輕松實(shí)現(xiàn)基于素材內(nèi)容的文本創(chuàng)作。 適用群體或場(chǎng)景:內(nèi)容創(chuàng)作者、演講、匯報(bào)工作 體驗(yàn)地址:https://huixie.iflyrec.com/?from=xfxzpz 2024年1月 產(chǎn)品介紹:360 AI搜索是新一代智能搜索產(chǎn)品,主要為最復(fù)雜的搜索查詢提供更相關(guān)、更全面的答案。 產(chǎn)品功能:該產(chǎn)品主要包括AI搜索和增強(qiáng)模式兩個(gè)新功能。其中,AI 搜索是用戶提出問(wèn)題后,AI將通過(guò)搜索引擎進(jìn)行檢索,讀取并分析多個(gè)網(wǎng)頁(yè)的內(nèi)容,最后輸出精準(zhǔn)的結(jié)論;增強(qiáng)模式是在用戶提問(wèn)后,AI將進(jìn)行語(yǔ)義分析并追問(wèn)以補(bǔ)充更多信息,然后AI將問(wèn)題拆分為多組關(guān)鍵詞進(jìn)行搜索引擎檢索,深度閱讀更多的網(wǎng)頁(yè)內(nèi)容,最終生成邏輯清晰、準(zhǔn)確無(wú)誤的答案。 體驗(yàn)地址:https://so.360.com/?ref=aihub.cn 2023年11月 產(chǎn)品介紹及功能:11月4日,360大模型“奇元大模型”通過(guò)備案落地。從大模型定位和應(yīng)用角度來(lái)看,奇元大模型具備充足的靈活性和可擴(kuò)展性,商業(yè)化和產(chǎn)品定位以B端用戶為主,后期將會(huì)聚焦更多的商業(yè)化應(yīng)用和垂直領(lǐng)域,幫助用戶提升工作效率。 2023年9月 產(chǎn)品介紹: BDM是360 人工智能研究院發(fā)布的中文原生 AI繪畫(huà)模型,該模型能夠精確生成中文語(yǔ)義圖像,兼容英文社區(qū)插件,實(shí)現(xiàn)中英雙語(yǔ)繪畫(huà)。 產(chǎn)品功能:高質(zhì)量圖像生成,BDM 使用先進(jìn)的擴(kuò)散模型技術(shù),可以生成具有高度細(xì)節(jié)和真實(shí)感的圖像;多模態(tài)輸入,BDM 支持輸入,如文本、圖像和音頻等多類(lèi)型,可以處理各種創(chuàng)意任務(wù); 強(qiáng)大的風(fēng)格遷移能力,BDM 可以將一種藝術(shù)風(fēng)格應(yīng)用到任何圖像上,從而創(chuàng)造出獨(dú)特的視覺(jué)效果;實(shí)時(shí)預(yù)覽和編輯,提供實(shí)時(shí)圖像預(yù)覽和編輯功能,用戶可以在生成過(guò)程中進(jìn)行調(diào)整和優(yōu)化;個(gè)性化定制,BDM 允許用戶根據(jù)自己的需求和喜好進(jìn)行個(gè)性化設(shè)置,例如調(diào)整參數(shù)、添加自定義元素等??缙脚_(tái)兼容,BDM 適用于各種操作系統(tǒng)和設(shè)備,如 Windows、macOS、Linux、Android 和 iOS。 論文地址:https://arxiv.org/pdf/2309.00952.pdf 2023年3月 產(chǎn)品介紹:360智腦是360自研認(rèn)知型通用大模型,依托360多年積累的大算力、大數(shù)據(jù)、工程化等關(guān)鍵優(yōu)勢(shì),集成了360GPT大模型、360CV大模型、360多模態(tài)大模型技術(shù)能力。 產(chǎn)品功能:360智腦大模型具備生成創(chuàng)作、多輪對(duì)話、代碼能力、邏輯推理、知識(shí)問(wèn)答、閱讀理解、文本分類(lèi)、翻譯、改寫(xiě)、多模態(tài)十大核心能力、數(shù)百項(xiàng)細(xì)分功能,重塑人機(jī)協(xié)作新范式,全面升級(jí)生產(chǎn)效率。 使用人群或場(chǎng)景:內(nèi)容創(chuàng)作、文檔處理 體驗(yàn)地址:https://ai.360.com/ 總結(jié):上述8家中國(guó)互聯(lián)網(wǎng)大廠的50款大模型及應(yīng)用,能否超越GPT-4?這似乎需要用時(shí)間來(lái)證明一切。2023年8月
AI繪畫(huà)平臺(tái)——TrikAI
美圖秀秀
2023年6月
AI 視覺(jué)大模型——MiracleVision 奇想智能
AI藝術(shù)創(chuàng)作平臺(tái)——WHEE
AI口播視頻工具——WHEE
AI視頻剪輯工具——Winkstudio
商業(yè)設(shè)計(jì)工具——美圖設(shè)計(jì)室
AI數(shù)字人生成工具——DreamAvatar
美圖AI助手——RoboNeo
科大訊飛
2024年1月
AI語(yǔ)音模型——星火語(yǔ)音大模型
2023年12月
一站式AIGC內(nèi)容創(chuàng)作平臺(tái)——星火內(nèi)容運(yùn)營(yíng)大師
2023年11月
AI文檔平臺(tái)——訊飛智文
2023年8月
認(rèn)知智能大模型——訊飛星火
全棧國(guó)產(chǎn)化開(kāi)源大模型——星火開(kāi)源 -13B
AI寫(xiě)作工具——訊飛寫(xiě)作
360
智能搜索——360AI搜索
奇元大模型
中文原生AI繪畫(huà)模型——BDM
認(rèn)知型通用大模型——360智腦