自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="jhcl1"><p id="jhcl1"><form id="jhcl1"></form></p></sub>

<wbr id="jhcl1"></wbr>

<sub id="jhcl1"><style id="jhcl1"></style></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用大模型云錦天章問世彩云科技開創(chuàng)DCFormer架構(gòu)全新篇章

2024-11-14 09:33:10

人工智能深度學(xué)習(xí) 自然語言處理

11月13日，彩云科技在北京總部與媒體進(jìn)行一場主題為“From Paper to App”的溝通會。會上，彩云科技CEO袁行遠(yuǎn)，就通用大模型未來進(jìn)化之路，與人工智能的落地場景等熱點(diǎn)話題進(jìn)行了交流，并正式推出了首款基于DCFormer架構(gòu)開發(fā)的通用大模型云錦天章

2017年，谷歌發(fā)布《Attention Is All You Need》論文，首次提出Transformer架構(gòu)，掀開了人工智能自然語言處理（NLP）領(lǐng)域發(fā)展的全新篇章。Transformer架構(gòu)作為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中最重要的架構(gòu)，成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術(shù)支撐。而提升Transformer的運(yùn)行效率也成為人工智能領(lǐng)域的研究熱點(diǎn)，2024年4月，谷歌最近一次更新了Transformer架構(gòu)，提出了Mixture-of-Depths（MoD）方法，使得訓(xùn)練后采樣過程中提速50%，成為Transformer架構(gòu)提速升級的又一重要事件。

同樣在今年，一家來自國內(nèi)的人工智能企業(yè)彩云科技，在國際機(jī)器學(xué)習(xí)領(lǐng)域的頂級會議ICML（國際機(jī)器學(xué)習(xí)大會）上，發(fā)布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在該論文中，彩云科技團(tuán)隊首次發(fā)布DCFormer架構(gòu)，并在基于DCFormer打造的模型DCPythia-6.9B上，實現(xiàn)了在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B。這意味著，DCFormer模型在性能上，實現(xiàn)了對Transformer模型1.7-2倍的提升。

11月13日，彩云科技在北京總部與媒體進(jìn)行一場主題為“From Paper to App”的溝通會。會上，彩云科技CEO袁行遠(yuǎn)，就通用大模型未來進(jìn)化之路，與人工智能的落地場景等熱點(diǎn)話題進(jìn)行了交流，并正式推出了首款基于DCFormer架構(gòu)開發(fā)的通用大模型云錦天章，與此同時，彩云科技旗下AI RPG平臺彩云小夢，也成為首款基于DCFormer架構(gòu)開發(fā)的AI產(chǎn)品。

只有模型效率和智能度提升才能實現(xiàn)真正的AGI

溝通會現(xiàn)場，袁行遠(yuǎn)首先向參會者展示了一個ChatGPT o1的問答：“假設(shè)ChatGPT4每天響應(yīng)用戶約2億個請求，消耗超過50萬千瓦時的電力。假設(shè)全球網(wǎng)絡(luò)都使用ChatGPT作為訪問入口，ChatGPT每天消耗多少電力？另外按照這個速度發(fā)展下去，到2050年全球人工智能的耗電量會達(dá)到目前地球發(fā)電能力的多少倍？”ChatGPT o1給出的答案是，“到2050年，全球人工智能的耗電量可能會達(dá)到目前地球發(fā)電能力的8倍”。

同樣的問題，在今年2月份的世界政府峰會上，英偉達(dá)CEO黃仁勛有更為夸張的表述，“假設(shè)計算機(jī)的速度永遠(yuǎn)不會變快，我們可能需要14個不同的行星、3個不同星系、4個太陽為這一切（AI）提供燃料?！盇I對能源的強(qiáng)大需求在業(yè)內(nèi)已經(jīng)是共識，英偉達(dá)致力于通過提升硬件來提升AI效率，降低能耗；而袁行遠(yuǎn)則認(rèn)為，改善大模型底層架構(gòu)，提升人工智能運(yùn)行效率，是改變AI能源困局的更優(yōu)路徑。

“Scaling Law告訴我們，隨著算力的提升，模型更大、數(shù)據(jù)更多，模型效果會越來越好，但與之相應(yīng)的，能耗也會越來越高，在Scaling Law失效，人工智能實現(xiàn)之前，或許我們地球的能源就已經(jīng)無法支撐了?！痹羞h(yuǎn)表示，“沒有效率的提升，AI就是鏡花水月?！?/span>

彩云科技團(tuán)隊構(gòu)建DCFormer框架，提出可動態(tài)組合的多頭注意力（DCMHA），替換Transformer核心組件多頭注意力模塊（MHA），解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據(jù)輸入動態(tài)組合，從根本上提升了模型的表達(dá)能力，由此實現(xiàn)了對Transformer架構(gòu)1.7—2倍的性能提升。

今年的ICML會議上，彩云科技團(tuán)隊的3篇論文，在錄用平均分為4.25-6.33的情況下，獲得平均7分的高分，并成為國內(nèi)唯二受邀參加維也納ICML 2024登臺演講的企業(yè)，另一家則是華為。

袁行遠(yuǎn)表示：我們的工作表明，Transformer架構(gòu)距離“理想模型架構(gòu)”還有很大的提升空間，除了堆算力堆數(shù)據(jù)的“大力出奇跡”路線，模型架構(gòu)創(chuàng)新同樣大有可為。往小了說，在大模型領(lǐng)域，利用效率更高的模型架構(gòu)，小公司也可以在與世界頂級人工智能企業(yè)的對抗中取得優(yōu)勢。往大了說，模型效率的提升，可以有效地降低人工智能升級迭代的成本，加速AI時代的到來。

云錦天章問世首個基于DCFormer架構(gòu)的通用大模型

作為國內(nèi)最早做LLM（大語言模型）的公司之一，彩云科技在2017年就已經(jīng)開始做NLP和大模型方面的工作。目前，彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產(chǎn)品，是國內(nèi)為數(shù)不多能夠?qū)崿F(xiàn)盈利的人工智能公司。

“世界最強(qiáng)的小說續(xù)寫通用模型?！睖贤〞?，袁行遠(yuǎn)向大家展示了首個基于DCFormer架構(gòu)的通用大模型云錦天章?！斑@個成語是比喻文章極為高雅、華美，和我們的大模型想要實現(xiàn)的效果有共通之處。”袁行遠(yuǎn)介紹，云錦天章可以實現(xiàn)在虛構(gòu)世界觀的基礎(chǔ)上，賦予小說人物編程、數(shù)學(xué)等基礎(chǔ)能力，可以高速針對大量文字進(jìn)行擴(kuò)寫、縮寫，針對文章風(fēng)格進(jìn)行大容量更換，同時兼具其他模型的問答、數(shù)學(xué)、編程等基礎(chǔ)能力。

而在應(yīng)用端，擁有四百萬用戶的彩云小夢，也迎來了基于全新DCFormer架構(gòu)的V.3.5版本。與之前的版本相比，彩云小夢V3.5整體流暢性和連貫性提升了20%，支持前文長度由2000字提升至10000字，故事背景設(shè)定最長長度高達(dá)10000字?！斑@意味著，在故事創(chuàng)作或者與人工智能對話中，人工智能能夠記住之前發(fā)生的事情，記住之前故事里發(fā)生的細(xì)節(jié)，人物記得自己明確的目標(biāo)，并且會根據(jù)劇情及時進(jìn)行反思修正。在做到自主創(chuàng)作的同時，發(fā)散性收斂，不會天馬行空，人物性格前后一致，故事邏輯性更強(qiáng)?！?/span>

“深度對話，超長記憶，邏輯清晰。”袁行遠(yuǎn)總結(jié)彩云小夢V3.5的特征，“我們的目標(biāo)是為用戶打造指尖伴侶定制夢境?！痹羞h(yuǎn)表示，彩云小夢的用戶單次使用時長，累計使用時長在同類產(chǎn)品中都處于遙遙領(lǐng)先的地位，“對話超過400句，你會發(fā)現(xiàn)彩云小夢真正的魅力?！?/span>

袁行遠(yuǎn)介紹，公司接下來將繼續(xù)加大對DCFormer的研究和投入：“一方面有打破‘國外做技術(shù)層，國內(nèi)做應(yīng)用層’刻板印象的情懷所在，一方面也是為公司自有產(chǎn)品應(yīng)對市場競爭，實現(xiàn)快速迭代升級和能力領(lǐng)先的現(xiàn)實需要。”

責(zé)任編輯：張誠

彩云科技 DCFormer

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="bxrnj"><p id="bxrnj"></p></sub>

<style id="bxrnj"></style>

<sub id="bxrnj"><p id="bxrnj"></p></sub>

<sub id="bxrnj"><p id="bxrnj"></p></sub>

<cite id="bxrnj"></cite>