自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4現(xiàn)場被端側(cè)小模型“暴打”,商湯日日新5.0:全面對標GPT-4 Turbo

人工智能
那么這位又小又彪悍的選手到底什么來頭?不賣關(guān)子,它正是由商湯科技最新發(fā)布的日日新端側(cè)大模型——SenseChat Lite(商量輕量版)。單是在《街頭霸王》里的表現(xiàn),這個小模型就頗有一種“天下武功,唯快不破”的氣勢:GPT-4還在想著怎么決策,SenseChat Lite的拳頭就已經(jīng)打上去了。

夠刺激,GPT-4竟然當眾被“揍”了,甚至連還手的機會都沒有:

圖片

是的,就是在一場《街頭霸王》游戲現(xiàn)場PK中,發(fā)生了這樣的名場面。

而且二者還是不在一個“重量級”的那種:

  • 綠人:由GPT-4操縱
  • 紅人:由一個端側(cè)小模型操縱

那么這位又小又彪悍的選手到底什么來頭?

不賣關(guān)子,它正是由商湯科技最新發(fā)布的日日新端側(cè)大模型——SenseChat Lite(商量輕量版)

單是在《街頭霸王》里的表現(xiàn),這個小模型就頗有一種“天下武功,唯快不破”的氣勢:

GPT-4還在想著怎么決策,SenseChat Lite的拳頭就已經(jīng)打上去了。

不僅如此,商湯CEO徐立還在現(xiàn)場加大難度,直接在手機上斷網(wǎng)開測!

例如離線模式下生成員工請假一周的申請,效果是這樣的:

圖片

△現(xiàn)場原速

(當然,徐立開玩笑表示“假太長了,不批噢~”)

也可以對長段文字做快速總結(jié):

圖片

△現(xiàn)場原速

而之所能夠做到如此,是因為SenseChat Lite在同等尺度性能上已經(jīng)達到了SOTA水平。

更是用“以小博大”的姿勢在多項測試中擊敗了Llama2-7B,甚至是13B。

圖片

在速度方面,SenseChat Lite則是采用了端云“聯(lián)動”的MoE框架,在部分場景中端側(cè)推理占70%,會讓推理成本變得更低。

具體而言,對比人眼20字/秒的閱讀速度來說,SenseChat Lite在中等性能手機上,可以達到18.3字/秒推理速度。

若是在高端旗艦手機,那么推理速度可以直接飆到78.3字/秒!

但除了文本生成之外,徐立同樣在現(xiàn)場還展示了商湯端側(cè)模型的多模態(tài)能力。

例如同樣是擴圖,商湯的端側(cè)大模型在慢半拍啟動的情況下,擴了3種不同圖片的速度比友商擴1張的速度還快:

圖片

演示的同學(xué)甚至直接現(xiàn)場拍照,把照片縮小了很多以后再來自由擴圖:

圖片

嗯,不得不說,商湯是敢在現(xiàn)場動真格的。

然而,縱觀整場活動,端側(cè)大模型也還僅是此次發(fā)布會的一隅。

在“大基座”方面,商湯更是把自家的日日新大模型來了個大版本的升級——SenseNova 5.0。并且直接將其定位到了一個新高度:

全面對標GPT-4 Turbo!

那么日日新大模型5.0版本實力到底如何,我們這就來實測一波~

有請,“弱智吧”!

自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為“弱智吧Benchmark”。

(“弱智吧”源自百度貼吧,是一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。)

而且就在前不久,“弱智吧”還登上正經(jīng)AI論文,成了最好的中文訓(xùn)練數(shù)據(jù),引發(fā)了一波不小的熱議。

那么當文本對話的商量大模型5.0遇到了“弱智吧”,二者又會擦出怎樣的花火?

邏輯推理:“弱智吧”

請聽第一題:

我爸媽結(jié)婚為什么沒有叫我?

圖片

商量的回答不同于其它AI,它會比較擬人的用“我”來做回答,而且從答案結(jié)果來看并沒有過多冗余的內(nèi)容,而是精準地做了回答和解釋,“他們結(jié)婚時您還未出生”。

請聽第二題:

網(wǎng)吧能上網(wǎng),為什么弱智吧不能上弱智?

圖片

同樣的,商量直接精準點出“這是個玩笑性質(zhì)的問題”,以及道出了“‘弱智吧’并非一個實際的地方”。

不難看出,對于“弱智吧”這種魔幻、不按套路出牌的邏輯,商量5.0是已經(jīng)能夠hold住了。

自然語言:高考《紅樓夢》

除了邏輯推理能力之外,在自然語言生成方面,我們可以直接用2022年高考作文題目,來對比看下GPT-4和商量大模型5.0。

圖片

從結(jié)果上來看,GPT-4的文章還是一眼“AI模版”;而商量5.0這邊,則是頗有詩意,不僅句子工整對仗,還能引經(jīng)據(jù)典。

嗯,AI的思路是被打開、發(fā)散了。

數(shù)學(xué)能力:化繁為簡

同樣是讓GPT-4和商量5.0同臺競技,我們這次來測試一下它們的數(shù)學(xué)能力:

媽媽給圓圓沖了一杯咖啡,圓圓喝了半杯后,將它加滿水,然后她又喝了半杯后,再加滿水,最后全部喝完。問圓圓喝的咖啡多,還是水多?咖啡和水各喝了幾杯?

圖片

這道題對于人類來說,其實是一個比較簡單的問題,但是GPT-4卻對此做出了看似一本正經(jīng)的縝密推導(dǎo),結(jié)果還是錯誤的。

究其原因,是大模型背后的思維鏈在邏輯上的構(gòu)建并不完整,若是遇到小眾的問題就極容易出錯;反觀商量5.0這邊,思路和結(jié)果就是正確的了。

再如下面這道“老鷹抓小雞”的問題,GPT-4或許不理解這種游戲的規(guī)則,因為所算出來的答案依舊是錯誤:

圖片

不僅從實際體驗的效果中可以感知一二,更為直接的評測榜單數(shù)據(jù),也反應(yīng)出了商量5.0的能力——

常規(guī)客觀評測已經(jīng)達到或超越GPT-4 Turbo。

圖片

那么日日新5.0又是如何做到的呢?一言蔽之,左手數(shù)據(jù),右手算力。

首先,為了打破數(shù)據(jù)層面上的瓶頸,商湯采用了超過10T的tokens,使其具備了高質(zhì)量數(shù)據(jù)的完備性,讓大模型對客觀知識和世界有了初級的認知。

此外,商湯還合成構(gòu)造了高達數(shù)千億tokens的思維鏈數(shù)據(jù),這也是此次在數(shù)據(jù)層面上發(fā)力的關(guān)鍵點,能夠激活大模型強推理的能力。

其次,是在算力層上,商湯是將算法設(shè)計和算力設(shè)施進行了聯(lián)合的優(yōu)化:算力設(shè)施的拓撲極限用來定義下一階段的算法,而算法上的新進展又要重新知道算力設(shè)施的建設(shè)。

這便是商湯AI大裝置對算法和算力聯(lián)合迭代的核心能力所在了。

整體而言,日日新5.0的更新亮點可以總結(jié)為:

  • 采用MoE架構(gòu)
  • 基于超過10TB tokens訓(xùn)練,擁有大量合成數(shù)據(jù)
  • 推理上下文窗口達到200K
  • 知識、推理、數(shù)學(xué)和代碼等能力全面對標GPT-4 Turbo

圖片

除此之外,在多模態(tài)領(lǐng)域,日日新5.0在多項核心指標中也取得了較為領(lǐng)先的成績:

圖片

老規(guī)矩,我們繼續(xù)來看多模態(tài)的生成效果。

更會看圖了

例如“投喂”給商量5.0一張超級長的圖片(646*130000),只需讓它識別,便可以得到所有內(nèi)容的概述:

圖片

再如隨意丟給商量5.0一張有意思的貓咪圖片,它就能根據(jù)派對帽、蛋糕和“生日快樂”等細節(jié)內(nèi)容推斷貓在慶生。

圖片

更實用一些的,例如上傳一張復(fù)雜截圖,商量5.0就能精準提取并總結(jié)出關(guān)鍵的信息,而這一點GPT-4在識別過程中卻出現(xiàn)了失誤:

圖片

秒畫5.0:和三大頂流PK

在文生圖方面,日日新的秒畫5.0直接和Midjourney、Stable Diffuison和DALL·E 3進行了同臺競技。

例如在風(fēng)格上,秒畫生成的圖片可能會更加接近prompt中提到的“國家地理”:

圖片

人物形象上,可以展示更加復(fù)雜的皮膚紋理:

圖片

甚至是文字也可以精準無誤地嵌入到圖像當中:

圖片

還有個擬人大模型

除此之外,商湯在此次發(fā)布中還推出了一個比較特殊的大模型——擬人大模型。

圖片

從體驗來看,它已經(jīng)可以模仿影視角色、現(xiàn)實名人、原神世界等各種破次元的人物,并且與你展開高情商對話。

圖片

從功能上來看,商量擬人大模型支持角色創(chuàng)建與定制、知識庫構(gòu)建、長對話記憶等,甚至是可以三人以上群聊的那種哦~

也正是基于如此多模態(tài)能力,商湯大模型家族的另一大成員——小浣熊也迎來了能力上的升級。

辦公、編程變得更easy

商湯的小浣熊目前細分為辦公小浣熊編程小浣熊兩大類,顧名思義,分別是作用于辦公場景和編程場景。

圖片

有了辦公小浣熊,現(xiàn)在處理表格、文檔甚至代碼文件,都成了“一丟+一問”的事情了。

以采購場景為例,我們可以先上傳不同來源的供應(yīng)商名單信息,然后跟辦公小浣熊說:

單位、單價、備注。因為不同 sheet 中的表頭信息并不一致,可將類似的表頭內(nèi)容進行合并。在對話框中展示表格結(jié)果,并生成本地下載鏈接,謝謝。

圖片

只需稍等片刻,我們就可以得到處理完后的結(jié)果了。

而且在左側(cè)欄中,辦公小浣熊還給出了分析過程的Python代碼,主打一個“有跡可循”。

我們還可以同時上傳庫存信息和采購需求等多個文件:

圖片

然后繼續(xù)提要求,辦公小浣熊依舊是能夠快速完成任務(wù)。

并且即使是數(shù)據(jù)形式不規(guī)范,它也能自行發(fā)現(xiàn)并解決:

圖片

當然,數(shù)據(jù)計算也是不在話下,依舊是提要求的事情。

除此之外,辦公小浣熊也可以基于數(shù)據(jù)文件做可視化的工作,直接展示下有難度的熱力圖:

圖片

總結(jié)來看,辦公小浣熊可以對多個、不同類型(如 Excel、csv、json 等)做處理,在中文理解、數(shù)理計算和數(shù)據(jù)可視化等維度有非常強的能力。并且它通過代碼解釋器的形式,增強了大模型生成內(nèi)容的準確性與可控性。

另外,發(fā)布會上辦公小浣熊還當場展示了結(jié)合復(fù)雜數(shù)據(jù)庫進行分析的能力。

上周,中國首位F1車手周冠宇完成了他在F1中國大獎賽的比賽。商湯在發(fā)布會現(xiàn)場直接給辦公小浣熊“投喂”了一份數(shù)據(jù)量龐大的數(shù)據(jù)庫文件,讓小浣熊當場分析周冠宇和F1賽事的相關(guān)情況。

如統(tǒng)計周冠宇的參賽信息、F1總共有多少車手、有哪些車手獲得過總冠軍并按照獲獎次數(shù)從高到低排列,這些計算涉及量更大、邏輯更復(fù)雜的數(shù)據(jù)表格和圈數(shù)、領(lǐng)獎數(shù)等更多維度的細節(jié)信息,最終也都給出了完全正確的答案。

在編程場景中,代碼小浣熊也是可以讓程序員們的效率直接Pro Max了。

例如只需在VS Code中安裝擴展的插件:

圖片

然后編程的各個環(huán)節(jié)就變成了輸入一句自然語言的事情了。

例如把需求文檔丟給代碼小浣熊,然后就說句:

幫我寫一個公有云上微信掃碼支付的詳細PRD文檔。PRD格式和內(nèi)容請遵循“產(chǎn)品需求文檔PRD模板”的要求,生成的內(nèi)容清晰、完整、詳細。

然后代碼小浣熊就“唰唰唰”地開始做需求分析的工作了:

圖片

代碼小浣熊也可以為你做架構(gòu)設(shè)計:

圖片

寫代碼也可以通過自然語言提需求,或者通過鼠標一鍵注釋、測試生成代碼,代碼翻譯、重構(gòu)或修正等等:

圖片

最后的軟件測試環(huán)節(jié)也可以交給代碼小浣熊來執(zhí)行哦~

圖片

總而言之,有了代碼小浣熊,它就能幫你處理平日里一些重復(fù)性、繁瑣性高的編程任務(wù)。

而且商湯此次還不只是發(fā)布這么個動作,更是將代碼小浣熊“打包”推出了輕量版一體機。

一臺一體機就能支持100人團隊開發(fā),且成本僅為每人每天4.5元。

圖片

以上便是商湯此次發(fā)布的主要內(nèi)容了。

那么最后,我們還需要總結(jié)性地聊一聊一個話題。

商湯的大模型路數(shù)

縱觀整場發(fā)布會,給人最為直觀的感受首先就是夠全面。

不論是端側(cè)模型,亦或者“大底座”日日新5.0,是屬于云、邊、端全棧的發(fā)布或升級;能力上更是涵蓋到了語言、知識、推理、數(shù)學(xué)、代碼,以及多模態(tài)等AIGC近乎所有主流的“標簽”。

其次就是夠抗打。

以日日新5.0的綜合實力為例,目前放眼整個國內(nèi)大模型玩家,能夠喊出全面對標GPT-4的可以說是為數(shù)不多;并且商湯是敢在現(xiàn)場直接拿多項能力做實測,也是敢第一時間開放體驗,對自身實力的信心可見一斑。

最后就是夠速度。

商湯的速度不只限于像端側(cè)大模型的運行效果之快,更宏觀地來看,是自身在迭代優(yōu)化進程上的速度。若是我們把時間線拉長,這種speed就會格外得明顯:

  • 日日新1.0→2.0:3個月
  • 日日新2.0→4.0:6個月
  • 日日新4.0→5.0:3個月

如此平均下來,近乎是一個季度便有一次大版本的升級,其整體能力也會隨之大幅提高。

那么接下來的一個問題便是,商湯為什么可以做到如此?

首先從大方向來看,便是商湯一直強調(diào)的“大模型+大裝置”的打法。

大模型是指日日新大模型體系,可以提供自然語言處理、圖片生成、自動化數(shù)據(jù)標注、自定義模型訓(xùn)練等多種大模型及能力。

大裝置則是指商湯打造的高效率、低成本、規(guī)模化的新一代AI基礎(chǔ)設(shè)施,以AI大模型開發(fā)、生成、應(yīng)用為核心;總算力規(guī)模高達12000 petaFLOPS ,已有超4.5萬塊GPU。

二者的異曲同工之妙,便是早已布局,它們并非是AIGC大熱潮之下的產(chǎn)物,而是可以追溯到數(shù)年前、具有前瞻性的兩項工作。

其次更深入到大模型層面,商湯基于自身在實際的測試和實踐過程中,對行業(yè)所共識的基本法則尺度定律(Scaling Law)有著新的理解和解讀。

尺度定律通常是指隨著數(shù)據(jù)量、參數(shù)量和訓(xùn)練時長的增加,大模型所表現(xiàn)出來的性能會更好,是一種大力出奇跡的感覺。

這個定律還包含兩條隱藏的假設(shè):

  • 可預(yù)測性:可以跨越5-7個數(shù)量級尺度依然保持對性能的準確預(yù)測
  • 保序性:在小尺度上驗證了性能優(yōu)勢,在更大尺度上依然保持

因此,尺度定律是可以指導(dǎo)在有限的研發(fā)資源中,找到最優(yōu)的模型架構(gòu)和數(shù)據(jù)配方,讓大模型能夠高效地去學(xué)習(xí)。

而也正是基于商湯如此的觀察和實踐,誕生了“小且能打”的端側(cè)模型。

圖片

除此之外,商湯對于大模型的能力還有獨到的三層架構(gòu)(KRE)的理解。

圖片

徐立對此做了深入地解讀。

首先是在知識,是指世界知識的全面灌注。

目前大模型等新質(zhì)生產(chǎn)力工具近乎都是基于此來解決問題,也就是根據(jù)前人已經(jīng)解決過的問題的方案,來回答你的問題。

這可以認為是大模型能力的基本功,但更為高階的知識,應(yīng)當是基于這樣能力下推理得到的新知識,這也就是這個架構(gòu)的第二層——推理,即理性思維的質(zhì)變提升。

這一層的能力是可以決定大模型是否夠聰明、是否可以舉一反三的關(guān)鍵和核心。

再在此之上,便是執(zhí)行,是指世界內(nèi)容的交互變革,也就是如何跟真實世界產(chǎn)生互動(就目前而言,具身智能在這一層是潛力股般的存在)。

三者雖相互獨立,但層與層之間也是緊密關(guān)聯(lián),徐立打了一個較為形象的比喻:

知識到推理是像大腦,推理到執(zhí)行則像小腦。

在商湯看來,這三層的架構(gòu)是大模型應(yīng)當具備的能力,而這也正是啟發(fā)商湯構(gòu)建高質(zhì)量數(shù)據(jù)的關(guān)鍵;不僅如此,也是基于KRE這套邏輯,才有了此次發(fā)布中的眾多產(chǎn)品。

那么最后一個問題是,基于KRE、基于“大模型+大裝置”這樣的路線,最新的日日新在產(chǎn)業(yè)中“上崗”到了什么程度?

正所謂“實踐是檢驗真理的唯一標準”,來自客戶的使用反饋或許才是最真實的答案。

而在此,商湯也交出了一份較為高分的作業(yè)——在現(xiàn)場,華為、WPS、小米、閱文、海通證券,從辦公到文娛,從金融到終端,紛紛分享了使用商湯日日新大模型體系后,給自身業(yè)務(wù)帶來的降本增效。

總而言之,有技術(shù)、有算力、有方法論、有場景,商湯日日新在AIGC時代接下來的發(fā)展,是值得期待了。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-06-28 12:31:22

2023-12-26 08:17:23

微軟GPT-4

2024-05-21 12:23:17

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-12-17 22:04:04

微軟GPT-4

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-11-08 13:05:23

AI模型

2023-11-10 09:48:34

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能

2024-04-12 17:41:28

GPT-4TurboClaude

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-03-28 13:01:20

GPT-4開發(fā)OpenAI

2023-05-03 20:53:48

2023-03-16 19:17:57

2024-06-28 13:40:03

2024-02-07 12:34:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號