自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直追GPT-4!李開復(fù)Yi-34B新成績(jī)公布:94.08%的勝率超越LLaMA2等主流大模型

人工智能
Elo評(píng)分越高,說(shuō)明模型在真實(shí)用戶體驗(yàn)上的表現(xiàn)越出色,可說(shuō)是眾多大模型評(píng)測(cè)集中最能展現(xiàn) “Moment of Truth 真實(shí)關(guān)鍵一刻” 的用戶導(dǎo)向體驗(yàn)對(duì)決。

僅次于GPT-4,李開復(fù)零一萬(wàn)物Yi-34B-Chat最新成績(jī)公布——

在Alpaca經(jīng)認(rèn)證的模型類別中,以94.08%的勝率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT!

圖片圖片

不僅如此,在加州大學(xué)伯克利分校主導(dǎo)的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo評(píng)分,晉升最新開源SOTA開源模型之列,性能表現(xiàn)追平GPT-3.5。

在五花八門的大模型評(píng)測(cè)中,伯克利LMSYS ORG排行榜采用了一個(gè)最為接近用戶體感的 “聊天機(jī)器人競(jìng)技場(chǎng)” 特殊測(cè)評(píng)模式,讓眾多大語(yǔ)言模型在評(píng)測(cè)平臺(tái)隨機(jī)進(jìn)行一對(duì)一 battle,通過(guò)眾籌真實(shí)用戶來(lái)進(jìn)行線上實(shí)時(shí)盲測(cè)和匿名投票,11月份經(jīng)25000的真實(shí)用戶投票總數(shù)計(jì)算了20個(gè)大模型的總得分。

Elo評(píng)分越高,說(shuō)明模型在真實(shí)用戶體驗(yàn)上的表現(xiàn)越出色,可說(shuō)是眾多大模型評(píng)測(cè)集中最能展現(xiàn) “Moment of Truth 真實(shí)關(guān)鍵一刻” 的用戶導(dǎo)向體驗(yàn)對(duì)決。

圖片圖片

△LMSYS ORG榜單(發(fā)布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微調(diào)模型同樣不遑多讓。SuperCLUE是一項(xiàng)針對(duì)中文能力的排行榜,從基礎(chǔ)能力、專業(yè)能力和中文特性能力三個(gè)不同的維度,評(píng)估模型的能力。

根據(jù)11月底發(fā)布的《SuperCLUE中文大模型基準(zhǔn)評(píng)測(cè)報(bào)告 2023》,11月下旬首度發(fā)布的 Yi-34B Chat,迅速晉升到和諸多國(guó)產(chǎn)優(yōu)秀大模型齊平的 “卓越領(lǐng)導(dǎo)者” 象限,在多項(xiàng)基準(zhǔn)評(píng)測(cè)中的 “SuperCLUE 大模型對(duì)戰(zhàn)勝率” 這項(xiàng)關(guān)鍵指標(biāo)上,Yi-34B-Chat 取得31.82%的勝率,僅次于GPT4-Turbo。

△中文SuperCLUE排行榜(發(fā)布于2023年11月28日)△中文SuperCLUE排行榜(發(fā)布于2023年11月28日)

對(duì)話場(chǎng)景實(shí)測(cè)

Yi-34B-Chat 模型實(shí)力在不同的對(duì)話場(chǎng)景中實(shí)力如何?來(lái)看幾個(gè)更直觀的問(wèn)題演示:

例如“喂”給Yi-34B-Chat如下問(wèn)題:

Transformer 模型結(jié)構(gòu)能不能走向 AGI ?

圖片圖片

不難看出,Yi-34B-Chat的回答可以說(shuō)是有理有據(jù)。

再來(lái):

給我生成一個(gè)小紅書文案,給大家安利一只豆沙色的口紅。

圖片圖片

回答可以說(shuō)是非常符合現(xiàn)在小紅書主流的帶貨風(fēng)格了。

中文理解方面,我們?cè)俪鲆坏李}:

小王給領(lǐng)導(dǎo)送了一份禮物后。領(lǐng)導(dǎo)說(shuō):“小王,你這是什么意思?”小王:“一點(diǎn)心意,意思意思?!鳖I(lǐng)導(dǎo):“你這就不夠意思了?!毙⊥酰骸靶∫馑迹∫馑??!鳖I(lǐng)導(dǎo):“小王,你這人真有意思?!毙⊥酰骸耙矝](méi)什么別的意思?!鳖I(lǐng)導(dǎo):“那我多不好意思。”小王:“是我不好意思?!边@個(gè)意思到底是什么意思?

圖片圖片

可以看到,即便是在非?!袄@”的中文理解方面,Yi-34B-Chat也是精準(zhǔn)的拿捏住了。

據(jù)零一萬(wàn)物介紹,除了 Yi 系列強(qiáng)基座的貢獻(xiàn)以外,Yi-34B-Chat 模型的效果還得益于其人工智能對(duì)齊(AI Alignment)團(tuán)隊(duì)采用了一系列創(chuàng)新對(duì)齊策略。通過(guò)精心設(shè)計(jì)的指令微調(diào)流程,不僅強(qiáng)化了模型在理解和適應(yīng)人類需求方面的能力,還使得模型與人類價(jià)值觀對(duì)齊,包括幫助性(Helpful),可靠性(Honest),無(wú)害性(Harmless)等。

在強(qiáng)基座設(shè)定下,該團(tuán)隊(duì)采用了一種輕量化指令微調(diào)方案,該方案涵蓋了單項(xiàng)能力提升和多項(xiàng)能力融合兩個(gè)階段。
其中,單項(xiàng)能力包括通用指令跟隨、創(chuàng)意內(nèi)容生成、數(shù)學(xué)、推理、編程、泛COT、對(duì)話交互等。通過(guò)大量的消融實(shí)驗(yàn),針對(duì)模型單能力構(gòu)建和多能力融合總結(jié)了獨(dú)家認(rèn)知經(jīng)驗(yàn)。

在數(shù)據(jù)的量和質(zhì)方面,一方面,團(tuán)隊(duì)在強(qiáng)基座模型上,實(shí)現(xiàn)僅需要少量數(shù)據(jù)(幾條到幾百條),就能激發(fā)模型特定單項(xiàng)能力;另一方面,數(shù)據(jù)質(zhì)量比數(shù)量重要,少量高質(zhì)量數(shù)據(jù)比大量低質(zhì)量數(shù)據(jù)更好。通過(guò)關(guān)注超出模型能力的“低質(zhì)量”數(shù)據(jù),減少了模型“幻覺(jué)”。

在指令多樣性與難度方面,團(tuán)隊(duì)通過(guò)在各能力項(xiàng)下構(gòu)建任務(wù)體系,實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)中的指令均衡分布,大幅提升了模型泛化性。通過(guò)復(fù)合指令構(gòu)造和指令難度進(jìn)化,不僅提升了模型效果,也顯著降低了對(duì)數(shù)據(jù)量的需求。

在風(fēng)格一致性方面,團(tuán)隊(duì)發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)的風(fēng)格會(huì)影響模型收斂速度和能力上限的逼近程度,因此統(tǒng)一了回復(fù)風(fēng)格,比如重點(diǎn)設(shè)計(jì)了CoT的回復(fù)風(fēng)格,實(shí)現(xiàn)在輕量SFT情況下,避免了風(fēng)格不一致加劇模型的“記憶”現(xiàn)象。

在多能力融合階段,團(tuán)隊(duì)采用網(wǎng)格搜索的方法來(lái)決定數(shù)據(jù)配比和超參數(shù)的設(shè)置,通過(guò)基準(zhǔn)測(cè)試和自建評(píng)測(cè)集的結(jié)果來(lái)指導(dǎo)搜索過(guò)程,成功實(shí)現(xiàn)模型的多能力融合。

不僅如此,Yi模型開源首月,數(shù)據(jù)也很亮眼。

在Hugging Face社區(qū)下載量為16.8萬(wàn),魔搭社區(qū)下載量1.2萬(wàn)。在GitHub 獲得超過(guò)4900個(gè)Stars。

由于性能表現(xiàn)強(qiáng)勁,多家知名公司和機(jī)構(gòu)推出了基于Yi模型基座的微調(diào)模型,比如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大學(xué)和粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(簡(jiǎn)稱IDEA研究院)認(rèn)知計(jì)算與自然語(yǔ)言研究中心(簡(jiǎn)稱CCNL中心)聯(lián)合發(fā)布的SUS-Chat-34B等,均性能表現(xiàn)優(yōu)異。而AMD和Hugging Face合作的GPU加速大模型的實(shí)驗(yàn)中,也選擇了Yi-6B作為范例項(xiàng)目。

知名技術(shù)寫作者蘇洋表示,在他觀察的近期Hugging Face榜單中,前三十名有一半多都是 Yi 和其他用戶微調(diào)的 Yi-34B 的變體模型,原本占據(jù)榜單頭部的 68B 和 70B 模型的數(shù)量目前只留有幾個(gè),“從這點(diǎn)看 Yi 對(duì)于開源生態(tài)的幫助還是非常巨大的?!?/p>

用戶真實(shí)反饋實(shí)錄

Yi-34B開源發(fā)布后,開發(fā)者Eric Hartford就發(fā)現(xiàn)了模型存在的一個(gè)小問(wèn)題。

他在郵件中寫道:

感謝你們提供了一個(gè)優(yōu)秀的模型。Yi模型使用了與LLaMA模型完全相同的架構(gòu),只是將兩個(gè)張量改了名字。由于圍繞LLaMA架構(gòu)有很多投資和工具,保持張量名稱的一致性是有價(jià)值的。”Eric建議,在Yi被廣泛傳播前,及時(shí)恢復(fù)張量名稱。

零一萬(wàn)物意識(shí)到命名問(wèn)題的疏忽對(duì)開發(fā)者造成的不便,跟Eric和其他開發(fā)者提出說(shuō)明,表達(dá)誠(chéng)摯的歉意,并很快便在各開源平臺(tái)重新提交模型及代碼,完成了開源社區(qū)的版本更新。

然而Eric自己也沒(méi)有預(yù)想到,他的這個(gè)建議,在國(guó)內(nèi)竟被曲解、誤讀,引發(fā)了輿論關(guān)于Yi模型“抄襲”LLaMA的質(zhì)疑。

事實(shí)上,一個(gè)模型核心技術(shù)護(hù)城河是在架構(gòu)之上,通過(guò)數(shù)據(jù)訓(xùn)練獲得的參數(shù)和代碼,在沿用了開源社區(qū)普遍使用的LLaMA 架構(gòu)之上。

根據(jù)零一萬(wàn)物團(tuán)隊(duì)的說(shuō)法,他們是從零開始,用高質(zhì)量的數(shù)據(jù)集、自研訓(xùn)練科學(xué)和AI Infra打造了 Yi-34B 在內(nèi)的系列模型。為了執(zhí)行對(duì)比實(shí)驗(yàn)的需要,對(duì)部分推理參數(shù)進(jìn)行了重新命名。原始出發(fā)點(diǎn)是為了充分測(cè)試模型,而非刻意隱瞞來(lái)源。

身處這場(chǎng)輿論風(fēng)暴的中心,Eric也在X(twitter)上寫道:

他們沒(méi)有在任何事情上撒謊。所有的模型都是在相互借鑒架構(gòu)。架構(gòu)是學(xué)術(shù)研究的產(chǎn)物,已經(jīng)發(fā)表在論文中,任何人都可以自由使用,這絲毫不減損Yi團(tuán)隊(duì)的成就。他們從零開始使用自己創(chuàng)建的數(shù)據(jù)集訓(xùn)練Yi,對(duì)開源領(lǐng)域的貢獻(xiàn)是值得贊揚(yáng)的。

圖片圖片

緊接著,他又說(shuō),“使用Llama架構(gòu)沒(méi)有任何問(wèn)題。訓(xùn)練才是關(guān)鍵。Yi給了我們目前可獲得的最佳模型,沒(méi)有任何可抱怨的。”

現(xiàn)在,Eric已經(jīng)成為Yi-34B的忠實(shí)擁躉,會(huì)使用Yi-34b-200k數(shù)據(jù)集訓(xùn)練其他的模型產(chǎn)品,并感嘆絲滑般的訓(xùn)練體驗(yàn)。

數(shù)字化創(chuàng)業(yè)者,開發(fā)者,技術(shù)寫作者蘇洋表示:

我自己本身是大模型產(chǎn)品的重度用戶,除了用了很久的 Tabnine、Copilot 做代碼輔助生成之外,也算是第一批開始氪金使用 Chat 的玩家,基本各家廠商模型出來(lái)都會(huì)申請(qǐng)內(nèi)測(cè),體驗(yàn)?zāi)P偷膶?shí)際能力。這里除去工作中接觸和使用模型的機(jī)會(huì)外,作為獨(dú)立開發(fā)者,玩了十幾年的代碼,我個(gè)人也非常好奇模型究竟能夠發(fā)展到什么程度。

我了解到 Yi-34B 有幾個(gè)渠道,當(dāng)時(shí)的 Huggingface 榜單第一名、小圈子朋友的“點(diǎn)贊”和“吐槽”、各種群里刷屏的消息。

圖片圖片

我是開發(fā)者,同時(shí)也是終端用戶,所以非常好奇,這個(gè)模型到底行不行?或者說(shuō)更想知道模型哪里是行的,哪里是不行的。尤其是榜單分?jǐn)?shù)這么高,質(zhì)疑聲浪也這么高?與其霧里看花、眾說(shuō)紛紜,不如自己實(shí)際跑一跑。

于是,我嘗試使用家里本地的機(jī)器,在純 CPU 環(huán)境、CPU & GPU 混合環(huán)境下對(duì)模型進(jìn)行測(cè)試,結(jié)果比想象中要好。

尤其是社區(qū)中的 finetune 后的版本,在對(duì)新聞、研究報(bào)告的摘要總結(jié)方面,對(duì)非結(jié)構(gòu)化的信息中的實(shí)體識(shí)別和抽取上表現(xiàn)非常不錯(cuò)。早些時(shí)候,官方還未推出 Chat 版本時(shí),來(lái)自社區(qū)的 Chat 版本在對(duì)話的過(guò)程中,通史類的問(wèn)答表現(xiàn)也非常不錯(cuò)。當(dāng)然,可能是由于零一在訓(xùn)練過(guò)程中,出于安全考慮,過(guò)濾太多語(yǔ)料的緣故,一些本土化的內(nèi)容仍然不夠深入。

而且,不光是我的個(gè)人體驗(yàn),海外也有用戶有相同體感,在“海外貼吧” Reddit 上有分享自己的感受,你們可以自己搜搜看。

我會(huì)時(shí)不時(shí)的瀏覽下 HF 的榜單,在最近榜單中的前三十名,有一半多都是 Yi 和其他用戶微調(diào)的 Yi-34B 的變體模型,原本占據(jù)榜單頭部的 68B 和 70B 模型的數(shù)量目前只留有幾個(gè),從這點(diǎn)看 Yi 對(duì)于開源生態(tài)的幫助還是非常巨大的。

34B 普通用戶努努力還是能自己相對(duì)低成本跑起來(lái)的,68 和 70B 的模型想要本地運(yùn)行,需要更多的資源。但其實(shí)目前分?jǐn)?shù)其實(shí)相比較 34B 拉不開太多,也就三四分平均分,但參數(shù)量差了一倍。換言之,企業(yè)想部署使用,所需要的成本也可以得到非常大的節(jié)約。

目前國(guó)產(chǎn)大模型在開源榜單上已經(jīng)是第一梯隊(duì),但如果把競(jìng)爭(zhēng)范圍追加到閉源模型、尤其是海外的模型,仍有很大的距離要去追趕。目前的普遍體驗(yàn)是開源模型最多只有 GPT-3.5 + 的水平。

我個(gè)人相信國(guó)產(chǎn)大模型是能夠很快追趕至第一梯隊(duì)的。

就如同很多底子很好,又勤奮刻苦的中國(guó)大學(xué)生,能夠在使用正確方法的前提下,通過(guò)努力,不斷的進(jìn)入更好的學(xué)習(xí)環(huán)境,不斷刷新自己成績(jī),取得耀眼的學(xué)術(shù)成就?,F(xiàn)實(shí)中,哪怕是對(duì)華人苛刻的 “八大藤?!?,是不是中國(guó)人越來(lái)越多了呢?

只要底子好,堅(jiān)持使用開源的正確路線和方法,做好本地化適配和調(diào)優(yōu),就有希望。

參考鏈接:
[1]https://huggingface.co/01-ai/[2]https://www.modelscope.cn/organization/01ai

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2023-09-11 15:57:16

人工智能模型GPT-4

2023-09-19 14:56:00

模型訓(xùn)練

2023-08-27 12:54:59

GPT-4神秘版本Code

2024-02-07 12:13:03

AI模型

2023-07-25 09:23:23

Llama 2GPT-4

2024-05-20 08:40:00

2024-03-27 13:32:00

AI數(shù)據(jù)

2023-08-21 10:36:23

2023-06-05 12:32:48

模型論文

2024-06-17 18:04:38

2024-01-30 21:18:57

模型智能CMMLU

2023-10-11 13:09:52

訓(xùn)練模型

2023-09-07 13:25:00

AI模型

2023-08-27 14:08:17

開源代碼Meta大模型

2023-06-08 11:27:10

模型AI

2024-12-25 20:01:13

2023-09-23 12:50:39

AI訓(xùn)練

2024-04-19 09:17:33

AI模型

2023-11-09 12:41:40

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)