自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

不是LlaMa套殼！李開復(fù)麾下大模型陷套殼爭(zhēng)議，團(tuán)隊(duì)二次回應(yīng)來(lái)了！

原創(chuàng) 精選

作者：諾亞 2023-11-15 16:33:10

不久前，外界對(duì)百川智能開源模型Baichuan-7B同樣提出了是否套殼LLaMa的質(zhì)疑。彼時(shí)，王小川表示，搜索公司干了20年，團(tuán)隊(duì)對(duì)語(yǔ)言數(shù)據(jù)有深入的理解，知道取得高質(zhì)量語(yǔ)料的渠道，模型迭代速度很快，“國(guó)內(nèi)開源模型的能力目前已經(jīng)可以達(dá)到LLaMa”。

整理丨諾亞、小歐

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

昨天科技圈社區(qū)Hacker News突然出現(xiàn)一則消息，矛頭直指不久前發(fā)布的大模型Yi-34B，認(rèn)為其除了兩個(gè)張量被重新命名外，完全使用了Llama的架構(gòu)。

圖片

而根據(jù)公開信息，Yi 系列開源大模型沒(méi)有在開源 License 中提及Llama。雖然原貼評(píng)論寥寥，但還是引起了部分關(guān)注。畢竟“Yi”才發(fā)布不久，而且備受期待。

今年3月，李開復(fù)在朋友圈發(fā)英雄帖，官宣組建零一萬(wàn)物團(tuán)隊(duì)。僅僅7個(gè)月后，零一萬(wàn)物就發(fā)布了開源中英雙語(yǔ)大模型“Yi”。據(jù)有關(guān)資料顯示，在獲得創(chuàng)新工場(chǎng)、阿里云和其他未披露投資者的融資后，零一萬(wàn)物的估值已超過(guò)10億美元。

更令人矚目的是，據(jù)零一萬(wàn)物官方介紹，Yi-34B不僅以黑馬之姿取得了多項(xiàng)SOTA 國(guó)際最佳性能指標(biāo)認(rèn)可，而且成為了迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國(guó)產(chǎn)模型。

因此，無(wú)論是圈內(nèi)還是圈外，都在關(guān)注：“Yi”如何面對(duì)這一質(zhì)疑，后續(xù)會(huì)有何回應(yīng)。

1、一篇帖子引發(fā)的疑云：社區(qū)質(zhì)疑、賈揚(yáng)清疑似暗諷

事件的肇因是一篇發(fā)布于Hugging Face的帖子。

一位署名為ehartford的開發(fā)者于9天前在社區(qū)留言。他首先指出，據(jù)其了解，Yi 使用的正是 Llama 的架構(gòu)，除了重新命名了兩個(gè)張量（input_layernorm，post_attention_layernorm）。

更重要的是，由于圍繞 Llama 架構(gòu)有大量的投資和工具，因此對(duì)張量使用相同的名稱是有價(jià)值的。因此他希望，在該模型獲得大量采用之前，開源社區(qū)重新發(fā)布Yi，并“重新命名張量，以便有一個(gè)符合Llama架構(gòu)的版本”。

圖片

下面有跟帖的開發(fā)者也指出：如果他們確實(shí)采用了Meta LlaMA 結(jié)構(gòu)、其代碼庫(kù)和所有相關(guān)資源，就需要遵守LLaMA規(guī)定的許可協(xié)議。要求以 LlaMA 形式正式發(fā)布 Yi 模型是有問(wèn)題的，因?yàn)樗茐牧?Yi 許可條款的可執(zhí)行性。

隨后又有熱心網(wǎng)友挖出了前阿里VP賈揚(yáng)清在朋友圈發(fā)的一張圖，直言某國(guó)產(chǎn)大模型實(shí)際上是抄襲的LlaMA，為表示不一樣就更換了幾個(gè)變量名。甚至還犀利諷刺道：如果是開源的模型架構(gòu)，就不要改名字了，“免得我們還做一堆工作就為了適配你們改名字”。雖然賈揚(yáng)清沒(méi)有指名道姓，但有留意此事的人不免“對(duì)號(hào)入座”。

圖片

2、首次針對(duì)性回應(yīng)：命名問(wèn)題是團(tuán)隊(duì)疏忽

對(duì)于此番爭(zhēng)議，零一萬(wàn)物隨后給出了自身的回應(yīng)。

就在昨天，其團(tuán)隊(duì)開源總監(jiān) Richard Lin 在Hugging Face社區(qū)原貼之下指出“命名問(wèn)題是團(tuán)隊(duì)的疏忽，在大量訓(xùn)練實(shí)驗(yàn)中，我們對(duì)代碼進(jìn)行了多次重命名以滿足實(shí)驗(yàn)要求。但在發(fā)布正式版本之前，我們沒(méi)能將它們切換回來(lái)。對(duì)此我們深感抱歉，由此造成的混亂我們也深表歉意”。

圖片

Richard Lin向原貼主承認(rèn)修改張量名稱的做法不妥，“您對(duì)張量名稱的看法是正確的，我們將按照您的建議將其從 Yi 重命名為 Llama。我們也非常重視以準(zhǔn)確、透明的方式完成工作?！?/p>

與此同時(shí)，他也給出了解決方案：要么邀請(qǐng)這名發(fā)現(xiàn)問(wèn)題的開發(fā)者提交一條包含這些變更的拉取請(qǐng)求，要么由他們團(tuán)隊(duì)處理更新按要求操作并在同一個(gè) repo 中發(fā)布新版本，從而完成對(duì) Yi 的張量名稱進(jìn)行重命名以符合 Llama 架構(gòu)。

最后Richard Lin重申，他們會(huì)努力改進(jìn)工作流程，確保不會(huì)再次發(fā)生類似的失誤，“接下來(lái)我們將再次檢查所有代碼，確保其余部分準(zhǔn)確無(wú)誤”。

3、再次公開回應(yīng)：大模型核心突破點(diǎn)不僅在于架構(gòu)，而是在于訓(xùn)練得到的參數(shù)

有人說(shuō)，LLaMa本就是開源的模型，使用LLaMa的架構(gòu)是正常的大模型訓(xùn)練步驟。而且國(guó)內(nèi)已發(fā)布的開源模型也絕大多數(shù)采用漸成行業(yè)標(biāo)準(zhǔn)的 GPT/LLaMA 的架構(gòu)。要訓(xùn)練出好的模型，除了架構(gòu)之外，更需要好的訓(xùn)練數(shù)據(jù)和對(duì)訓(xùn)練方法和具體參數(shù)的精準(zhǔn)把控。

正如零一萬(wàn)物在今天下午發(fā)布的公告所表達(dá)的：大模型持續(xù)發(fā)展與尋求突破口的核心點(diǎn)不僅在于架構(gòu)，而是在于訓(xùn)練得到的參數(shù)。

圖片

全文核心觀點(diǎn)可總結(jié)如下：

國(guó)內(nèi)開源模型絕大多數(shù)采用 GPT/LLaMA 的架構(gòu)，大模型持續(xù)發(fā)展與尋求突破口的核心點(diǎn)不僅在于架構(gòu)，而是在于訓(xùn)練得到的參數(shù)。
零一萬(wàn)物團(tuán)隊(duì)完成了很多科學(xué)訓(xùn)模的系統(tǒng)性工作，比起基本模型結(jié)構(gòu)能起到巨大的作用跟價(jià)值。
零一萬(wàn)物團(tuán)隊(duì)投注大部分精力調(diào)整訓(xùn)練方法、數(shù)據(jù)配比、數(shù)據(jù)工程、細(xì)節(jié)參數(shù)、baby sitting（訓(xùn)練過(guò)程監(jiān)測(cè)）技巧等。這一系列超越模型架構(gòu)之外，研究與工程并進(jìn)且具有前沿突破性的研發(fā)任務(wù)，才是真正屬于模型訓(xùn)練內(nèi)核最為關(guān)鍵、能夠形成大模型技術(shù)護(hù)城河 know-how積累。
對(duì)于沿用LLaMA部分推理代碼經(jīng)實(shí)驗(yàn)更名后的疏忽，原始出發(fā)點(diǎn)是為了充分測(cè)試模型，并非刻意隱瞞來(lái)源，將盡速完成各開源社區(qū)的版本更新。

4、本土大模型的迷津難渡：套殼到底如何界定

其實(shí)這不是本土大模型首次被質(zhì)疑“套殼”。

不久前，外界對(duì)百川智能開源模型Baichuan-7B同樣提出了是否套殼LLaMa的質(zhì)疑。彼時(shí)，王小川表示，搜索公司干了20年，團(tuán)隊(duì)對(duì)語(yǔ)言數(shù)據(jù)有深入的理解，知道取得高質(zhì)量語(yǔ)料的渠道，模型迭代速度很快，“國(guó)內(nèi)開源模型的能力目前已經(jīng)可以達(dá)到LLaMa”。

那么到底什么是套殼，什么又是合理利用既有開源成果？眾所周知，固然選擇同一種架構(gòu)，用不同數(shù)據(jù)集訓(xùn)練出來(lái)的模型也會(huì)有所差別。不過(guò)，Yi此次引發(fā)的爭(zhēng)議的焦點(diǎn)在于其對(duì)于開源模型架構(gòu)的“魔改”命名。所以回歸事件本身，實(shí)質(zhì)還是一個(gè)“用了你的成果，卻換了你的牌子”的故事。

當(dāng)Yi-34B剛發(fā)布時(shí)，李開復(fù)在接受外媒TechCrunch采訪時(shí)曾說(shuō)，引入開源LLM作為零一萬(wàn)物首個(gè)產(chǎn)品的決定是“回饋”社會(huì)的一種方式。對(duì)于那些覺(jué)得LlaMA對(duì)他們來(lái)說(shuō)是“天賜之物”的人來(lái)說(shuō)，“我們提供了一個(gè)令人信服的選擇”。如今看來(lái)，到底能不能讓人信服，還是要留待時(shí)間的檢驗(yàn)了。

參考鏈接：

https://news.ycombinator.com/item?id=38258015

https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

https://techcrunch.com/2023/11/05/valued-at-1b-kai-fu-lees-llm-startup-unveils-open-source-model/

https://baijiahao.baidu.com/s?id=1782591118774975071

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

LlaMa 模型團(tuán)隊(duì)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="lcgak"><rp id="lcgak"></rp></cite>

<cite id="lcgak"><rp id="lcgak"><form id="lcgak"></form></rp></cite>

^{<blockquote id="lcgak"></blockquote>}