自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="7nqwy"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

「非常接近GPT-4」的WizardLM-2被微軟緊急撤回，有什么內(nèi)幕？

作者：機器之心 2024-04-30 12:35:10

人工智能新聞

據(jù)現(xiàn)在可以查到的 WizardLM-2 發(fā)布信息，這是一個「真正媲美 GPT-4」的開源大模型，在復雜聊天、多語言、推理和代理方面的性能得到了提高。

前段時間，微軟搞了個烏龍：隆重地開源了 WizardLM-2，又在不久后撤回得干干凈凈。

據(jù)現(xiàn)在可以查到的 WizardLM-2 發(fā)布信息，這是一個「真正媲美 GPT-4」的開源大模型，在復雜聊天、多語言、推理和代理方面的性能得到了提高。

該系列包括三個模型：WizardLM-2 8x22B、WizardLM-2 70B 和 WizardLM-2 7B。其中：

WizardLM-2 8x22B 是最先進的模型，也是對高度復雜任務進行內(nèi)部評估后得出的最佳開源 LLM。
WizardLM-2 70B 具備頂級推理能力，是同等規(guī)模的首選；
WizardLM-2 7B 是速度最快的，其性能可與現(xiàn)有的 10 倍大的開源領先模型相媲美。

此外，通過人類偏好評估，WizardLM-28x22B 的能力「只是稍微落后于 GPT-4-1106 預覽版，但明顯強于 CommandRPlus 和 GPT4-0314?！?/span>

它會和 LLaMa 3 一樣，成為又一開源里程碑嗎？

當大家忙著下載模型的時候，團隊卻突然撤回了一切：博客、GitHub、HuggingFace 全部 404。

圖源：https://wizardlm.github.io/WizardLM2/

團隊的解釋是：

所有 Huggingface 的朋友們，大家好！很抱歉，我們刪除了模型。我們已經(jīng)有一段時間沒有發(fā)布幾個月前的模型了，所以我們現(xiàn)在不熟悉新的發(fā)布流程：我們不小心遺漏了模型發(fā)布流程中的一個必要項目 — 毒性測試。這是目前所有新模型都需要完成的一個步驟。

我們目前正在快速完成這項測試，然后將盡快重新發(fā)布我們的模型。不用擔心，感謝關心和理解。

但 AI 社區(qū)對 WizardLM-2 的關注和討論沒有停止，疑點有幾個：

第一，被刪掉的開源項目不只是 WizardLM-2，該團隊所有的 Wizard 系列工作都不見了，包括此前的 WizardMath 和 WizardCoder。

第二，有人質(zhì)疑，刪除模型權重的同時，為何連博客也刪除呢？如果是只是缺少測試部分，沒必要撤回得干干凈凈。

團隊的解釋是：「根據(jù)相關規(guī)定?！咕唧w什么規(guī)定？目前沒人知道。

第三，還有人猜測 WizardLM 背后的團隊已經(jīng)被解雇，撤回 Wizard 系列項目也是被迫的。

不過，這種猜測被團隊否認了：

圖源：https://x.com/_Mira___Mira_/status/1783716276944486751

圖源：https://x.com/DavidFSWD/status/1783682898786152470

而且我們現(xiàn)在搜索作者的名字，也并沒有從微軟官網(wǎng)中完全消失：

圖源：https://www.microsoft.com/en-us/research/people/qins/

第四，有人猜測，微軟撤回這個開源模型，一是因為性能過于接近 GPT-4，二是因為和 OpenAI 的技術路線「撞車」了。

具體是什么路線呢？我們可以看一下當初博客頁面的技術細節(jié)。

團隊表示，通過 LLM 訓練，自然界中人類生成的數(shù)據(jù)日益枯竭，而 AI 精心創(chuàng)建的數(shù)據(jù)和 AI Step-by-Step 監(jiān)督的模型將是通往更強大 AI 的唯一途徑。

過去的一年里，微軟團隊建立了一個完全由人工智能驅(qū)動的合成訓練系統(tǒng)，如下圖所示。

大概分為幾個版塊：

數(shù)據(jù)預處理：

數(shù)據(jù)分析：使用這個 pipeline 來獲得新源數(shù)據(jù)的不同屬性的分布，這有助于對數(shù)據(jù)有一個初步的了解。
加權采樣：最佳訓練數(shù)據(jù)的分布往往與人類聊天語料的自然分布不一致，需要根據(jù)實驗經(jīng)驗調(diào)整訓練數(shù)據(jù)中各屬性的權重。

Evol Lab：

Evol-Instruct：投入了大量精力重新評估了最初 Evol-Instruct 方法中存在的各種問題，并對其進行了初步修改，新方法能讓各種智能體自動生成高質(zhì)量的指令。
Evol-Answer：引導模型多次生成和重寫回復，可以提高其邏輯性、正確性和親和力。

AI Align AI（AAA）：

協(xié)同教學：收集 WizardLM 和各種授權開源和專有的最先進模型，然后讓它們協(xié)同教學并相互提高，教學內(nèi)容包括模擬聊天、質(zhì)量評判、改進建議和縮小技能差距等。
Self-Teaching：WizardLM 可以通過激活學習，為監(jiān)督學習生成新的進化訓練數(shù)據(jù)，為強化學習生成偏好數(shù)據(jù)。

學習：

監(jiān)督學習。
階段 - DPO：為了更有效地進行離線強化學習，將優(yōu)選數(shù)據(jù)分割成不同的片段，并逐級改進模型。
RLEIF：采用指令質(zhì)量獎勵模型（IRM）與過程監(jiān)督獎勵模型（PRM）相結合的方法，使得在線強化學習中實現(xiàn)更精確的正確性。

最后要說的是，任何猜測都是徒勞的，讓我們期待一下 WizardLM-2 的復出吧。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="sn0yk"></cite>

<style id="sn0yk"></style>