自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

未來已來：數(shù)據(jù)如何驅(qū)動AI大模型的競爭

作者：MobotStone 2023-06-27 06:42:53

數(shù)據(jù)是AI模型的"燃料"，未來AI大模型的競爭，無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此，對數(shù)據(jù)的投入和利用，將決定中國在全球AI競賽中的地位和成績。

隨著人工智能的迅猛發(fā)展，高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。以大型語言模型為例，近年來的飛躍式進(jìn)展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2，GPT-3在模型架構(gòu)上的改變微乎其微，更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。例如，ChatGPT與GPT-3的模型架構(gòu)類似，但使用了RLHF（來自人工反饋過程的強(qiáng)化學(xué)習(xí)）來生成用于微調(diào)的高質(zhì)量標(biāo)注數(shù)據(jù)。

認(rèn)識到這一現(xiàn)象，人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運(yùn)動，這是一種新的理念，它主張?jiān)谀Ｐ图軜?gòu)相對固定的前提下，通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個(gè)模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。因此，未來在大模型開發(fā)中，數(shù)據(jù)成本（包括數(shù)據(jù)采集、清洗、標(biāo)注等成本）所占的比例可能會逐步提高。

AI大模型需要的數(shù)據(jù)集應(yīng)具備以下特性：

（1）高質(zhì)量：高質(zhì)量的數(shù)據(jù)集可以提高模型的精度和可解釋性，同時(shí)縮短模型收斂到最優(yōu)解的時(shí)間，也就是訓(xùn)練時(shí)長。

（2）大規(guī)模：在《Scaling Laws for Neural Language Models》一文中，OpenAI提出了LLM模型的"伸縮法則"，即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?；蜓娱L模型訓(xùn)練時(shí)間，預(yù)訓(xùn)練模型的效果會持續(xù)提升。

（3）多樣性：數(shù)據(jù)的多樣性有助于提高模型的泛化能力，過于單一的數(shù)據(jù)可能會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)集的生成與處理

數(shù)據(jù)集的建立流程主要包括以下步驟：

數(shù)據(jù)采集：數(shù)據(jù)采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數(shù)據(jù)采集常用的方式有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及ETL。
數(shù)據(jù)清洗：因?yàn)椴杉降臄?shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題，數(shù)據(jù)清洗就顯得尤為重要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié)，清洗后的數(shù)據(jù)質(zhì)量在很大程度上決定了AI算法的有效性。
數(shù)據(jù)標(biāo)注：這是流程中最重要的一個(gè)環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求，將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個(gè)標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點(diǎn)要求，一個(gè)標(biāo)注任務(wù)將會分配給多個(gè)標(biāo)注員完成。
模型訓(xùn)練：模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型。
模型測試：測試人員進(jìn)行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員，模型訓(xùn)練人員通過不斷地調(diào)整參數(shù)，以便獲得性能更好的算法模型。
產(chǎn)品評估：產(chǎn)品評估人員需要反復(fù)驗(yàn)證模型的標(biāo)注效果，并對模型是否滿足上線目標(biāo)進(jìn)行評估。只有經(jīng)過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。

然而，盡管中國的數(shù)據(jù)資源豐富，但由于數(shù)據(jù)挖掘不足，數(shù)據(jù)無法在市場上自由流通等因素，導(dǎo)致優(yōu)質(zhì)的中文數(shù)據(jù)集仍然稀缺。據(jù)統(tǒng)計(jì)，ChatGPT的訓(xùn)練數(shù)據(jù)中，中文資料的比重不足千分之一，而英文資料占比超過92.6%。此外，加利福尼亞大學(xué)和Google研究機(jī)構(gòu)的研究發(fā)現(xiàn)，目前機(jī)器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集有50%是由12家頂級機(jī)構(gòu)提供，其中10家為美國機(jī)構(gòu)，1家為德國機(jī)構(gòu)，只有1家機(jī)構(gòu)來自中國，即香港中文大學(xué)。

我們認(rèn)為，國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因主要有以下幾點(diǎn)：

高質(zhì)量數(shù)據(jù)集需要巨大的資金投入，但目前國內(nèi)對數(shù)據(jù)挖掘和數(shù)據(jù)治理的投入不足。
國內(nèi)相關(guān)公司往往缺乏開源意識，導(dǎo)致數(shù)據(jù)無法在市場上自由流通。
國內(nèi)相關(guān)公司成立較晚，數(shù)據(jù)積累相對于國外公司要少。
在學(xué)術(shù)領(lǐng)域，中文數(shù)據(jù)集的重視程度低。
國產(chǎn)數(shù)據(jù)集的市場影響力和普及度相對較低。

目前，國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要通過公開數(shù)據(jù)和自身特有數(shù)據(jù)來訓(xùn)練大模型。例如，百度的“文心”大模型使用的特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù)，數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里的“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院。騰訊的“混元”大模型的特有訓(xùn)練數(shù)據(jù)主要來自微信公眾號、微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為的“盤古”大模型的訓(xùn)練數(shù)據(jù)，除了公開數(shù)據(jù)，還有B端行業(yè)數(shù)據(jù)加持，包括氣象、礦山、鐵路等行業(yè)數(shù)據(jù)。商湯的“日日新”模型的訓(xùn)練數(shù)據(jù)中，包括了自行生成的Omni Objects 3D多模態(tài)數(shù)據(jù)集。

中國的數(shù)據(jù)環(huán)境和未來

盡管現(xiàn)狀尚有不足，但中國的數(shù)據(jù)環(huán)境仍有巨大的潛力。首先，中國是全球最大的互聯(lián)網(wǎng)用戶群體，日產(chǎn)數(shù)據(jù)量巨大，為構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集提供了基礎(chǔ)。其次，中國政府對于AI和數(shù)據(jù)治理的重視，無論是政策支持還是資金投入，都為數(shù)據(jù)環(huán)境的改善和發(fā)展提供了有利條件。

未來，中國需要在以下幾個(gè)方面進(jìn)行努力：

建立數(shù)據(jù)采集和清洗系統(tǒng)：建立一套完整的數(shù)據(jù)采集和清洗系統(tǒng)，確保數(shù)據(jù)的質(zhì)量和有效性，為后續(xù)的模型訓(xùn)練提供可靠的數(shù)據(jù)基礎(chǔ)。
提高公開數(shù)據(jù)的可獲取性和使用性：鼓勵公司、研究機(jī)構(gòu)等公開數(shù)據(jù)，讓數(shù)據(jù)在市場中自由流通，從而提高數(shù)據(jù)的可獲取性和使用性。
加大數(shù)據(jù)標(biāo)注投入：通過提高標(biāo)注效率和質(zhì)量，降低標(biāo)注成本，從而獲取更多、更高質(zhì)量的標(biāo)注數(shù)據(jù)。
培養(yǎng)更多的數(shù)據(jù)科學(xué)家和AI工程師：通過教育和培訓(xùn)，增加數(shù)據(jù)科學(xué)家和AI工程師的數(shù)量和素質(zhì)，以推動中國的AI研究和應(yīng)用。
加強(qiáng)國內(nèi)外的數(shù)據(jù)合作：通過數(shù)據(jù)合作，借鑒國外的成功經(jīng)驗(yàn)，改進(jìn)數(shù)據(jù)的采集、處理、使用等方面的技術(shù)和方法，以提升中國數(shù)據(jù)的質(zhì)量和價(jià)值。

數(shù)據(jù)是AI模型的"燃料"，未來AI大模型的競爭，無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此，對數(shù)據(jù)的投入和利用，將決定中國在全球AI競賽中的地位和成績。

責(zé)任編輯：姜華來源：今日頭條

AI模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="wtjge"><i id="wtjge"><video id="wtjge"></video></i></blockquote>

<sub id="wtjge"></sub>

<blockquote id="wtjge"><rt id="wtjge"></rt></blockquote>