自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

未來已來:數(shù)據(jù)如何驅(qū)動AI大模型的競爭

人工智能
數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。

隨著人工智能的迅猛發(fā)展,高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。以大型語言模型為例,近年來的飛躍式進(jìn)展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2,GPT-3在模型架構(gòu)上的改變微乎其微,更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。例如,ChatGPT與GPT-3的模型架構(gòu)類似,但使用了RLHF(來自人工反饋過程的強(qiáng)化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)注數(shù)據(jù)。

認(rèn)識到這一現(xiàn)象,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運(yùn)動,這是一種新的理念,它主張?jiān)谀P图軜?gòu)相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個(gè)模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。因此,未來在大模型開發(fā)中,數(shù)據(jù)成本(包括數(shù)據(jù)采集、清洗、標(biāo)注等成本)所占的比例可能會逐步提高。

AI大模型需要的數(shù)據(jù)集應(yīng)具備以下特性:

(1)高質(zhì)量:高質(zhì)量的數(shù)據(jù)集可以提高模型的精度和可解釋性,同時(shí)縮短模型收斂到最優(yōu)解的時(shí)間,也就是訓(xùn)練時(shí)長。

(2)大規(guī)模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸縮法則",即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蜓娱L模型訓(xùn)練時(shí)間,預(yù)訓(xùn)練模型的效果會持續(xù)提升。

(3)多樣性:數(shù)據(jù)的多樣性有助于提高模型的泛化能力,過于單一的數(shù)據(jù)可能會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)集的生成與處理

數(shù)據(jù)集的建立流程主要包括以下步驟:

  • 數(shù)據(jù)采集:數(shù)據(jù)采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數(shù)據(jù)采集常用的方式有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及ETL。
  • 數(shù)據(jù)清洗:因?yàn)椴杉降臄?shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,數(shù)據(jù)清洗就顯得尤為重要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后的數(shù)據(jù)質(zhì)量在很大程度上決定了AI算法的有效性。
  • 數(shù)據(jù)標(biāo)注:這是流程中最重要的一個(gè)環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求,將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個(gè)標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點(diǎn)要求,一個(gè)標(biāo)注任務(wù)將會分配給多個(gè)標(biāo)注員完成。
  • 模型訓(xùn)練:模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型。
  • 模型測試:測試人員進(jìn)行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員,模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型。
  • 產(chǎn)品評估:產(chǎn)品評估人員需要反復(fù)驗(yàn)證模型的標(biāo)注效果,并對模型是否滿足上線目標(biāo)進(jìn)行評估。只有經(jīng)過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。

然而,盡管中國的數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,數(shù)據(jù)無法在市場上自由流通等因素,導(dǎo)致優(yōu)質(zhì)的中文數(shù)據(jù)集仍然稀缺。據(jù)統(tǒng)計(jì),ChatGPT的訓(xùn)練數(shù)據(jù)中,中文資料的比重不足千分之一,而英文資料占比超過92.6%。此外,加利福尼亞大學(xué)和Google研究機(jī)構(gòu)的研究發(fā)現(xiàn),目前機(jī)器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集有50%是由12家頂級機(jī)構(gòu)提供,其中10家為美國機(jī)構(gòu),1家為德國機(jī)構(gòu),只有1家機(jī)構(gòu)來自中國,即香港中文大學(xué)。

我們認(rèn)為,國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因主要有以下幾點(diǎn):

  • 高質(zhì)量數(shù)據(jù)集需要巨大的資金投入,但目前國內(nèi)對數(shù)據(jù)挖掘和數(shù)據(jù)治理的投入不足。
  • 國內(nèi)相關(guān)公司往往缺乏開源意識,導(dǎo)致數(shù)據(jù)無法在市場上自由流通。
  • 國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對于國外公司要少。
  • 在學(xué)術(shù)領(lǐng)域,中文數(shù)據(jù)集的重視程度低。
  • 國產(chǎn)數(shù)據(jù)集的市場影響力和普及度相對較低。

目前,國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要通過公開數(shù)據(jù)和自身特有數(shù)據(jù)來訓(xùn)練大模型。例如,百度的“文心”大模型使用的特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里的“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院。騰訊的“混元”大模型的特有訓(xùn)練數(shù)據(jù)主要來自微信公眾號、微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為的“盤古”大模型的訓(xùn)練數(shù)據(jù),除了公開數(shù)據(jù),還有B端行業(yè)數(shù)據(jù)加持,包括氣象、礦山、鐵路等行業(yè)數(shù)據(jù)。商湯的“日日新”模型的訓(xùn)練數(shù)據(jù)中,包括了自行生成的Omni Objects 3D多模態(tài)數(shù)據(jù)集。

中國的數(shù)據(jù)環(huán)境和未來

盡管現(xiàn)狀尚有不足,但中國的數(shù)據(jù)環(huán)境仍有巨大的潛力。首先,中國是全球最大的互聯(lián)網(wǎng)用戶群體,日產(chǎn)數(shù)據(jù)量巨大,為構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集提供了基礎(chǔ)。其次,中國政府對于AI和數(shù)據(jù)治理的重視,無論是政策支持還是資金投入,都為數(shù)據(jù)環(huán)境的改善和發(fā)展提供了有利條件。

未來,中國需要在以下幾個(gè)方面進(jìn)行努力:

  1. 建立數(shù)據(jù)采集和清洗系統(tǒng):建立一套完整的數(shù)據(jù)采集和清洗系統(tǒng),確保數(shù)據(jù)的質(zhì)量和有效性,為后續(xù)的模型訓(xùn)練提供可靠的數(shù)據(jù)基礎(chǔ)。
  2. 提高公開數(shù)據(jù)的可獲取性和使用性:鼓勵公司、研究機(jī)構(gòu)等公開數(shù)據(jù),讓數(shù)據(jù)在市場中自由流通,從而提高數(shù)據(jù)的可獲取性和使用性。
  3. 加大數(shù)據(jù)標(biāo)注投入:通過提高標(biāo)注效率和質(zhì)量,降低標(biāo)注成本,從而獲取更多、更高質(zhì)量的標(biāo)注數(shù)據(jù)。
  4. 培養(yǎng)更多的數(shù)據(jù)科學(xué)家和AI工程師:通過教育和培訓(xùn),增加數(shù)據(jù)科學(xué)家和AI工程師的數(shù)量和素質(zhì),以推動中國的AI研究和應(yīng)用。
  5. 加強(qiáng)國內(nèi)外的數(shù)據(jù)合作:通過數(shù)據(jù)合作,借鑒國外的成功經(jīng)驗(yàn),改進(jìn)數(shù)據(jù)的采集、處理、使用等方面的技術(shù)和方法,以提升中國數(shù)據(jù)的質(zhì)量和價(jià)值。

數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。

責(zé)任編輯:姜華 來源: 今日頭條
相關(guān)推薦

2021-02-05 07:06:03

AI人工智能

2018-01-16 20:14:37

OpenPOWERAIIBM

2021-10-14 23:05:34

運(yùn)營商區(qū)塊鏈數(shù)據(jù)

2021-05-10 09:40:02

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用

2023-07-04 09:48:10

AI模型

2019-09-03 14:53:11

醫(yī)療機(jī)器人智慧醫(yī)療

2020-09-06 08:23:36

技術(shù)人工智能5G

2024-02-05 22:13:50

C++C++20開發(fā)

2015-08-24 09:59:19

dt

2022-06-28 12:02:11

ClouderaCDP混合數(shù)據(jù)

2018-04-27 14:14:29

GMIC

2020-10-22 15:20:24

北理工智慧校園永洪科技

2019-11-11 16:19:39

人工智能

2015-10-19 13:16:57

能源互聯(lián)網(wǎng)

2014-05-21 16:03:45

敏捷網(wǎng)絡(luò)華為

2018-08-09 16:03:14

2025-04-01 09:54:09

AI算法大模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號