自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型訓(xùn)練數(shù)據(jù)的收集方式,以后企業(yè)最重要的資產(chǎn)不是廠房而是數(shù)據(jù) 原創(chuàng)

發(fā)布于 2024-7-5 07:55
瀏覽
0收藏

 大模型的本質(zhì),是一種能夠處理特定類(lèi)型任務(wù)的數(shù)學(xué)模型

現(xiàn)在大模型可以說(shuō)是人工智能的代表,但目前的大模型還只是一種基于數(shù)學(xué)逼近算法的概率統(tǒng)計(jì)模型。

因此,其需要大量的訓(xùn)練數(shù)據(jù)來(lái)讓模型學(xué)習(xí),找到其中的規(guī)律,然后就有了大模型。因此,也間接說(shuō)明了訓(xùn)練數(shù)據(jù)的重要性。

那么應(yīng)該怎么收集訓(xùn)練數(shù)據(jù)呢?

01、收集訓(xùn)練數(shù)據(jù)的渠道

馬云說(shuō):“二十一世紀(jì)是大數(shù)據(jù)時(shí)代,數(shù)據(jù)是一家企業(yè)最重要的生產(chǎn)資料”。

而在人工智能時(shí)代來(lái)臨的時(shí)候,數(shù)據(jù)果然成了重要的生成資料。大模型的訓(xùn)練成了實(shí)現(xiàn)人工智能的主要途徑,而數(shù)據(jù)的收集也成了重中之重。

其實(shí),說(shuō)到底數(shù)據(jù)的來(lái)源無(wú)非有兩種,第一種是自己的數(shù)據(jù),第二種是別人的數(shù)據(jù)。

大模型訓(xùn)練數(shù)據(jù)的收集方式,以后企業(yè)最重要的資產(chǎn)不是廠房而是數(shù)據(jù) -AI.x社區(qū)

但對(duì)很多企業(yè)來(lái)說(shuō),自身的數(shù)據(jù)還不足以維持大模型的訓(xùn)練;因此數(shù)據(jù)的收集主要集中在別人的數(shù)據(jù)上。

而別人的數(shù)據(jù)又分為幾種情況,第一種是人家的企業(yè)內(nèi)部數(shù)據(jù);第二種是網(wǎng)絡(luò)上公開(kāi)的數(shù)據(jù)。

人工智能聊天小程序,感興趣的可以點(diǎn)擊查看:

因此根據(jù)以上情況,收集數(shù)據(jù)的渠道無(wú)非以下幾種:

第一種在自己企業(yè)內(nèi)部收集數(shù)據(jù),比如多年來(lái)的企業(yè)經(jīng)營(yíng)的數(shù)據(jù)等。

第二種是收集網(wǎng)絡(luò)上公開(kāi)的數(shù)據(jù),但網(wǎng)絡(luò)上公開(kāi)的數(shù)據(jù)有的可以收集有的還是需要?jiǎng)e人的同意才行。

比如,弱智吧的數(shù)據(jù),抖音,公眾號(hào),小紅書(shū)等的內(nèi)容數(shù)據(jù);這些數(shù)據(jù)雖然網(wǎng)上都可以看得到,但你不能直接使用。

第三種是收集人家企業(yè)內(nèi)部的數(shù)據(jù),比如某某公司的運(yùn)營(yíng)數(shù)據(jù)等。

02、數(shù)據(jù)的收集方式

在前面說(shuō)了數(shù)據(jù)的重要性,以及數(shù)據(jù)的收集渠道,這里講一下收集數(shù)據(jù)的方式。

為什么要講這個(gè)?

是因?yàn)椴煌臄?shù)據(jù)有不同的收集方式,如果使用錯(cuò)誤的方法很可能造成違規(guī)操作,給企業(yè)帶來(lái)?yè)p失,嚴(yán)重的甚至?xí)コ曰始Z。

第一種數(shù)據(jù)收集渠道,最簡(jiǎn)單,成本最低,風(fēng)險(xiǎn)也最低。

因?yàn)樗械臇|西都是自己的,然后自己想怎么用就怎么用,只要?jiǎng)e做違法的事情,那么就可以合理的利用。

第二種收集別人的數(shù)據(jù),就需要注意了。一些公網(wǎng)上的公開(kāi)數(shù)據(jù),企業(yè)可以通過(guò)爬蟲(chóng)去獲取,這個(gè)合理合法。

大模型訓(xùn)練數(shù)據(jù)的收集方式,以后企業(yè)最重要的資產(chǎn)不是廠房而是數(shù)據(jù) -AI.x社區(qū)

但如果你用爬蟲(chóng)爬取其它企業(yè)的內(nèi)部數(shù)據(jù),或者導(dǎo)致人家的系統(tǒng)癱瘓,那么就是爬蟲(chóng)寫(xiě)的好,皇糧少不了。

還有一種就是購(gòu)買(mǎi)別人的數(shù)據(jù),但購(gòu)買(mǎi)別人的數(shù)據(jù)也不是可以隨便買(mǎi)。比如,企業(yè)的一些經(jīng)營(yíng)數(shù)據(jù)可以買(mǎi),但如果涉及到用戶(hù)信息和隱私,那么不論是買(mǎi)數(shù)據(jù)的還是賣(mài)數(shù)據(jù)的,都會(huì)去喝茶。

最后人工智能時(shí)代,機(jī)器學(xué)習(xí)的技術(shù)很重要,但數(shù)據(jù)處理的技術(shù)也同樣重要。沒(méi)有數(shù)據(jù),再?gòu)?qiáng)大的機(jī)器學(xué)習(xí)模型也沒(méi)有用武之地。

因此,人工智能時(shí)代,參與的不一定是懂得機(jī)器學(xué)習(xí)的,也需要懂得大數(shù)據(jù)處理技術(shù),和前后端開(kāi)發(fā)技術(shù)。因此,技術(shù)的根本價(jià)值在于使用,技術(shù)很重要,但技術(shù)的應(yīng)用更重要。

這就類(lèi)似于,美國(guó)的人工智能技術(shù)強(qiáng),中國(guó)的人工智能應(yīng)用強(qiáng)。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/9T-_17lZneG2bncNtinRoQ??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-7-5 12:57:33修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦