自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

神經(jīng)網(wǎng)絡(luò)的兩個(gè)重難點(diǎn)之一，數(shù)據(jù)處理和模型設(shè)計(jì) 原創(chuàng)

AI探索時(shí)代

發(fā)布于 2025-3-17 13:01

瀏覽

0收藏

“ 數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代的石油，而數(shù)據(jù)處理是人工智能的基礎(chǔ)。”

神經(jīng)網(wǎng)絡(luò)準(zhǔn)確的說(shuō)是人工智能技術(shù)，目前存在兩個(gè)比較重要的難點(diǎn)，數(shù)據(jù)和模型；模型作為人工智能的基礎(chǔ)，其重要性就不言而喻了；而作為互聯(lián)網(wǎng)界的石油，很多人卻忽略了數(shù)據(jù)的重要意義以及其處理手段。

目前人工智能應(yīng)用面臨著兩個(gè)主要問(wèn)題，其一是模型的設(shè)計(jì)問(wèn)題，簡(jiǎn)單來(lái)說(shuō)就是架構(gòu)和算法問(wèn)題；其次，就是數(shù)據(jù)問(wèn)題，人工智能在垂直領(lǐng)域內(nèi)的應(yīng)用需要高質(zhì)量的數(shù)據(jù)做支撐。

從技術(shù)的角度來(lái)說(shuō)，模型的架構(gòu)和算法的發(fā)展需要大量的科研投入，包括技術(shù)，資金，人力等多方面的投入；一般中小企業(yè)很難搞得起來(lái)。對(duì)中小企業(yè)來(lái)說(shuō)最好的選擇就是，基于現(xiàn)有的開源模型和模型服務(wù)商提供的通用模型做微調(diào)和訓(xùn)練，因此這時(shí)數(shù)據(jù)才應(yīng)該是大部分企業(yè)需要關(guān)注的問(wèn)題，這也是人工智能應(yīng)用的難點(diǎn)與重點(diǎn)。

神經(jīng)網(wǎng)絡(luò)的兩個(gè)重難點(diǎn)之一，數(shù)據(jù)處理和模型設(shè)計(jì)-AI.x社區(qū)

數(shù)據(jù)處理

從流程上來(lái)說(shuō)，數(shù)據(jù)處理有著固定的基本步驟，主要包括以下幾個(gè)大的方面：

任務(wù)目標(biāo)
數(shù)據(jù)收集
數(shù)據(jù)處理
數(shù)據(jù)質(zhì)檢

任務(wù)目標(biāo)

首先明確了任務(wù)目標(biāo)，你才能知道你需要什么樣的數(shù)據(jù)，為后續(xù)的數(shù)據(jù)準(zhǔn)備做好規(guī)劃；比如數(shù)據(jù)來(lái)源，數(shù)據(jù)量，數(shù)據(jù)類型，數(shù)據(jù)結(jié)構(gòu)等等。

數(shù)據(jù)收集

如果說(shuō)數(shù)據(jù)處理是AI技術(shù)的基礎(chǔ)，那么數(shù)據(jù)收集就是數(shù)據(jù)處理的基礎(chǔ)；要想處理數(shù)據(jù)首先需要收集數(shù)據(jù)，那么數(shù)據(jù)從哪來(lái)就是一個(gè)問(wèn)題。

而常見的數(shù)據(jù)收集方式有，使用爬蟲技術(shù)從網(wǎng)絡(luò)中爬取需要的數(shù)據(jù)；其次，使用企業(yè)內(nèi)部數(shù)據(jù)，如企業(yè)介紹，文化，管理制度，經(jīng)營(yíng)數(shù)據(jù)等；還有可以通過(guò)從數(shù)據(jù)服務(wù)商那里購(gòu)買數(shù)據(jù)。

神經(jīng)網(wǎng)絡(luò)的兩個(gè)重難點(diǎn)之一，數(shù)據(jù)處理和模型設(shè)計(jì)-AI.x社區(qū)

數(shù)據(jù)來(lái)源渠道：

爬蟲技術(shù)
內(nèi)部數(shù)據(jù)
購(gòu)買數(shù)據(jù)

當(dāng)然，數(shù)據(jù)收集的大前提是一切都在合理合法的范圍內(nèi)進(jìn)行，而不能觸犯法律問(wèn)題。

數(shù)據(jù)處理

數(shù)據(jù)處理是整個(gè)數(shù)據(jù)處理流程中最復(fù)雜也是最麻煩的一個(gè)步驟；一般收集過(guò)來(lái)的數(shù)據(jù)存在很多各種各樣的問(wèn)題。

比如說(shuō)，數(shù)據(jù)只經(jīng)過(guò)簡(jiǎn)單分類，數(shù)據(jù)中存在很多的噪聲，無(wú)效數(shù)據(jù)以及空值等；因此，剛收集過(guò)來(lái)的數(shù)據(jù)需要經(jīng)過(guò)清洗之后才能進(jìn)行下一步使用。

其次，在模型的訓(xùn)練過(guò)程中，存在監(jiān)督訓(xùn)練和非簡(jiǎn)單訓(xùn)練；因此，需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注；比如說(shuō)哪些是汽車，哪些是人，哪些是積極的內(nèi)容，哪些是消極的內(nèi)容等等。

面對(duì)著復(fù)雜的數(shù)據(jù)來(lái)源和數(shù)據(jù)格式，數(shù)據(jù)處理面臨著各種各樣的問(wèn)題；雖然每家企業(yè)在數(shù)據(jù)處理的流程上不盡相同，但大都需要經(jīng)過(guò)以下幾個(gè)步驟：

數(shù)據(jù)清洗
數(shù)據(jù)標(biāo)注
數(shù)據(jù)預(yù)處理
格式變換統(tǒng)一
數(shù)據(jù)增強(qiáng)

只有這樣，我們才有可能打造一個(gè)高質(zhì)量的數(shù)據(jù)集供模型使用，而數(shù)據(jù)處理的難度隨著數(shù)據(jù)量的提升，其難度也同樣呈直線上升。畢竟，處理幾十M數(shù)據(jù)和處理幾十G和幾十T數(shù)據(jù)是不一樣的，其對(duì)計(jì)算性能，數(shù)據(jù)存儲(chǔ)，分布式計(jì)算等都有更高的要求。

神經(jīng)網(wǎng)絡(luò)的兩個(gè)重難點(diǎn)之一，數(shù)據(jù)處理和模型設(shè)計(jì)-AI.x社區(qū)

數(shù)據(jù)質(zhì)檢

數(shù)據(jù)質(zhì)檢就是對(duì)數(shù)據(jù)處理結(jié)果的驗(yàn)收，采用某種方式來(lái)驗(yàn)證數(shù)據(jù)的質(zhì)量和性能，以此來(lái)保證數(shù)據(jù)對(duì)模型的負(fù)面影響降到最低。

總之，數(shù)據(jù)處理是人工智能技術(shù)發(fā)展的重要前提之一，模型的性能和表現(xiàn)，一是依賴于模型本身，其次就是高質(zhì)量的數(shù)據(jù)集。而，人工智能要想滲透到各行各業(yè)，那么就需要大量的行業(yè)垂直數(shù)據(jù)做支撐。

因此，數(shù)據(jù)處理服務(wù)存在著巨大的市場(chǎng)前景和需要，特別是針對(duì)中小型企業(yè)，他們沒有大企業(yè)的技術(shù)實(shí)力和數(shù)據(jù)來(lái)源，因此數(shù)據(jù)的收集和處理是他們不得不面對(duì)的問(wèn)題。

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/SCqlNqvwGRXmmRfP4cAHxg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

神經(jīng)網(wǎng)絡(luò)

數(shù)據(jù)處理

模型設(shè)計(jì)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ICLR 2024 | 脈沖神經(jīng)網(wǎng)絡(luò)的meta架構(gòu)設(shè)計(jì)：?jiǎn)l(fā)下一代神經(jīng)形態(tài)芯片設(shè)計(jì)

laokugonggao ? 2882瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的通用訓(xùn)練流程

AI探索時(shí)代 ? 2401瀏覽 ? 0回復(fù)
你知道神經(jīng)網(wǎng)絡(luò)是怎么運(yùn)作的嗎？神經(jīng)網(wǎng)絡(luò)內(nèi)部原理解析

AI探索時(shí)代 ? 2274瀏覽 ? 0回復(fù)
大模型的核心之一——大模型預(yù)訓(xùn)練之數(shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 4209瀏覽 ? 0回復(fù)
時(shí)序預(yù)測(cè)數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 3766瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：神經(jīng)網(wǎng)絡(luò)與矩陣

魯班模錘1 ? 1950瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了！

人工智能訓(xùn)練營(yíng) ? 1644瀏覽 ? 0回復(fù)
Transformer編碼器與解碼器和神經(jīng)網(wǎng)絡(luò)之間的關(guān)系

AI探索時(shí)代 ? 1912瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)開發(fā)框架——PyTorch和架構(gòu)Transformer的區(qū)別和聯(lián)系

AI探索時(shí)代 ? 2482瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的？

AI探索時(shí)代 ? 1656瀏覽 ? 0回復(fù)
怎么學(xué)習(xí)設(shè)計(jì)和訓(xùn)練一個(gè)大模型——也就是神經(jīng)網(wǎng)絡(luò)？

AI探索時(shí)代 ? 1634瀏覽 ? 0回復(fù)
關(guān)于神經(jīng)網(wǎng)絡(luò)的輸入格式——數(shù)據(jù)集的處理，關(guān)于神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)說(shuō)明

AI探索時(shí)代 ? 1848瀏覽 ? 0回復(fù)
關(guān)于神經(jīng)網(wǎng)絡(luò)的一些思考與感受

AI探索時(shí)代 ? 1560瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了反向傳播詳解

人工智能訓(xùn)練營(yíng) ? 1872瀏覽 ? 0回復(fù)
從一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型開始

AI探索時(shí)代 ? 1548瀏覽 ? 0回復(fù)
怎么實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)的組成結(jié)構(gòu)

AI探索時(shí)代 ? 1560瀏覽 ? 0回復(fù)
不同神經(jīng)網(wǎng)絡(luò)之間的區(qū)別，僅僅只是網(wǎng)絡(luò)結(jié)構(gòu)的不同，明白了這個(gè)你才能知道應(yīng)該怎么學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

AI探索時(shí)代 ? 1590瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的每一層都是干嘛的？這才是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的核心

AI探索時(shí)代 ? 1456瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)RNN各層詳解及實(shí)例展示

人工智能訓(xùn)練營(yíng) ? 1633瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：在自然語(yǔ)言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？

下一篇：人工智能應(yīng)用最大的問(wèn)題是數(shù)據(jù)問(wèn)題，而不是技術(shù)問(wèn)題

社區(qū)精華內(nèi)容

目錄

<sub id="s8whp"></sub>