自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="o38jl"><cite id="o38jl"><rp id="o38jl"></rp></cite></xmp>

<sub id="o38jl"></sub>

^{<blockquote id="o38jl"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

模型訓練之數(shù)據(jù)集操作——矩陣變換原創(chuàng)

發(fā)布于 2025-3-5 11:26

瀏覽

0收藏

“ 在神經(jīng)網(wǎng)絡(luò)模型中，數(shù)據(jù)格式主要采用張量(tensor)來表示，而具體的載體就是多維數(shù)組(n>=1)，也就是多維矩陣?！?/strong>

對神經(jīng)網(wǎng)絡(luò)技術(shù)有所了解的人應(yīng)該都知道，要想訓練一個高性能的神經(jīng)網(wǎng)絡(luò)模型，除了神經(jīng)網(wǎng)絡(luò)本身的設(shè)計之外，還一個非常重要的前提就是數(shù)據(jù)集的質(zhì)量問題；因此，打造一個高質(zhì)量的數(shù)據(jù)集就是一個必不可少的過程。

但具體怎么才能開發(fā)一個合格的數(shù)據(jù)集，這時就離不開對數(shù)據(jù)集的各種操作；而由于在神經(jīng)網(wǎng)絡(luò)中，數(shù)據(jù)的主要載體是多維數(shù)組，也就是矩陣；因此一般情況下，數(shù)據(jù)集的數(shù)據(jù)格式也會以矩陣的形式存在。

而學會對矩陣的操作就是一個必不可少的技能之一；下面我們就以MINST數(shù)據(jù)集為例，來簡單介紹一下對數(shù)據(jù)集的操作過程。

數(shù)據(jù)集操作

MINST數(shù)據(jù)集是一個經(jīng)典的數(shù)據(jù)集，其內(nèi)容是一個手寫數(shù)字識別的數(shù)據(jù)集；對學習神經(jīng)網(wǎng)絡(luò)技術(shù)的人來說，手寫數(shù)字識別就相當于編程入門中的Hello World。

因此，了解MINST數(shù)據(jù)集也是學習神經(jīng)網(wǎng)絡(luò)技術(shù)的入門課程之一。

關(guān)于MINST數(shù)據(jù)集的下載方式，基本有兩種選擇；一種是自己手動下載，另一種是從pytorch官網(wǎng)下載，使用PyTorch的數(shù)據(jù)集API即可下載。

from torchvision import datasets
# 執(zhí)行以下代碼即可從pytorch官網(wǎng)下載minst數(shù)據(jù)集到本地data目錄
datasets.MNIST(root='data', train=True, download=True)

MINST數(shù)據(jù)集主要有四個壓縮文件組成，分別由train開頭的圖片數(shù)據(jù)(images)和標簽數(shù)據(jù)(labels)；以及t10k開頭的測試圖片數(shù)據(jù)(t10k-images)和標簽數(shù)據(jù)(t10k-labels)組成。

MNIST數(shù)據(jù)集的具體內(nèi)容是由0?9手寫數(shù)字圖片和數(shù)字標簽所組成的，由60000個訓練樣本和10000個測試樣本組成，每個樣本都是一張28 * 28像素的灰度手寫數(shù)字圖片。如下圖所示。

由于下載的MINST數(shù)據(jù)集文件是已經(jīng)處理好的矩陣格式，并且用二進制格式存儲，因此無法直接使用文本工具打開。

而我們可以使用python提供的numpy工具包，或者pytorch提供的工具包來讀取數(shù)據(jù)。

import numpy as np
import gzip


with gzip.open("./MNIST/train-images-idx3-ubyte.gz", 'rb') as f:    
  x_train = np.frombuffer(f.read(), np.uint8, offset=16)    
  print("MINST數(shù)據(jù)集信息打印, 數(shù)據(jù)集內(nèi)容：%s， 類型: %s, 長度: %s, 矩陣數(shù)據(jù)類型: %s, 形狀: %s, 大小：%s, 維度: %s" % (x_train, type(x_train), len(x_train), x_train.dtype, x_train.shape, x_train.size, x_train.ndim))

以上代碼輸出結(jié)果如下，可以明顯看出讀取結(jié)果是一個一維數(shù)組；并且長度為47040000；不是說數(shù)據(jù)集是六萬個28*28的手寫數(shù)字圖片嗎？為什么會是一個47040000長度的一維數(shù)組。

原因就在于此數(shù)據(jù)集是經(jīng)過處理之后的數(shù)據(jù)集，為了存儲方便使用一維數(shù)組最簡單；因此，在使用過程中需要把數(shù)據(jù)變換成一個三維矩陣，也就是升維的操作；47040000 / (28 * 28) = 60000。

import numpy as np
import gzip
with gzip.open("./MNIST/train-images-idx3-ubyte.gz", 'rb') as f:
    x_train = np.frombuffer(f.read(), np.uint8, offset=16)
    print("MINST數(shù)據(jù)集信息打印, 數(shù)據(jù)集內(nèi)容：%s， 類型: %s, 長度: %s, 矩陣數(shù)據(jù)類型: %s, 形狀: %s, 大小：%s, 維度: %s" % (x_train, type(x_train), len(x_train),
        x_train.dtype, x_train.shape, x_train.size, x_train.ndim))    
    # 矩陣變換
    x_train = x_train.reshape(-1, 28, 28)
    print("MINST數(shù)據(jù)集信息變換之后打印, 數(shù)據(jù)集內(nèi)容：%s， 類型: %s, 長度: %s, 矩陣數(shù)據(jù)類型: %s, 形狀: %s, 大小：%s, 維度: %s" % (    x_train, type(x_train), len(x_train),    x_train.dtype, x_train.shape, x_train.size, x_train.ndim))

結(jié)果如下圖所示：

經(jīng)過變換之后，打印矩陣并顯示圖片：

import numpy as np
import gzip
from PIL import Image
with gzip.open("./MNIST/train-images-idx3-ubyte.gz", 'rb') as f:
    x_train = np.frombuffer(f.read(), np.uint8, offset=16)    
    print("MINST數(shù)據(jù)集信息打印, 數(shù)據(jù)集內(nèi)容：%s， 類型: %s, 長度: %s, 矩陣數(shù)據(jù)類型: %s, 形狀: %s, 大?。?s, 維度: %s" % (x_train, type(x_train), len(x_train),          x_train.dtype, x_train.shape, x_train.size, x_train.ndim))    
    x_train = x_train.reshape(-1, 28, 28)    
    print("MINST數(shù)據(jù)集信息變換之后打印, 數(shù)據(jù)集內(nèi)容：%s， 類型: %s, 長度: %s, 矩陣數(shù)據(jù)類型: %s, 形狀: %s, 大?。?s, 維度: %s" % (    x_train, type(x_train), len(x_train),    x_train.dtype, x_train.shape, x_train.size, x_train.ndim))    
    print(len(x_train), x_train[0])    
    # 轉(zhuǎn)換為圖片 并顯示    
    pil_img = Image.fromarray(np.uint8(x_train[0]))    
    pil_img.show()

執(zhí)行以上代碼用戶即可輸出手寫數(shù)字圖片。

本文轉(zhuǎn)載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/IkJanjvu0FleRNvItVQDkg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽
神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)

贊

收藏

回復

分享

微博

QQ

微信

舉報
舉報

微信掃碼分享

刪除帖子
刪除取消

回復

相關(guān)推薦

HuggingFace放出規(guī)模最大、質(zhì)量最高預訓練數(shù)據(jù)集

duhorse ? 2788瀏覽 ? 0回復
ChemBench：大語言模型化學能力評測數(shù)據(jù)集

戀戀青鳥 ? 3867瀏覽 ? 0回復
沒有標記數(shù)據(jù)集，如何做大模型指令微調(diào)？介紹一款有潛力的標記數(shù)據(jù)集生成模型

Syrupup ? 4876瀏覽 ? 0回復
LLM 預訓練語料、預處理和數(shù)據(jù)集索引、加載總結(jié)

amei2000go ? 5418瀏覽 ? 0回復
大模型的核心之一——大模型預訓練之數(shù)據(jù)預處理

AI探索時代 ? 4194瀏覽 ? 0回復
大模型訓練核心算法之——反向傳播算法

AI探索時代 ? 3155瀏覽 ? 0回復
基于自定義數(shù)據(jù)集的YOLOv8模型實戰(zhàn)

51CTO內(nèi)容精選 ? 3081瀏覽 ? 0回復
Ai2開源OLMo 2：數(shù)據(jù)集、訓練方法、權(quán)重大放送

Aceryt ? 1920瀏覽 ? 0回復
優(yōu)雅談大模型：神經(jīng)網(wǎng)絡(luò)與矩陣

魯班模錘1 ? 1933瀏覽 ? 0回復
英偉達NVLM多模態(tài)大模型細節(jié)和數(shù)據(jù)集

大模型自然語言處理 ? 2226瀏覽 ? 0回復
一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘：訓練數(shù)據(jù)的來源、版權(quán)與地域差異

sbf_2000 ? 2002瀏覽 ? 0回復
大模型訓練之訓練數(shù)據(jù)準備，即怎么準備高質(zhì)量的訓練數(shù)據(jù)集？

AI探索時代 ? 3002瀏覽 ? 0回復
機器學習|從0開始大模型之模型DPO訓練

周末程序猿 ? 1830瀏覽 ? 0回復
模型訓練前置處理之——數(shù)據(jù)預處理

AI探索時代 ? 1575瀏覽 ? 0回復
怎么自定義一個數(shù)據(jù)集？自定義數(shù)據(jù)集面臨哪些問題？

AI探索時代 ? 1580瀏覽 ? 0回復
自己打包一個數(shù)據(jù)集代碼案例——使用Numpy計算框架自定義一個類似MINST的數(shù)據(jù)集

AI探索時代 ? 1474瀏覽 ? 0回復
媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數(shù)據(jù)集大公開

Aceryt ? 955瀏覽 ? 0回復
英偉達開源15T數(shù)據(jù)集：32萬個機器人訓練軌跡

Aceryt ? 1199瀏覽 ? 0回復
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓練方法、訓練數(shù)據(jù)淺析

大模型自然語言處理 ? 1007瀏覽 ? 0回復

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復
王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復
Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復
Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復
只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：再談什么是神經(jīng)網(wǎng)絡(luò)，透過現(xiàn)象看本質(zhì)

下一篇：怎么實現(xiàn)一個神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)的組成結(jié)構(gòu)

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷