自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="6ekg4"></s>

<cite id="6ekg4"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

在自然語(yǔ)言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？原創(chuàng)

AI探索時(shí)代

發(fā)布于 2025-3-14 13:26

瀏覽

0收藏

“ 文本序列化是自然語(yǔ)言處理任務(wù)的前置條件，而文本序列化需要經(jīng)過(guò)分詞，構(gòu)建詞匯表和序列化的幾個(gè)步驟”

在神經(jīng)網(wǎng)絡(luò)或者說(shuō)在機(jī)器學(xué)習(xí)領(lǐng)域中，數(shù)據(jù)主要以向量的形式存在，表現(xiàn)形式為多維矩陣；但怎么把現(xiàn)實(shí)世界中的數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中是機(jī)器學(xué)習(xí)的一個(gè)前提。

而現(xiàn)實(shí)世界中的數(shù)據(jù)格式雖然多種多樣，但事實(shí)上無(wú)非以下幾種主要模態(tài)：

文字
圖片
視頻

但我們也知道，計(jì)算機(jī)只認(rèn)識(shí)數(shù)字，而不認(rèn)識(shí)文字和圖片；因此，就需要把這些數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)能夠識(shí)別的格式；而在神經(jīng)網(wǎng)絡(luò)模型中就是怎么把這些數(shù)據(jù)轉(zhuǎn)換為向量的格式。

簡(jiǎn)單來(lái)說(shuō)，就是把現(xiàn)實(shí)世界中的數(shù)據(jù)轉(zhuǎn)化為用多維矩陣進(jìn)行表示的過(guò)程。圖片是由多個(gè)像素點(diǎn)組成，因此天生的就可以用矩陣表示；但文字卻不同，處理起來(lái)要復(fù)雜得多。至于視頻，就是動(dòng)起來(lái)的多張圖片。

文本處理

在自然語(yǔ)言處理任務(wù)中，要想把文本數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中，需要經(jīng)過(guò)大概以下幾個(gè)步驟：

分詞
構(gòu)建詞匯表
文本序列化

但為什么自然語(yǔ)言處理需要經(jīng)過(guò)以下幾個(gè)步驟？下面來(lái)介紹一下每個(gè)步驟的作用：

分詞

在自然語(yǔ)言體系中，語(yǔ)義是以詞或句子的形態(tài)體現(xiàn)的；因此，我們就需要去理解詞或句子的意思；但眾所周知的是，以我們漢語(yǔ)為例常用的詞和字就幾千個(gè)；而我們生活中絕大部分的語(yǔ)義都是由重復(fù)的字和詞組成的。

因此，從效率的角度來(lái)講，我們不可能把每個(gè)句子的語(yǔ)義都記下來(lái)；我們需要的是找到其中常用的字和詞，然后通過(guò)類似排列組合的方式組合成一個(gè)個(gè)句子。

在自然語(yǔ)言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？-AI.x社區(qū)

所以，自然語(yǔ)言處理的第一步就是分詞；也就是說(shuō)通過(guò)某種方式把句子中相同的字或詞挑出來(lái)，組成一個(gè)字詞列表。而常用的分詞技術(shù)根據(jù)不同的語(yǔ)言又有不同的實(shí)現(xiàn)方式；比如說(shuō)在英語(yǔ)體系中，很多時(shí)候每個(gè)單詞就表示單獨(dú)的意思；因此最簡(jiǎn)單的分詞方式就是把每個(gè)不同的單詞都找出來(lái)。

但在漢語(yǔ)言中，由于存在多音字，成語(yǔ)等具有復(fù)雜語(yǔ)言的形態(tài)；因此，漢語(yǔ)分詞就不能使用找不同字的形式。

因此，分詞的難點(diǎn)是怎么對(duì)文本數(shù)據(jù)進(jìn)行拆分，但又不會(huì)影響到詞語(yǔ)本身對(duì)意思。

詞匯表

理解了什么是分詞，以及為什么要分詞，那么再理解詞匯表就很簡(jiǎn)單了；對(duì)句子進(jìn)行分詞之后，就獲取到了一個(gè)字和詞的列表；因此就可以根據(jù)這個(gè)列表來(lái)構(gòu)建詞匯表，變成讓計(jì)算機(jī)可以處理的數(shù)字格式。

學(xué)過(guò)計(jì)算機(jī)原理的應(yīng)該都知道，計(jì)算機(jī)無(wú)法直接處理文字，因此文字在計(jì)算機(jī)中是通過(guò)編碼的方式來(lái)實(shí)現(xiàn)的；比如說(shuō)大名鼎鼎的ASCII碼表，就是用八位二進(jìn)制表示的。

在自然語(yǔ)言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？-AI.x社區(qū)

而ASCII碼表本質(zhì)上就是一個(gè)字典結(jié)構(gòu)，即使用K-V的形式來(lái)表示字符；需要計(jì)算機(jī)處理時(shí)就使用二進(jìn)制表示，需要現(xiàn)實(shí)給人看時(shí)就使用字符表示；而詞匯表就是類似ASCII碼表的形式，把字或詞作為K，把數(shù)字作為V。

這樣一個(gè)數(shù)字就可以代表一個(gè)字或詞；這樣就可以讓計(jì)算機(jī)處理。

在詞匯表中有兩個(gè)比較特殊的詞匯，那就是UNK和PAD；我們知道常用的漢字只有幾千個(gè)，但實(shí)際上的漢字有上萬(wàn)個(gè)；因此，我們根據(jù)文本數(shù)據(jù)的內(nèi)容，可能并不能獲取到所有的漢字；因此遇到“沒(méi)見(jiàn)過(guò)”的漢字該怎么辦呢，這時(shí)就使用UNK來(lái)表示。

而在矩陣計(jì)算中，需要的是相同的矩陣形式；比如說(shuō)需要5*5的固定矩陣；但在自然語(yǔ)言中，每個(gè)句子的長(zhǎng)度都不一樣；短的可能就一兩個(gè)字，長(zhǎng)的可能有幾十個(gè)字；這時(shí)變換的矩陣維度就不在相同。

dict = {    "UNK_TAG": 0,    "PAD_TAG": 1}

因此，就可以使用PAD對(duì)文字比較少的句子進(jìn)行補(bǔ)充；而對(duì)文字比較長(zhǎng)的句子進(jìn)行截取。

文本序列化

在經(jīng)過(guò)分詞和構(gòu)建詞匯表之后，就可以對(duì)文本進(jìn)行序列化；在自然語(yǔ)言處理任務(wù)中，文本需要轉(zhuǎn)換為編碼的數(shù)字進(jìn)行表示；也就是把文字變成數(shù)字表示。

dict_1 = {    "UNK_TAG": 0,    "PAD_TAG": 1}


dict_2 = {    0: "UNK_TAG",    1: "PAD_TAG"}

所以就有了一個(gè)從文字變成數(shù)字和從數(shù)字變成文字的過(guò)程；本質(zhì)上其實(shí)就是在詞匯表中，根據(jù)文本獲取其編碼的數(shù)字，以及根據(jù)編碼的數(shù)字獲取文字。

文本序列化最重要的一步，就是把數(shù)字表示的句子轉(zhuǎn)換成向量表示，也就是多維矩陣；而這就需要通過(guò)one-hot或者word embedding的方式來(lái)進(jìn)行序列化。

但是在使用word embedding之前，需要把句子的數(shù)字列表轉(zhuǎn)換為tensor格式。

# 將句子列表轉(zhuǎn)換為tensor
sentences_tensor = torch.tensor(sentences, dtype=torch.long)
# 定義 Embedding 層
embedding = nn.Embedding(vocab_size, embedding_dim)
# 通過(guò) Embedding 層
embedded_sentences = embedding(sentences_tensor)

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/T4IqbK2S9IsjgJuxPMeZmg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

自然語(yǔ)言處理

文本序列化

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

【深度解析】自然語(yǔ)言生成中的“幻覺(jué)”現(xiàn)象

zhcs333 ? 3704瀏覽 ? 0回復(fù)
Advanced RAG 07：在 RAG 系統(tǒng)中進(jìn)行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 4913瀏覽 ? 0回復(fù)
微軟發(fā)布Florence-2：用于處理各種視覺(jué)任務(wù)的小模型

AIGC最前線 ? 3912瀏覽 ? 0回復(fù)
基于Llama 3和LangChain，使用自然語(yǔ)言進(jìn)行SQL查詢

小虎哦哦 ? 4411瀏覽 ? 0回復(fù)
大語(yǔ)言模型在不同自然語(yǔ)言處理任務(wù)中的提示工程方法綜述

sbf_2000 ? 3028瀏覽 ? 0回復(fù)
Advanced RAG 11：對(duì)用戶輸入的內(nèi)容進(jìn)行「分類處理」和「再優(yōu)化」

Baihai_IDP ? 2181瀏覽 ? 0回復(fù)
WordLlama：一個(gè)開(kāi)源、快速、輕量級(jí)（16MB）的自然語(yǔ)言處理工具包！

Halo咯咯 ? 3066瀏覽 ? 0回復(fù)
掌握BERT：自然語(yǔ)言處理（NLP）從初級(jí)到高級(jí)的綜合指南

石映飛云 ? 2224瀏覽 ? 0回復(fù)
面向語(yǔ)音控制前端應(yīng)用程序的自然語(yǔ)言處理（NLP）：架構(gòu)、進(jìn)展與未來(lái)方向

51CTO內(nèi)容精選 ? 1988瀏覽 ? 0回復(fù)
關(guān)于神經(jīng)網(wǎng)絡(luò)的輸入格式——數(shù)據(jù)集的處理，關(guān)于神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)說(shuō)明

AI探索時(shí)代 ? 1840瀏覽 ? 0回復(fù)
深入探究編碼器 - 解碼器架構(gòu)：從RNN到Transformer的自然語(yǔ)言處理模型

AI論文解讀 ? 3629瀏覽 ? 0回復(fù)
什么是自然語(yǔ)言處理——NLP，其解決了什么問(wèn)題？

AI探索時(shí)代 ? 2122瀏覽 ? 0回復(fù)
你知道自然語(yǔ)言處理(NLP)能解決哪些問(wèn)題嗎？即自然語(yǔ)言處理任務(wù)分類有哪些？

AI探索時(shí)代 ? 1728瀏覽 ? 0回復(fù)
為什么大語(yǔ)言模型難以處理長(zhǎng)上下文？從 Transformer 到 Mamba

Baihai_IDP ? 2569瀏覽 ? 0回復(fù)
模型訓(xùn)練前置處理之——數(shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 1575瀏覽 ? 0回復(fù)
數(shù)據(jù)分析神器PandasAI，幫你高效處理十項(xiàng)常見(jiàn)任務(wù)

小虎哦哦 ? 1580瀏覽 ? 0回復(fù)
Dify Sandbox實(shí)現(xiàn)文件路徑獲取與Excel數(shù)據(jù)處理

九歌AI大模型 ? 862瀏覽 ? 0回復(fù)
人工智能中的數(shù)據(jù)重要性與數(shù)據(jù)預(yù)處理

parson2000 ? 917瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時(shí)代 ? 513瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：自己打包一個(gè)數(shù)據(jù)集代碼案例——使用Numpy計(jì)算框架自定義一個(gè)類似MINST的數(shù)據(jù)集

下一篇：神經(jīng)網(wǎng)絡(luò)的兩個(gè)重難點(diǎn)之一，數(shù)據(jù)處理和模型設(shè)計(jì)

社區(qū)精華內(nèi)容

目錄

<sub id="ugbf4"><p id="ugbf4"></p></sub>