自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek 新專利公布:減少數(shù)據(jù)采集時網(wǎng)絡(luò)資源消耗

人工智能
DeepSeek 關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利于 4 月 1 日公布。

4 月 2 日消息,IT之家從國家知識產(chǎn)權(quán)局中國專利公布公告網(wǎng)獲悉,DeepSeek 關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利于 4 月 1 日公布。

專利摘要顯示:

該發(fā)明的有益效果在于:發(fā)現(xiàn)盡可能多的網(wǎng)頁鏈接,并減少對網(wǎng)站的流量沖擊;對已經(jīng)下載的內(nèi)容進行分析,對未下載的鏈接進行質(zhì)量推斷,通過擇優(yōu)下載分配額度的方式,減少低質(zhì)量網(wǎng)頁下載和重復(fù)下載,提高數(shù)據(jù)質(zhì)量及下載效率,減少在數(shù)據(jù)采集過程中網(wǎng)絡(luò)資源的消耗;采用單獨的信息回灌隊列,保證網(wǎng)頁元信息庫修改操作的原子性和穩(wěn)定性。

背景技術(shù)稱:近年來,隨著人工智能技術(shù)的進展,NLP 自然語言領(lǐng)域取得了巨大的進步。許多大語言模型 (Large Language Models,LLMs) 被訓(xùn)練應(yīng)用于自然語言處理領(lǐng)域,用于研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。

大語言模型的訓(xùn)練需要構(gòu)建一個高質(zhì)量、多樣化的大語言模型數(shù)據(jù)集,這需要將網(wǎng)頁數(shù)據(jù)采集并處理后得到大量高質(zhì)量的文本信息作為模型的輸入,用于大語言模型進行訓(xùn)練。

然而,現(xiàn)有的數(shù)據(jù)采集技術(shù)存在諸多問題,比如對復(fù)雜站點進行采集時,無法獲取完整鏈接;容易過量下載,造成對方網(wǎng)站崩潰;對下載頁面不進行內(nèi)容質(zhì)量分析和推斷,造成重復(fù)下載或低質(zhì)下載、影響數(shù)據(jù)采集的效率。

因此,在大量網(wǎng)頁數(shù)據(jù)獲取的過程中,如何快速、精準(zhǔn)、安全、高效地采集互聯(lián)網(wǎng)數(shù)據(jù)變得至關(guān)重要。

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2022-02-21 10:14:15

數(shù)據(jù)中心電力

2010-06-13 10:07:10

數(shù)據(jù)中心電力

2023-06-20 10:48:47

2017-01-04 12:53:51

2022-10-13 19:14:17

Python網(wǎng)絡(luò)資源

2013-01-30 17:23:22

數(shù)據(jù)中心碳排量節(jié)能

2011-03-07 15:30:14

2018-06-14 14:02:30

蘋果防水iPhone

2018-07-13 16:09:03

數(shù)據(jù)中心審計物理設(shè)備

2009-01-15 13:52:16

數(shù)據(jù)庫管理開銷

2022-01-04 19:21:46

數(shù)據(jù)存儲數(shù)據(jù)存儲

2012-05-31 13:43:09

IPv6網(wǎng)絡(luò)IPv6IPv6網(wǎng)絡(luò)資源

2022-03-13 08:52:07

數(shù)據(jù)安全數(shù)據(jù)泄露

2023-03-09 10:40:17

數(shù)據(jù)中心能源

2023-02-01 16:11:58

2009-05-22 18:37:30

數(shù)據(jù)中心虛擬化服務(wù)器

2013-06-19 09:20:53

Web開發(fā)Web性能優(yōu)化高性能

2009-09-23 10:30:14

Android開發(fā)者

2011-07-06 09:11:40

MozillaFirefox

2011-12-04 12:21:14

蘋果專利
點贊
收藏

51CTO技術(shù)棧公眾號