自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="b1el9"><font id="b1el9"><tr id="b1el9"></tr></font></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

什么是主動學習？原創(chuàng)

發(fā)布于 2024-11-15 10:22

瀏覽

0收藏

如果數(shù)據(jù)是無標簽的，我們很難構(gòu)建一個監(jiān)督學習系統(tǒng)。

什么是主動學習？-AI.x社區(qū)

使用無監(jiān)督技術(shù)是一種可行的解決方案，但它們能完成的任務類型有限。

另一種可能的方法，是依賴自監(jiān)督學習。

自監(jiān)督學習是指我們有一個無標簽的數(shù)據(jù)集，但我們通過某種方式能夠從中構(gòu)建一個監(jiān)督學習模型。

這通常依賴于任務的固有屬性。

例如，ChatGPT自回歸地基于當前詞預測下一個單詞。

什么是主動學習？-AI.x社區(qū)

這樣我們就可以簡單地將文本左移一位在海量文本上構(gòu)造訓練數(shù)據(jù)集。

輸入："The cat sat on"

標簽："cat sat on the"

或者像BERT那樣，通過將文本中的某些單詞替換為占位符，并預測這些占位符的單詞。

"The cat sat on the [MASK]。"

"I went to the [MASK] to buy some milk."

但并不是所有任務都有這種屬性，所以它的應用場景也有限。

現(xiàn)在唯一能想到的方法就是標注數(shù)據(jù)集。然而，數(shù)據(jù)標注既困難、昂貴、耗時，又枯燥乏味。

主動學習是一種相對簡單、便宜、快速且有趣的解決方法。

顧名思義，它的想法是通過主動獲取人工反饋，幫助模型改進其在難以處理樣本上的表現(xiàn)。下圖總結(jié)了這一過程：

什么是主動學習？-AI.x社區(qū)

讓我們看下細節(jié)。

我們先手動標注一小部分數(shù)據(jù)。

什么是主動學習？-AI.x社區(qū)

根據(jù)經(jīng)驗，標注約1%的數(shù)據(jù)集是個不錯的選擇。

接下來，在這個小的標注數(shù)據(jù)集上訓練一個模型。

什么是主動學習？-AI.x社區(qū)

當然，這個模型不會是完美的，但沒關(guān)系。

接下來，使用訓練好的模型在未標注的數(shù)據(jù)上生成預測：

什么是主動學習？-AI.x社區(qū)

很明顯，我們無法確定這些預測是否正確，因為我們沒有標簽。

但我們可以得到這些預測的置信度。

因為在主動學習中，我們通常會選擇能夠在其預測中提供置信水平的模型。

什么是主動學習？-AI.x社區(qū)

概率模型（即為每個類別提供概率估計的模型）通常在這里是一個很好的選擇。

什么是主動學習？-AI.x社區(qū)

這是因為可以從概率輸出中確定置信度的水平。

什么是主動學習？-AI.x社區(qū)

在上述兩個例子中，考慮第1和第2大概率之間的差距：

● 在例子#1中，差距較大。這可能表示模型對它的預測非常有信心。

● 在例子#2中，差距較小。這可能表示模型對它的預測信心不足。

現(xiàn)在，回到上面生成的預測，并按照置信度的大小對它們進行排名：

什么是主動學習？-AI.x社區(qū)

在上面的圖像中：

● 模型已經(jīng)對前兩個實例非常有信心。沒有必要再檢查它們了。

● 相反，最好由我們（人類）來標注模型信心最弱的實例。

為了更好地理解，考慮下面的圖像。從邏輯上講，哪個數(shù)據(jù)點的人工標簽將為模型提供更多信息？我知道你已經(jīng)知道答案。

什么是主動學習？-AI.x社區(qū)

因此，在下一步中，我們對置信度低的預測進行人工標注，并將其與先前標注的數(shù)據(jù)集一起去繼續(xù)改進模型。

什么是主動學習？-AI.x社區(qū)

多次重復這個過程，直到你對模型的表現(xiàn)感到滿意為止。

根據(jù)我的經(jīng)驗，主動學習是處理無標注數(shù)據(jù)集的一個極大節(jié)省時間的辦法。唯一需要小心的是生成置信度度量。

如果你搞錯了這一步，它會影響之后的每一個訓練步驟。

另外，除了人工標注的低置信度數(shù)據(jù)和種子數(shù)據(jù)，還可以使用高置信度數(shù)據(jù)。它們的標簽將是模型的預測結(jié)果。

什么是主動學習？-AI.x社區(qū)

這種主動學習的變體稱為合作學習。

本文轉(zhuǎn)載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/IZHGNQ07fNY7FPStxltf_Q??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

自監(jiān)督學習

贊

收藏

回復

舉報

回復

相關(guān)推薦

什么是聲望？如何獲取聲望？

AI.x社區(qū)官方賬號 ? 3072瀏覽 ? 0回復
【春“碼”盎然學習季】春日生發(fā)，宜學習，宜進階，宜贏取春日好禮！

AI.x社區(qū)官方賬號 ? 52.2w瀏覽 ? 52回復
什么是AI Agent？

zhcs333 ? 4461瀏覽 ? 0回復
【乘風進階學習季】夏日初長，乘風而上，碼出未來！

AI.x社區(qū)官方賬號 ? 52.9w瀏覽 ? 36回復
什么是LLMOps?

zhcs333 ? 3631瀏覽 ? 0回復
什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？

AI探索時代 ? 5409瀏覽 ? 0回復
什么監(jiān)督學習，無監(jiān)督學習與深度學習？它們之間有什么區(qū)別和聯(lián)系？

AI探索時代 ? 8824瀏覽 ? 0回復
【創(chuàng)新一夏學習季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號 ? 52.8w瀏覽 ? 39回復
什么是提示詞工程(prompt engineering)？為什么需要提示詞工程？

AI探索時代 ? 5934瀏覽 ? 0回復
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4439瀏覽 ? 0回復
一文講清什么是 AI Agent（智能體）？

wsp_ping ? 4826瀏覽 ? 0回復
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時代 ? 2826瀏覽 ? 0回復
【學習挑戰(zhàn)賽】任務進階，完成就有獎品拿

AI.x社區(qū)官方賬號 ? 3.2w瀏覽 ? 2回復
什么是多模態(tài)AI 如何融合和對齊？

數(shù)字化助推器 ? 4722瀏覽 ? 0回復
什么是多模態(tài)大模型

AI探索時代 ? 2727瀏覽 ? 0回復
什么是自然語言處理——NLP，其解決了什么問題？

AI探索時代 ? 2127瀏覽 ? 0回復
什么是檢索增強生成 (RAG)？

Halo咯咯 ? 1611瀏覽 ? 0回復
理解什么是AI Agent，看懂這篇就夠了

AIGC新知 ? 1778瀏覽 ? 0回復
麥肯錫：什么是AI代理？

chengganfei ? 590瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

訓練大模型時，顯存都哪去了？ 2024-11-19 12:41:34發(fā)布
生產(chǎn)環(huán)境測試模型的四種方法 2024-11-15 11:22:05發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：線性回歸中，為什么使用均方誤差損失函數(shù)？

下一篇：生產(chǎn)環(huán)境測試模型的四種方法

社區(qū)精華內(nèi)容

目錄