自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="98y5j"></blockquote>}

<tr id="98y5j"><td id="98y5j"><center id="98y5j"></center></td></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？原創(chuàng)

發(fā)布于 2024-7-3 06:01

瀏覽

0收藏

“ 超參數(shù)是指由開發(fā)者設(shè)置的參數(shù)，而不是由模型訓練得到的參數(shù)”

對了解過機器學習模型的人來說，應該都知道模型訓練的過程就是不斷調(diào)整模型參數(shù)的過程。調(diào)整方式就是通過正反向傳播以及損失差的計算和優(yōu)化器對參數(shù)進行調(diào)整，不懂得可以看一下文章大模型的參數(shù)什么。

而超參數(shù)又是什么呢?今天就來介紹一下超參數(shù)。

01、什么是超參數(shù)?

用一句話來說，超參數(shù)就是模型開發(fā)者設(shè)置的參數(shù)，而不是由模型通過訓練學習到的參數(shù)。

怎么理解這句話呢?

先來說一下模型的參數(shù)，現(xiàn)在說大模型都是有多少多少參數(shù)，比如chatGLM-6B就是具有六十多億參數(shù)的模型，而chatGPT4傳說有一百多萬億個參數(shù)。

而我們平常說的大模型的大就是指參數(shù)量大，從實驗結(jié)果來看參數(shù)量越大效果越好。因此，現(xiàn)在很多大企業(yè)開發(fā)大模型都在追求大參數(shù)量模型。比如，openAI，谷歌，meta和國內(nèi)的阿里，百度等企業(yè)。

什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？ -AI.x社區(qū)

而模型參數(shù)指的是神經(jīng)網(wǎng)絡的參數(shù)，是可以通過訓練數(shù)據(jù)訓練調(diào)整的參數(shù)，最典型的兩個就是權(quán)重(W)和偏置(B)，這些參數(shù)值剛開始是隨機初始化，然后通過訓練數(shù)據(jù)不斷的調(diào)整，最后獲得一個最優(yōu)解。

那超參數(shù)又是什么?

現(xiàn)在再來看開頭那句話應該就明白了，模型參數(shù)是可以訓練得到的;但有些參數(shù)是需要開發(fā)者設(shè)定的，然后又不能通過訓練獲得，這部分參數(shù)就是超參數(shù)，超也可以理解為人為設(shè)置的意思。

什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？ -AI.x社區(qū)

超參數(shù)有哪些?

超參數(shù)其實也有很多，根據(jù)不同的模型架構(gòu)設(shè)計，超參數(shù)也會有所不同;但常見的超參數(shù)有訓練次數(shù)(epochs)，批次大小(batch_size)，學習率(lr)，隱藏層數(shù)量和大小(隱藏層數(shù)量是指神經(jīng)網(wǎng)絡的層數(shù)，大小是指每層神經(jīng)網(wǎng)絡的神經(jīng)元數(shù)量，具體可以看神經(jīng)網(wǎng)絡內(nèi)部原理解析)，損失函數(shù)，優(yōu)化器，以及正則化參數(shù)，丟棄率等都屬于超參數(shù)。

02、超參數(shù)的作用是什么?

前面介紹了超參數(shù)以及常見的超參數(shù)，這里就來介紹一下超參數(shù)的作用。

簡單來說，超參數(shù)的作用就是怎么訓練模型，以及怎么把模型訓練的更好，具體來說就是模型的性能和泛化能力。

什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？ -AI.x社區(qū)

就拿訓練次數(shù)——epochs來說，這個參數(shù)的作用是模型在當前數(shù)據(jù)集上訓練多少次。

舉例來說，我們上學時一章新內(nèi)容或題目，老師基本上都會講好幾遍，這個好幾遍就是epochs。epochs具體的值根據(jù)不同的網(wǎng)絡模型，以及訓練數(shù)據(jù)會有所不同，大部分都是在10到幾百之間。

而批次大小參數(shù)——batch_size的作用就是，訓練時每次加載多少數(shù)據(jù)，一般是8的倍數(shù)。batch_size值越大，訓練的批次數(shù)越少，梯度下降越快，但對硬件要求會更高，誤差也可能會更大。

模型訓練代碼，超參數(shù)設(shè)置簡略代碼

# 設(shè)置訓練網(wǎng)絡的參數(shù)

# 記錄訓練次數(shù)
total_train_step = 0

# 記錄測試次數(shù)
total_test_step = 0

# 訓練的輪數(shù)
epoch = 10

for i in range(epoch):
    print("第{}輪訓練開始".format(i+1))
    for data in train_dataloader:
        # 獲取訓練數(shù)據(jù)和標簽
        imgs, targets = data

        # 神經(jīng)網(wǎng)絡對數(shù)據(jù)進行處理
        outputs = myNn(imgs)

        # 計算損失值 監(jiān)督學習 使用神經(jīng)網(wǎng)絡處理結(jié)果與標簽做對比，計算損失差
        loss = loss_fn(outputs, targets)

        optimizer.zero_grad()

        # 反向傳播
        loss.backward()
        # 優(yōu)化器優(yōu)化
        optimizer.step()

        total_train_step = total_train_step + 1
        print("訓練次數(shù): {}, Loss: {}".format(total_train_step, loss))

學習率——lr是更新權(quán)重時的步長，它影響著目標函數(shù)是否能收斂到局部最小;學習率大可能會導致?lián)p失震蕩，甚至是無法擬合。

而學習率太小又可能會導致過擬合，收斂速度過慢的問題。所謂的震蕩就是損失函數(shù)的值可能不是慢慢減小，而是一會大一會小。

假如你在訓練的時候發(fā)現(xiàn)損失值出現(xiàn)這種現(xiàn)象，那么就是學習率設(shè)置有問題。

一般情況下，學習率都是設(shè)置一個動態(tài)值，比如訓練開始時學習率比較大，隨著訓練慢慢減小。

而隱藏層的數(shù)量和大小，代表著神經(jīng)網(wǎng)絡的抽象能力，越多的層數(shù)和神經(jīng)元就能表征更復雜的場景，但過多的隱藏層也會導致神經(jīng)元過于復雜以及過擬合的問題。

損失函數(shù)和優(yōu)化器又會影響到模型訓練的結(jié)果以及優(yōu)化效果。

因此，超參數(shù)也需要根據(jù)不同的模型架構(gòu)設(shè)計一個合理的參數(shù)值，并且在合適的時機進行適當?shù)恼{(diào)整。

本文轉(zhuǎn)載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/EqmK4cxR76dkVm3xGPOg_g??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

超參數(shù)

贊

收藏

回復

舉報

回復

相關(guān)推薦

大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復
爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系

AI探索時代 ? 4349瀏覽 ? 0回復
大模型所謂的參數(shù)是什么？大模型為什么需要訓練？大模型訓練到底干了什么？

AI探索時代 ? 6070瀏覽 ? 0回復
你知道什么是微調(diào)嗎？大模型為什么要微調(diào)？以及大模型微調(diào)的原理是什么？

AI探索時代 ? 6013瀏覽 ? 0回復
從做菜的角度來更形象的理解什么是大模型的參數(shù)，訓練原理與過程，以及為什么要訓練？

AI探索時代 ? 2642瀏覽 ? 0回復
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4439瀏覽 ? 0回復
什么是端到端(end to end)大模型，它和傳統(tǒng)的大模型有什么區(qū)別？其優(yōu)勢與劣勢是什么？

AI探索時代 ? 3754瀏覽 ? 0回復
爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系

AI探索時代 ? 2921瀏覽 ? 0回復
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時代 ? 2826瀏覽 ? 0回復
騰訊放大招，超Meta！史上參數(shù)最大，開源專家混合模型

Aceryt ? 1810瀏覽 ? 0回復
什么是生成式大模型？大模型與生成式大模型的區(qū)別？

AI探索時代 ? 3385瀏覽 ? 0回復
什么是大模型、特點、優(yōu)勢。大模型與AIGC的關(guān)系

parson2000 ? 2692瀏覽 ? 0回復
什么是多模態(tài)大模型

AI探索時代 ? 2726瀏覽 ? 0回復
超GPT-4o，1240億參數(shù)！最強開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2049瀏覽 ? 0回復
微軟發(fā)布Phi-4，最強小模型！參數(shù)極小、超GPT-4o

Aceryt ? 1769瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡-終于把神經(jīng)網(wǎng)絡參數(shù)更新搞明白了！

人工智能訓練營 ? 1641瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡-終于把神經(jīng)網(wǎng)絡參數(shù)更新搞明白了反向傳播詳解

人工智能訓練營 ? 1867瀏覽 ? 0回復
大模型除了聊天還能做什么？關(guān)于大模型的分類和應用

AI探索時代 ? 1481瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡：反向傳播如何更新網(wǎng)絡參數(shù)

人工智能訓練營 ? 285瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應用中怎么高質(zhì)量的進行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：大模型的“手和腳”——連接外部應用的通道函數(shù)調(diào)用(function calling)，AI Agent的實現(xiàn)方式之一

下一篇：大模型所謂的參數(shù)是什么？大模型為什么需要訓練？大模型訓練到底干了什么？

社區(qū)精華內(nèi)容

目錄

<cite id="zvroa"></cite>