自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="snrx5"></s>

<s id="snrx5"><ruby id="snrx5"><menuitem id="snrx5"></menuitem></ruby></s>

<style id="snrx5"></style>

<cite id="snrx5"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制原創(chuàng)

51CTO內容精選

發(fā)布于 2025-1-2 08:20

瀏覽

0收藏

本文旨在探索DDPG算法如何解決連續(xù)動作控制難題，從而進一步提升生物工程領域AI驅動的醫(yī)療機器人的強大功能。

引言

想象一下，你正在手術過程中控制著一臺機械臂。此機械臂的離散動作可能有：

向上移動
向下移動
抓取

或

釋放

這些都是明確、直接的命令，在簡單情況下是易于執(zhí)行的。但是，如果執(zhí)行精細的動作，例如：

將手臂移動0.5毫米以避免損傷組織
施加3N的力以壓縮組織

或

旋轉手腕15°以調整切口角度

該怎么辦呢？

在這些情況下，你需要的不僅僅是選擇一個動作——你必須決定需要多少動作。這是連續(xù)動作空間的世界，也是深度確定性策略梯度（DDPG）算法大放異彩的地方！

像深度Q網絡（DQN）這樣的傳統(tǒng)方法在離散動作方面效果很好，但在連續(xù)動作方面卻舉步維艱。另一方面，確定性策略梯度（DPG）算法解決了這個問題，但面臨著探索性差和不穩(wěn)定的挑戰(zhàn)。DDPG算法最早是在TP.Lillicrap等人的論文中提出的，它結合了DPG算法和DQN算法的優(yōu)勢，以提高連續(xù)動作空間環(huán)境中的穩(wěn)定性和性能。

在本文中，我們將討論DDPG算法背后的理論和架構，研究它在Python上的實現(xiàn)，評估其性能（通過在MountainCarContinuous游戲上進行測試），并簡要討論如何在生物工程領域使用DDPG算法。

DDPG算法架構

與評估每個可能的“狀態(tài)-動作”對以找到最佳動作（由于組合無限，在連續(xù)空間中不可能）的DQN算法不同，DPG算法使用的是“演員-評論家（Actor-Critic）”架構。演員學習一種將狀態(tài)直接映射到動作的策略，避免詳盡的搜索并專注于學習每個狀態(tài)的最佳動作。

但是，DPG算法面臨兩個主要挑戰(zhàn)：

它是一種確定性算法，限制了對動作空間的探索。
由于學習過程不穩(wěn)定，它無法有效地使用神經網絡。

DDPG算法通過Ornstein-Uhlenbeck過程引入探索噪聲，并使用批量歸一化和DQN技術（如重放緩沖區(qū)和目標網絡）穩(wěn)定訓練，從而改進了DPG算法。

借助這些增強功能，DDPG算法非常適合在連續(xù)動作空間中訓練AI代理，例如在生物工程應用中控制機器人系統(tǒng)。

接下來，讓我們深入探索DDPG模型的關鍵組成！

演員-評論家（Actor-Critic）框架

演員（策略網絡）：根據代理所處的狀態(tài)告訴代理要采取哪種操作。網絡的參數(shù)（即權重）用θ^μ表示。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

【提示】將演員網絡視為決策者：它將當前狀態(tài)映射到單個動作。

評論家（Q值網絡）：通過估計該狀態(tài)-動作對的Q值來評估演員采取的行動有多好。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

提示！將CriticNetwork視為評估者，它為每個動作分配一個質量分數(shù)，并幫助改進演員的策略，以確保它確實在每個給定狀態(tài)下生成最佳動作。

注意！評論家將使用估計的Q值做兩件事：

1. 改進演員的策略（演員策略更新）。

演員的目標是調整其參數(shù)(θ^μ)，以便輸出最大化評論家的Q值的動作。

為此，演員需要了解所選動作a如何影響評論家的Q值，以及其內部參數(shù)如何影響其策略，這通過此策略梯度方程完成（它是從小批量計算出的所有梯度的平均值）：

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

2. 通過最小化下面的損失函數(shù)來改進其自己的網絡（評論家Q值網絡更新）。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

其中，N是在小批量中采樣的經驗數(shù)，y_i是按如下方式計算的目標Q值。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

重放緩沖區(qū)

當代理探索環(huán)境時，過去的經驗（狀態(tài)、動作、獎勵、下一個狀態(tài)）會作為元組（s，a，r，s′）存儲在重放緩沖區(qū)中。在訓練期間，會隨機抽取由其中一些經驗組成的小批量來訓練代理。

問題！重放緩沖區(qū)實際上如何減少不穩(wěn)定性？

通過隨機抽取經驗，重放緩沖區(qū)打破了連續(xù)樣本之間的相關性，減少了偏差并帶來了更穩(wěn)定的訓練。

目標網絡

目標網絡是演員和評論家的緩慢更新副本。它們提供穩(wěn)定的Q值目標，防止快速變化并確保平穩(wěn)、一致的更新。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

【問題】目標網絡實際上如何減少不穩(wěn)定性？

如果沒有評論家目標網絡，則目標Q值直接從評論家Q值網絡計算，該網絡會不斷更新。這會導致目標Q值在每一步都發(fā)生變化，從而產生“移動目標”問題。因此，評論家最終會追逐不斷變化的目標，導致訓練不穩(wěn)定。

此外，由于演員依賴于評論家的反饋，因此一個網絡中的錯誤會放大另一個網絡中的錯誤，從而形成相互依賴的不穩(wěn)定循環(huán)。

通過引入使用軟更新規(guī)則逐步更新的目標網絡，我們確保目標Q值保持更一致，從而減少突然變化并提高學習穩(wěn)定性。

批量歸一化

批量歸一化將輸入歸一化到神經網絡的每一層，確保平均值為零且方差為1個單位。

【問題】批量歸一化實際上如何減少不穩(wěn)定性？

從重放緩沖區(qū)中提取的樣本可能具有與實時數(shù)據不同的分布，從而導致網絡更新期間不穩(wěn)定。

批量歸一化確保輸入的一致縮放，以防止由輸入分布變化引起的不穩(wěn)定更新。

探索噪聲

由于演員的策略是確定性的，因此在訓練期間將探索噪聲添加到動作中，以鼓勵代理探索盡可能多的動作空間。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

在DDPG論文中，作者使用Ornstein-Uhlenbeck過程生成時間相關噪聲，以模擬現(xiàn)實世界的系統(tǒng)動態(tài)。

DDPG算法偽代碼：分步分解

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

此偽代碼取自http://arxiv.org/abs/1509.02971（參見“參考文獻1”）。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

定義演員和評論家網絡：

class Actor(nn.Module):
    """
    針對DDPG算法的演員網絡。
    """
    def __init__(self, state_dim, action_dim, max_action,use_batch_norm):
        """
        初始化演員的策略網絡

        :參數(shù)state_dim: 狀態(tài)空間的維度
        :參數(shù)action_dim: 動作空間的維度
        :參數(shù)max_action: 動作的最大值
        """
        super(Actor, self).__init__()
        self.bn1 = nn.LayerNorm(HIDDEN_LAYERS_ACTOR) if use_batch_norm else nn.Identity()
        self.bn2 = nn.LayerNorm(HIDDEN_LAYERS_ACTOR) if use_batch_norm else nn.Identity()

        self.l1 = nn.Linear(state_dim, HIDDEN_LAYERS_ACTOR)
        self.l2 = nn.Linear(HIDDEN_LAYERS_ACTOR, HIDDEN_LAYERS_ACTOR)
        self.l3 = nn.Linear(HIDDEN_LAYERS_ACTOR, action_dim)
        self.max_action = max_action

    def forward(self, state):
        """
        通過網絡正向傳播。

        :參數(shù)state: 輸入狀態(tài)
        :返回值: 動作
        """

        a = torch.relu(self.bn1(self.l1(state)))
        a = torch.relu(self.bn2(self.l2(a)))
        return self.max_action * torch.tanh(self.l3(a))

class Critic(nn.Module):
    """
    針對DDPG算法的評論家網絡。
    """
    def __init__(self, state_dim, action_dim,use_batch_norm):
        """
        初始化評論家的值網絡。

        :參數(shù)state_dim: 狀態(tài)空間的維度
        :參數(shù)action_dim: 動作空間的維度
        """
        super(Critic, self).__init__()
        self.bn1 = nn.BatchNorm1d(HIDDEN_LAYERS_CRITIC) if use_batch_norm else nn.Identity()
        self.bn2 = nn.BatchNorm1d(HIDDEN_LAYERS_CRITIC) if use_batch_norm else nn.Identity()
        self.l1 = nn.Linear(state_dim + action_dim, HIDDEN_LAYERS_CRITIC)

        self.l2 = nn.Linear(HIDDEN_LAYERS_CRITIC, HIDDEN_LAYERS_CRITIC)
        self.l3 = nn.Linear(HIDDEN_LAYERS_CRITIC, 1)

    def forward(self, state, action):
        """
        通過網絡的正向傳播。

        :參數(shù)state:輸入狀態(tài)
        :參數(shù)action: 輸入動作
        :返回值: “狀態(tài)-動作”對的Q-值
        """
        q = torch.relu(self.bn1(self.l1(torch.cat([state, action], 1))))
        q = torch.relu(self.bn2(self.l2(q)))
        return self.l3(q)

定義重放緩沖區(qū)

實現(xiàn)ReplayBuffer類來存儲和采樣上一節(jié)中討論的轉換元組（s，a，r，s’），以實現(xiàn)小批量離策略學習。

class ReplayBuffer:
    def __init__(self, capacity):
        self.buffer = deque(maxlen=capacity)

    def push(self, state, action, reward, next_state, done):
        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):
        return random.sample(self.buffer, batch_size)

    def __len__(self):
        return len(self.buffer)

定義OU噪聲類

添加OUNoise類來生成探索噪聲，幫助代理更有效地探索動作空間。

"""
節(jié)選自??https://github.com/vitchyr/rlkit/blob/master/rlkit/exploration_strategies/ou_strategy.py??
"""
class OUNoise(object):
    def __init__(self, action_space, mu=0.0, theta=0.15, max_sigma=0.3, min_sigma=0.3, decay_period=100000):
        self.mu           = mu
        self.theta        = theta
        self.sigma        = max_sigma
        self.max_sigma    = max_sigma
        self.min_sigma    = min_sigma
        self.decay_period = decay_period
        self.action_dim   = action_space.shape[0]
        self.low          = action_space.low
        self.high         = action_space.high
        self.reset()

    def reset(self):
        self.state = np.ones(self.action_dim) * self.mu

    def evolve_state(self):
        x  = self.state
        dx = self.theta * (self.mu - x) + self.sigma * np.random.randn(self.action_dim)
        self.state = x + dx
        return self.state

    def get_action(self, action, t=0): 
        ou_state = self.evolve_state()
        self.sigma = self.max_sigma - (self.max_sigma - self.min_sigma) * min(1.0, t / self.decay_period)
        return np.clip(action + ou_state, self.low, self.high)

定義DDPG代理

定義了一個DDPG類，它負責封裝代理的行為：

初始化：創(chuàng)建演員和評論家網絡，以及它們的目標對應方和重放緩沖區(qū)。

class DDPG():
    """
    深度確定性策略梯度（DDPG）代理。
    """
    def __init__(self, state_dim, action_dim, max_action,use_batch_norm):
        """
        初始化DDPG算法代理。

        :參數(shù)state_dim: 狀態(tài)空間的維度
        :參數(shù)action_dim: 動作空間的維度
        :參數(shù)max_action: 動作的最大值
        """
        # [第0步]
        #初始化演員的策略網絡
        self.actor = Actor(state_dim, action_dim, max_action,use_batch_norm)
        # 使用與演員的策略網絡相同的權重初始化演員目標網絡
        self.actor_target = Actor(state_dim, action_dim, max_action,use_batch_norm)
        self.actor_target.load_state_dict(self.actor.state_dict())
        self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=ACTOR_LR)

        #初始化評論家的值網絡
        self.critic = Critic(state_dim, action_dim,use_batch_norm)
        #使用與評論家的值網絡相同的權重初始化評論家的目標網絡
        self.critic_target = Critic(state_dim, action_dim,use_batch_norm)
        self.critic_target.load_state_dict(self.critic.state_dict())
        self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=CRITIC_LR)

        #初始化重放緩沖區(qū)
        self.replay_buffer = ReplayBuffer(BUFFER_SIZE)

動作選擇：select_action方法根據當前策略選擇動作。

def select_action(self, state):
        """
        根據當前狀態(tài)選擇一個動作。

        :參數(shù)state：當前狀態(tài)
        :返回值：選擇的動作
        """
        state = torch.FloatTensor(state.reshape(1, -1))
        action = self.actor(state).cpu().data.numpy().flatten()
        return action

訓練：訓練方法定義了如何使用重放緩沖區(qū)中的經驗來更新網絡。

注意：由于本文介紹了使用目標網絡和批量歸一化來提高穩(wěn)定性，因此我設計了訓練方法，允許我們打開或關閉這些方法。這讓我們可以比較代理在使用和不使用它們的情況下的性能。請參閱下面的代碼以了解詳細的實現(xiàn)。

def train(self, use_target_network,use_batch_norm):
        """
        訓練DDPG代理

        :參數(shù)use_target_network: 是否使用目標網絡
        :參數(shù)use_batch_norm: 是否使用批量歸一化
        """
        if len(self.replay_buffer) < BATCH_SIZE:
            return

        # [第4步]. 從重放緩沖區(qū)中抽取一批樣本
        batch = self.replay_buffer.sample(BATCH_SIZE)
        state, action, reward, next_state, done = map(np.stack, zip(*batch))

        state = torch.FloatTensor(state)
        action = torch.FloatTensor(action)
        next_state = torch.FloatTensor(next_state)
        reward = torch.FloatTensor(reward.reshape(-1, 1))
        done = torch.FloatTensor(done.reshape(-1, 1))

        #評論家網絡更新#
        if use_target_network:
            target_Q = self.critic_target(next_state, self.actor_target(next_state))
        else:
            target_Q = self.critic(next_state, self.actor(next_state))

        # [第5步]. 計算目標Q-value (y_i)
        target_Q = reward + (1 - done) * GAMMA * target_Q
        current_Q = self.critic(state, action)
        critic_loss = nn.MSELoss()(current_Q, target_Q.detach())

        # [第6步]. 使用梯度下降來更新評論家網絡的權重
        #以最小化損失函數(shù)
        self.critic_optimizer.zero_grad()
        critic_loss.backward()
        self.critic_optimizer.step()

        #更新演員網絡#
        actor_loss = -self.critic(state, self.actor(state)).mean()

        # [第7步]. 使用梯度下降來更新演員網絡的權重
        #以最小化損失函數(shù)和最大化Q-value => 選擇產生最高累積獎勵的動作
        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()

        # [第8步]. 更新目標網絡
        if use_target_network:
            for param, target_param in zip(self.critic.parameters(), self.critic_target.parameters()):
                target_param.data.copy_(TAU * param.data + (1 - TAU) * target_param.data)

            for param, target_param in zip(self.actor.parameters(), self.actor_target.parameters()):
                target_param.data.copy_(TAU * param.data + (1 - TAU) * target_param.data)

訓練DDPG代理

將所有定義的類和方法整合在一起，我們就可以訓練DDPG代理。我的train_dppg函數(shù)遵循偽代碼和DDPG模型圖結構。

提示：為了讓你更容易理解，我已將每個代碼部分標記為偽代碼和圖表中相應的步驟編號。希望對你有所幫助！

def train_ddpg(use_target_network, use_batch_norm, num_episodes=NUM_EPISODES):
    """
    訓練DDPG代理

    :參數(shù)use_target_network: 是否使用目標網絡
    :參數(shù)use_batch_norm: 是否使用批量歸一化
    :參數(shù)num_episodes: 需要訓練的回合數(shù)
    :返回值: 回合獎勵列表
    """
    agent = DDPG(state_dim, action_dim, 1,use_batch_norm)

    episode_rewards = []
    noise = OUNoise(env.action_space)

    for episode in range(num_episodes):
        state= env.reset()
        noise.reset()
        episode_reward = 0
        done = False
        step=0
        while not done:
            action_actor = agent.select_action(state)
            action = noise.get_action(action_actor,step) # Add noise for exploration
            next_state, reward, done,_= env.step(action)
            done = float(done) if isinstance(done, (bool, int)) else float(done[0])
            agent.replay_buffer.push(state, action, reward, next_state, done)

            if len(agent.replay_buffer) > BATCH_SIZE:
                agent.train(use_target_network,use_batch_norm)

            state = next_state
            episode_reward += reward
            step+=1

        episode_rewards.append(episode_reward)

        if (episode + 1) % 10 == 0:
            print(f"Episode {episode + 1}: Reward = {episode_reward}")

    return agent, episode_rewards

性能和結果：DDPG算法有效性評估

至此，我們已經在MountainCarContinuous-v0環(huán)境中測試了DDPG算法在連續(xù)動作空間中的有效性。在該環(huán)境中，代理學會了如何獲得動力以將汽車開上陡峭的山坡。結果表明，與其他配置相比，使用目標網絡和批量歸一化可以實現(xiàn)更快的收斂、更高的獎勵和更穩(wěn)定的學習。

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

作者本人生成的圖表

DDPG算法輕松解決AI醫(yī)療機器人技術難題：連續(xù)動作控制-AI.x社區(qū)

作者本人生成的GIF動畫

注意：你可以通過運行從我的?GitHub代碼倉庫??下載的代碼并根據需要更改環(huán)境名稱，然后在你選擇的任何環(huán)境中自行實現(xiàn)此功能！

生物工程領域的DDPG算法：高精度和適應性

通過本文的介紹，我們已經看到DDPG是一種強大的算法，可用于在具有連續(xù)動作空間的環(huán)境中訓練代理。通過結合DPG算法和DQN算法的技術，DDPG算法可以提高探索、穩(wěn)定性和性能——這正是機器人手術和生物工程應用的關鍵因素。

想象一下，像達芬奇系統(tǒng)（da Vinci system）這樣的機器人外科醫(yī)生使用DDPG實時控制精細動作，確保精確調整而不會出現(xiàn)任何錯誤。借助DDPG算法，機器人可以以毫米為單位調整手臂的位置，在縫合時施加精確的力，甚至可以輕微旋轉手腕以獲得最佳切口。這種實時精度可以改變手術結果，縮短恢復時間，并最大限度地減少人為錯誤。

但DDPG算法的潛力不僅限于醫(yī)學手術領域。它已經推動了生物工程的發(fā)展，使機器人假肢和輔助設備能夠復制人類肢體的自然運動（有興趣的讀者可以查看這篇有趣的文章：??https://www.tandfonline.com/doi/abs/10.1080/00207179.2023.2201644??）。

現(xiàn)在，我們已經介紹了DDPG算法背后的理論，是時候由你來探索它的實際應用了。你可以從簡單的例子開始，逐漸深入到更復雜的實戰(zhàn)場景！

參考文獻

Lillicrap TP、Hunt JJ、Pritzel A、Heess N、Erez T、Tassa Y等人。使用深度強化學習的連續(xù)控制（Continuous control with deep reinforcement learning [Internet]）。arXiv；2019年。出處：http://arxiv.org/abs/1509.02971

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：??Understanding DDPG: The Algorithm That Solves Continuous Action Control Challenges??，作者：Sirine Bhouri

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

AI醫(yī)療機器人

贊

收藏

回復

舉報

回復

相關推薦

人形機器人進廠打工

echo_ning ? 2812瀏覽 ? 0回復
Sergey Levine教授解讀機器人AI的演進

lintoms ? 2701瀏覽 ? 0回復
開發(fā)arXiv論文引擎機器人程序：基于RAG＋LangChain＋Chainlit＋ChromaDB

51CTO內容精選 ? 3865瀏覽 ? 0回復
AI更適合前端開發(fā)者，UI不止是聊天機器人

51CTO技術棧 ? 3335瀏覽 ? 0回復
搬磚機器人？淺談RPA技術及其應用

zhcs333 ? 2833瀏覽 ? 0回復
世界上第一個聊天機器人并非旨在成為聊天機器人

xuxiangda ? 4398瀏覽 ? 0回復
大型語言模型與智能機器人集成的調查研究

AIRoobt ? 2893瀏覽 ? 0回復
大型語言模型（LLM）在機器人領域的機遇、挑戰(zhàn)與展望

AIRoobt ? 5135瀏覽 ? 0回復
LLM+P：賦予大語言模型最佳機器人規(guī)劃能力

AIRoobt ? 2664瀏覽 ? 0回復
基于LangChain+Langflow+Astra DB開發(fā)RAG聊天機器人

51CTO內容精選 ? 2588瀏覽 ? 0回復
大模型在機器人領域的應用：機遇、挑戰(zhàn)與前景

AIRoobt ? 3844瀏覽 ? 0回復
訓練模擬人形機器人的五種強化學習技術大PK

51CTO內容精選 ? 3323瀏覽 ? 0回復
用Python打造加密貨幣算法交易機器人

開發(fā)者阿橙 ? 4706瀏覽 ? 0回復
如何使用SpringAI、React和Docker構建AI聊天機器人

51CTO內容精選 ? 3912瀏覽 ? 0回復
豐田、波士頓動力聯(lián)手開發(fā)，實體大型行為模型機器人

Aceryt ? 1842瀏覽 ? 0回復
12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X：7B具身多模態(tài)動作模型

angel ? 2956瀏覽 ? 0回復
CVPR 2025 | 機器人雙臂操控新突破！KStar Diffuser如何解決自碰撞與運動約束世紀難題？

angel ? 1448瀏覽 ? 0回復
英偉達震撼發(fā)布GR00T N1，全球首個開放通用人形機器人模型，顛覆多模態(tài)操控，開啟機器人智能新紀元

angel ? 1895瀏覽 ? 0回復
全球首場人形機器人格斗大賽要來了！宇樹科技炸場，人形機器人風口來了？

算家計算 ? 535瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

OpenUI：從構思到UI僅需數(shù)秒 10h前發(fā)布
MCP安全噩夢終結者：Agent框架如何重構AI防護新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構建LangChain代理客戶端 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：減少LLM幻覺的五大技巧和方法

下一篇：別再將LLM當成數(shù)據庫了

社區(qū)精華內容

目錄

<sub id="njljh"></sub>