自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="rqejc"><p id="rqejc"></p></sub>

<s id="rqejc"><li id="rqejc"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-11-12 08:15

瀏覽

0收藏

本文將從早期的正弦算法跟蹤分析到當(dāng)前最新的RoPE和ALiBi算法，介紹如何通過先進(jìn)的位置編碼來克服LLM開發(fā)中轉(zhuǎn)換器的局限性。

引言

近年來開發(fā)出的機(jī)器學(xué)習(xí)模型的指數(shù)級(jí)進(jìn)步與轉(zhuǎn)換器架構(gòu)的出現(xiàn)密切相關(guān)。以前，人工智能科學(xué)家必須先為手頭的每項(xiàng)任務(wù)選擇架構(gòu)，然后再進(jìn)行超參數(shù)優(yōu)化以獲得最佳性能。限制科學(xué)家們潛力的另一個(gè)挑戰(zhàn)是難以處理數(shù)據(jù)的長(zhǎng)期依賴性，難以解決梯度消失、長(zhǎng)序列上下文丟失以及因局部約束而無法捕獲全局上下文的問題。此外，傳統(tǒng)模型缺乏可擴(kuò)展性和并行性，減緩了對(duì)大型數(shù)據(jù)集的訓(xùn)練，最終阻礙了該領(lǐng)域的進(jìn)展。

轉(zhuǎn)換器架構(gòu)通過其自我注意機(jī)制解決了這些問題，從而徹底改變了該領(lǐng)域。它使模型能夠捕獲長(zhǎng)序列上的關(guān)系，并有效地理解全局上下文，同時(shí)具有高度的并行性和跨各種模態(tài)如文本、圖像等的適應(yīng)性。在自我注意力機(jī)制中，對(duì)于每個(gè)標(biāo)記，將其查詢與所有其他標(biāo)記的鍵進(jìn)行比較，以計(jì)算相似性得分。然后，這些相似性被用來衡量值向量，最終決定當(dāng)前標(biāo)記應(yīng)關(guān)注的位置。自我注意將所有標(biāo)記視為同等重要，無論其順序如何，失去了關(guān)于標(biāo)記出現(xiàn)順序的關(guān)鍵信息；換句話說，它將輸入數(shù)據(jù)視為一個(gè)沒有順序的集合。

現(xiàn)在，我們需要一種機(jī)制來對(duì)數(shù)據(jù)強(qiáng)制執(zhí)行一些順序概念，因?yàn)樽匀徽Z言和許多其他類型的數(shù)據(jù)本質(zhì)上是順序和位置敏感的。這就是位置嵌入發(fā)揮作用的地方。位置嵌入對(duì)序列中每個(gè)標(biāo)記的位置進(jìn)行編碼，使模型能夠保持對(duì)序列結(jié)構(gòu)的感知。在粗略了解了各種編碼位置信息的方法后，接下來我們將詳細(xì)地對(duì)它們展開逐一介紹。

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

基于DALL-E模型生成的圖像

注意機(jī)制

設(shè)S={w_i}，對(duì)于i=1，…，N是N個(gè)輸入標(biāo)記的序列，其中w_i表示第i個(gè)標(biāo)記。因此，對(duì)于i＝1，…，N，S的相應(yīng)標(biāo)記嵌入可以表示為E＝｛x_i｝，其中x_i是標(biāo)記w_i的d維標(biāo)記嵌入向量。自我注意機(jī)制將位置嵌入結(jié)合到標(biāo)記嵌入中，并生成查詢、鍵和值表示，如下所示：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

q_m，k_n和v_n：分別代表與序列中第m-th和n-th位置對(duì)應(yīng)的查詢、鍵和值向量；

f_q，f_k和f_v：這些函數(shù)把位置信息嵌入到輸入嵌入x_m和x_n中，以便生成查詢、鍵和值向量。

然后，根據(jù)查詢和關(guān)鍵向量之間的相似性計(jì)算注意力權(quán)重：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

注意，權(quán)重決定了標(biāo)記n對(duì)標(biāo)記m的重要性。換句話說，標(biāo)記m應(yīng)該對(duì)標(biāo)記n給予多少注意。標(biāo)記m的輸出是作為值向量的加權(quán)和計(jì)算的：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

因此，注意機(jī)制標(biāo)記m從序列中的其他標(biāo)記收集信息。

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

圖1：轉(zhuǎn)換器架構(gòu)中的位置編碼（圖片來自論文https://arxiv.org/pdf/1706.03762）。

1.絕對(duì)位置嵌入

方程式（1）的典型選擇是：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

其中p_i是d維向量，表示標(biāo)記x_i的絕對(duì)位置。正弦位置編碼和學(xué)習(xí)位置編碼是生成p_i的兩種替代方案。

（1）a正弦位置編碼

正弦位置編碼是在提出轉(zhuǎn)換器架構(gòu)的??《Attention is all you need》??論文中引入的。正弦位置編碼為輸入序列中的每個(gè)標(biāo)記提供唯一的位置表示。它基于不同頻率的正弦和余弦函數(shù)，如下所示：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

其中，pos是標(biāo)記在序列中的位置，d是位置嵌入維度，i是維度索引（0<=i<d）。

正弦和余弦函數(shù)在正弦位置編碼中的使用與傅里葉變換有著密切的關(guān)系。通過使用一系列不同的頻率對(duì)位置進(jìn)行編碼，轉(zhuǎn)換器創(chuàng)建了一個(gè)類似于傅里葉變換的表示，其中：

高頻分量（較低的i）使模型能夠捕獲本地位置信息。這對(duì)于理解序列中相鄰標(biāo)記（如單詞對(duì)）之間的關(guān)系非常有用。
低頻分量（i值越高）在整個(gè)序列中捕獲了更多的全局模式。這有助于模型關(guān)注可能相距甚遠(yuǎn)的標(biāo)記之間更廣泛的關(guān)系，例如兩個(gè)不同句子中單詞之間的依賴關(guān)系。

這有助于模型通過比較標(biāo)記的位置編碼來理解標(biāo)記的相對(duì)位置。正弦位置編碼在推理時(shí)推廣到更大的序列長(zhǎng)度時(shí)不需要額外的訓(xùn)練參數(shù)。然而，它的表現(xiàn)力是有限的。

（2）b學(xué)習(xí)位置編碼

《Attention is all you need》論文中介紹了學(xué)習(xí)位置編碼，并將其應(yīng)用于BERT和GPT模型中，作為正弦位置編碼的替代方案。在學(xué)習(xí)位置編碼中，序列中的每個(gè)位置（例如第一個(gè)標(biāo)記、第二個(gè)標(biāo)記等）都被分配了一個(gè)嵌入向量。這些位置嵌入是在訓(xùn)練過程中與其他轉(zhuǎn)換器參數(shù)一起學(xué)習(xí)的。例如，如果模型的上下文長(zhǎng)度為512，標(biāo)記嵌入大小為768（即d=768），則大小為512*768的可學(xué)習(xí)張量將被添加到其他可訓(xùn)練參數(shù)中。這意味著，模型會(huì)逐漸學(xué)習(xí)為特定任務(wù)（如文本分類或翻譯）編碼位置信息的最佳方法。

學(xué)習(xí)位置嵌入比正弦位置嵌入更具表現(xiàn)力，因?yàn)槟Ｐ涂梢詫W(xué)習(xí)位置嵌入，對(duì)其特定任務(wù)有效。然而，它們引入了更多可訓(xùn)練的參數(shù)，這增加了模型的大小及其計(jì)算成本。

2.相對(duì)位置嵌入

正弦和學(xué)習(xí)位置編碼都側(cè)重于標(biāo)記的絕對(duì)位置。然而，注意力機(jī)制是通過計(jì)算序列中每個(gè)特定標(biāo)記的其他標(biāo)記的重要性來工作的。因此，這個(gè)過程取決于標(biāo)記的相對(duì)位置（它們彼此相距多遠(yuǎn)），而不是標(biāo)記的絕對(duì)位置。為了解決絕對(duì)位置嵌入的局限性，引入了相對(duì)位置編碼。

??RelativePosEmb??不會(huì)將位置信息添加到標(biāo)記嵌入中。相反，它修改了在每一層計(jì)算鍵和值的方式，如下所示：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

上面公式中：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

這里，r=clip（m-n，R_min，R_max）表示位置m和n之間的相對(duì)距離。假設(shè)精確的相對(duì)位置在一定距離之外沒有用，則對(duì)最大相對(duì)位置進(jìn)行剪裁。剪切最大距離使模型能夠在推理時(shí)進(jìn)行外推，即推廣到訓(xùn)練期間沒有看到的序列長(zhǎng)度。然而，這種方法可能會(huì)從標(biāo)記的絕對(duì)位置（如第一個(gè)標(biāo)記的位置）中遺漏一些有用的信息。

你可能會(huì)注意到f_q缺少位置嵌入。這是因?yàn)槲覀冋趯?duì)相對(duì)位置進(jìn)行編碼。在注意力公式中，查詢和鍵值用于計(jì)算注意力權(quán)重，如方程（2）所示；因此，我們只需要查詢或鍵包含相對(duì)位置嵌入即可。

當(dāng)前，這種編碼已被用于許多模型，如??轉(zhuǎn)換器XL??和??T5??。在參考文獻(xiàn)【??7??】和【??8??】中可以找到應(yīng)用相對(duì)位置編碼的不同替代方案。

3.旋轉(zhuǎn)位置嵌入（RoPE）

與之前的方法不同，RoPE根據(jù)標(biāo)記的位置在多維空間中旋轉(zhuǎn)向量。它沒有將位置信息添加到標(biāo)記嵌入中，而是將每一層的注意力權(quán)重計(jì)算方式修改為：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

上面公式中：

W_q，W_k：分別表示查詢和鍵權(quán)重矩陣；_?
R_θ(m)和R_θ(n)：分別表示編碼位置m和位置n的標(biāo)記的絕對(duì)位置的旋轉(zhuǎn)矩陣；
xm和xn：分別表示位置m和位置n的標(biāo)記嵌入；
θ：是一個(gè)控制位置旋轉(zhuǎn)速率的常數(shù)。

這種算法提出了一個(gè)廣義旋轉(zhuǎn)矩陣，適用于任何偶數(shù)嵌入維數(shù)d，如下所示：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

其中θ_i是預(yù)定義的：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

將RoPE（https://arxiv.org/pdf/2104.09864）應(yīng)用于注意力權(quán)重將得到如下公式：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

請(qǐng)注意，RoPE公式不會(huì)將位置信息添加到注意力模塊的值中。注意力模塊的輸出是值向量的加權(quán)和，由于位置信息沒有添加到值中，因此每個(gè)轉(zhuǎn)換器層的輸出都沒有明確的位置細(xì)節(jié)。

??LLaMA??和??GPT-NeoX??等流行模型也正在使用RoPE。

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

圖2：??ALiBi方法??可視化（圖片來自論文https://arxiv.org/pdf/2108.12409）。

4.注意線性偏差（ALiBi）

??ALiBi算法??也不會(huì)在單詞嵌入中添加位置編碼；相反，它對(duì)注意力權(quán)重分?jǐn)?shù)增加了一個(gè)懲罰，該懲罰與標(biāo)記之間的距離成正比。因此，每層兩個(gè)標(biāo)記i和j之間的注意力得分計(jì)算如下：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

注意力得分=query_i ×key_j-m ×（i-j）

其中，-m ×（i-j）是一個(gè)懲罰值，與標(biāo)記i和j之間的距離成正比。標(biāo)量m是訓(xùn)練前固定的頭部特定斜率，其不同頭部的值被選擇為幾何序列。例如，對(duì)于頭部值8，m可能是：

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

這意味著，第一個(gè)頭部有一個(gè)相對(duì)較大的m，因此它更多地懲罰相距較遠(yuǎn)的標(biāo)記，并專注于最近的標(biāo)記，而第八個(gè)頭有最小的m，使其能夠處理更遠(yuǎn)的標(biāo)記。前面的圖2還提供了相應(yīng)的可視化表示。

當(dāng)前，ALiBi算法已經(jīng)應(yīng)用于??BloombergGPT模型??和??BLOOM模型??。

推理時(shí)的轉(zhuǎn)換器外推

推理時(shí)的轉(zhuǎn)換器外推是指模型能夠很好地處理比訓(xùn)練時(shí)更長(zhǎng)的輸入序列。轉(zhuǎn)換器機(jī)制與輸入長(zhǎng)度無關(guān)，這意味著在推理時(shí)，它可以處理更長(zhǎng)的序列。然而，請(qǐng)注意，計(jì)算成本隨輸入長(zhǎng)度呈二次方增長(zhǎng)，即使轉(zhuǎn)換器層本身與之無關(guān)。

ALiBi的作者證明了轉(zhuǎn)換器外推的瓶頸是它的位置嵌入方法。如圖3所示，他們比較了不同位置嵌入方法的外推能力。由于學(xué)習(xí)位置嵌入不能對(duì)大于訓(xùn)練長(zhǎng)度的位置進(jìn)行編碼，因此它沒有外推能力。

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

圖3：外推法：隨著輸入序列變長(zhǎng)（x軸），正弦、RoPE和T5位置編碼顯示出困惑度降低（在y軸上，越低越好），而ALiBi則沒有（圖片來自??論文??）。

圖3顯示出，正弦位置嵌入在實(shí)踐中的外推能力非常有限。雖然RoPE算法的性能優(yōu)于正弦曲線算法，但它仍然沒有達(dá)到令人滿意的結(jié)果。T5偏置方法（相對(duì)位置嵌入的一種形式）比正弦算法和RoPE算法嵌入具有更好的外推效果。不幸的是，T5算法偏差的計(jì)算成本很高（圖4）。ALiBi算法的性能優(yōu)于所有這些位置嵌入，內(nèi)存增加則可以忽略不計(jì)（0-0.7%）。

克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法-AI.x社區(qū)

圖4：正弦、RoPE、T5和ALiBi算法位置編碼的批處理訓(xùn)練、推理速度和內(nèi)存使用的比較（圖片來自??論文??）

結(jié)論

總之，轉(zhuǎn)換器架構(gòu)中位置信息的編碼方式會(huì)顯著影響其理解順序數(shù)據(jù)的能力，尤其是在推理時(shí)的外推時(shí)。雖然絕對(duì)位置嵌入方法提供了位置感知，但它們經(jīng)常難以進(jìn)行轉(zhuǎn)換器外推。這就是為什么提出了更新的位置嵌入。相對(duì)位置編碼算法RoPE和ALiBi算法具有在推理時(shí)進(jìn)行外推的能力。最后，隨著轉(zhuǎn)換器在各種應(yīng)用中的不斷集成，完善位置編碼對(duì)于突破其性能極限具有非常重要的意義。

注意：本中表達(dá)的意見僅代表我們自己的觀點(diǎn)。

參考文獻(xiàn)

【1】Vaswani, A. “Attention is all you need.” (2017)。

【2】??BERT??：Devlin, Jacob，“Bert: Pre-training of deep bidirectional transformers for language understanding”（2018）。

【3】??GPT??：Radford, Alec等，“Language models are unsupervised multitask learners.”（2019）。

【4】??RelativePosEmb??：Shaw, Peter等，“Self-attention with relative position representations.”（2018）。

【5】??Transformer-XL??Dai, Zihang，“Transformer-xl：Attentive language models beyond a fixed-length context.”（2019）。

【6】??T5??：Raffel, Colin等，“Exploring the limits of transfer learning with a unified text-to-text transformer.” （2020）。

【7】Raffel, Colin等，“Exploring the limits of transfer learning with a unified text-to-text transformer.”（2020）。

【8】He, Pengcheng等，“Deberta：Decoding-enhanced bert with disentangled attention.”（2020）。

【9】??RoPE??：Su, Jianlin等，“Roformer: Enhanced transformer with rotary position embedding.”（2024）。

【10】??LLaMA??：Touvron, Hugo等，“Llama: Open and efficient foundation language models.”（2023）。

【11】??GPT-NeoX??：Black, Sid等，“Gpt-neox-20b: An open-source autoregressive language model.”（2022）。

【12】??ALiBi??：Press, Ofir等，“Train short, test long: Attention with linear biases enables input length extrapolation.”（2021）。

【13】??BloombergGPT??：Wu, Shijie等，“Bloomberggpt: A large language model for finance.”（2023）。

【14】??BLOOM??：Le Scao, Teven等，“Bloom: A 176b-parameter open-access multilingual language model.”（2023）。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計(jì)算機(jī)教師，自由編程界老兵一枚。

原文標(biāo)題：??Beyond Attention: How Advanced Positional Embedding Methods Improve upon the Original Approach in Transformer Architecture??，作者：Elahe Aghapour & Salar Rahili

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

機(jī)器學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI CEO奧特曼25日最新演講：只專注于AI局限性的創(chuàng)業(yè)者必死！AI也不會(huì)違背商業(yè)的定律

51CTO技術(shù)棧 ? 2515瀏覽 ? 0回復(fù)
與 ChatGPT 的對(duì)話：技術(shù)、應(yīng)用和局限性

angel ? 3272瀏覽 ? 0回復(fù)
如何將大型語言模型（LLM）轉(zhuǎn)換為嵌入模型

51CTO內(nèi)容精選 ? 2672瀏覽 ? 0回復(fù)
學(xué)習(xí)大模型技術(shù)的方法論——從應(yīng)用中學(xué)習(xí)大模型

AI探索時(shí)代 ? 2637瀏覽 ? 0回復(fù)
半監(jiān)督學(xué)習(xí)：如何克服數(shù)據(jù)標(biāo)簽缺乏問題

51CTO內(nèi)容精選 ? 3635瀏覽 ? 0回復(fù)
基于PyTorch從零實(shí)現(xiàn)視覺轉(zhuǎn)換器（ViT）?

51CTO內(nèi)容精選 ? 3405瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)利器——決策樹分類器深度解析

51CTO內(nèi)容精選 ? 2159瀏覽 ? 0回復(fù)
拋開技術(shù)，從問題來串聯(lián)人工智能，機(jī)器學(xué)習(xí)和大模型技術(shù)

AI探索時(shí)代 ? 1533瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)四大范式：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

智駐未來 ? 1.2w瀏覽 ? 0回復(fù)
從數(shù)據(jù)孤島到智能系統(tǒng)：RAG和知識(shí)圖譜的協(xié)同作用

51CTO內(nèi)容精選 ? 2356瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開始大模型之位置編碼

周末程序猿 ? 1550瀏覽 ? 0回復(fù)
深入探究編碼器 - 解碼器架構(gòu)：從RNN到Transformer的自然語言處理模型

AI論文解讀 ? 3637瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開始大模型之模型DPO訓(xùn)練

周末程序猿 ? 1831瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開發(fā)大模型之DeepSeek的GRPO

周末程序猿 ? 1883瀏覽 ? 0回復(fù)
深度解析理解 Transformer 中的3大位置嵌入：從絕對(duì)位置嵌入到旋轉(zhuǎn)位置嵌入

智駐未來 ? 2548瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開發(fā)大模型之復(fù)現(xiàn)DeepSeek的aha moment

周末程序猿 ? 1633瀏覽 ? 0回復(fù)
RAG 模型的“靈魂伴侶”：如何挑選最適合的嵌入方法？

Halo咯咯 ? 2029瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實(shí)踐的深度解析！

南夏的算法驛站 ? 1506瀏覽 ? 0回復(fù)
大模型推理能力的局限性

JavaEdge1 ? 927瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 16h前發(fā)布
MCP安全噩夢(mèng)終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實(shí)戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：最小化的遞歸神經(jīng)網(wǎng)絡(luò)RNN為Transformer提供了快速高效的替代方案

下一篇：如何使用Hugging Face Transformers微調(diào)F5以回答問題？

社區(qū)精華內(nèi)容

目錄

<cite id="uwgzu"></cite>