自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="evbii"></cite>

<cite id="evbii"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

軟件開發(fā)人員指南：在自己的數(shù)據(jù)上訓(xùn)練ChatGPT

作者：李睿 2024-01-15 15:09:16

對(duì)于軟件開發(fā)團(tuán)隊(duì)來(lái)說(shuō)，學(xué)習(xí)如何有效地訓(xùn)練和定制像ChatGPT這樣的大語(yǔ)言模型會(huì)給企業(yè)帶來(lái)更多的機(jī)會(huì)。結(jié)合檢索增強(qiáng)等技術(shù)，這些人工智能助手可以在廣泛的主題上進(jìn)行有意義的、深入的對(duì)話，穩(wěn)步向人工智能助手邁進(jìn)。

譯者 | 李睿

審校 | 重樓

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

OpenAI公司推出的ChatGPT對(duì)于對(duì)話式人工智能具有革命性意義。雖然其開箱即用的功能令人印象深刻，但ChatGPT的功能本質(zhì)上受到2021年固有訓(xùn)練數(shù)據(jù)的限制。對(duì)于軟件開發(fā)人員和科技公司來(lái)說(shuō)，在自定義數(shù)據(jù)集上訓(xùn)練ChatGPT是創(chuàng)建量身定制的人工智能助手的關(guān)鍵。

在這個(gè)全面的指南中，將探索軟件團(tuán)隊(duì)使用微調(diào)和MEMWALKER交互式閱讀等技術(shù)來(lái)訓(xùn)練定制ChatGPT模型的最佳實(shí)踐。

1、克服ChatGPT默認(rèn)訓(xùn)練的局限性

ChatGPT是由OpenAI公司在一個(gè)龐大的通用知識(shí)數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，包括維基百科、書籍、網(wǎng)站等。由于這些訓(xùn)練數(shù)據(jù)是在2021年收集的，ChatGPT有一些天然的弱點(diǎn)：

對(duì)2021年之后發(fā)生的近期事件或新出現(xiàn)的話題一無(wú)所知。
在歷史和文學(xué)等常見領(lǐng)域之外的專業(yè)知識(shí)狹窄。
沒有基于對(duì)話的個(gè)人記憶功能。
難以在長(zhǎng)對(duì)話中保持場(chǎng)景。

這些限制直接來(lái)自ChatGPT的固定數(shù)據(jù)集，該數(shù)據(jù)集缺乏最新的專業(yè)知識(shí)。用戶通過(guò)在自己的數(shù)據(jù)上訓(xùn)練ChatGPT，可以創(chuàng)建適合自己的行業(yè)、主題和業(yè)務(wù)需求的版本。

2、訓(xùn)練ChatGPT模型的關(guān)鍵方法

軟件開發(fā)團(tuán)隊(duì)可以使用一些核心技術(shù)來(lái)定制ChatGPT：

（1）對(duì)Curated數(shù)據(jù)集進(jìn)行微調(diào)

一種簡(jiǎn)單直接的方法是收集相關(guān)文本，例如文檔、電子郵件、手冊(cè)等，以微調(diào)ChatGPT模型。這個(gè)過(guò)程包括：

編譯自定義數(shù)據(jù)集：收集涵蓋用戶希望ChatGPT學(xué)習(xí)的主題和知識(shí)的文本。
清洗和預(yù)處理：將數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)格式，匿名化任何敏感信息。
微調(diào)模型：使用類似Anthropic的API上傳數(shù)據(jù)集，并通過(guò)反向傳播進(jìn)一步訓(xùn)練ChatGPT。

微調(diào)直接將用戶的專業(yè)知識(shí)灌輸?shù)紺hatGPT中。

（2）采用MEMWALKER互動(dòng)閱讀

對(duì)于長(zhǎng)格式文本，MEMWALKER等先進(jìn)技術(shù)可以在訓(xùn)練期間更有效地處理場(chǎng)景。MEMWALKER有兩個(gè)階段：

建立記憶樹：長(zhǎng)文本被分成多個(gè)片段。每個(gè)片段匯總形成樹結(jié)構(gòu)的一個(gè)節(jié)點(diǎn)。
導(dǎo)航樹：當(dāng)回答問(wèn)題時(shí)，人工智能遍歷樹以從節(jié)點(diǎn)收集相關(guān)細(xì)節(jié)。

這種方法允許在冗長(zhǎng)的示例中維護(hù)場(chǎng)景。

（3）檢索增強(qiáng)

用戶還可以通過(guò)索引數(shù)據(jù)集并將搜索與ChatGPT相結(jié)合來(lái)使用檢索增強(qiáng)功能。這允許在推理時(shí)利用大量的利基數(shù)據(jù)。

建立向量索引：為自定義文本集合建立索引，以進(jìn)行語(yǔ)義搜索。
整合檢索：在查詢ChatGPT時(shí)，首先從索引中顯示相關(guān)文本。
生成響應(yīng)：讓ChatGPT使用這些文本來(lái)告知其答案。

總之，這些技術(shù)支持對(duì)ChatGPT知識(shí)進(jìn)行重要的定制。接下來(lái)，用戶可以通過(guò)一些步驟來(lái)訓(xùn)練自己的模型。

3、如何訓(xùn)練ChatGPT模型的聊天技巧

用戶可以通過(guò)實(shí)踐指南來(lái)訓(xùn)練自己的ChatGPT模型，以適合其用例：

（1）收集和準(zhǔn)備訓(xùn)練數(shù)據(jù)

編制與行業(yè)或主題相關(guān)的文本內(nèi)容的多樣化數(shù)據(jù)集。抓取相關(guān)網(wǎng)站，收集產(chǎn)品文檔，創(chuàng)建自定義文章等。
通過(guò)消除文本重復(fù)、修復(fù)格式問(wèn)題和匿名化任何私人信息來(lái)清理數(shù)據(jù)。
將數(shù)據(jù)集拆分為訓(xùn)練、驗(yàn)證和測(cè)試子集。

（2）將數(shù)據(jù)上傳到人工智能平臺(tái)

使用Anthropic或Cohere等平臺(tái)上傳數(shù)據(jù)集。確保正確地標(biāo)記數(shù)據(jù)拆分。
選擇ChatGPT模型架構(gòu)，例如Claude或GPT-3模型作為基礎(chǔ)。

（3）進(jìn)行額外訓(xùn)練

通過(guò)梯度下降訓(xùn)練，在訓(xùn)練中調(diào)整基礎(chǔ)模型。在開發(fā)集上進(jìn)行驗(yàn)證。
考慮使用MEMWALKER之類的技巧來(lái)處理長(zhǎng)文本。
檢索aug，索引文本并集成語(yǔ)義搜索。

（4）評(píng)估自定義聊天機(jī)器人

在堅(jiān)持測(cè)試集和真實(shí)世界的對(duì)話中測(cè)試用戶經(jīng)過(guò)專門訓(xùn)練的模型。
分析模型對(duì)關(guān)鍵概念、相關(guān)性和對(duì)話連貫性的回憶。
通過(guò)收集更多關(guān)于弱點(diǎn)和再培訓(xùn)的數(shù)據(jù)來(lái)迭代改進(jìn)。

（5）部署模型

當(dāng)用戶滿意時(shí)，通過(guò)人工智能平臺(tái)提供的API部署其自定義ChatGPT。
設(shè)置生產(chǎn)實(shí)例并將其集成到用戶的應(yīng)用程序和業(yè)務(wù)工作流中。

·監(jiān)控和維護(hù)模型，根據(jù)需要對(duì)新數(shù)據(jù)進(jìn)行再培訓(xùn)。

4、自定義聊天機(jī)器人的實(shí)際應(yīng)用

經(jīng)過(guò)專門訓(xùn)練的ChatGPT模型在商業(yè)應(yīng)用中有無(wú)限的可能性：

客戶支持機(jī)器人：訓(xùn)練產(chǎn)品文檔，手冊(cè)和常見問(wèn)題。
行業(yè)分析機(jī)器人：獲取收益報(bào)告、新聞稿和文章，回答財(cái)務(wù)問(wèn)題。
主題專家機(jī)器人：通過(guò)教科書和研究論文進(jìn)行訓(xùn)練，教授醫(yī)學(xué)、法律、工程等知識(shí)。
企業(yè)文化機(jī)器人：通過(guò)培訓(xùn)新員工了解內(nèi)部維基、手冊(cè)和信息歷史，幫助他們?nèi)肼毠尽?/li>

正如人們所看到的，幾乎任何行業(yè)或利基領(lǐng)域都可以從定制的、知識(shí)淵博的ChatGPT助手中受益。自定義解鎖了與用戶的用例相一致的更多相關(guān)的對(duì)話能力。

互動(dòng)閱讀領(lǐng)域提供了大量的實(shí)際應(yīng)用。以檢索增強(qiáng)生成(RAG)為例，它融合了檢索和文本生成。這些模型可以從MEMWALKER中受益匪淺，使它們能夠有效地從大量文檔集合中提取相關(guān)的見解。

此外，企業(yè)可以利用集成了MEMWALKER的自定義人工智能聊天機(jī)器人進(jìn)行更廣泛、更自然的對(duì)話，同時(shí)保留必要的場(chǎng)景。

隨著大型語(yǔ)言模型(LLM)的不斷發(fā)展，交互式閱讀的潛力只會(huì)不斷擴(kuò)大。它為人工智能管理需要對(duì)場(chǎng)景、記憶和邏輯推理有豐富理解的任務(wù)鋪平了道路。

5、訓(xùn)練大型人工智能模型的未來(lái)

像交互式閱讀這樣的方法有利于導(dǎo)向在大型語(yǔ)言模型中更像人類的場(chǎng)景處理。隨著大型語(yǔ)言模型（LLM）的規(guī)模越來(lái)越大，減少他們對(duì)數(shù)據(jù)的渴求將是至關(guān)重要的。有效的信息編碼也允許利用更專業(yè)的利基知識(shí)。

對(duì)于軟件開發(fā)團(tuán)隊(duì)來(lái)說(shuō)，學(xué)習(xí)如何有效地訓(xùn)練和定制像ChatGPT這樣的大語(yǔ)言模型會(huì)給企業(yè)帶來(lái)更多的機(jī)會(huì)。結(jié)合檢索增強(qiáng)等技術(shù)，這些人工智能助手可以在廣泛的主題上進(jìn)行有意義的、深入的對(duì)話，穩(wěn)步向人工智能助手邁進(jìn)。

希望這一指南能夠闡明訓(xùn)練ChatGPT機(jī)器人的有效技術(shù)。有了正確的數(shù)據(jù)和有效的訓(xùn)練方法，用戶就可以為其軟件業(yè)務(wù)和開發(fā)人員創(chuàng)建專門的對(duì)話代理。

原文鏈接：https://dzone.com/articles/training-chatgpt-on-your-own-data-a-guide-for-soft

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

ChatGPT 軟件開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="wuwse"></style>

<legend id="wuwse"><li id="wuwse"><menuitem id="wuwse"></menuitem></li></legend>

<cite id="wuwse"><rp id="wuwse"></rp></cite>

<cite id="wuwse"><track id="wuwse"></track></cite>