自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="2apl6"><i id="2apl6"></i></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

改變傳統(tǒng)，吳恩達(dá)開源了一個(gè)機(jī)器翻譯智能體項(xiàng)目

作者：機(jī)器之心 2024-06-13 09:05:36

人工智能新聞

吳恩達(dá)：拜托了大家，一起讓翻譯智能體變得更好。

前段時(shí)間，隨著 GPT-4o、Sora 的陸續(xù)問世，多模態(tài)模型在生成式方面取得的成績(jī)無可否認(rèn)，而人工智能的下一個(gè)革命性突破將從何處涌現(xiàn)，引起了大量學(xué)者和相關(guān)人士的關(guān)注。

人工智能著名學(xué)者、斯坦福大學(xué)教授吳恩達(dá)一直非常推崇智能體。此前他曾在個(gè)人博客著重指出「AI 智能體工作流將會(huì)在今年推動(dòng)人工智能取得長(zhǎng)足進(jìn)步」，AI 智能體的未來潛力愈加被看好，吸睛無數(shù)。

近日，吳恩達(dá)延續(xù)他之前的腳步，開源了一個(gè) AI 智能體機(jī)器翻譯項(xiàng)目。

項(xiàng)目鏈接：https://github.com/andrewyng/translation-agent

他分享了關(guān)于 AI 智能體機(jī)器翻譯對(duì)改進(jìn)傳統(tǒng)神經(jīng)機(jī)器翻譯方面的看法：「具有巨大潛力，尚未被完全發(fā)掘」，并發(fā)布了一個(gè)他一直在周末玩的翻譯智能體演示。該翻譯智能體以 MIT 許可證形式發(fā)布。用戶可以自由使用、修改和分發(fā)該代碼，無論是商業(yè)用途還是非商業(yè)用途。

在研究團(tuán)隊(duì)有限的測(cè)試中，吳恩達(dá)團(tuán)隊(duì)開源的翻譯智能體有時(shí)能夠與領(lǐng)先的商業(yè)提供商進(jìn)行同等水平的競(jìng)爭(zhēng)，有時(shí)則不如它們。但它仍提供了一個(gè)高度可控的翻譯系統(tǒng)，只需簡(jiǎn)單更改 prompt，使用者就可以指定語(yǔ)氣（正式 / 非正式）、地區(qū)變體（例如：使用者想要在西班牙本地說的西班牙語(yǔ)，還是在拉丁美洲說的），并確保術(shù)語(yǔ)的翻譯一致性（通過提供詞匯表）。這個(gè)應(yīng)用程序雖然目前仍稍顯稚嫩，但鑒于反思工作流已經(jīng)展現(xiàn)出不錯(cuò)的成果，吳恩達(dá)認(rèn)為智能體翻譯仍有很大的提升空間。

在吳恩達(dá)分享的開源項(xiàng)目中，具體介紹了 AI 智能體翻譯項(xiàng)目的工作流。

翻譯智能體：使用反思工作流進(jìn)行智能體翻譯

這是一個(gè)使用 Python 演示的反思智能體工作流的機(jī)器翻譯示例。主要步驟如下：

1. 輸入 prompt，使大型語(yǔ)言模型（LLM）將文本從 source_language 翻譯成 target_language；

2. 讓 LLM 反思翻譯結(jié)果，并提出建設(shè)性的改進(jìn)建議；

3. 利用這些建議改進(jìn)翻譯。

自定義能力

通過使用 LLM 作為翻譯引擎的核心，該系統(tǒng)具有高度可控性。

例如：通過更改 prompt，這種工作流比傳統(tǒng)的機(jī)器翻譯（MT）系統(tǒng)更容易實(shí)現(xiàn)以下功能：

修改輸出的風(fēng)格，如正式 / 非正式。
指定如何處理習(xí)語(yǔ)和特殊術(shù)語(yǔ)，如名字、技術(shù)術(shù)語(yǔ)和縮寫。例如，在 prompt 中包含術(shù)語(yǔ)表，可以確保特定術(shù)語(yǔ)（如開源、H100 或 GPU）翻譯的一致性。
指定特定區(qū)域的語(yǔ)言使用或特定方言，以服務(wù)目標(biāo)受眾。例如，拉丁美洲的西班牙語(yǔ)與西班牙的西班牙語(yǔ)不同；加拿大的法語(yǔ)與法國(guó)的法語(yǔ)不同。

通過 BLEU（Bilingual Evaluation Understudy）分?jǐn)?shù)進(jìn)行翻譯質(zhì)量的評(píng)估作為有別于傳統(tǒng)機(jī)器翻譯的后起之秀，同樣也是衡量 AI 智能體翻譯的必由之路。

根據(jù)使用傳統(tǒng)翻譯數(shù)據(jù)集的 BLEU 分?jǐn)?shù)進(jìn)行評(píng)估的結(jié)果：這種工作流有時(shí)能與領(lǐng)先的商業(yè)產(chǎn)品競(jìng)爭(zhēng)，但有時(shí)表現(xiàn)也不如它們。不過，它偶爾也能夠得到非常好的結(jié)果，甚至優(yōu)于商業(yè)產(chǎn)品。

他們認(rèn)為這只是智能體翻譯的起點(diǎn)，這一方向在翻譯方面很有前景，并且有很大的改進(jìn)空間。因此，作者團(tuán)隊(duì)發(fā)布這一演示，以鼓勵(lì)更多的討論、實(shí)驗(yàn)、研究和開源貢獻(xiàn)。

如果相比于更快且更便宜的傳統(tǒng)架構(gòu)（例如輸入文本并直接輸出翻譯的端到端 Transformer 架構(gòu)），智能體翻譯能夠有更好的結(jié)果，那么它就 neng 提供一種自動(dòng)生成訓(xùn)練數(shù)據(jù)（平行文本語(yǔ)料庫(kù)）的方法，可以用于進(jìn)一步訓(xùn)練和改進(jìn)傳統(tǒng)算法。

啟動(dòng)

為使 translation-agent 啟動(dòng)，需要遵循以下步驟。

安裝：

安裝需要 Poetry 管理器。根據(jù)安裝環(huán)境，安裝 Poetry 可能需要執(zhí)行以下步驟：

pip install poetry

git clone https://github.com/andrewyng/translation-agent.gitcd translation-agent
poetry install
poetry shell # activates virtual environment

運(yùn)行工作流需要一個(gè)包含 OPENAI_API_KEY 的 .env 文件，使用者可以參考 .env.sample 文件作為示例。

Usage:

import translation_agent as ta
source_lang, target_lang, country = "English", "Spanish", "Mexico"
translation = ta.translate(source_lang, target_lang, source_text, country)

使用：

import translation_agent as ta
source_lang, target_lang, country = "English", "Spanish", "Mexico"
translation = ta.translate(source_lang, target_lang, source_text, country)

查看 examples/example_script.py 獲取一個(gè)示例腳本并進(jìn)行嘗試。

翻譯智能體的進(jìn)一步發(fā)展

吳恩達(dá)在最后還分享了幾點(diǎn)希望開源社區(qū)能夠嘗試的想法，希望憑借眾家之力將翻譯智能體的巨大潛力歸為實(shí)處。

嘗試其他語(yǔ)言生成模型。此項(xiàng)目主要使用 gpt-4-turbo 進(jìn)行原型開發(fā)。其他人可以嘗試其他 LLM，以及其他超參數(shù)選擇，并查看是否有些大模型可以對(duì)特定語(yǔ)言更好地翻譯。
術(shù)語(yǔ)表的創(chuàng)建。使用 LLM 也許可以更高效地建立術(shù)語(yǔ)表。例如，許多企業(yè)使用的是互聯(lián)網(wǎng)上不常用的專業(yè)術(shù)語(yǔ)，而 LLM 可能不知道這些術(shù)語(yǔ)。此外，還有許多術(shù)語(yǔ)可能有多種翻譯方式。例如，「open source」在西班牙語(yǔ)中可以是「Código abierto」或「Fuente abierta」；兩者都可以，但最好選擇一個(gè)并在單個(gè)文檔中堅(jiān)持長(zhǎng)期使用。
術(shù)語(yǔ)表的使用和實(shí)施。將術(shù)語(yǔ)表包含在 prompt 中最好的方式是什么？
在不同語(yǔ)言上進(jìn)行評(píng)估。翻譯智能體在不同語(yǔ)言中的表現(xiàn)會(huì)發(fā)生怎樣的變化？有沒有通過一些變動(dòng)，使其在特定源語(yǔ)言或目標(biāo)語(yǔ)言上表現(xiàn)更好的方法？（請(qǐng)注意，對(duì)于 MT 系統(tǒng)正在接近的較高性能水平，BLEU 是否是一個(gè)很好的度量標(biāo)準(zhǔn)仍是不確定的。）此外，對(duì)于資源較少的語(yǔ)言，它的性能表現(xiàn)仍需要進(jìn)一步研究。
錯(cuò)誤分析。吳恩達(dá)團(tuán)隊(duì)發(fā)現(xiàn)此應(yīng)用程序?qū)τ谝恍┲付ㄕZ(yǔ)言和國(guó)家 / 地區(qū)（例如，「在墨西哥作為普通話的西班牙語(yǔ)」）來說效果很好。除此之外，當(dāng)前方法在哪些方面仍存有不足？翻譯智能體在專業(yè)主題（如法律、醫(yī)學(xué)）或特殊文本類型（如電影字幕）上的性能表現(xiàn)如何？存在怎樣的限制？
更好的評(píng)估指標(biāo)。吳恩達(dá)認(rèn)為對(duì) AI 智能體翻譯進(jìn)行更好的評(píng)估是一個(gè)巨大且重要的研究課題。與其他生成自由文本的 LLM 應(yīng)用程序一樣，當(dāng)前的評(píng)估指標(biāo)似乎并不足夠評(píng)估翻譯智能體的表現(xiàn)。例如，他們發(fā)現(xiàn)：即使在主動(dòng)型工作流程在捕捉上下文和術(shù)語(yǔ)方面表現(xiàn)更好的文檔上，仍會(huì)導(dǎo)致人類評(píng)分者更喜歡當(dāng)前的商業(yè)產(chǎn)品，但是在句子級(jí)別進(jìn)行評(píng)估（使用 FLORES 數(shù)據(jù)集）時(shí)，主動(dòng)型系統(tǒng)的 BLEU 得分則較低。在設(shè)計(jì)出更好的度量標(biāo)準(zhǔn)（也許使用 LLM 評(píng)估翻譯？）以在文檔水平上更好地實(shí)現(xiàn)與人類偏好相關(guān)的翻譯質(zhì)量仍需更多的努力。

值得注意的是，一些學(xué)術(shù)研究小組也開始關(guān)注基于 LLM 和主動(dòng)型翻譯的研究。

對(duì)于 AI 翻譯智能體的前景，吳恩達(dá)認(rèn)為這個(gè)領(lǐng)域還處于起步階段，并分享了一些相關(guān)的學(xué)術(shù)論文供大家參考。

論文標(biāo)題：ChatGPT MT: Competitive for High- (but not Low-) Resource Languages
論文地址：https://arxiv.org/pdf/2309.07423

論文標(biāo)題：How to Design Translation Prompts for ChatGPT: An Empirical Study
論文地址：https://arxiv.org/pdf/2304.02182v2

論文標(biāo)題：Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
論文地址：https://arxiv.org/pdf/2405.11804

吳恩達(dá)此次開源的翻譯智能體仍處于初級(jí)階段，但已在機(jī)器翻譯數(shù)據(jù)集上有了較好的表現(xiàn)，為 AI 智能體的下一步發(fā)展注入了又一劑強(qiáng)心針。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)