改變傳統(tǒng),吳恩達(dá)開源了一個(gè)機(jī)器翻譯智能體項(xiàng)目
前段時(shí)間,隨著 GPT-4o、Sora 的陸續(xù)問世,多模態(tài)模型在生成式方面取得的成績(jī)無可否認(rèn),而人工智能的下一個(gè)革命性突破將從何處涌現(xiàn),引起了大量學(xué)者和相關(guān)人士的關(guān)注。
人工智能著名學(xué)者、斯坦福大學(xué)教授吳恩達(dá)一直非常推崇智能體。此前他曾在個(gè)人博客著重指出「AI 智能體工作流將會(huì)在今年推動(dòng)人工智能取得長(zhǎng)足進(jìn)步」,AI 智能體的未來潛力愈加被看好,吸睛無數(shù)。
近日,吳恩達(dá)延續(xù)他之前的腳步,開源了一個(gè) AI 智能體機(jī)器翻譯項(xiàng)目。
項(xiàng)目鏈接:https://github.com/andrewyng/translation-agent
他分享了關(guān)于 AI 智能體機(jī)器翻譯對(duì)改進(jìn)傳統(tǒng)神經(jīng)機(jī)器翻譯方面的看法:「具有巨大潛力,尚未被完全發(fā)掘」,并發(fā)布了一個(gè)他一直在周末玩的翻譯智能體演示。該翻譯智能體以 MIT 許可證形式發(fā)布。用戶可以自由使用、修改和分發(fā)該代碼,無論是商業(yè)用途還是非商業(yè)用途。
在研究團(tuán)隊(duì)有限的測(cè)試中,吳恩達(dá)團(tuán)隊(duì)開源的翻譯智能體有時(shí)能夠與領(lǐng)先的商業(yè)提供商進(jìn)行同等水平的競(jìng)爭(zhēng),有時(shí)則不如它們。但它仍提供了一個(gè)高度可控的翻譯系統(tǒng),只需簡(jiǎn)單更改 prompt,使用者就可以指定語(yǔ)氣(正式 / 非正式)、地區(qū)變體(例如:使用者想要在西班牙本地說的西班牙語(yǔ),還是在拉丁美洲說的),并確保術(shù)語(yǔ)的翻譯一致性(通過提供詞匯表)。這個(gè)應(yīng)用程序雖然目前仍稍顯稚嫩,但鑒于反思工作流已經(jīng)展現(xiàn)出不錯(cuò)的成果,吳恩達(dá)認(rèn)為智能體翻譯仍有很大的提升空間。
在吳恩達(dá)分享的開源項(xiàng)目中,具體介紹了 AI 智能體翻譯項(xiàng)目的工作流。
翻譯智能體:使用反思工作流進(jìn)行智能體翻譯
這是一個(gè)使用 Python 演示的反思智能體工作流的機(jī)器翻譯示例。主要步驟如下:
1. 輸入 prompt,使大型語(yǔ)言模型(LLM)將文本從 source_language 翻譯成 target_language;
2. 讓 LLM 反思翻譯結(jié)果,并提出建設(shè)性的改進(jìn)建議;
3. 利用這些建議改進(jìn)翻譯。
自定義能力
通過使用 LLM 作為翻譯引擎的核心,該系統(tǒng)具有高度可控性。
例如:通過更改 prompt,這種工作流比傳統(tǒng)的機(jī)器翻譯(MT)系統(tǒng)更容易實(shí)現(xiàn)以下功能:
- 修改輸出的風(fēng)格,如正式 / 非正式。
- 指定如何處理習(xí)語(yǔ)和特殊術(shù)語(yǔ),如名字、技術(shù)術(shù)語(yǔ)和縮寫。例如,在 prompt 中包含術(shù)語(yǔ)表,可以確保特定術(shù)語(yǔ)(如開源、H100 或 GPU)翻譯的一致性。
- 指定特定區(qū)域的語(yǔ)言使用或特定方言,以服務(wù)目標(biāo)受眾。例如,拉丁美洲的西班牙語(yǔ)與西班牙的西班牙語(yǔ)不同;加拿大的法語(yǔ)與法國(guó)的法語(yǔ)不同。
通過 BLEU(Bilingual Evaluation Understudy)分?jǐn)?shù)進(jìn)行翻譯質(zhì)量的評(píng)估作為有別于傳統(tǒng)機(jī)器翻譯的后起之秀,同樣也是衡量 AI 智能體翻譯的必由之路。
根據(jù)使用傳統(tǒng)翻譯數(shù)據(jù)集的 BLEU 分?jǐn)?shù)進(jìn)行評(píng)估的結(jié)果:這種工作流有時(shí)能與領(lǐng)先的商業(yè)產(chǎn)品競(jìng)爭(zhēng),但有時(shí)表現(xiàn)也不如它們。不過,它偶爾也能夠得到非常好的結(jié)果,甚至優(yōu)于商業(yè)產(chǎn)品。
他們認(rèn)為這只是智能體翻譯的起點(diǎn),這一方向在翻譯方面很有前景,并且有很大的改進(jìn)空間。因此,作者團(tuán)隊(duì)發(fā)布這一演示,以鼓勵(lì)更多的討論、實(shí)驗(yàn)、研究和開源貢獻(xiàn)。
如果相比于更快且更便宜的傳統(tǒng)架構(gòu)(例如輸入文本并直接輸出翻譯的端到端 Transformer 架構(gòu)),智能體翻譯能夠有更好的結(jié)果,那么它就 neng 提供一種自動(dòng)生成訓(xùn)練數(shù)據(jù)(平行文本語(yǔ)料庫(kù))的方法,可以用于進(jìn)一步訓(xùn)練和改進(jìn)傳統(tǒng)算法。
啟動(dòng)
為使 translation-agent 啟動(dòng),需要遵循以下步驟。
安裝:
安裝需要 Poetry 管理器。根據(jù)安裝環(huán)境,安裝 Poetry 可能需要執(zhí)行以下步驟:
pip install poetry
git clone https://github.com/andrewyng/translation-agent.gitcd translation-agent
poetry install
poetry shell # activates virtual environment
運(yùn)行工作流需要一個(gè)包含 OPENAI_API_KEY 的 .env 文件,使用者可以參考 .env.sample 文件作為示例。
Usage:
import translation_agent as ta
source_lang, target_lang, country = "English", "Spanish", "Mexico"
translation = ta.translate(source_lang, target_lang, source_text, country)
使用:
import translation_agent as ta
source_lang, target_lang, country = "English", "Spanish", "Mexico"
translation = ta.translate(source_lang, target_lang, source_text, country)
查看 examples/example_script.py 獲取一個(gè)示例腳本并進(jìn)行嘗試。
翻譯智能體的進(jìn)一步發(fā)展
吳恩達(dá)在最后還分享了幾點(diǎn)希望開源社區(qū)能夠嘗試的想法,希望憑借眾家之力將翻譯智能體的巨大潛力歸為實(shí)處。
- 嘗試其他語(yǔ)言生成模型。此項(xiàng)目主要使用 gpt-4-turbo 進(jìn)行原型開發(fā)。其他人可以嘗試其他 LLM,以及其他超參數(shù)選擇,并查看是否有些大模型可以對(duì)特定語(yǔ)言更好地翻譯。
- 術(shù)語(yǔ)表的創(chuàng)建。使用 LLM 也許可以更高效地建立術(shù)語(yǔ)表。例如,許多企業(yè)使用的是互聯(lián)網(wǎng)上不常用的專業(yè)術(shù)語(yǔ),而 LLM 可能不知道這些術(shù)語(yǔ)。此外,還有許多術(shù)語(yǔ)可能有多種翻譯方式。例如,「open source」在西班牙語(yǔ)中可以是「Código abierto」或「Fuente abierta」;兩者都可以,但最好選擇一個(gè)并在單個(gè)文檔中堅(jiān)持長(zhǎng)期使用。
- 術(shù)語(yǔ)表的使用和實(shí)施。將術(shù)語(yǔ)表包含在 prompt 中最好的方式是什么?
- 在不同語(yǔ)言上進(jìn)行評(píng)估。翻譯智能體在不同語(yǔ)言中的表現(xiàn)會(huì)發(fā)生怎樣的變化?有沒有通過一些變動(dòng),使其在特定源語(yǔ)言或目標(biāo)語(yǔ)言上表現(xiàn)更好的方法?(請(qǐng)注意,對(duì)于 MT 系統(tǒng)正在接近的較高性能水平,BLEU 是否是一個(gè)很好的度量標(biāo)準(zhǔn)仍是不確定的。)此外,對(duì)于資源較少的語(yǔ)言,它的性能表現(xiàn)仍需要進(jìn)一步研究。
- 錯(cuò)誤分析。吳恩達(dá)團(tuán)隊(duì)發(fā)現(xiàn)此應(yīng)用程序?qū)τ谝恍┲付ㄕZ(yǔ)言和國(guó)家 / 地區(qū)(例如,「在墨西哥作為普通話的西班牙語(yǔ)」)來說效果很好。除此之外,當(dāng)前方法在哪些方面仍存有不足?翻譯智能體在專業(yè)主題(如法律、醫(yī)學(xué))或特殊文本類型(如電影字幕)上的性能表現(xiàn)如何?存在怎樣的限制?
- 更好的評(píng)估指標(biāo)。吳恩達(dá)認(rèn)為對(duì) AI 智能體翻譯進(jìn)行更好的評(píng)估是一個(gè)巨大且重要的研究課題。與其他生成自由文本的 LLM 應(yīng)用程序一樣,當(dāng)前的評(píng)估指標(biāo)似乎并不足夠評(píng)估翻譯智能體的表現(xiàn)。例如,他們發(fā)現(xiàn):即使在主動(dòng)型工作流程在捕捉上下文和術(shù)語(yǔ)方面表現(xiàn)更好的文檔上,仍會(huì)導(dǎo)致人類評(píng)分者更喜歡當(dāng)前的商業(yè)產(chǎn)品,但是在句子級(jí)別進(jìn)行評(píng)估(使用 FLORES 數(shù)據(jù)集)時(shí),主動(dòng)型系統(tǒng)的 BLEU 得分則較低。在設(shè)計(jì)出更好的度量標(biāo)準(zhǔn)(也許使用 LLM 評(píng)估翻譯?)以在文檔水平上更好地實(shí)現(xiàn)與人類偏好相關(guān)的翻譯質(zhì)量仍需更多的努力。
值得注意的是,一些學(xué)術(shù)研究小組也開始關(guān)注基于 LLM 和主動(dòng)型翻譯的研究。
對(duì)于 AI 翻譯智能體的前景,吳恩達(dá)認(rèn)為這個(gè)領(lǐng)域還處于起步階段,并分享了一些相關(guān)的學(xué)術(shù)論文供大家參考。
- 論文標(biāo)題:ChatGPT MT: Competitive for High- (but not Low-) Resource Languages
- 論文地址:https://arxiv.org/pdf/2309.07423
- 論文標(biāo)題:How to Design Translation Prompts for ChatGPT: An Empirical Study
- 論文地址:https://arxiv.org/pdf/2304.02182v2
- 論文標(biāo)題:Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
- 論文地址:https://arxiv.org/pdf/2405.11804
吳恩達(dá)此次開源的翻譯智能體仍處于初級(jí)階段,但已在機(jī)器翻譯數(shù)據(jù)集上有了較好的表現(xiàn),為 AI 智能體的下一步發(fā)展注入了又一劑強(qiáng)心針。