自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI 大模型的語言不平等:英語最便宜,其它語言要貴得多

人工智能
詞元化模型(即人工智能公司將用戶輸入轉(zhuǎn)換為計(jì)算成本的方式)意味著,除了英語之外的其他語言使用和訓(xùn)練模型要貴得多。這是因?yàn)橄裰形倪@樣的語言有著不同、更復(fù)雜的結(jié)構(gòu)(無論是從語法還是字符數(shù)量上),導(dǎo)致它們需要更高的詞元化率。

7 月 31 日消息,用戶所使用的語言對于大型語言模型(LLM)的費(fèi)用有很大的影響,可能造成英語使用者和其它語言使用者之間的人工智能鴻溝。最近的一項(xiàng)研究顯示,由于 OpenAI 等服務(wù)所采用的的服務(wù)器成本衡量和計(jì)費(fèi)的方式,英語輸入和輸出的費(fèi)用要比其他語言低得多,其中簡體中文的費(fèi)用大約是英語的兩倍,西班牙語是英語的 1.5 倍,而緬甸的撣語則是英語的 15 倍。

IT之家注意到,推特用戶 Dylan Patel(@dlan522p)分享了一張照片,展示了牛津大學(xué)進(jìn)行的一項(xiàng)研究,該研究發(fā)現(xiàn),讓一個(gè) LLM 處理一句緬甸語句子需要 198 個(gè)詞元(tokens),而同樣的句子用英語寫只需要 17 個(gè)詞元。詞元代表了通過 API(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)訪問 LLM 所需的計(jì)算力成本,這意味著緬甸語句子使用這種服務(wù)的成本比英語句子高出 11 倍。

詞元化模型(即人工智能公司將用戶輸入轉(zhuǎn)換為計(jì)算成本的方式)意味著,除了英語之外的其他語言使用和訓(xùn)練模型要貴得多。這是因?yàn)橄裰形倪@樣的語言有著不同、更復(fù)雜的結(jié)構(gòu)(無論是從語法還是字符數(shù)量上),導(dǎo)致它們需要更高的詞元化率。例如,根據(jù) OpenAI 的 GPT3 分詞器 ,“你的愛意(your affection)”的詞元,在英語中只需要兩個(gè)詞元,但在簡體中文中需要八個(gè)詞元。盡管簡體中文文本只有 4 個(gè)字符(你的愛意),而英文有 14 個(gè)字符。

責(zé)任編輯:姜華 來源: IT之家
相關(guān)推薦

2009-03-25 08:38:56

IE8瀏覽器微軟

2022-09-01 21:38:30

加密貨幣區(qū)塊鏈金融

2022-04-25 13:20:04

區(qū)塊鏈藝術(shù)去中心

2018-06-08 16:28:23

2025-04-22 08:08:37

2022-06-27 10:05:00

微軟人工智能面部識別

2023-05-10 15:49:10

NLP語言模型

2020-10-20 09:45:28

Facebook AI翻譯

2018-03-13 09:34:30

人工智能編程語言Python

2017-02-27 11:53:12

AI學(xué)習(xí)

2024-03-19 13:12:36

自動(dòng)駕駛模型

2024-06-06 09:47:56

2023-09-03 16:20:30

2024-01-12 10:29:26

2023-03-30 19:17:54

語言編程

2013-08-23 13:35:30

編程語言程序員

2022-03-16 16:07:05

區(qū)塊鏈技術(shù)工具

2023-05-09 07:09:02

2024-05-27 08:00:00

人工智能大語言模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號