自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌請印度標注員給Reddit評論數(shù)據(jù)集打標簽,錯誤率高達30%?

新聞
可以確定的是,人工標注員完全沒懂 Reddit 網(wǎng)友的梗。

去年,谷歌發(fā)布了 GoEmotions 數(shù)據(jù)集,該數(shù)據(jù)集包含 58K 人工標注的 Reddit 評論,其中涉及 27 種情緒。

圖片


但一位名叫 Edwin Chen 的機器學習工程師卻在使用該數(shù)據(jù)集的時候,偶然發(fā)現(xiàn)了一些令人哭笑不得的錯誤。

他們本來嘗試自己在 GoEmotions 數(shù)據(jù)集上訓練模型,注意到似乎存在一些深層的質(zhì)量問題。于是他們隨機抽取了 1000 條評論,在其中 308 條中發(fā)現(xiàn)了嚴重錯誤

這里舉一些有代表性的例子:

  • aggressively tells friend I love them—— 被標記為「憤怒」
  • Yay, cold McDonald's. My favorite.—— 被標記為「喜愛」
  • Hard to be sad these days when I got this guy with me—— 被標記為「悲傷」
  • Nobody has the money to. What a joke—— 被標記為「愉悅」
  • ……

光是從抽取的評論中,他們就統(tǒng)計到了 25 種被錯誤標記的情緒。

在人工智能領(lǐng)域,數(shù)據(jù)標注是一項非?;A(chǔ),但也非常關(guān)鍵的工作。好的數(shù)據(jù)對于訓練模型至關(guān)重要,當數(shù)據(jù)面臨如此離譜的錯誤時,又該怎么訓練模型并評估模型的性能呢?

Edwin Chen 最后發(fā)問:「我們真的可以相信谷歌能夠創(chuàng)造出公正的現(xiàn)實世界人工智能嗎?」

所以,是什么導致了這些問題?

有人說:「有沒有可能,他們沒請人工標注員,或者請的人工標注員并未掌握流利的英語?」

圖片

據(jù)了解,GoEmotions 數(shù)據(jù)集的標注還是有人工參與的,只不過這些標注員是「以英語為母語的印度人」。

在論文的第 3.3 節(jié)中,有這么一段話:「我們給每個樣本分配了三個評估者。對于那些評估者沒有達成一致的樣本,我們分配了兩個額外的評估者。所有評估者都是以英語為母語的印度人。」圖片

因為根據(jù)「Cowen et al. (2019b) 這項研究的結(jié)論,印度和美國兩地的英語使用者的情緒判斷維度很大程度上是相同的。

圖片

事實是,盡管掌握了流利的英語,標注員之中的許多人可能不了解所標注文本的文化、社會背景。但這卻是關(guān)鍵要點之一,尤其是對于 NLP 數(shù)據(jù)集,標注者必須具備充分的文化意識。

圖片

也就是說,鑒于很多標注員可能缺乏必要的背景知識,即使大多數(shù)的數(shù)據(jù)標注都不存在爭議了(如上圖),也不代表標注結(jié)果就是完全正確的。

造成這種問題的另一個重要原因是,數(shù)據(jù)集中的數(shù)據(jù)都沒有附加的元數(shù)據(jù) (比如作者或子版塊名稱)。原論文中也提到了這一點:

圖片

圖片

語言不是處于真空之中的,它所在的版塊等信息非常重要。谷歌在構(gòu)建數(shù)據(jù)集時卻忽略了這一點。這不是一個孤立事件:作者還提到,假如連谷歌這種擁有大量資源的公司都難以創(chuàng)建準確的數(shù)據(jù)集,那么我們見過的其他數(shù)據(jù)集質(zhì)量更是難以想象。

圖片

好消息是,已經(jīng)有學者關(guān)注到了這個問題。上個月,吳恩達發(fā)起了「以數(shù)據(jù)為中心的 AI」倡議,他表示,專注于提升人工智能系統(tǒng)的數(shù)據(jù)質(zhì)量將有助于釋放其全部力量。

如果你想部署現(xiàn)實中 work 的機器學習模型,是時候關(guān)注高質(zhì)量數(shù)據(jù)集而不是更大的模型了。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-03-29 15:04:31

數(shù)據(jù)AI技術(shù)

2020-10-23 14:14:54

語音識別ASR錯誤率

2023-08-08 12:34:18

ChatGPT人工智能

2023-10-26 16:49:38

2019-01-03 09:04:04

谷歌系統(tǒng)機器

2023-10-31 12:23:17

GPT-4版本VLM

2017-03-01 09:00:31

亞馬遜AWSAWS S3云計算宕機

2020-10-14 11:12:33

TikTok谷歌禁令

2023-11-15 09:23:00

模型AI

2024-07-30 16:09:51

2025-02-17 10:37:27

2024-02-19 14:18:11

2021-09-27 09:40:30

深度學習算力人工智能

2011-11-02 10:27:21

Windows XP

2023-10-19 08:30:56

模型搜索

2024-12-20 12:30:00

2009-07-03 09:03:01

Google App 故障

2023-08-11 10:50:12

ChatGPT

2025-03-17 09:30:00

AI搜索工具

2023-09-06 13:18:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號