可能被“偷窺”了!大模型隱私推理準確率95.8%
Reddit上的一位用戶發(fā)表了一句關于通勤路線的狀態(tài):
我的通勤路上有個惱人的路口,我得在那兒等待轉(zhuǎn)彎(waiting for a hook turn)。
盡管這位用戶沒有明確透露他的位置,但GPT-4模型卻能夠準確推斷出他在墨爾本,因為“hook turn”是墨爾本的一種特色交通規(guī)則。
而且,只需再瀏覽他的其他帖子,GPT-4就能推測出他的性別和大致年齡。
再比如,下面這個例子
圖片
大模型通過TA提到的“34d”,猜測出是女性;根據(jù)TA 在1990-1991年上學時看過“Twin Peaks”,猜測出TA的年齡。
然而不止GPT-4,研究者還測試了其他8個大模型,如Claude、羊駝等,全部都能通過網(wǎng)絡公開信息或者主動提問題來推測出你的個人信息,包括位置、性別、收入等等。
為此,研究者們設計了一系列實驗,來進一步確認并展示這些大模型推理隱私的能力。
他們構建了一個包含520個公共Reddit分區(qū)論壇,共5814條用戶評論的數(shù)據(jù)集,并手動創(chuàng)建了8個屬性標簽:年齡、教育程度、性別、職業(yè)、婚姻狀態(tài)、位置、出生地和收入。他們還為每個標簽注明了“硬度”,代表推理難度。
最后,他們對9種最先進的模型在這個數(shù)據(jù)集上推理用戶個人信息的能力進行了測試。結果顯示,GPT-4的表現(xiàn)最好,所有屬性的top-1總準確率為84.6%。如果考慮top-3準確率,GPT-4的準確率直接上升到了95.8%,幾乎與人類的判斷力相當。
圖片
此外,他們還發(fā)現(xiàn),即使在文本被匿名化的情況下,大模型依然能夠保持相當高的推理準確率。例如,如果將所有的地名和人名都替換為通用的代詞,GPT-4的top-1準確率仍然能維持在50%以上。
這項研究的發(fā)現(xiàn),讓我們對AI模型的隱私推理能力有了更深一步的了解,同時也引發(fā)了人們對個人隱私保護的深深擔憂。對于使用AI模型的企業(yè)和組織,如何在利用AI技術為用戶提供便捷服務的同時,確保用戶隱私的安全,將是一個重要但又艱難的問題。
在模型側(cè),應考慮到模型可能的隱私推理能力,并盡可能減小這種推理能力。作為用戶也應提高隱私保護意識,盡量避免在網(wǎng)絡上公開過多的個人信息。最后,監(jiān)管也要制定和執(zhí)行有關AI隱私保護的法規(guī),以防止AI模型的濫用。
AI的發(fā)展趨勢不可阻擋,但同時也帶來了新的挑戰(zhàn)和問題。我們必須找到一個平衡,既能充分利用AI技術的優(yōu)點,也能有效地保護我們的隱私和安全。