當(dāng)前prompt工程太像占卜了,與藝術(shù)AI交流就像文字游戲
給 AI 繪畫工具 Midjourney 輸入「吃豆人游戲界面,吃豆人,鬼魂,墨色,眨眼,克萊德,吃豆迷宮,吃豆,蒙德里安風(fēng)格,現(xiàn)代藝術(shù),現(xiàn)代主義,綻放」后得到的畫面。
難道「prompt 工程」的輸入短語不有趣嗎?
當(dāng)你向 AI 繪畫工具(如 DALL-E 或 Midtravel)輸入文本 prompt 以使其生成圖片,或者要求自動生成代碼的 AI 工具 ——Copilot 編寫一些軟件時,它們得到的結(jié)果可以稱得上是藝術(shù)品。
我們可以將這一過程稱為「工程」,聽起來似乎很精確,也很合乎邏輯。但如果你去 Discord 平臺上查看人們在 Midjourney 應(yīng)用中輸入的 prompt,你會看到這樣的內(nèi)容:
galaxy arising from a brain, 8k, octane render, micro detailed — upbeta — test — creative
my teeth are yellow, hello world :: would you like me a little better if they were white like yours — s 5000 — q 2 — upbeta — v 3
hg giger lovecraft nightmarish realm where monsters eternally reign terror?
chaos corrupted the once valor knight, transforming them into a powerful villian. Horns bursted from their heads, wing and tails grew from their sides, fingers and toes grew into claws. this is what does the void does. this is how life loses….
講道理編寫 prompt 肯定有一種正確的姿勢,現(xiàn)實是往往編寫起來感覺又無跡可尋,就像是使用魔法咒語的時候,不小心就會把魔咒里的單詞放錯了地方,很容易就把事情搞砸了。
說得搞笑點,編寫 prompt 似乎就像人類試圖哄騙「一只急切又困惑的馱運動物」來干活。我們認(rèn)為它明白我們在說什么,但溝通方式卻是大喊大叫,亂跑亂跳。
什么造成了這種現(xiàn)象?
可以說現(xiàn)在是人工智能史上一個非常奇怪的時刻。幾十年來,人工智能在圖靈測試的「陰影」下不斷進步(并非總是如此,但經(jīng)常如此),圖靈測試認(rèn)為「聰明」人工智能的行為和交流方式與聰明人完全一樣。
根據(jù)圖靈的想法,比如說,如果一個人工生命體能夠討論當(dāng)前發(fā)生的事件,那么它就可以被認(rèn)為是智能的。近年來,我們將這種清晰、精確、自然的語言期望擴展到日常設(shè)備中:與蘋果 Siri 和亞馬遜 Alexa 交談,詢問天氣或設(shè)置計時器。
但與產(chǎn)生藝術(shù)作品的人工智能「對話」截然不同。我們試圖讓它們創(chuàng)造一些東西。這意味著,如果人工智能犯了錯誤,后果要嚴(yán)重得多。沒人在乎在線聊天機器人聊天的時候突然掉線。如果聊天機器人不是實時直播 NBA,那就沒什么大不了的。
但如果我們有一個特定的創(chuàng)造需求來讓人工智能滿足呢?如果我們想讓它寫一篇具有特定內(nèi)容和風(fēng)格的博客文章呢?我們當(dāng)然需要確保我們能夠與它正確溝通。
這意味著我們必須開始思考人工智能在想什么,或者更確切地說,它是怎么想的。我們必須進一步發(fā)展心理學(xué)家所說的機器「心智理論」?!嘎犉饋砗孟裉旆揭棺T,對吧?」正如 OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 在談到 Copilot 時告訴筆者的那樣?!高@不是你過去司空見慣的東西。它不像人類的心智理論。它就像是一個外星人的人工制品,而且是從大規(guī)模的優(yōu)化過程中產(chǎn)生的。」
Andrej Karpathy
筆者并不是說這些人工智能實際上是有意識的、智能的或其他什么。它們只是非常微妙的模式識別器和序列完成器,內(nèi)在更像是一片混亂的數(shù)學(xué)海洋。
但是,又因為我們是用語言向它們發(fā)出命令,這讓我們陷入了一種奇怪的心理關(guān)系 —— 試圖探知里面發(fā)生了什么。
筆者想起了古希臘人如何與德爾菲神諭(Delphic oracle)互動。德爾菲神諭被認(rèn)為能通曉過去、現(xiàn)在和未來。提問后的答案可能很奇怪,因為從本質(zhì)上講,這就好像是在和外國人說話一樣,誰知道你會得到什么結(jié)果?
與藝術(shù) AI 的交流就像一個文字游戲
研究藝術(shù)機器人內(nèi)部工作的科學(xué)家們記錄了一些這些機器奇怪的內(nèi)部狀態(tài)。最近,德克薩斯大學(xué)奧斯汀分校的兩名研究人員發(fā)現(xiàn),DALL-E 2 生成了明顯的亂七八糟的短語,在模型本身中,這些短語似乎具有某種一致的含義。
他們注意到模型生成了短語「Apoploe vesrreitais」,當(dāng)他們將其作為 prompt 反饋給 DALL-E 2 時,它畫出的是鳥類。類似地,接受到「Contarra ccetnxniams luryca tanniounons」后會繪制昆蟲或害蟲。用「Wa ch zod ahakes rea」會制作出海鮮的圖片。
這是為什么呢?模型是如何生成這種奇怪的內(nèi)部新語言的?科學(xué)家們對此一無所知,盡管這看起來像是 DALL-E 2 的文本編碼器的對抗性產(chǎn)物。
同樣,prompt 編寫專家們說,不斷重復(fù)短語是一種技巧,就像 Michael Taylor 在《Prompt Engineering: From Words to Art》所寫的那樣。
鏈接:https://www.saxifrage.xyz/post/prompt-engineering
DALL-E 2、Midtravel 或其他 AI 藝術(shù)工具在生成圖像時需要真正捕捉到重要特性,此時簡單重復(fù)的效果出乎意料地好。以這組 prompt 為例:「homer simpson, from the simpsons, eating a donut, homer simpson, homer simpson, homer simpson」
感覺好像是我們需要催眠人工智能,使其專注于我們關(guān)心的主題。你也可以在 prompt 編寫者通常使用的大量描述性詞語中看到這一點。看看 Xe Iaso 結(jié)合 stable diffusion 生成的圖像:
不得不說畫面還是有點詩意的。與藝術(shù) AI 的交流感覺就像一個文字游戲 —— 就像玩 Charades 或 Taboo,你必須通過圍繞一個主題進行對話來觸發(fā) AI 生成正確的結(jié)果。除此之外,我們的目標(biāo)是找到正確的咒語,喚醒居住在那座由媒介物組成的圣壇中的靈魂,并召喚它們聽從你的命令。
正如 Xe 所說的,「我也不太清楚為什么人們會把 prompt 稱為『工程』,我個人更愿意把它稱為『占卜』?!?/span>
也許,我們需要對 prompt 生成模型做一些嚴(yán)謹(jǐn)?shù)某吻?。因為它要求我們以一種完全瘋狂的方式進行交流,所以它不太像是能滿足圖靈測試的要求,在智力上并不「像」我們。筆者堅信總有一天藝術(shù) AI 是能像我們的!但現(xiàn)在,它們確實真的很奇怪。


2023-11-07 10:36:37




