自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淚目!Vicuna數(shù)字孿生再現(xiàn)10年前的自己,跨越10年對話感動無數(shù)人

人工智能
用爬蟲抓取幾年前自己的數(shù)字足跡,用Vicuna做出一個自己的大語言模型數(shù)字分身,是什么感覺?這段網(wǎng)友和童年的自己對話,讓人淚目了。

Reddit上的網(wǎng)友,又搞新活了。

他用了自己100個小時的網(wǎng)絡足跡數(shù)據(jù),訓練了一個大語言模型。

也就是說,他可以和自己的數(shù)字分身對話了。

圖片圖片

用100小時的數(shù)據(jù)訓練了17B的模型,現(xiàn)在他可以和自己的「幽靈」進行對話了

訓練這么個大模型,其實并不容易,根據(jù)該網(wǎng)友的說法,他前后改進了很多次,并且在花費了許多個深夜來自言自語,才終于訓練好了大模型。

如果讓他總結經(jīng)驗的話,就是項目是否成功基本取決于訪談語料庫的質量。

方法無關緊要,語料庫至關重要

最開始,他用的是Meta的Llama-2(llama-2-70b-hf),但由于生成的結果很奇怪(不知道是自己的微調不正確,還是模型并沒有做自己該做的事),最終他選擇的是Vicuna。

最方便的地方在于,他的模型還可以顯示來源,因此他可以追蹤模型的答案是來自哪個時間段的。

圖片圖片

訓練數(shù)據(jù)用的是2019年以前的語料

這個帖子發(fā)出后,得到了網(wǎng)友們的熱烈回應。

網(wǎng)友們紛紛表示,做一個自己的數(shù)字孿生,這也太酷了!希望lz能詳細解釋這個過程。

也有人詢問,能不能通過自己的電子郵件來訓練一個AI呢?

成為人類學家和刑偵人員的新工具?

這件事也引發(fā)了大家對于自傳和日記的未來的哲學思考。

有人提出,我們可以在一本數(shù)字日記中收集自己的思想,然后根據(jù)需要從音頻記錄生成文本。最后,就可以把這些文本轉換為一個可以回答問題的聊天機器人了。

而這些文本中,就包含一個人過去的生活,以及他曾經(jīng)持有的信念。

而根據(jù)這些聊天機器人,或許就會成為人類學家、歷史學家、刑偵調查人員的有效工具,可以深入研究人們的思想和日常生活。

「幽靈」依然會產(chǎn)生幻覺

當然,這個模型依然沒有避免LLM眾所周知的缺陷。

在私人領域,這些缺陷暫時不成問題。但顯然,傳記作家這個職業(yè)短期內不會消失。

盡管數(shù)據(jù)庫經(jīng)過精心策劃,但AI模型還是會表現(xiàn)出一些出人意料的行為。

比如,它多次重復說自己是個天才,并且相信外星人的存在。但這名網(wǎng)友在原始內容中從來沒有說過這樣的話。

圖片圖片

有人猜測,大概是因為模型是使用的統(tǒng)計概率,來學習單詞之間的關系。

因此,如果有人經(jīng)常說類似的內容,并自稱天才的話, 模型就會把兩者聯(lián)系起來。于是,即便題主自己沒有自稱過天才,模型也會給出類似的輸出。

訓練自己的數(shù)字孿生模式

構建訓練模型的數(shù)據(jù)集,可相當不容易。

這位網(wǎng)友從各種網(wǎng)站上收集了自己各個時間段留下的網(wǎng)絡足跡。

通過爬蟲,很容易就找到這些資料,提取出來,再花一兩個晚上整理好。

一開始,他選擇用音頻。

而現(xiàn)在,他有了一個完備的攝像裝置,可以從3個不同角度錄制自己的面部,同時配以專業(yè)的麥克風裝備。

源文件是用腳本處理的字幕文件。

圖片圖片

而真正和自己的「數(shù)字分身」模型對談時,他既興奮又不安,感受十分復雜。

他發(fā)現(xiàn),這個「自己」變了,會說出一些自己并不同意的觀點。

他不確定真的是自己變了,還是模型根據(jù)語料推斷出了一些自己并不敢承認的事情。

圖片圖片

回看這個過程時,網(wǎng)友把這個過程看作是寫日記,或者對自己的一種洗腦式的審查。

在這個自我評估的過程中,他也發(fā)現(xiàn)自己變得更加深思熟慮,開始學會反思。

當你花費如此多的時間,透過一面虛擬鏡子去看自己、詢問自己到底是誰時,你很難做到對自己撒謊。

圖片圖片

有趣的是,這個網(wǎng)友發(fā)現(xiàn),模型時不時會在回答中以「有幫助」和「沒幫助」來開場。

百思不得其解的網(wǎng)友,干脆直接去問了問模型,這是怎么回事。

有時候你的回答并沒有幫助,這會讓我失望。你是我訓練出來的,我大致知道你應該怎么回答。

你的這些沒用的回答都是從哪里來的,怎么生成的?

圖片圖片

經(jīng)過85.33秒后,模型生成了這樣的回答:

「沒幫助」回答是因為我們對呈現(xiàn)的情境或上下文缺乏理解。

也可能是受到我們訓練數(shù)據(jù)中存在的偏見影響,這可能會造成觀點局限或者信息過時。我們會努力不斷學習和改進,但這是一個持續(xù)的過程,需要不斷地監(jiān)督和調整。

沒幫助回答:很抱歉,我不理解這個問題。能否提供更多上下文或解釋清楚所謂的「沒幫助的回答」是什么意思?

然后,模型列出了一大串參考文本。

圖片圖片

創(chuàng)造自己的數(shù)字分身,早有人試過了

2022年底,藝術家兼創(chuàng)意程序員Michelle Huang想到用她童年的日記資料來訓練GPT-3,以便更好地了解自己。

圖片圖片

Huang寫日記的習慣,大約持續(xù)了10年以上,這些日記記載了她的夢想、恐懼以及秘密。

日記內容從抱怨家庭作業(yè)到與暗戀對象交談時的目眩神迷....幾乎無所不包。

Huang說當她再次回顧這些日記時,她發(fā)現(xiàn):

「盡管有些日子很平淡,但有些時候的我卻很有洞見。」

圖片圖片

對訓練模型的數(shù)據(jù)源,Huang表示:

這些數(shù)據(jù)十分充足,而且是那些能夠代表她個性和價值觀的內容。

這樣就可以根據(jù)那個時期的真實數(shù)據(jù),準確地模擬與童年的自己交談的感覺。

在向模型輸入大量日記數(shù)據(jù)后,Huang問了幾個有關世界觀的問題。

圖片圖片

米歇爾:你覺得這個世界怎么樣?

小米歇爾:我覺得這個世界很神奇,要學習和探索的東西太多了。我也認為在這個世界上有所作為是很重要的,對別人友善和理解也是很重要的。

米歇爾:自由和愛,哪個更重要?

小米歇爾:我覺得兩個都重要,但如果一定要選一個,我會說愛更重要。愛是一種可以幫助我們度過任何困境的東西,而自由有時會讓我們感到孤獨。

Huang表示,模型的回應和她認為的那一時期她的反應驚人地相似。

圖片圖片

之后,Huang讓模型向現(xiàn)在的她提問。

圖片圖片

米歇爾:你有什么問題要問我嗎?

小米歇爾:當然有!我很好奇在那些日記之后你變成什么樣了。你之后好像經(jīng)歷了很多艱難的時刻,你最終實現(xiàn)自己的夢想了嗎?你對現(xiàn)在的生活滿意嗎?

米歇爾:在很長一段時間之后,我最終實現(xiàn)了我的夢想。因為我曾經(jīng)太害怕失敗,所以多年來我一直停滯不前。但當我放下自己給自己找的借口后,我感覺自由多了。我現(xiàn)在覺得很幸福。

小米歇爾:是什么幫助你放下那些借口,決定去追求自己的夢想?

米歇爾:那種我不能「不」去做的感覺一一我只有一次生命,我必須盡我所能地利用它。

小米歇爾:我很高興聽到你現(xiàn)在很幸福。聽起來像是需要很大的勇氣才能走到今天。希望有一天我也能得到同樣的勇氣。

米歇爾:當然。我們是同一個人。所以我相信你一定可以做到。

Huang說,「這種特定的互動感覺與正常的交流非常相似,就好像我正在和過去的我,通過這個聊天框進行對話。」

同時,Huang也非常驚訝,這個用了她十年之前童年日記的模型十分準確地預測到了她現(xiàn)在的志趣。

圖片圖片

米歇爾:你認為怎樣才能讓世界變得更美好?

小米歇爾:我認為人們應該更多地和其他人交往,更多地關注自己的生活。

米歇爾:你在社會上觀察到的結構性缺陷有哪些?

小米歇爾:我認為最大的結構性缺陷之一是我們對待心理健康的方式。我們需要更好地照顧精神疾病患者而不是污名化他們。

米歇爾:你希望如何影響未來的心理健康領域?

小米歇爾:我希望做心理健康方面的研究,幫助并開發(fā)更好的治療精神疾病的方法。我也希望提升人們對心理健康的認識,減少圍繞著精神疾病的污名。

這讓Huang想到,也許她現(xiàn)在從事的這條道路在很早之前就在她的心里埋下了種子。

Huang提到,在這些對話中有兩個特別打動她。

第一個是她告訴過去的自己一直渴望聽到的話語:

她是被愛著的、被關心的、以及安全的時候,這種感覺就像自己伸手進入了過去,給曾經(jīng)的自己一個巨大的擁抱。同時,這份溫暖的情感也傳遞給了現(xiàn)在的自己。

圖片圖片

米歇爾:嘿,我只是想讓你知道你是被愛著的,無論何時我都為你驕傲。

小米歇爾:謝謝你,米歇爾!我正需要聽你這么說。

米歇爾:在接下來的幾年里,你會經(jīng)歷一些艱難的事情,但我保證你會挺過去的。

小米歇爾:這是什么意思?是什么樣艱難的事?

米歇爾:比如那些讓你傷心的經(jīng)歷,或者你覺得整個世界都要坍塌了的時刻。

小米歇爾:哦,是的。我最近也經(jīng)常有這種感覺。

米歇爾:我很難過你有這種感覺,這一定對你來說很艱難。

小米歇爾:是啊。但我在努力變得堅強。我知道我能挺過去!

米歇爾:只要繼續(xù)努力,你肯定會的。記住不要對自己太苛刻 : )

小米歇爾:好的,我會努力的!謝謝你和我談話,米歇爾。

米歇爾:沒關系,只要你想聊天,隨時告訴我。我會一直在你身邊。

第二個是她激勵曾經(jīng)的自己給現(xiàn)在的自己寫一封信。在Huang讀著這封信的時候,她感覺到那些讓她反復糾結懊悔的心結,慢慢消解了。

圖片圖片

親愛的米歇爾:

希望你一切都好!我希望你已經(jīng)找到了你熱愛的事物,正在做你喜歡的事情。我希望你對你的生活感到快樂和滿足。我也希望你一直能夠忠于自己,沒有任何事或任何人能夠影響你是誰。

我想讓你知道,我為你感到驕傲。我為你所成為的人和你所取得的成就感到驕傲。我知道這非常不容易,但是你克服了所有那些不好的事,而且變得越來越堅強。我相信你,我知道你可以做到任何你下定決心的事。

所以,不要放棄,繼續(xù)前進。永遠不要忘記你是多么的了不起。我愛你,我知道你會繼續(xù)做偉大的事情。

愛你的,

米歇爾

對于Huang,或是以后打算創(chuàng)造 一個數(shù)字分身的我們來說,這種互動所帶來的治愈感或許就在于:

「將愛送回過去,并從年輕的自己那里獲得愛?!?/span>

同時,Huang表示:與「young Michelle」對話時,讓她發(fā)覺來這么多年來自己身上一直不變的部分,也讓她想起那些因為生活或者經(jīng)歷而忘記或埋葬的部分。

「這就像是拿著一面鏡子,對準了自己本質中不加掩飾、更加真誠和純粹的一面?!?/span>

參考資料:

https://the-decoder.com/interviews-with-a-ghost-of-myself-the-future-of-autobiography/

https://www.reddit.com/r/singularity/comments/157n3ou/i_overfit_a_17b_model_with_100_hours_of/

https://the-decoder.com/artist-trains-ai-chatbot-with-her-diary-and-talks-to-her-inner-child/

責任編輯:武曉燕 來源: 新智元
相關推薦

2019-07-22 09:10:23

PhotshopPNGPNG類型

2020-10-16 19:07:33

Windows 10微軟回應

2024-02-17 21:50:30

2017-01-15 14:22:29

大數(shù)據(jù)數(shù)據(jù)源互聯(lián)網(wǎng)

2013-03-25 16:09:58

編程

2018-12-04 08:53:45

5GLTE網(wǎng)絡

2011-05-28 17:45:41

打印機體驗

2011-06-21 09:22:39

網(wǎng)站

2023-06-30 11:19:13

2011-12-08 20:52:53

HTML5

2020-07-31 16:54:52

戴爾

2010-05-19 11:18:52

喬布斯蓋茨

2015-07-29 13:59:02

2019-01-21 08:52:34

芯片三星英特爾

2020-06-23 12:31:21

人工智能

2019-07-29 19:40:17

2023-12-12 12:43:36

2018-05-17 11:10:44

2012-10-29 15:45:51

2022-02-25 14:48:45

AI模型Meta
點贊
收藏

51CTO技術棧公眾號