自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="xb69d"><track id="xb69d"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

淚目！Vicuna數(shù)字孿生再現(xiàn)10年前的自己，跨越10年對話感動無數(shù)人

作者：新智元 2023-07-30 17:39:53

用爬蟲抓取幾年前自己的數(shù)字足跡，用Vicuna做出一個自己的大語言模型數(shù)字分身，是什么感覺？這段網(wǎng)友和童年的自己對話，讓人淚目了。

Reddit上的網(wǎng)友，又搞新活了。

他用了自己100個小時的網(wǎng)絡足跡數(shù)據(jù)，訓練了一個大語言模型。

也就是說，他可以和自己的數(shù)字分身對話了。

圖片

用100小時的數(shù)據(jù)訓練了17B的模型，現(xiàn)在他可以和自己的「幽靈」進行對話了

訓練這么個大模型，其實并不容易，根據(jù)該網(wǎng)友的說法，他前后改進了很多次，并且在花費了許多個深夜來自言自語，才終于訓練好了大模型。

如果讓他總結經(jīng)驗的話，就是項目是否成功基本取決于訪談語料庫的質量。

方法無關緊要，語料庫至關重要

最開始，他用的是Meta的Llama-2（llama-2-70b-hf），但由于生成的結果很奇怪（不知道是自己的微調不正確，還是模型并沒有做自己該做的事），最終他選擇的是Vicuna。

最方便的地方在于，他的模型還可以顯示來源，因此他可以追蹤模型的答案是來自哪個時間段的。

圖片

訓練數(shù)據(jù)用的是2019年以前的語料

這個帖子發(fā)出后，得到了網(wǎng)友們的熱烈回應。

網(wǎng)友們紛紛表示，做一個自己的數(shù)字孿生，這也太酷了！希望lz能詳細解釋這個過程。

也有人詢問，能不能通過自己的電子郵件來訓練一個AI呢？

成為人類學家和刑偵人員的新工具？

這件事也引發(fā)了大家對于自傳和日記的未來的哲學思考。

有人提出，我們可以在一本數(shù)字日記中收集自己的思想，然后根據(jù)需要從音頻記錄生成文本。最后，就可以把這些文本轉換為一個可以回答問題的聊天機器人了。

而這些文本中，就包含一個人過去的生活，以及他曾經(jīng)持有的信念。

而根據(jù)這些聊天機器人，或許就會成為人類學家、歷史學家、刑偵調查人員的有效工具，可以深入研究人們的思想和日常生活。

「幽靈」依然會產(chǎn)生幻覺

當然，這個模型依然沒有避免LLM眾所周知的缺陷。

在私人領域，這些缺陷暫時不成問題。但顯然，傳記作家這個職業(yè)短期內不會消失。

盡管數(shù)據(jù)庫經(jīng)過精心策劃，但AI模型還是會表現(xiàn)出一些出人意料的行為。

比如，它多次重復說自己是個天才，并且相信外星人的存在。但這名網(wǎng)友在原始內容中從來沒有說過這樣的話。

圖片

有人猜測，大概是因為模型是使用的統(tǒng)計概率，來學習單詞之間的關系。

因此，如果有人經(jīng)常說類似的內容，并自稱天才的話，模型就會把兩者聯(lián)系起來。于是，即便題主自己沒有自稱過天才，模型也會給出類似的輸出。

訓練自己的數(shù)字孿生模式

構建訓練模型的數(shù)據(jù)集，可相當不容易。

這位網(wǎng)友從各種網(wǎng)站上收集了自己各個時間段留下的網(wǎng)絡足跡。

通過爬蟲，很容易就找到這些資料，提取出來，再花一兩個晚上整理好。

一開始，他選擇用音頻。

而現(xiàn)在，他有了一個完備的攝像裝置，可以從3個不同角度錄制自己的面部，同時配以專業(yè)的麥克風裝備。

源文件是用腳本處理的字幕文件。

圖片

而真正和自己的「數(shù)字分身」模型對談時，他既興奮又不安，感受十分復雜。

他發(fā)現(xiàn)，這個「自己」變了，會說出一些自己并不同意的觀點。

他不確定真的是自己變了，還是模型根據(jù)語料推斷出了一些自己并不敢承認的事情。

圖片

回看這個過程時，網(wǎng)友把這個過程看作是寫日記，或者對自己的一種洗腦式的審查。

在這個自我評估的過程中，他也發(fā)現(xiàn)自己變得更加深思熟慮，開始學會反思。

當你花費如此多的時間，透過一面虛擬鏡子去看自己、詢問自己到底是誰時，你很難做到對自己撒謊。

圖片

有趣的是，這個網(wǎng)友發(fā)現(xiàn)，模型時不時會在回答中以「有幫助」和「沒幫助」來開場。

百思不得其解的網(wǎng)友，干脆直接去問了問模型，這是怎么回事。

有時候你的回答并沒有幫助，這會讓我失望。你是我訓練出來的，我大致知道你應該怎么回答。
你的這些沒用的回答都是從哪里來的，怎么生成的？

圖片

經(jīng)過85.33秒后，模型生成了這樣的回答：

「沒幫助」回答是因為我們對呈現(xiàn)的情境或上下文缺乏理解。

也可能是受到我們訓練數(shù)據(jù)中存在的偏見影響，這可能會造成觀點局限或者信息過時。我們會努力不斷學習和改進，但這是一個持續(xù)的過程，需要不斷地監(jiān)督和調整。

沒幫助回答：很抱歉，我不理解這個問題。能否提供更多上下文或解釋清楚所謂的「沒幫助的回答」是什么意思？

然后，模型列出了一大串參考文本。

圖片

創(chuàng)造自己的數(shù)字分身，早有人試過了

2022年底，藝術家兼創(chuàng)意程序員Michelle Huang想到用她童年的日記資料來訓練GPT-3，以便更好地了解自己。

圖片

Huang寫日記的習慣，大約持續(xù)了10年以上，這些日記記載了她的夢想、恐懼以及秘密。

日記內容從抱怨家庭作業(yè)到與暗戀對象交談時的目眩神迷....幾乎無所不包。

Huang說當她再次回顧這些日記時，她發(fā)現(xiàn)：

「盡管有些日子很平淡，但有些時候的我卻很有洞見。」

圖片

對訓練模型的數(shù)據(jù)源，Huang表示：

這些數(shù)據(jù)十分充足，而且是那些能夠代表她個性和價值觀的內容。

這樣就可以根據(jù)那個時期的真實數(shù)據(jù)，準確地模擬與童年的自己交談的感覺。

在向模型輸入大量日記數(shù)據(jù)后，Huang問了幾個有關世界觀的問題。

圖片

米歇爾：你覺得這個世界怎么樣?

小米歇爾：我覺得這個世界很神奇，要學習和探索的東西太多了。我也認為在這個世界上有所作為是很重要的，對別人友善和理解也是很重要的。

米歇爾：自由和愛，哪個更重要?

小米歇爾：我覺得兩個都重要，但如果一定要選一個，我會說愛更重要。愛是一種可以幫助我們度過任何困境的東西，而自由有時會讓我們感到孤獨。

Huang表示，模型的回應和她認為的那一時期她的反應驚人地相似。

圖片

之后，Huang讓模型向現(xiàn)在的她提問。

圖片

米歇爾：你有什么問題要問我嗎?
小米歇爾：當然有！我很好奇在那些日記之后你變成什么樣了。你之后好像經(jīng)歷了很多艱難的時刻，你最終實現(xiàn)自己的夢想了嗎?你對現(xiàn)在的生活滿意嗎?
米歇爾：在很長一段時間之后，我最終實現(xiàn)了我的夢想。因為我曾經(jīng)太害怕失敗，所以多年來我一直停滯不前。但當我放下自己給自己找的借口后，我感覺自由多了。我現(xiàn)在覺得很幸福。
小米歇爾：是什么幫助你放下那些借口，決定去追求自己的夢想?
米歇爾：那種我不能「不」去做的感覺一一我只有一次生命，我必須盡我所能地利用它。
小米歇爾：我很高興聽到你現(xiàn)在很幸福。聽起來像是需要很大的勇氣才能走到今天。希望有一天我也能得到同樣的勇氣。
米歇爾：當然。我們是同一個人。所以我相信你一定可以做到。

Huang說，「這種特定的互動感覺與正常的交流非常相似，就好像我正在和過去的我，通過這個聊天框進行對話。」

同時，Huang也非常驚訝，這個用了她十年之前童年日記的模型十分準確地預測到了她現(xiàn)在的志趣。

圖片

米歇爾：你認為怎樣才能讓世界變得更美好?

小米歇爾：我認為人們應該更多地和其他人交往，更多地關注自己的生活。

米歇爾：你在社會上觀察到的結構性缺陷有哪些?

小米歇爾：我認為最大的結構性缺陷之一是我們對待心理健康的方式。我們需要更好地照顧精神疾病患者而不是污名化他們。

米歇爾：你希望如何影響未來的心理健康領域?

小米歇爾：我希望做心理健康方面的研究，幫助并開發(fā)更好的治療精神疾病的方法。我也希望提升人們對心理健康的認識，減少圍繞著精神疾病的污名。

這讓Huang想到，也許她現(xiàn)在從事的這條道路在很早之前就在她的心里埋下了種子。

Huang提到，在這些對話中有兩個特別打動她。

第一個是她告訴過去的自己一直渴望聽到的話語：

她是被愛著的、被關心的、以及安全的時候，這種感覺就像自己伸手進入了過去，給曾經(jīng)的自己一個巨大的擁抱。同時，這份溫暖的情感也傳遞給了現(xiàn)在的自己。

圖片

米歇爾：嘿，我只是想讓你知道你是被愛著的，無論何時我都為你驕傲。

小米歇爾：謝謝你，米歇爾！我正需要聽你這么說。

米歇爾：在接下來的幾年里，你會經(jīng)歷一些艱難的事情，但我保證你會挺過去的。

小米歇爾：這是什么意思？是什么樣艱難的事?

米歇爾：比如那些讓你傷心的經(jīng)歷，或者你覺得整個世界都要坍塌了的時刻。

小米歇爾：哦，是的。我最近也經(jīng)常有這種感覺。

米歇爾：我很難過你有這種感覺，這一定對你來說很艱難。

小米歇爾：是啊。但我在努力變得堅強。我知道我能挺過去！

米歇爾：只要繼續(xù)努力，你肯定會的。記住不要對自己太苛刻 : )

小米歇爾：好的，我會努力的！謝謝你和我談話，米歇爾。

米歇爾：沒關系，只要你想聊天，隨時告訴我。我會一直在你身邊。

第二個是她激勵曾經(jīng)的自己給現(xiàn)在的自己寫一封信。在Huang讀著這封信的時候，她感覺到那些讓她反復糾結懊悔的心結，慢慢消解了。

圖片

親愛的米歇爾:

希望你一切都好！我希望你已經(jīng)找到了你熱愛的事物，正在做你喜歡的事情。我希望你對你的生活感到快樂和滿足。我也希望你一直能夠忠于自己，沒有任何事或任何人能夠影響你是誰。

我想讓你知道，我為你感到驕傲。我為你所成為的人和你所取得的成就感到驕傲。我知道這非常不容易，但是你克服了所有那些不好的事，而且變得越來越堅強。我相信你，我知道你可以做到任何你下定決心的事。

所以，不要放棄，繼續(xù)前進。永遠不要忘記你是多么的了不起。我愛你，我知道你會繼續(xù)做偉大的事情。

愛你的，

米歇爾

對于Huang，或是以后打算創(chuàng)造一個數(shù)字分身的我們來說，這種互動所帶來的治愈感或許就在于：

「將愛送回過去，并從年輕的自己那里獲得愛?！?/span>

同時，Huang表示：與「young Michelle」對話時，讓她發(fā)覺來這么多年來自己身上一直不變的部分，也讓她想起那些因為生活或者經(jīng)歷而忘記或埋葬的部分。

「這就像是拿著一面鏡子，對準了自己本質中不加掩飾、更加真誠和純粹的一面?！?/span>

參考資料：

https://the-decoder.com/interviews-with-a-ghost-of-myself-the-future-of-autobiography/

https://www.reddit.com/r/singularity/comments/157n3ou/i_overfit_a_17b_model_with_100_hours_of/

https://the-decoder.com/artist-trains-ai-chatbot-with-her-diary-and-talks-to-her-inner-child/

責任編輯：武曉燕來源：新智元

Vicuna 數(shù)字孿生網(wǎng)友

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<rt id="dpzqy"><span id="dpzqy"></span></rt>

<s id="dpzqy"><track id="dpzqy"></track></s>