將大型語言模型(LLMs)應(yīng)用于實(shí)際應(yīng)用的主要障礙之一是它們的不可預(yù)測性、缺乏推理能力和難以解釋性。如果無法解決這些挑戰(zhàn),LLMs將無法成為在關(guān)鍵環(huán)境中可信賴的工具。在最近的一篇論文中,認(rèn)知科學(xué)家GaryMarcus和人工智能先驅(qū)DouglasLenat深入探討了這些挑戰(zhàn),他們將這些挑戰(zhàn)歸納為了確保通用人工智能的16個(gè)愿望清單。TechTalks的創(chuàng)始人BenDickson將其整理發(fā)表了一篇名為"HowLLMscouldbenefitfromadecades’longsymbolicAIpr...
2025-02-28 13:23:42 1476瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
deepseek官網(wǎng)經(jīng)常提示“服務(wù)器繁忙,請稍后再試。”,于是想自己實(shí)現(xiàn)本地部署。但是由于個(gè)人電腦太菜,只能嘗試一下步驟,記錄一下,后面等有強(qiáng)悍的服務(wù)器或者模型進(jìn)一步優(yōu)化才能私人真正獨(dú)立的使用與生產(chǎn)??傮w方案:ollama+deepseekr1+本地AI模型的WebUI第一步:ollama網(wǎng)站下載ollama(Ollama是一個(gè)用于管理和運(yùn)行本地AI模型的軟件工具。它提供了一種簡化的方式來下載、管理和在本地計(jì)算機(jī)上運(yùn)行各種AI模型,而無需依賴云計(jì)算...
2025-02-13 12:43:51 2459瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
DeepSeek正在通過其開源模型DeepSeekR1革新AI產(chǎn)業(yè),盡管資源有限,卻能媲美OpenAI的能力。通過讓前沿大模型更廣泛地開放,DeepSeek推動(dòng)了全球的創(chuàng)新與合作。其創(chuàng)新的基于強(qiáng)化學(xué)習(xí)(RL)的后訓(xùn)練技術(shù)可增強(qiáng)大模型的推理能力和對齊性,使大模型在實(shí)際應(yīng)用中更加高效且易用。在本文中,我們將重點(diǎn)分析DeepSeekR1推理模型背后的關(guān)鍵RL后訓(xùn)練技術(shù)。本文由MoPaaS的創(chuàng)始人魯為民博士最初以英文的形式發(fā)表(點(diǎn)擊文章末尾“閱讀原文”)...
2025-02-13 12:31:17 3890瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
快速瀏覽一下頭條新聞就會(huì)發(fā)現(xiàn),如今生成人工智能似乎無處不在。事實(shí)上,其中一些標(biāo)題實(shí)際上可能是由生成人工智能(如OpenAI的ChatGPT)撰寫的,這是一個(gè)聊天機(jī)器人,展示了一種近乎人類寫作的不可思議的能力。但當(dāng)人們說“生成人工智能”時(shí),他們真正指的是什么呢?在過去幾年生成人工智能的興起之前,當(dāng)人們談?wù)撊斯ぶ悄軙r(shí),通常是在談?wù)撃軌蚋鶕?jù)數(shù)據(jù)進(jìn)行預(yù)測的機(jī)器學(xué)習(xí)模型。例如,這些模型通過數(shù)百萬個(gè)示例進(jìn)行訓(xùn)練,以預(yù)測...
2024-12-23 09:47:15 1606瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
近日,AI音樂生成平臺Suno正式發(fā)布了其第四代模型——Sunov4。本次升級在音質(zhì)、歌詞精準(zhǔn)度和歌曲結(jié)構(gòu)等方面都有顯著提升,標(biāo)志著AI音樂創(chuàng)作邁入了一個(gè)新的篇章。Sunov4利用深度學(xué)習(xí)技術(shù),基于大量音樂數(shù)據(jù)進(jìn)行訓(xùn)練,生成更加自然、豐富的音樂作品。與之前的版本相比,v4提供了更清晰的音頻、更銳利的歌詞以及更具動(dòng)感的作品。此外,新模型能夠生成多種風(fēng)格的音樂,滿足不同聽眾的需求,提供豐富多樣的曲風(fēng)。相比之下,Sunov3雖...
2024-11-25 16:35:19 2360瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
有關(guān)類似GPT4這樣的大型語言模型(LLM)是否真正模擬人類邏輯和推理的辯論正在進(jìn)行中。一些研究人員認(rèn)為,隨著規(guī)模的擴(kuò)大,LLM可能會(huì)發(fā)展出對抽象推理、模式識別和類比制作的新能力。另一方面,一些人認(rèn)為促使這些能力的內(nèi)部機(jī)制尚未被解釋清楚。一些實(shí)驗(yàn)證明,這些模型在其訓(xùn)練數(shù)據(jù)范圍之外難以推廣。"在創(chuàng)建和推理抽象表示方面的能力對于強(qiáng)大的泛化至關(guān)重要,因此有必要了解LLM在這方面已經(jīng)取得了多大的能力,"圣塔菲研究所的...
2024-11-25 16:24:54 1659瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
AI改變游戲,這項(xiàng)工作的變革性不僅在于它節(jié)省了時(shí)間和金錢,同時(shí)也提供了質(zhì)量——從而打破了經(jīng)典的“成本、質(zhì)量或速度只能有兩個(gè)”的三角關(guān)系。藝術(shù)家們現(xiàn)在只需要幾個(gè)小時(shí)就可以創(chuàng)作出高質(zhì)量的圖像,否則手工生成這些圖像需要數(shù)周時(shí)間,真正具有變革性的是:任何人只要能學(xué)習(xí)一些簡單的工具,就可以獲得這種創(chuàng)造力;這些工具可以以高度迭代的方式創(chuàng)建無限數(shù)量的變化;一旦訓(xùn)練完畢,該過程是實(shí)時(shí)的——幾乎可以立即獲得結(jié)果。...
2024-11-12 15:27:09 2063瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
了解向量、Tokens和嵌入是理解大語言模型怎樣處理語言的基礎(chǔ)。在處理LLMs時(shí),你經(jīng)常會(huì)遇到“向量”、“Tokens”和“嵌入”這些術(shù)語。在深入研究構(gòu)建聊天機(jī)器人和人工智能助手之前,徹底理解這些概念非常重要。隨著多模態(tài)方法日益普及,這些術(shù)語不僅僅適用于大型語言模型(LLMs),還可用于解釋圖像和視頻。本教程的目標(biāo)是通過簡單直接的示例和代碼片段向你介紹這些核心概念。向量:機(jī)器的語言向量在LLMs和生成式人工智能的運(yùn)作...
2024-09-04 12:09:25 2177瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天,Meta發(fā)布了Llama3.1模型,延續(xù)了他們從最初的Llama3“預(yù)覽版”開始就踐行的開源理念,即盡早發(fā)布和頻繁發(fā)布。Llama3.1模型有三種規(guī)模:8B、70B和長期傳聞中的405B參數(shù)。對于其規(guī)模來說,這些模型是同類中最優(yōu)秀的開源模型。4050億參數(shù)模型直接與Anthropic的Claude3和OpenAI的GPT4o處于同一水平。Llama3.1的營銷以及Meta的AI戰(zhàn)略正在直接推動(dòng)將開源軟件實(shí)踐轉(zhuǎn)化為開源AI。這次發(fā)布的核心和AI的未來是AI能有多“開源”,以...
2024-07-29 00:04:21 2234瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
來自奧本大學(xué)和阿爾伯塔大學(xué)的研究人員發(fā)現(xiàn),最先進(jìn)的具有視覺能力的大型語言模型(VLMs)在理解涉及基本幾何形狀的空間信息方面表現(xiàn)得非常糟糕,例如判斷兩個(gè)圓是否重疊。他們提出了一個(gè)名為BlindTest的新基準(zhǔn)測試,包括7項(xiàng)簡單任務(wù),這些任務(wù)在互聯(lián)網(wǎng)上自然語言中不太可能有現(xiàn)成答案,以測試VLM像人類一樣“看見”圖像的能力?,F(xiàn)有的VLM基準(zhǔn)(如MMMU和ChartQA)涵蓋了廣泛的主題,但輸入圖像并非總是回答問題所必需的,即答案...
2024-07-22 09:48:06 2106瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我昨天在AI工程師世界博覽會(huì)上發(fā)表了開幕主題演講。我是臨時(shí)加入議程的:OpenAI在最后一刻退出了他們的演講,我受邀在不到24小時(shí)的通知時(shí)間內(nèi)準(zhǔn)備一個(gè)20分鐘的演講!我決定重點(diǎn)講述自8個(gè)月前上次AI工程師峰會(huì)以來LLM(大語言模型)領(lǐng)域的亮點(diǎn),并討論該領(lǐng)域的一些未解決的挑戰(zhàn)——這是我在早些時(shí)候的活動(dòng)中提出的關(guān)于AI工程的開放問題演講的回應(yīng)。在過去的8個(gè)月里,發(fā)生了很多事情。最值得注意的是,GPT4不再是該領(lǐng)域無可爭議的...
2024-07-18 09:37:14 2193瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?LLMs的智能本質(zhì)是什么?在之前的文章中,我談到了評估大型語言模型能力的困難。這些模型在許多基準(zhǔn)測試中表現(xiàn)出色,但我們通常不知道基準(zhǔn)測試中的測試項(xiàng)目,或足夠相似的項(xiàng)目,是否出現(xiàn)在訓(xùn)練數(shù)據(jù)中。這些模型是在進(jìn)行一般性的理解和推理,還是在進(jìn)行AI研究員SubbaraoKambhampati所說的“近似檢索”——依賴于模型訓(xùn)練數(shù)據(jù)中包含的文本模式?反事實(shí)任務(wù)范式反事實(shí)任務(wù)范式可以幫助回答這個(gè)問題。在這個(gè)范式中,模型在成對的任...
2024-07-09 10:34:11 3114瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
隨著前不久IlyaSutskever從OpenAI的離職,OpenAI首席架構(gòu)師和著名強(qiáng)化學(xué)習(xí)(ReinforcementLearning,或RL)專家JohnSchulman?博士成為OpenAI現(xiàn)存最主要具有技術(shù)背景的創(chuàng)始人。最近,Schulman博士接受了著名的科技播客主持人DwarkeshPatel的專訪。他解密了OpenAI大模型發(fā)展史,介紹了OpenAI怎樣訓(xùn)練和產(chǎn)品化大模型,尤其是后訓(xùn)練階段如何通過RL提升大模型的泛化能力和實(shí)用性。Schulman分享了他對大模型伸縮律(ScalingLaw),大模型...
2024-06-05 13:37:02 3343瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
隨著人工智能技術(shù)的不斷發(fā)展,大型語言模型成為人們關(guān)注的焦點(diǎn)之一。通用語言模型如GPT3在各種語言處理任務(wù)上展現(xiàn)了強(qiáng)大的能力,但隨著對特定領(lǐng)域需求的增加,領(lǐng)域特定的大型語言模型應(yīng)運(yùn)而生。這些模型通過在專業(yè)的領(lǐng)域內(nèi)進(jìn)行深入訓(xùn)練或精調(diào),提供了有針對性精準(zhǔn)定制的解決方案。在《WhataredomainspecificLLMs》“什么是特定領(lǐng)域的LLMs”一文中,作者探討了大型語言模型的基本概念,并聚焦于領(lǐng)域特定的大型語言模型。他指出隨...
2024-05-29 12:11:17 2436瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Google研究員Fran?oisChollet是一位在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域具有重要影響力的一線工程師。他以創(chuàng)建流行的開源機(jī)器學(xué)習(xí)庫Keras而聞名,同時(shí)也是流行的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)書籍《DeepLearningwithPython(使用Python來深度學(xué)習(xí))》的作者。不久前他發(fā)表博文:“HowIthinkaboutLLMpromptengineering(大模型的提示工程之我見)”,深入地探討了大模型提示工程。Chollet從語言模型架構(gòu)、學(xué)習(xí)機(jī)制和能力的演進(jìn)來理解大模型的提示工程。他特別...
2024-05-27 14:07:28 2435瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
目前人們好像已在接受這樣的觀點(diǎn):“大語言模型(LLMs)正在以指數(shù)速度進(jìn)步。”就在幾天前,賓州大學(xué)沃登商學(xué)院(TheWhartonSchool)的EthanMollick教授在一篇廣受關(guān)注的博客文章中聲稱,“目前對LLMs的能力評估顯示,LLM的能力每5到14個(gè)月翻一番”。實(shí)際上Mollick教授引用的研究并未顯示他所聲稱的內(nèi)容。如果你仔細(xì)閱讀,它沒有提到能力的提高。它顯示的是模型在達(dá)到給定性能水平所需的計(jì)算資源變得更有效率,“達(dá)到給定性能水平...
2024-05-21 13:47:20 2341瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
隨著AIAgents技術(shù)的不斷發(fā)展和成熟,我們可以期待在未來看到更多令人興奮的創(chuàng)新和應(yīng)用。這些技術(shù)有望成為推動(dòng)人類進(jìn)步和提高生活質(zhì)量的重要工具。本周,一家名為CognitionAI的初創(chuàng)公司引起了轟動(dòng),他們發(fā)布了一個(gè)演示,展示了一個(gè)名為Devin的人工智能程序執(zhí)行通常由高薪軟件工程師完成的工作。像ChatGPT和Gemini這樣的聊天機(jī)器人可以生成代碼,但Devin更進(jìn)一步,規(guī)劃解決問題的方法,編寫代碼,然后測試和實(shí)施。Devin的創(chuàng)建者將...
2024-05-15 12:24:18 2567瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?“想象一下,有一天我們能夠打造出一個(gè)在廚房里執(zhí)行各種任務(wù)的家庭機(jī)器人。那么問題就不僅僅是感知了。你真的需要學(xué)會(huì)各種個(gè)人操縱技能,以便能夠廣泛地泛化。”——Sergey?Craig:嗨,我是CraigSmith,歡迎收聽《AI視界》。今天我和SergeyLevine進(jìn)行了交談,他是加州大學(xué)伯克利分校的副教授,在該校的機(jī)器人人工智能與學(xué)習(xí)實(shí)驗(yàn)室從事研究,并推動(dòng)著AI控制機(jī)器人的邊界。Sergey談到了他最近在強(qiáng)化學(xué)習(xí)和從世界各地的機(jī)器人中...
2024-05-11 11:01:19 2701瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Sora是OpenAI發(fā)布的一款視頻生成模型,采用了DiffusionTransformer架構(gòu),旨在實(shí)現(xiàn)高保真度和視頻圖像的前后一致性。其突出之處在于能夠生成逼真流暢的視頻內(nèi)容,令人驚嘆不已。Sora一經(jīng)推出便在極短的時(shí)間內(nèi)迅速引起了科技界和社會(huì)各界的關(guān)注,同時(shí)也引發(fā)了關(guān)于AI技術(shù)發(fā)展和產(chǎn)業(yè)變革的激烈討論,日前,MoPaaS魔泊云創(chuàng)始人和CEO魯為民博士參與騰訊科技舉辦的:與硅谷專家和創(chuàng)業(yè)者共同探討:Sora的商業(yè)邏輯與技術(shù)創(chuàng)新分析直播活動(dòng)...
2024-04-28 15:48:31 2355瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
OpenAI的Sora又一次出圈,掩蓋其它新的AI產(chǎn)品的鋒芒,包括幾乎同期發(fā)布的Google的Gemini1.5和Meta的VJEPA。很多AI從業(yè)者為此大抱不平,聲稱“被Sora奪走風(fēng)頭的Gemini被低估了!”特別是Google這次推出的Gemini1.5Pro是一種多模態(tài)大模型(涉及文本、視頻、音頻),性能水平與谷歌迄今為止最大的模型1.0Ultra類似,并引入了長上下文理解方面的突破性實(shí)驗(yàn)特征。它能夠穩(wěn)定處理高達(dá)100萬Tokens(相當(dāng)于1小時(shí)的視頻和超過3萬行代碼)...
2024-04-23 11:30:31 2494瀏覽 0點(diǎn)贊 0回復(fù) 0收藏