推薦八個(gè)驚艷的 Github 開(kāi)源項(xiàng)目
大家好,我是Echa。
小編利用五一這個(gè)小長(zhǎng)假,陪家人的同時(shí)也是想著友友你們,想著給你們多找點(diǎn)優(yōu)秀資源、實(shí)用的工具、驚艷的開(kāi)源項(xiàng)目。小編發(fā)的每天優(yōu)質(zhì)文章,希望能給友友們多學(xué)點(diǎn)知識(shí)點(diǎn),多學(xué)點(diǎn)新技能,多接私活多賺外快。不管是從技術(shù)深度到技術(shù)廣度這塊,都會(huì)讓大家受益匪淺。
今天小編繼續(xù)分享8個(gè)驚艷的 Github 開(kāi)源項(xiàng)目,希望對(duì)大家有所幫助和收獲。下面就詳細(xì)介紹:
全文大綱
- Fay-是一個(gè)數(shù)字人開(kāi)源項(xiàng)目
- bark-一個(gè)基于轉(zhuǎn)換器的文本到音頻模型
- ChatGLM-6B-支持中英雙語(yǔ)的對(duì)話(huà)語(yǔ)言模型
- law-cn-ai-這個(gè)開(kāi)源項(xiàng)目被稱(chēng)為你的 AI 法律助手的開(kāi)源項(xiàng)目
- gpt4-pdf-chatbot-langchain 針對(duì) PDF 文件構(gòu)建的 GPT 機(jī)器人
- MOSS-國(guó)內(nèi)首個(gè)對(duì)話(huà)式大語(yǔ)言模型開(kāi)源
- SQL Chat 是一個(gè)基于聊天的 SQL 客戶(hù)端
- DeepFloyd IF-這是一種新穎的最先進(jìn)的開(kāi)源文本到圖像模型
Fay
Github:https://github.com/TheRamU/Fay
Fay是一個(gè)完整的開(kāi)源項(xiàng)目,包含F(xiàn)ay控制器及數(shù)字人模型,可靈活組合出不同的應(yīng)用場(chǎng)景:虛擬主播、現(xiàn)場(chǎng)推銷(xiāo)貨、商品導(dǎo)購(gòu)、語(yǔ)音助理、遠(yuǎn)程語(yǔ)音助理、數(shù)字人互動(dòng)、數(shù)字人面試官及心理測(cè)評(píng)、賈維斯、Her。
開(kāi)發(fā)人員可以利用該項(xiàng)目簡(jiǎn)單地構(gòu)建各種類(lèi)型的數(shù)字人或數(shù)字助理。該項(xiàng)目各模塊之間耦合度非常低,包括聲音來(lái)源、語(yǔ)音識(shí)別、情緒分析、NLP處理、情緒語(yǔ)音合成、語(yǔ)音輸出和表情動(dòng)作輸出等模塊。每個(gè)模塊都可以輕松地更換。
Fay控制器用途
Fay控制器核心邏輯
Fay控制器核心邏輯
使用說(shuō)明
- 抖音虛擬主播:?jiǎn)?dòng)bin/Release_2.85/2.85.exe + fay控制器(抖音輸入源開(kāi)啟、展板播放關(guān)閉)+ 數(shù)字人 + 抖音伴侶(測(cè)試時(shí)直接通過(guò)瀏覽器打開(kāi)別人的直播間);
- 現(xiàn)場(chǎng)推銷(xiāo)貨:fay控制器(展板播放關(guān)閉、填寫(xiě)商品信息)+ 數(shù)字人;
- 商品導(dǎo)購(gòu):fay控制器(麥克風(fēng)輸入源開(kāi)啟、展板播放關(guān)閉、填寫(xiě)商品信息、填寫(xiě)商品Q(chēng)&A)+ 數(shù)字人;
- 語(yǔ)音助理:fay控制器(麥克風(fēng)輸入源開(kāi)啟、展板播放開(kāi)啟);
- 遠(yuǎn)程語(yǔ)音助理:fay控制器(展板播放關(guān)閉)+ 遠(yuǎn)程設(shè)備接入;
- 數(shù)字人互動(dòng):fay控制器(麥克風(fēng)輸入源開(kāi)啟、展板播放關(guān)閉、填寫(xiě)性格Q&A)+ 數(shù)字人;
- 數(shù)字人面試官及心理測(cè)評(píng):聯(lián)系免費(fèi)領(lǐng)?。?/li>
- 賈維斯、Her:加入我們一起完成。
語(yǔ)音指令
- 關(guān)閉核心 關(guān)閉 再見(jiàn) 你走吧
- 靜音 靜音 閉嘴 我想靜靜
- 取消靜音 取消靜音 你在哪呢? 你可以說(shuō)話(huà)了
- 播放歌曲(網(wǎng)易音樂(lè)庫(kù)不可用,尋找替代中) 播放歌曲 播放音樂(lè) 唱首歌 放首歌 聽(tīng)音樂(lè) 你會(huì)唱歌嗎?
- 暫停播放 暫停播放 別唱了 我不想聽(tīng)了
圖形界面
bark
Github: https://github.com/suno-ai/bark
Bark是由Suno創(chuàng)建的一個(gè)基于轉(zhuǎn)換器的文本到音頻模型。Bark可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻,包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流,如大笑、嘆息和哭泣。為了支持研究社區(qū),我們正在提供對(duì)預(yù)先訓(xùn)練的模型檢查點(diǎn)的訪問(wèn),以便進(jìn)行推理。
ChatGLM-6B
Github: https://github.com/THUDM/ChatGLM-6B
ChatGLM-6B 是一個(gè)開(kāi)源的、支持中英雙語(yǔ)的對(duì)話(huà)語(yǔ)言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶(hù)可以在消費(fèi)級(jí)的顯卡上進(jìn)行本地部署(INT4 量化級(jí)別下最低只需 6GB 顯存)。
ChatGLM-6B 使用了和 ChatGPT 相似的技術(shù),針對(duì)中文問(wèn)答和對(duì)話(huà)進(jìn)行了優(yōu)化。經(jīng)過(guò)約 1T 標(biāo)識(shí)符的中英雙語(yǔ)訓(xùn)練,輔以監(jiān)督微調(diào)、反饋?zhàn)灾?、人?lèi)反饋強(qiáng)化學(xué)習(xí)等技術(shù)的加持,62 億參數(shù)的 ChatGLM-6B 已經(jīng)能生成相當(dāng)符合人類(lèi)偏好的回答。
為了方便下游開(kāi)發(fā)者針對(duì)自己的應(yīng)用場(chǎng)景定制模型,我們同時(shí)實(shí)現(xiàn)了基于 P-Tuning v2 的高效參數(shù)微調(diào)方法 (使用指南) ,INT4 量化級(jí)別下最低只需 7GB 顯存即刻啟動(dòng)微調(diào)。
不過(guò),由于 ChatGLM-6B 的規(guī)模較小,目前已知其具有相當(dāng)多的局限性,如事實(shí)性/數(shù)學(xué)邏輯錯(cuò)誤,可能生成有害/有偏見(jiàn)內(nèi)容,較弱的上下文能力,自我認(rèn)知混亂,以及對(duì)英文指示生成與中文指示完全矛盾的內(nèi)容。請(qǐng)大家在使用前了解這些問(wèn)題,以免產(chǎn)生誤解。更大的基于 1300 億參數(shù) GLM-130B 的 ChatGLM 正在內(nèi)測(cè)開(kāi)發(fā)中。
ChatGLM-6B Github 主頁(yè)
law-cn-ai
官網(wǎng):https://law-cn-ai.vercel.app/
Github: https://github.com/lvwzhen/law-cn-ai
這個(gè)開(kāi)源項(xiàng)目被稱(chēng)為你的 AI 法律助手的開(kāi)源項(xiàng)目,通過(guò)分析大量的法律文件,通過(guò)你的問(wèn)題給出答案。
但該開(kāi)源項(xiàng)目不是完全基于大模型去輸出結(jié)果,而是將法律知識(shí)庫(kù)進(jìn)行預(yù)處理,通過(guò)向量相似性搜索來(lái)去庫(kù)中匹配相似性更高的答案,將內(nèi)容輸入到 GPT 中進(jìn)行補(bǔ)全,最終將結(jié)果輸出到客戶(hù)端。
如下圖:
gpt4-pdf-chatbot-langchain
Github: https://github.com/mayooear/gpt4-pdf-chatbot-langchain
針對(duì) PDF 文件構(gòu)建的 GPT 機(jī)器人,上傳你的 PDF 文件,使用的技術(shù)堆棧包括 LangChain、Pinecone、Typescript、Openai 和 Next.js。
基于 Open AI 和 LangChain,可以分析 PDF 文檔中的文字和內(nèi)容,通過(guò) embedding API 生成向量,然后存儲(chǔ)到數(shù)據(jù)庫(kù)中。
最后做成類(lèi)似于 ChatGPT 的機(jī)器人,通過(guò)機(jī)器人快速的進(jìn)行查詢(xún)、輸出答案。
MOSS
官網(wǎng):https://txsun1997.github.io/blogs/moss.html
Github: https://github.com/OpenLMLab/MOSS
國(guó)內(nèi)首個(gè)對(duì)話(huà)式大語(yǔ)言模型開(kāi)源了!復(fù)旦大學(xué)發(fā)布的大模型 MOSS 正式開(kāi)源,相關(guān)代碼、數(shù)據(jù)、模型參數(shù)已在 Github 平臺(tái)開(kāi)放,供科研人員下載。
MOSS是一個(gè)支持中英雙語(yǔ)和多種插件的開(kāi)源對(duì)話(huà)語(yǔ)言模型,moss-moon系列模型具有160億參數(shù),在FP16精度下可在單張A100/A800或兩張3090顯卡運(yùn)行,在INT4/8精度下可在單張3090顯卡運(yùn)行。MOSS基座語(yǔ)言模型在約七千億中英文以及代碼單詞上預(yù)訓(xùn)練得到,后續(xù)經(jīng)過(guò)對(duì)話(huà)指令微調(diào)、插件增強(qiáng)學(xué)習(xí)和人類(lèi)偏好訓(xùn)練具備多輪對(duì)話(huà)能力及使用多種插件的能力。
局限性:由于模型參數(shù)量較小和自回歸生成范式,MOSS仍然可能生成包含事實(shí)性錯(cuò)誤的誤導(dǎo)性回復(fù)或包含偏見(jiàn)/歧視的有害內(nèi)容,請(qǐng)謹(jǐn)慎鑒別和使用MOSS生成的內(nèi)容,請(qǐng)勿將MOSS生成的有害內(nèi)容傳播至互聯(lián)網(wǎng)。若產(chǎn)生不良后果,由傳播者自負(fù)。
SQL Chat
官網(wǎng): https://sqlchat.ai/
Github: https://github.com/sqlchat/sqlchat
SQL Chat 是一個(gè)基于聊天的 SQL 客戶(hù)端,你可以像聊天一樣,問(wèn)數(shù)據(jù)庫(kù)一些問(wèn)題,讓機(jī)器人幫你查詢(xún)一些數(shù)據(jù)
DeepFloyd IF
Github: https://github.com/deep-floyd/IF
這個(gè)開(kāi)源項(xiàng)目有什么稀奇的?AI 畫(huà)圖不是已經(jīng)有很多產(chǎn)品或者開(kāi)源項(xiàng)目了嗎?還真不是,像我們使用的 Midjourney 等畫(huà)圖軟件,是沒(méi)辦法生成準(zhǔn)確的文字的。
但是文字是海報(bào)上不可或缺的元素,于是 Stability AI 旗下的獨(dú)立研發(fā)團(tuán)隊(duì) DeepFloyd AI Research 開(kāi)源了這個(gè)開(kāi)源項(xiàng)目,這個(gè)項(xiàng)目能準(zhǔn)確繪制文字,但目前不支持中文。
官方介紹了DeepFloyd IF,這是一種新穎的最先進(jìn)的開(kāi)源文本到圖像模型,具有高度的照片真實(shí)性和語(yǔ)言理解能力。
DeepFloyd IF是一個(gè)由凍結(jié)文本編碼器和三個(gè)級(jí)聯(lián)像素?cái)U(kuò)散模塊組成的模塊:一個(gè)基于文本提示生成64x64像素圖像的基本模型和兩個(gè)超分辨率模型,每個(gè)模型都設(shè)計(jì)用于生成分辨率不斷提高的圖像:256x256像素和1024x1024像素。
模型的所有階段都使用基于T5轉(zhuǎn)換器的凍結(jié)文本編碼器來(lái)提取文本嵌入,然后將其輸入到通過(guò)交叉注意力和注意力池增強(qiáng)的UNet架構(gòu)中。結(jié)果是一個(gè)高效的模型,其性能優(yōu)于當(dāng)前最先進(jìn)的模型,在COCO數(shù)據(jù)集上實(shí)現(xiàn)了6.66的零樣本FID得分。我們的工作強(qiáng)調(diào)了更大的UNet架構(gòu)在級(jí)聯(lián)擴(kuò)散模型的第一階段的潛力,并描繪了文本到圖像合成的前景。
最后
一臺(tái)電腦,一個(gè)鍵盤(pán),盡情揮灑智慧的人生;幾行數(shù)字,幾個(gè)字母,認(rèn)真編寫(xiě)生活的美好;
一 個(gè)靈感,一段程序,推動(dòng)科技進(jìn)步,促進(jìn)社會(huì)發(fā)展。