自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

融匯14個(gè)AI工具構(gòu)建完美應(yīng)用

譯文 精選
人工智能 開源
人工智能(AI)應(yīng)用在近年來得到了長足的發(fā)展。從語音助手到軟件開發(fā),人工智能已在我們的生活中無處不在,并得到了廣泛應(yīng)用。下面,我將為您介紹14個(gè)開源項(xiàng)目,您可以用它們來制作自己的人工智能應(yīng)用程序,并使其更上一層樓。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

上篇融匯11款A(yù)I工具構(gòu)建完美應(yīng)用

如您所見,人工智能(AI)應(yīng)用在近年來得到了長足的發(fā)展。從語音助手到軟件開發(fā),人工智能已在我們的生活中無處不在,并得到了廣泛應(yīng)用。下面,我將為您介紹14個(gè)開源項(xiàng)目,您可以用它們來制作自己的人工智能應(yīng)用程序,并使其更上一層樓。

12.Stable Diffusion -一種潛在的文本到圖像的擴(kuò)散模型

作為一種在生成模型中常被用到的技術(shù),Stable Diffusion(https://github.com/CompVis/stable-diffusion)在文本到圖像的合成中,能夠?qū)⑿畔奈谋久枋鲋鸩狡椒€(wěn)地轉(zhuǎn)移到圖像。

在文本到圖像的擴(kuò)散模型中,Stable Diffusion可以確保來自文本的描述信息,在整個(gè)模型的潛空間中持續(xù)擴(kuò)散或傳播。這種擴(kuò)散過程有助于生成與給定文本輸入一致的高質(zhì)量逼真圖像。可見,穩(wěn)定的擴(kuò)散機(jī)制可以確保模型在生成過程中,不會(huì)出現(xiàn)突然的跳躍或不穩(wěn)定情況。

如下代碼段展示的是使用擴(kuò)散器庫(https://github.com/huggingface/diffusers/tree/main#new--stable-diffusion-is-now-fully-compatible-with-diffusers)下載和采樣Stable Diffusion的簡單方法:

# make sure you're logged in with `huggingface-cli login`
from torch import autocast
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4", 
use_auth_token=True
).to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
image = pipe(prompt)["sample"][0]  

image.save("astronaut_rides_horse.png")

通過鏈接--https://github.com/CompVis/stable-diffusion?tab=readme-ov-file#image-modification-with-stable-diffusion,您可以了解更多有關(guān)如何利用Stable Diffusion修改圖像的方法。例如,根據(jù)下圖的輸入:

能夠輸出如下的提升效果:

Stable Diffusion v1是一種特定的模型配置。它采用了860M UNet和CLIP ViT-L/14文本編碼器來建立擴(kuò)散模型,并使用降采樣因子為8的自動(dòng)編碼器。該模型在256x256圖像上進(jìn)行了預(yù)訓(xùn)練,隨后在512x512圖像上進(jìn)行了微調(diào)。

目前,Stable Diffusion在GitHub代碼庫中擁有約六萬四千多顆星。

13.MocapDrones-用于室內(nèi)跟蹤的低成本動(dòng)作捕捉系統(tǒng)

由于Mocap Drones(https://github.com/jyjblrd/Mocap-Drones)項(xiàng)目需要使用 SFM(結(jié)構(gòu)源于運(yùn)動(dòng))的OpenCV模塊,因此需要從源代碼編譯OpenCV。

在其computer_code目錄下運(yùn)行如下命令,您可以安裝各個(gè)節(jié)點(diǎn)依賴項(xiàng)。

yarn install
yarn run dev // to start the web server.

完成后,您將可以看到其前臺(tái)界面的URL視圖。

接著,您可以打開一個(gè)單獨(dú)的終端窗口,運(yùn)行python3 api/index.py命令,以啟動(dòng)后端服務(wù)器。該服務(wù)器負(fù)責(zé)接收攝像頭的數(shù)據(jù)流,并執(zhí)行動(dòng)作捕捉的相關(guān)計(jì)算。其邏輯結(jié)構(gòu)如下圖所示:

若要了解Mocap drones的工作原理,您可以觀看視頻鏈接--https://www.youtube.com/watch?v=0ql20JKrscQ。此外,您還可以閱讀其官方文檔--https://github.com/jyjblrd/Mocap-Drones?tab=readme-ov-file#runing-the-code。

目前,其最新開源項(xiàng)目在GitHub存儲(chǔ)庫中有九百多顆星。

14.Whisper Speech通過反轉(zhuǎn)Whisper建立從文本到語音的系統(tǒng)

Whisper Speech(https://github.com/collabora/WhisperSpeech)模型與Stable Diffusion相似,但是常被用于語音轉(zhuǎn)換,且功能強(qiáng)大,可被高度定制。由于能夠確保僅使用得到適當(dāng)許可的語音錄音,而且所有代碼都是開源的,因此該模型可以被安全地用于商業(yè)應(yīng)用。當(dāng)然,這些模型尚只在英語LibreLight數(shù)據(jù)集上得到了訓(xùn)練。

您可以通過鏈接-- https://github.com/collabora/WhisperSpeech?tab=readme-ov-file#architecture,了解其架構(gòu)信息。同時(shí),您也可以通過鏈接-- https://github.com/collabora/WhisperSpeech/assets/107984/aa5a1e7e-dc94-481f-8863-b022c7fd7434,試聽其樣本聲音。

目前,由于Whisper Speech推出時(shí)間不長,因此在GitHub上只有大約三千多顆星。

15.eSpeak NG -支持100多種語言和口音的語音合成器

作為一款小巧的、開源的、從文本到語音的合成器,eSpeak NG(https://github.com/espeak-ng/espeak-ng)適用于Linux、Windows、Android、以及其他操作系統(tǒng)。由于是基于Jonathan Duddington創(chuàng)建的eSpeak引擎,因此它能夠支持100多種語言和口音。鑒于模型可以將文本轉(zhuǎn)化為音素代碼(phoneme codes),因此它具有作為語音合成引擎前端的潛在能力。

您可以閱讀其針對(duì)各種系統(tǒng)的安裝指南(https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md)。其中,對(duì)于Debian之類的發(fā)行版(如Ubuntu、Mint等)而言,您可以使用如下命令:

sudo apt-get install espeak-ng

通過鏈接-- https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md,您可以查看其支持的語言列表,閱讀其官方文檔(https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#documentation),并查看其各項(xiàng)功能(https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#features)。

目前,eSpeak NG在GitHub上有兩千七百多顆星。

16. ChatbotUI- 適用各種模型的AI聊天場景

顧名思義,Chatbot UI(https://github.com/mckaywrigley/chatbot-ui)可以協(xié)助我們?yōu)楦鞣NAI聊天機(jī)器人設(shè)置用戶界面。您可以閱讀其安裝指南(https://github.com/mckaywrigley/chatbot-ui?tab=readme-ov-file#1-install-docker),來完成Docker和supabase CLI等安裝。

通過閱讀其文檔(https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh),并觀看演示程序(https://twitter.com/mckaywrigley/status/1738273242283151777?s=20),您會(huì)發(fā)現(xiàn)它其實(shí)使用的是Supabase(Postgres)。

目前,Chatbot UI在GitHub上擁有約兩萬五千多顆星。可見,它仍然是開發(fā)者為其聊天機(jī)器人構(gòu)建用戶界面的首選。

17.GPT-4 & LangChain -用于大型PDF文檔的GPT4 & LangChain聊天機(jī)器人

GPT-4 & LangChain(https://github.com/mayooear/gpt4-pdf-chatbot-langchain)使用LangChain、Pinecone、Typescript、OpenAI和Next.js構(gòu)建。其中,LangChain是一個(gè)簡化的、可擴(kuò)展的AI大模型應(yīng)用和聊天機(jī)器人開發(fā)的框架。而Pinecone是一個(gè)向量存儲(chǔ)庫,可用于存儲(chǔ)各種嵌入和文本式PDF文件,以便日后檢索類似的文件。

該架構(gòu)可被用于新的GPT-4 API,為多個(gè)大型PDF文件構(gòu)建ChatGPT聊天機(jī)器人。您可以閱讀其開發(fā)指南(https://github.com/mayooear/gpt4-pdf-chatbot-langchain?tab=readme-ov-file#development),以了解克隆、安裝依賴項(xiàng)、以及設(shè)置環(huán)境API的密鑰。

目前,GPT-4 & LangChain在GitHub上擁有一萬四千多顆星,以及34次提交。

18.Amica -可讓你在瀏覽器中輕松地與3D角色聊天

Amica(https://github.com/semperai/amica)是一個(gè)開源的界面,可用于與帶有語音合成和識(shí)別功能的3D動(dòng)畫形象進(jìn)行互動(dòng)交流。

由于使用了three.js、OpenAI、Whisper、以及Bakllava for vision等技術(shù),因此您可以導(dǎo)入各種VRM文件,調(diào)整語音以適應(yīng)選中角色,并生成包含情感表達(dá)的回應(yīng)文本。Amica使用Tauri(下文會(huì)介紹到)來構(gòu)建桌面應(yīng)用。您也可以通過閱讀《Amica是如何工作的(https://docs.heyamica.com/overview/how-amica-works)》,來了解其中涉及到的核心概念。

您可以克隆其存儲(chǔ)庫(repo)并使用如下命令以開始使用:

npm i 
npm run dev

當(dāng)然,您也可以參考其演示視頻(https://amica.arbius.ai/)與相關(guān)文檔(https://docs.heyamica.com/)。

目前,Amica在GitHub上有四百多顆星。

19. Hugging Face Transformers - Pytorch、TensorFlow和JAX的最先進(jìn)機(jī)器學(xué)習(xí)

Hugging Face Transformers(https://github.com/huggingface/transformers)可以為文本分類、語言生成、以及問題解答等任務(wù),提供最先進(jìn)的預(yù)訓(xùn)練模型和算法。該庫建立在PyTorch和TensorFlow的基礎(chǔ)之上,允許用戶以最小的工作量,將高級(jí)的NLP功能無縫地集成到自己的應(yīng)用中。

由于擁有大量預(yù)訓(xùn)練模型和對(duì)應(yīng)的支持性社區(qū),因此Hugging Face Transformers簡化了基于NLP方案的開發(fā)。這些模型可用于執(zhí)行與文本相關(guān)的任務(wù),如:對(duì)100多種語言進(jìn)行文本分類、信息提取、問題解答、摘要、翻譯以及文本生成。同時(shí),它們也可以處理各種與圖像相關(guān)的任務(wù),如:圖像分類、對(duì)象檢測和分割,語音識(shí)別,以及音頻分類等任務(wù)。此外,Hugging Face Transformers還可以對(duì)各種模型執(zhí)行多任務(wù)處理,如:表格問題解答、光學(xué)字符識(shí)別(OCR)、從掃描文檔中提取信息、視頻分類、以及視覺問題解答等。

您不但可以通過鏈接-- https://huggingface.co/models了解更多可用的模型,而且能夠在文檔鏈接(https://huggingface.co/docs/transformers/task_summary)中查看到適合各種任務(wù)的完整目標(biāo)和示例。如下代碼段展示了如何使用管道方法來進(jìn)行圖像的分割:

from transformers import pipeline

segmenter = pipeline(task="image-segmentation")
preds = segmenter(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
)
preds = [{"score": round(pred["score"], 4), "label": pred["label"]} for pred in preds]
print(*preds, sep="\n")

如您所知,Transformers由三種最被廣泛使用的深度學(xué)習(xí)庫(即:Jax、PyTorch和TensorFlow)提供支持,它們之間實(shí)現(xiàn)了無縫的集成,因此這種集成可以使用一個(gè)庫去輕松地訓(xùn)練模型,然后再將它們加載到另一個(gè)庫進(jìn)行推理。

目前,Hugging Face Transformers在GitHub上擁有約十二萬多顆星,且被十四萬二千多開發(fā)人員所廣泛使用。

20.LLaMA - LLaMA模型的推理代碼

作為Facebook研究中心開發(fā)的一項(xiàng)尖端技術(shù),Llama 2(https://github.com/facebookresearch/llama)可以讓個(gè)人、創(chuàng)作者、研究人員和各種規(guī)模的企業(yè),都能夠利用大模型進(jìn)行實(shí)驗(yàn)、創(chuàng)新、以及負(fù)責(zé)任地去擴(kuò)展其想法。

Llama 2的最新版本包含了各種模型權(quán)重和啟動(dòng)代碼,它們都是參數(shù)范圍從7B到70B的預(yù)訓(xùn)練和微調(diào)的Llama語言模型。根據(jù)安裝指南--https://github.com/facebookresearch/llama?tab=readme-ov-file#quick-start,您可以遵循如下步驟來完成安裝:

  • 克隆并下載軟件源。
  • 安裝所需的依賴項(xiàng)。
  • 注冊(cè)并從Meta網(wǎng)站處下載模型。
  • 運(yùn)行已提供的腳本下載模型。
  • 使用已提供的命令在本地運(yùn)行所需的模型。

您也可以在Hugging Face(https://huggingface.co/meta-llama)和Meta官方網(wǎng)頁(https://llama.meta.com/)上查看更多的模型名單信息。

目前,Llama在GitHub上有五萬多顆星。

21.Fonoster - Twilio的開源替代品

作為一種創(chuàng)新的可編程電信棧,F(xiàn)onoster(https://github.com/fonoster/fonoster)能夠?yàn)槠髽I(yè)提供一種完全基于云的實(shí)用程序,以將電話服務(wù)與互聯(lián)網(wǎng)連接起來。

您可以根據(jù)不同的實(shí)現(xiàn)目標(biāo),以不同的方式開啟使用。例如,您可以使用如下npm命令:

npm install @fonoster/websdk
// CDN is also available

同時(shí),您可以將Fonoster與Google Speech API結(jié)合起來使用 (當(dāng)然,您需要有服務(wù)賬戶的密鑰)。

npm install @fonoster/googleasr @fonoster/googletts

如下代碼段展示的是使用插件配置語音服務(wù)器(Voice Server)的方法。

const { VoiceServer } = require("@fonoster/voice");
const GoogleTTS = require("@fonoster/googletts");
const GoogleASR = require("@fonoster/googleasr");
const voiceServer = new VoiceServer();
const speechConfig = { keyFilename: "./google.json" };

// Set the server to use the speech APIS
voiceServer.use(new GoogleTTS(speechConfig));
voiceServer.use(new GoogleASR(speechConfig));

voiceServer.listen(async(req, res) => {
  console.log(req);
  await res.answer();
  // To use this verb you MUST have a TTS plugin
  const speech = await res.gather();

  await res.say("You said " + speech);
  await res.hangup();
});

您可以閱讀文檔(https://fonoster.com/docs/overview/)。

他們提供免費(fèi)層級(jí),足以滿足入門需求。

目前,F(xiàn)onoster在GitHub上有大約六千多顆星,并且發(fā)布了250多個(gè)版本。

22. DIPY - Python中的Paragon 3D/4D+成像庫

作為業(yè)界領(lǐng)先的Python 3D/4D+成像庫,DIPY(https://github.com/dipy/dipy)包含各種用于空間歸一化、信號(hào)處理、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、以及醫(yī)學(xué)圖像可視化的方法。同時(shí),它也包含了諸如:擴(kuò)散、灌注和結(jié)構(gòu)成像等用于計(jì)算解剖學(xué)的專門方法。

您可以從如下命令開始上手DIPY:

pip install dipy

// run this in python console
import dipy
print(dipy.get_info())

DIPY提供的官方文檔(https://docs.dipy.org/stable/)提供了如下圖所示的各種詳細(xì)示例(https://docs.dipy.org/stable/examples_built/index.html)。

目前,DIPY在GitHub存儲(chǔ)庫中有四十二萬八千多下載量和六百多顆星。

23.Elastic Search -免費(fèi)、開放、分布式的RESTful搜索引擎

Elastic Search(https://github.com/elastic/elasticsearch)是一個(gè)分布式的RESTful搜索和分析引擎,能夠處理大量的用例。而作為Elastic Stack的核心,它可以集中式地存儲(chǔ)您的數(shù)據(jù),以實(shí)現(xiàn)閃電般快速的搜索、相關(guān)性微調(diào)、強(qiáng)大的分析功能,以及可以輕松地?cái)U(kuò)展。下圖展示了各種可以使用Elastic Search的用例。

由于Elastic Search使用的是標(biāo)準(zhǔn)化的RESTful API和JSON,因此我們也使用Java、Python、.NET、SQL和PHP等多種語言來構(gòu)建和維護(hù)客戶端。下面展示了其基本結(jié)構(gòu):

const { Client } = require('@elastic/elasticsearch')
const client = new Client({ node: 'http://localhost:9200' })

client
  .search({
    index: 'social-*',
    body: {
      query: { match: { message: 'myProduct' } },
      aggs: {
        top_10_states: {
          terms: { field: 'state', size: 10 }
        }
      }
    }
  })
  .then(({ body }) => {
    const { hits } = body.hits
    console.log(hits)
  })
  .catch(console.error)

您可以通過閱讀文檔(https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh),來查看其功能列表(https://www.elastic.co/elasticsearch/features)。盡管Elastic Search功能強(qiáng)大,但是其主要缺點(diǎn)是并非免費(fèi)。當(dāng)然,你仍然可以利用其免費(fèi)的試用版,來探究該開源項(xiàng)目的架構(gòu)。

目前,Elastic Search已經(jīng)發(fā)布了第8版,并正在不斷開發(fā)和完善中。在GitHub上它有超過六萬七千多顆星,有近1900名貢獻(xiàn)者。

24. Tauri -利用Web前端構(gòu)建更小、更快、更安全的桌面應(yīng)用

Tauri(https://github.com/tauri-apps/tauri)是一個(gè)工具包,旨在幫助開發(fā)人員利用幾乎所有可用的前端框架,為桌面平臺(tái)創(chuàng)建應(yīng)用程序。其內(nèi)核是使用Rust開發(fā)的,而CLI則使用Node.js為開發(fā)和維護(hù)應(yīng)用提供了一種真正的多語言方法。

Tauri應(yīng)用的用戶界面目前在macOS、Windows、Linux、Android和iOS上都使用Tao作為窗口處理庫。而為了應(yīng)用,Tauri也使用了WRY庫,這一為系統(tǒng)WebView所提供的統(tǒng)一接口庫。也就是說,它會(huì)利用macOS和iOS上的WKWebView、Windows上的WebView2、Linux上的WebKitGTK、以及Android上的Android System WebView。

您可以使用如下npm命令開始使用Tauri。

npm create tauri-app@latest

您既可以閱讀其文檔--https://tauri.app/v1/guides/getting-started/prerequisites,也可以通過查看其功能列表--https://tauri.app/v1/guides/features/,來制作自己的CLI。

目前,Tauri在GitHub上擁有七萬五千多顆星,并已發(fā)布了800多個(gè)版本。

25.AutoGPT- 比ChatGPT更刺激

AutoGPT(https://github.com/Significant-Gravitas/AutoGPT)的核心是一個(gè)由大模型(LLM)驅(qū)動(dòng)的半自主代理項(xiàng)目。該項(xiàng)目由如下四個(gè)主要部分(https://docs.agpt.co/#agent)組成:

  • 代理- 也稱為“AutoGPT”
  • 基準(zhǔn) - 又名agbenchmark
  • 構(gòu)建臺(tái)(Forge)
  • 前臺(tái)

通過閱讀鏈接--https://docs.agpt.co/autogpt/setup/,您可以了解如何使用OpenAI的密鑰來設(shè)置AutoGPT。同時(shí),您也可以閱讀其官方文檔(https://docs.agpt.co/)、以及查看項(xiàng)目板(https://github.com/orgs/Significant-Gravitas/projects/1),了解目前正在開發(fā)的內(nèi)容。

由于其出色的用例和自動(dòng)化功能,AutoGPT目前在GitHub庫上擁有約十五萬九千多顆星。

譯者介紹

陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。

原文標(biāo)題:All the tools I need to build a perfect AI app. ,作者:Anmol Baranwal

鏈接:https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-04-23 09:15:09

2023-06-19 09:01:17

2023-09-15 08:00:20

2012-12-25 16:51:27

金融展惠普

2023-07-24 11:03:32

微軟Azure

2020-08-24 11:48:49

人工智能

2025-03-31 09:30:52

2020-10-23 10:36:08

Dropbox

2020-10-26 09:53:44

Dropbox攻擊網(wǎng)絡(luò)安全

2024-12-10 08:01:38

2023-09-11 16:36:50

谷歌機(jī)器學(xué)習(xí)

2021-10-25 23:12:06

iOS應(yīng)用系統(tǒng)

2024-11-26 09:50:18

AIjs 工具庫前端開發(fā)

2020-12-23 14:32:43

云計(jì)算人工智能5G

2024-07-26 08:45:54

2023-12-18 07:18:51

SREDevOps工具

2020-06-24 16:20:02

LinuxCPU監(jiān)控工具

2025-02-17 00:00:00

2023-12-12 13:42:00

微服務(wù)生態(tài)系統(tǒng)Spring

2019-05-27 13:50:35

多云架構(gòu)企業(yè)多云集成云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)