自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="e1da9"><s id="e1da9"></s></sub>

<cite id="e1da9"></cite>

<s id="e1da9"><li id="e1da9"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

融匯14個(gè)AI工具構(gòu)建完美應(yīng)用

作者：陳峻 2024-04-24 09:21:20

人工智能開源

人工智能（AI）應(yīng)用在近年來得到了長足的發(fā)展。從語音助手到軟件開發(fā)，人工智能已在我們的生活中無處不在，并得到了廣泛應(yīng)用。下面，我將為您介紹14個(gè)開源項(xiàng)目，您可以用它們來制作自己的人工智能應(yīng)用程序，并使其更上一層樓。

想了解更多AIGC的內(nèi)容，請(qǐng)?jiān)L問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

上篇：融匯11款A(yù)I工具構(gòu)建完美應(yīng)用

如您所見，人工智能（AI）應(yīng)用在近年來得到了長足的發(fā)展。從語音助手到軟件開發(fā)，人工智能已在我們的生活中無處不在，并得到了廣泛應(yīng)用。下面，我將為您介紹14個(gè)開源項(xiàng)目，您可以用它們來制作自己的人工智能應(yīng)用程序，并使其更上一層樓。

12.Stable Diffusion -一種潛在的文本到圖像的擴(kuò)散模型

作為一種在生成模型中常被用到的技術(shù)，Stable Diffusion（https://github.com/CompVis/stable-diffusion）在文本到圖像的合成中，能夠?qū)⑿畔奈谋久枋鲋鸩狡椒€(wěn)地轉(zhuǎn)移到圖像。

在文本到圖像的擴(kuò)散模型中，Stable Diffusion可以確保來自文本的描述信息，在整個(gè)模型的潛空間中持續(xù)擴(kuò)散或傳播。這種擴(kuò)散過程有助于生成與給定文本輸入一致的高質(zhì)量逼真圖像。可見，穩(wěn)定的擴(kuò)散機(jī)制可以確保模型在生成過程中，不會(huì)出現(xiàn)突然的跳躍或不穩(wěn)定情況。

如下代碼段展示的是使用擴(kuò)散器庫（https://github.com/huggingface/diffusers/tree/main#new--stable-diffusion-is-now-fully-compatible-with-diffusers）下載和采樣Stable Diffusion的簡單方法：

# make sure you're logged in with `huggingface-cli login`
from torch import autocast
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4", 
use_auth_token=True
).to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
image = pipe(prompt)["sample"][0]  

image.save("astronaut_rides_horse.png")

通過鏈接--https://github.com/CompVis/stable-diffusion?tab=readme-ov-file#image-modification-with-stable-diffusion，您可以了解更多有關(guān)如何利用Stable Diffusion修改圖像的方法。例如，根據(jù)下圖的輸入：

能夠輸出如下的提升效果：

Stable Diffusion v1是一種特定的模型配置。它采用了860M UNet和CLIP ViT-L/14文本編碼器來建立擴(kuò)散模型，并使用降采樣因子為8的自動(dòng)編碼器。該模型在256x256圖像上進(jìn)行了預(yù)訓(xùn)練，隨后在512x512圖像上進(jìn)行了微調(diào)。

目前，Stable Diffusion在GitHub代碼庫中擁有約六萬四千多顆星。

13.MocapDrones-用于室內(nèi)跟蹤的低成本動(dòng)作捕捉系統(tǒng)

由于Mocap Drones（https://github.com/jyjblrd/Mocap-Drones）項(xiàng)目需要使用 SFM（結(jié)構(gòu)源于運(yùn)動(dòng)）的OpenCV模塊，因此需要從源代碼編譯OpenCV。

在其computer_code目錄下運(yùn)行如下命令，您可以安裝各個(gè)節(jié)點(diǎn)依賴項(xiàng)。

yarn install
yarn run dev // to start the web server.

完成后，您將可以看到其前臺(tái)界面的URL視圖。

接著，您可以打開一個(gè)單獨(dú)的終端窗口，運(yùn)行python3 api/index.py命令，以啟動(dòng)后端服務(wù)器。該服務(wù)器負(fù)責(zé)接收攝像頭的數(shù)據(jù)流，并執(zhí)行動(dòng)作捕捉的相關(guān)計(jì)算。其邏輯結(jié)構(gòu)如下圖所示：

若要了解Mocap drones的工作原理，您可以觀看視頻鏈接--https://www.youtube.com/watch?v=0ql20JKrscQ。此外，您還可以閱讀其官方文檔--https://github.com/jyjblrd/Mocap-Drones?tab=readme-ov-file#runing-the-code。

目前，其最新開源項(xiàng)目在GitHub存儲(chǔ)庫中有九百多顆星。

14.Whisper Speech通過反轉(zhuǎn)Whisper建立從文本到語音的系統(tǒng)

Whisper Speech（https://github.com/collabora/WhisperSpeech）模型與Stable Diffusion相似，但是常被用于語音轉(zhuǎn)換，且功能強(qiáng)大，可被高度定制。由于能夠確保僅使用得到適當(dāng)許可的語音錄音，而且所有代碼都是開源的，因此該模型可以被安全地用于商業(yè)應(yīng)用。當(dāng)然，這些模型尚只在英語LibreLight數(shù)據(jù)集上得到了訓(xùn)練。

您可以通過鏈接-- https://github.com/collabora/WhisperSpeech?tab=readme-ov-file#architecture，了解其架構(gòu)信息。同時(shí)，您也可以通過鏈接-- https://github.com/collabora/WhisperSpeech/assets/107984/aa5a1e7e-dc94-481f-8863-b022c7fd7434，試聽其樣本聲音。

目前，由于Whisper Speech推出時(shí)間不長，因此在GitHub上只有大約三千多顆星。

15.eSpeak NG -支持100多種語言和口音的語音合成器

作為一款小巧的、開源的、從文本到語音的合成器，eSpeak NG（https://github.com/espeak-ng/espeak-ng）適用于Linux、Windows、Android、以及其他操作系統(tǒng)。由于是基于Jonathan Duddington創(chuàng)建的eSpeak引擎，因此它能夠支持100多種語言和口音。鑒于模型可以將文本轉(zhuǎn)化為音素代碼（phoneme codes），因此它具有作為語音合成引擎前端的潛在能力。

您可以閱讀其針對(duì)各種系統(tǒng)的安裝指南（https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md）。其中，對(duì)于Debian之類的發(fā)行版（如Ubuntu、Mint等）而言，您可以使用如下命令：

sudo apt-get install espeak-ng

通過鏈接-- https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md，您可以查看其支持的語言列表，閱讀其官方文檔（https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#documentation），并查看其各項(xiàng)功能（https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#features）。

目前，eSpeak NG在GitHub上有兩千七百多顆星。

16. ChatbotUI- 適用各種模型的AI聊天場景

顧名思義，Chatbot UI（https://github.com/mckaywrigley/chatbot-ui）可以協(xié)助我們?yōu)楦鞣NAI聊天機(jī)器人設(shè)置用戶界面。您可以閱讀其安裝指南（https://github.com/mckaywrigley/chatbot-ui?tab=readme-ov-file#1-install-docker），來完成Docker和supabase CLI等安裝。

通過閱讀其文檔（https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh），并觀看演示程序（https://twitter.com/mckaywrigley/status/1738273242283151777?s=20），您會(huì)發(fā)現(xiàn)它其實(shí)使用的是Supabase（Postgres）。

目前，Chatbot UI在GitHub上擁有約兩萬五千多顆星。可見，它仍然是開發(fā)者為其聊天機(jī)器人構(gòu)建用戶界面的首選。

17.GPT-4 & LangChain -用于大型PDF文檔的GPT4 & LangChain聊天機(jī)器人

GPT-4 & LangChain（https://github.com/mayooear/gpt4-pdf-chatbot-langchain）使用LangChain、Pinecone、Typescript、OpenAI和Next.js構(gòu)建。其中，LangChain是一個(gè)簡化的、可擴(kuò)展的AI大模型應(yīng)用和聊天機(jī)器人開發(fā)的框架。而Pinecone是一個(gè)向量存儲(chǔ)庫，可用于存儲(chǔ)各種嵌入和文本式PDF文件，以便日后檢索類似的文件。

該架構(gòu)可被用于新的GPT-4 API，為多個(gè)大型PDF文件構(gòu)建ChatGPT聊天機(jī)器人。您可以閱讀其開發(fā)指南（https://github.com/mayooear/gpt4-pdf-chatbot-langchain?tab=readme-ov-file#development），以了解克隆、安裝依賴項(xiàng)、以及設(shè)置環(huán)境API的密鑰。

目前，GPT-4 & LangChain在GitHub上擁有一萬四千多顆星，以及34次提交。

18.Amica -可讓你在瀏覽器中輕松地與3D角色聊天

Amica（https://github.com/semperai/amica）是一個(gè)開源的界面，可用于與帶有語音合成和識(shí)別功能的3D動(dòng)畫形象進(jìn)行互動(dòng)交流。

由于使用了three.js、OpenAI、Whisper、以及Bakllava for vision等技術(shù)，因此您可以導(dǎo)入各種VRM文件，調(diào)整語音以適應(yīng)選中角色，并生成包含情感表達(dá)的回應(yīng)文本。Amica使用Tauri（下文會(huì)介紹到）來構(gòu)建桌面應(yīng)用。您也可以通過閱讀《Amica是如何工作的（https://docs.heyamica.com/overview/how-amica-works）》，來了解其中涉及到的核心概念。

您可以克隆其存儲(chǔ)庫（repo）并使用如下命令以開始使用：

npm i 
npm run dev

當(dāng)然，您也可以參考其演示視頻（https://amica.arbius.ai/）與相關(guān)文檔（https://docs.heyamica.com/）。

目前，Amica在GitHub上有四百多顆星。

19. Hugging Face Transformers - Pytorch、TensorFlow和JAX的最先進(jìn)機(jī)器學(xué)習(xí)

Hugging Face Transformers（https://github.com/huggingface/transformers）可以為文本分類、語言生成、以及問題解答等任務(wù)，提供最先進(jìn)的預(yù)訓(xùn)練模型和算法。該庫建立在PyTorch和TensorFlow的基礎(chǔ)之上，允許用戶以最小的工作量，將高級(jí)的NLP功能無縫地集成到自己的應(yīng)用中。

由于擁有大量預(yù)訓(xùn)練模型和對(duì)應(yīng)的支持性社區(qū)，因此Hugging Face Transformers簡化了基于NLP方案的開發(fā)。這些模型可用于執(zhí)行與文本相關(guān)的任務(wù)，如：對(duì)100多種語言進(jìn)行文本分類、信息提取、問題解答、摘要、翻譯以及文本生成。同時(shí)，它們也可以處理各種與圖像相關(guān)的任務(wù)，如：圖像分類、對(duì)象檢測和分割，語音識(shí)別，以及音頻分類等任務(wù)。此外，Hugging Face Transformers還可以對(duì)各種模型執(zhí)行多任務(wù)處理，如：表格問題解答、光學(xué)字符識(shí)別（OCR）、從掃描文檔中提取信息、視頻分類、以及視覺問題解答等。

您不但可以通過鏈接-- https://huggingface.co/models了解更多可用的模型，而且能夠在文檔鏈接（https://huggingface.co/docs/transformers/task_summary）中查看到適合各種任務(wù)的完整目標(biāo)和示例。如下代碼段展示了如何使用管道方法來進(jìn)行圖像的分割：

from transformers import pipeline

segmenter = pipeline(task="image-segmentation")
preds = segmenter(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
)
preds = [{"score": round(pred["score"], 4), "label": pred["label"]} for pred in preds]
print(*preds, sep="\n")

如您所知，Transformers由三種最被廣泛使用的深度學(xué)習(xí)庫（即：Jax、PyTorch和TensorFlow）提供支持，它們之間實(shí)現(xiàn)了無縫的集成，因此這種集成可以使用一個(gè)庫去輕松地訓(xùn)練模型，然后再將它們加載到另一個(gè)庫進(jìn)行推理。

目前，Hugging Face Transformers在GitHub上擁有約十二萬多顆星，且被十四萬二千多開發(fā)人員所廣泛使用。

20.LLaMA - LLaMA模型的推理代碼

作為Facebook研究中心開發(fā)的一項(xiàng)尖端技術(shù)，Llama 2(https://github.com/facebookresearch/llama)可以讓個(gè)人、創(chuàng)作者、研究人員和各種規(guī)模的企業(yè)，都能夠利用大模型進(jìn)行實(shí)驗(yàn)、創(chuàng)新、以及負(fù)責(zé)任地去擴(kuò)展其想法。

Llama 2的最新版本包含了各種模型權(quán)重和啟動(dòng)代碼，它們都是參數(shù)范圍從7B到70B的預(yù)訓(xùn)練和微調(diào)的Llama語言模型。根據(jù)安裝指南--https://github.com/facebookresearch/llama?tab=readme-ov-file#quick-start，您可以遵循如下步驟來完成安裝：

克隆并下載軟件源。
安裝所需的依賴項(xiàng)。
注冊(cè)并從Meta網(wǎng)站處下載模型。
運(yùn)行已提供的腳本下載模型。
使用已提供的命令在本地運(yùn)行所需的模型。

您也可以在Hugging Face（https://huggingface.co/meta-llama）和Meta官方網(wǎng)頁（https://llama.meta.com/）上查看更多的模型名單信息。

目前，Llama在GitHub上有五萬多顆星。

21.Fonoster - Twilio的開源替代品

作為一種創(chuàng)新的可編程電信棧，F(xiàn)onoster(https://github.com/fonoster/fonoster)能夠?yàn)槠髽I(yè)提供一種完全基于云的實(shí)用程序，以將電話服務(wù)與互聯(lián)網(wǎng)連接起來。

您可以根據(jù)不同的實(shí)現(xiàn)目標(biāo)，以不同的方式開啟使用。例如，您可以使用如下npm命令：

npm install @fonoster/websdk
// CDN is also available

同時(shí)，您可以將Fonoster與Google Speech API結(jié)合起來使用 (當(dāng)然，您需要有服務(wù)賬戶的密鑰）。

npm install @fonoster/googleasr @fonoster/googletts

如下代碼段展示的是使用插件配置語音服務(wù)器（Voice Server）的方法。

const { VoiceServer } = require("@fonoster/voice");
const GoogleTTS = require("@fonoster/googletts");
const GoogleASR = require("@fonoster/googleasr");
const voiceServer = new VoiceServer();
const speechConfig = { keyFilename: "./google.json" };

// Set the server to use the speech APIS
voiceServer.use(new GoogleTTS(speechConfig));
voiceServer.use(new GoogleASR(speechConfig));

voiceServer.listen(async(req, res) => {
  console.log(req);
  await res.answer();
  // To use this verb you MUST have a TTS plugin
  const speech = await res.gather();

  await res.say("You said " + speech);
  await res.hangup();
});

您可以閱讀文檔（https://fonoster.com/docs/overview/）。

他們提供免費(fèi)層級(jí)，足以滿足入門需求。

目前，F(xiàn)onoster在GitHub上有大約六千多顆星，并且發(fā)布了250多個(gè)版本。

22. DIPY - Python中的Paragon 3D/4D+成像庫

作為業(yè)界領(lǐng)先的Python 3D/4D+成像庫，DIPY（https://github.com/dipy/dipy）包含各種用于空間歸一化、信號(hào)處理、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、以及醫(yī)學(xué)圖像可視化的方法。同時(shí)，它也包含了諸如：擴(kuò)散、灌注和結(jié)構(gòu)成像等用于計(jì)算解剖學(xué)的專門方法。

您可以從如下命令開始上手DIPY：

pip install dipy

// run this in python console
import dipy
print(dipy.get_info())

DIPY提供的官方文檔（https://docs.dipy.org/stable/）提供了如下圖所示的各種詳細(xì)示例（https://docs.dipy.org/stable/examples_built/index.html）。

目前，DIPY在GitHub存儲(chǔ)庫中有四十二萬八千多下載量和六百多顆星。

23.Elastic Search -免費(fèi)、開放、分布式的RESTful搜索引擎

Elastic Search（https://github.com/elastic/elasticsearch）是一個(gè)分布式的RESTful搜索和分析引擎，能夠處理大量的用例。而作為Elastic Stack的核心，它可以集中式地存儲(chǔ)您的數(shù)據(jù)，以實(shí)現(xiàn)閃電般快速的搜索、相關(guān)性微調(diào)、強(qiáng)大的分析功能，以及可以輕松地?cái)U(kuò)展。下圖展示了各種可以使用Elastic Search的用例。

由于Elastic Search使用的是標(biāo)準(zhǔn)化的RESTful API和JSON，因此我們也使用Java、Python、.NET、SQL和PHP等多種語言來構(gòu)建和維護(hù)客戶端。下面展示了其基本結(jié)構(gòu)：

const { Client } = require('@elastic/elasticsearch')
const client = new Client({ node: 'http://localhost:9200' })

client
  .search({
    index: 'social-*',
    body: {
      query: { match: { message: 'myProduct' } },
      aggs: {
        top_10_states: {
          terms: { field: 'state', size: 10 }
        }
      }
    }
  })
  .then(({ body }) => {
    const { hits } = body.hits
    console.log(hits)
  })
  .catch(console.error)

您可以通過閱讀文檔（https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh），來查看其功能列表（https://www.elastic.co/elasticsearch/features）。盡管Elastic Search功能強(qiáng)大，但是其主要缺點(diǎn)是并非免費(fèi)。當(dāng)然，你仍然可以利用其免費(fèi)的試用版，來探究該開源項(xiàng)目的架構(gòu)。

目前，Elastic Search已經(jīng)發(fā)布了第8版，并正在不斷開發(fā)和完善中。在GitHub上它有超過六萬七千多顆星，有近1900名貢獻(xiàn)者。

24. Tauri -利用Web前端構(gòu)建更小、更快、更安全的桌面應(yīng)用

Tauri（https://github.com/tauri-apps/tauri）是一個(gè)工具包，旨在幫助開發(fā)人員利用幾乎所有可用的前端框架，為桌面平臺(tái)創(chuàng)建應(yīng)用程序。其內(nèi)核是使用Rust開發(fā)的，而CLI則使用Node.js為開發(fā)和維護(hù)應(yīng)用提供了一種真正的多語言方法。

Tauri應(yīng)用的用戶界面目前在macOS、Windows、Linux、Android和iOS上都使用Tao作為窗口處理庫。而為了應(yīng)用，Tauri也使用了WRY庫，這一為系統(tǒng)WebView所提供的統(tǒng)一接口庫。也就是說，它會(huì)利用macOS和iOS上的WKWebView、Windows上的WebView2、Linux上的WebKitGTK、以及Android上的Android System WebView。

您可以使用如下npm命令開始使用Tauri。

npm create tauri-app@latest

您既可以閱讀其文檔--https://tauri.app/v1/guides/getting-started/prerequisites，也可以通過查看其功能列表--https://tauri.app/v1/guides/features/，來制作自己的CLI。

目前，Tauri在GitHub上擁有七萬五千多顆星，并已發(fā)布了800多個(gè)版本。

25.AutoGPT- 比ChatGPT更刺激

AutoGPT（https://github.com/Significant-Gravitas/AutoGPT）的核心是一個(gè)由大模型（LLM）驅(qū)動(dòng)的半自主代理項(xiàng)目。該項(xiàng)目由如下四個(gè)主要部分（https://docs.agpt.co/#agent）組成：

代理- 也稱為“AutoGPT”
基準(zhǔn) - 又名agbenchmark
構(gòu)建臺(tái)（Forge）
前臺(tái)

通過閱讀鏈接--https://docs.agpt.co/autogpt/setup/，您可以了解如何使用OpenAI的密鑰來設(shè)置AutoGPT。同時(shí)，您也可以閱讀其官方文檔（https://docs.agpt.co/）、以及查看項(xiàng)目板（https://github.com/orgs/Significant-Gravitas/projects/1），了解目前正在開發(fā)的內(nèi)容。

由于其出色的用例和自動(dòng)化功能，AutoGPT目前在GitHub庫上擁有約十五萬九千多顆星。

譯者介紹

陳峻（Julian Chen），51CTO社區(qū)編輯，具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn)，善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控，專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。

原文標(biāo)題：All the tools I need to build a perfect AI app. ，作者：Anmol Baranwal

鏈接：https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh。

想了解更多AIGC的內(nèi)容，請(qǐng)?jiān)L問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

人工智能 AI工具開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="stxx7"></cite>

<blockquote id="stxx7"><i id="stxx7"></i></blockquote>

<sub id="stxx7"><rt id="stxx7"></rt></sub>

<sub id="stxx7"></sub>

<thead id="stxx7"><rt id="stxx7"></rt></thead>