自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI虛擬點(diǎn)讀機(jī),手勢(shì)識(shí)別+OCR+語(yǔ)音TTS

開發(fā) 前端 人工智能
TTS?如果是Mac?可以使用系統(tǒng)自帶的,不需要安裝其他程序。如果是Windows?可以使用微軟的edge-tts。edge-tts?效果比大部分tts強(qiáng)太多。

哈嘍,大家好。

最近在研究AIGC方面的內(nèi)容,好久沒有更新公眾號(hào)內(nèi)容。

今天給大家分享的是用計(jì)算機(jī)視覺技術(shù)做一個(gè)虛擬點(diǎn)讀機(jī)。

圖片圖片

技術(shù)上很簡(jiǎn)單,只不過(guò)工程實(shí)現(xiàn)先有些細(xì)節(jié)需要注意。

1. 思路

  1. OpenCV讀取視頻流,識(shí)別食指坐標(biāo)
  2. 用兩個(gè)食指坐標(biāo)作為頂點(diǎn),畫一個(gè)矩形框
  3. 截取矩形框,送入OCR模型識(shí)別文本
  4. 用語(yǔ)音合成引擎TTS將文本合成語(yǔ)音
  5. 調(diào)用音頻播放模塊,播放聲音

2. 細(xì)節(jié)處理

OpenCV讀取視頻流、mediapipe識(shí)別食指坐標(biāo),之前的分享的文章都有代碼,這里就不貼了,重點(diǎn)說(shuō)下需要處理的細(xì)節(jié)。

細(xì)節(jié)1. 檢測(cè)到兩個(gè)食指時(shí),需要設(shè)置一個(gè)時(shí)間間隔,這樣可以給你預(yù)留一些時(shí)間來(lái)調(diào)整矩形框

if self.point_start_time is None:
    # 首次同時(shí)檢測(cè)到左右食指
    self.point_start_time = time.time()
else:
    time_del = time.time() - self.point_start_time
    if time_del > 3:

圖片圖片

細(xì)節(jié)2. 設(shè)置標(biāo)記,防止重復(fù)識(shí)別

矩形框一旦確定,如果沒有標(biāo)記,每一幀都會(huì)送入OCR模型識(shí)別、然后播放聲音,這樣程序就會(huì)卡死。

需要設(shè)置標(biāo)記,保證任何時(shí)刻只處理一個(gè)矩形框。

if not self.is_processing:
  # 開始識(shí)別
  self.is_processing = True
  # ocr識(shí)別選定的圖片
  t, b = min(p0_y, p1_y), max(p0_y, p1_y)
  l, r = min(p0_x, p1_x), max(p0_x, p1_x)

  selected_frame = frame[t:b, l:r]
  # ocr識(shí)別文字
  text = self.ocr_rec(selected_frame)
  # 文本轉(zhuǎn)語(yǔ)音
  voice = self.tts.get_speech(text)
  # 播放語(yǔ)音
  self.player.play(voice, False, notallow=lambda: self.stop_play())
  self.pc_time = time.time()

細(xì)節(jié)3. 多線程處理

播放音頻的時(shí)候需要用多線程播放,不然主程序會(huì)卡死,知道音頻播放完成才能繼續(xù)運(yùn)行。

如果識(shí)別的內(nèi)容很多,播放時(shí)間長(zhǎng),程序就會(huì)一直卡著很長(zhǎng)時(shí)間沒有反應(yīng)。

3. 其他技術(shù)

關(guān)于OCR和TTS技術(shù)之前的文章都有介紹過(guò)。

OCR直接用Paddle框架和預(yù)訓(xùn)練好的模型就行。

TTS如果是Mac可以使用系統(tǒng)自帶的,不需要安裝其他程序。如果是Windows可以使用微軟的edge-tts。edge-tts效果比大部分tts強(qiáng)太多。

也可以用d-id、wav2lip或者sadtalker實(shí)現(xiàn)唇形合成,讓靜態(tài)圖片朗讀文本內(nèi)容。

責(zé)任編輯:武曉燕 來(lái)源: 渡碼
相關(guān)推薦

2022-10-24 08:40:14

AI虛擬手勢(shì)計(jì)算

2021-12-24 10:34:11

鴻蒙HarmonyOS應(yīng)用

2021-05-06 11:13:06

人工智能語(yǔ)音識(shí)別

2021-05-06 11:18:23

人工智能語(yǔ)音識(shí)別

2014-11-12 10:16:43

人工智能靈云

2022-05-17 12:25:59

物聯(lián)網(wǎng)智能建筑樓宇自控

2024-12-03 09:59:00

2011-03-01 15:02:54

Qt

2020-09-21 07:00:00

語(yǔ)音識(shí)別AI人工智能

2024-06-20 11:11:07

2023-09-07 10:37:43

OCR項(xiàng)目字符串

2013-05-07 17:21:09

ELMOS芯片手勢(shì)識(shí)別

2024-07-30 11:21:17

TTSAIAgent

2024-05-31 08:12:19

2023-12-25 19:21:55

ocr人工智能

2021-04-09 20:49:44

PythonOCR圖像

2025-04-28 14:10:22

2011-05-31 16:38:47

Android 實(shí)現(xiàn)語(yǔ)音

2015-07-09 13:58:28

tesseract教程OCR教程

2016-02-17 10:39:18

語(yǔ)音識(shí)別語(yǔ)音合成語(yǔ)音交互
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)