資料介紹
描述
介紹
在這個項目中,我構(gòu)建了一個支持語音的可教學(xué)機器,它可以掃描書頁或任何文本源中的文本并將其轉(zhuǎn)換為上下文,用戶可以提出與該上下文相關(guān)的問題,機器可以僅使用上下文進行回答。我一直想制造這種易于部署的邊緣設(shè)備,并且可以輕松地針對給定的上下文進行訓(xùn)練,而無需任何互聯(lián)網(wǎng)連接。
應(yīng)用程序中使用的機器學(xué)習(xí)模型
使用了三種機器學(xué)習(xí)模型:
1. Tesseract OCR(基于 LSTM 的模型)
Tesseract 是一個 OCR 引擎,支持 unicode 并且能夠開箱即用地識別 100 多種語言。它可以被訓(xùn)練來識別其他語言。
2. DeepSpeech(TensorFlow Lite 模型)
DeepSpeech 是一個開源的 Speech-To-Text 引擎,使用由機器學(xué)習(xí)技術(shù)訓(xùn)練的模型,谷歌的 TensorFlow 使實現(xiàn)更容易。
3.伯特
BERT 是一種語言表示模型,代表 Transformers 的雙向編碼器表示。預(yù)訓(xùn)練的 BERT 模型只需一個額外的輸出層即可進行微調(diào),從而為各種任務(wù)(例如問答和語言推理)創(chuàng)建最先進的模型,而無需對特定于任務(wù)的架構(gòu)進行大量修改。
前 2 個模型在 Raspberry Pi 4 上運行,最后一個模型在英特爾神經(jīng)計算棒 2 上使用 OpenVINO 工具包運行。
安裝說明
請按照下面給出的分步說明下載并安裝應(yīng)用程序的所有先決條件。假設(shè)已經(jīng)安裝了 Raspberry PI OS(以前稱為 Raspbian),并且使用 raspi-config 實用程序啟用了 SSH、音頻、SPI、I2C 和攝像頭。
安裝適用于 Raspberry Pi OS 的 OpenVINO 工具包
$ sudo apt update
$ sudo apt install festival cmake wget python3-pip
$ mkdir -p ~/Downloads
$ cd ~/Downloads
$ wget https://download.01.org/opencv/2020/openvinotoolkit/2020.4/l_openvino_toolkit_runtime_raspbian_p_2020.4.287.tgz
$ sudo mkdir -p /opt/intel/openvino
$ sudo tar -xf l_openvino_toolkit_runtime_raspbian_p_2020.4.287.tgz --strip 1 -C /opt/intel/openvino
設(shè)置 USB 規(guī)則
$ sudo usermod -a -G users "$(whoami)"
現(xiàn)在注銷并重新登錄。
初始化 OpenVINO 環(huán)境
$ source /opt/intel/openvino/bin/setupvars.sh
為英特爾神經(jīng)計算棒 2 安裝 USB 規(guī)則
$ sh /opt/intel/openvino/install_dependencies/install_NCS_udev_rules.sh
現(xiàn)在插入英特爾神經(jīng)計算棒 2。
Festival(語音合成系統(tǒng)框架)配置
Replace the following line in the /etc/festival.scm:
(Parameter.set 'Audio_Command "aplay -q -c 1 -t raw -f s16 -r $SR $FILE")
with the line below:
(Parameter.set 'Audio_Command "aplay -Dhw:0 -q -c 1 -t raw -f s16 -r $SR $FILE")
為 Respeaker 2-mics PI HAT 安裝驅(qū)動程序
$ cd ~
$ git clone https://github.com/HinTak/seeed-voicecard
$ cd seeed-voicecard
$ sudo ./install.sh
$ sudo reboot
下載應(yīng)用程序存儲庫
$ cd ~
$ git clone https://github.com/metanav/TeachableMachine
下載 BERT 模型 OpenVINO 中間表示文件
$ cd ~/TeachableMachine
$ mkdir models
$ cd models
$ wget https://download.01.org/opencv/2020/openvinotoolkit/2020.4/open_model_zoo/models_bin/3/bert-small-uncased-whole-word-masking-squad-0001/FP16/bert-small-uncased-whole-word-masking-squad-0001.bin
$ wget https://download.01.org/opencv/2020/openvinotoolkit/2020.4/open_model_zoo/models_bin/3/bert-small-uncased-whole-word-masking-squad-0001/FP16/bert-small-uncased-whole-word-masking-squad-0001.xml
下載 DeepSpeech 模型文件
$ cd ~/TeachableMachine/models
$ wget https://github.com/mozilla/DeepSpeech/releases/download/v0.8.2/deepspeech-0.8.2-models.tflite
$ wget https://github.com/mozilla/DeepSpeech/releases/download/v0.8.2/deepspeech-0.8.2-models.scorer
運行應(yīng)用程序
$ cd ~/TeachableMachine
$ pip3 install -r requirements.txt
$ python3 main.py
它是如何工作的?
Raspberry Pi 4 連接到 ReSpeaker 2-mics PI HAT,用于使用板載麥克風(fēng)接收語音。Raspberry Pi 攝像頭模塊使用 CSI2 連接器連接到 Raspberry Pi 4,該連接器用于掃描書中的文本。ReSpeaker 2-mics PI HAT 上有一個按鈕,用于觸發(fā)掃描過程的開始。按下按鈕后,用戶必須在 5 秒內(nèi)立即向相機顯示文本(書頁或帶有一些有意義的英文文本的論文,例如故事段落或維基百科條目)。使用 Tesseract OCR 應(yīng)用程序捕獲書頁圖像并將其轉(zhuǎn)換為文本。捕獲的文本用作 BERT 模型的上下文,用于回答問題。機器要求用戶提問。用戶提出問題并使用 DeepSpeech 應(yīng)用程序?qū)栴}語音轉(zhuǎn)換為文本。轉(zhuǎn)換后的問題文本被輸入到在英特爾神經(jīng)計算棒 2 上運行的 BERT 模型中,該模型通過置信度分數(shù)推斷出答案。使用 Festival 應(yīng)用程序?qū)⒆罴汛鸢肝谋巨D(zhuǎn)換為語音,該應(yīng)用程序在連接到 Raspberry Pi 4 音頻輸出(3.5 毫米插孔)的揚聲器上播放。請參閱連接圖的原理圖部分并查看下面的流程圖以更好地了解應(yīng)用流程。使用 Festival 應(yīng)用程序?qū)⒆罴汛鸢肝谋巨D(zhuǎn)換為語音,該應(yīng)用程序在連接到 Raspberry Pi 4 音頻輸出(3.5 毫米插孔)的揚聲器上播放。請參閱連接圖的原理圖部分并查看下面的流程圖以更好地了解應(yīng)用流程。使用 Festival 應(yīng)用程序?qū)⒆罴汛鸢肝谋巨D(zhuǎn)換為語音,該應(yīng)用程序在連接到 Raspberry Pi 4 音頻輸出(3.5 毫米插孔)的揚聲器上播放。請參閱連接圖的原理圖部分并查看下面的流程圖以更好地了解應(yīng)用流程。
流程圖
。
?
- 語音機器人的構(gòu)建
- 使用可教機器人工智能來控制任何東西
- PCB構(gòu)建的SIATSA教學(xué)法
- 特斯拉車輛操作技術(shù)教學(xué) 0次下載
- 語音芯片WT588E02A-8S產(chǎn)品說明書 13次下載
- 三菱PLC教學(xué)實例PPT課件下載 190次下載
- 移動機器人的導(dǎo)航定位和地圖構(gòu)建技術(shù)綜述 22次下載
- 如何才能實現(xiàn)移動機器人的導(dǎo)航定位和地圖構(gòu)建技術(shù) 22次下載
- Arduino教學(xué)機器人的使用教程免費下載 37次下載
- 基于云計算的多媒體教學(xué)平臺 3次下載
- 開放型交互式網(wǎng)絡(luò)教學(xué)平臺的構(gòu)建劉志學(xué) 0次下載
- 基于任務(wù)驅(qū)動模式的網(wǎng)絡(luò)教學(xué)平臺的研究
- 基于Linux的教學(xué)資源服務(wù)器構(gòu)建 29次下載
- 醫(yī)用服務(wù)機器人語音網(wǎng)絡(luò)傳輸設(shè)計與實現(xiàn)
- 語音識別在EWB電路基礎(chǔ)實驗教學(xué)中的應(yīng)用
- 使用Simulink和Simscape構(gòu)建人形機器人頭部的數(shù)字孿生 905次閱讀
- 下一代語音輔助解決方案 747次閱讀
- 使用NVIDIA Riva構(gòu)建語音支持的人工智能虛擬助手 1276次閱讀
- 采用四塊8腳IC構(gòu)建的回聲室電路 1818次閱讀
- 如何使用DonkeyCar平臺構(gòu)建一個自主機器人 2114次閱讀
- 詳談機器學(xué)習(xí)的智能語音處理技術(shù) 5948次閱讀
- 語音識別芯片的原理_語音識別芯片有哪些 5171次閱讀
- 語音識別技術(shù)在智能語音機器人中的應(yīng)用 5357次閱讀
- 如何使用TensorFlow.js構(gòu)建這一系統(tǒng) 3465次閱讀
- 從數(shù)據(jù)、算力、算法、教學(xué)總結(jié)機器學(xué)習(xí)的民主化 3448次閱讀
- 高效構(gòu)建基于機器學(xué)習(xí)的產(chǎn)品的經(jīng)驗 2174次閱讀
- 語音識別技術(shù)的發(fā)展及難點分析 2.3w次閱讀
- 基于FPGA的教學(xué)機器人的平臺的設(shè)計 1929次閱讀
- 語音識別技術(shù)原理全面解析 1.2w次閱讀
- 語音識別技術(shù)的應(yīng)用及發(fā)展 2318次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開發(fā)指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應(yīng)用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關(guān)電源設(shè)計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅(qū)動電路設(shè)計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多