精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何用TensorFlow設計一套系統,讓亞馬遜的語音助理Echo能“看懂”手語的

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-13 09:01 ? 次閱讀

編者按:“如果語音是計算的未來,那么對于不能說話或有聽力障礙的人該怎么辦?”本文作者Abhishek Singh就描述了它是如何用TensorFlow設計一套系統,讓亞馬遜的語音助理Echo能“看懂”手語的。

幾個月前,當我躺在床上時,一個想法突然閃過:“如果語音是計算的未來,那么對于不能說話或有聽力障礙的人該怎么辦?”不知道為什么會產生這種想法,我本身說話和聽力都沒有問題,身邊也沒有這樣的殘疾人士,而且我也沒有語音助手。也許是最近關于語音助手的文章太多了,或者是各大公司之間關于語音助手的競爭太多,亦或者總是在朋友的家里看到語音助手的身影。有了想法之后,我就立刻行動起來。

最終我完成了這個項目,讓亞馬遜的語音助手Echo能夠對美國手語(ASL)做出更準確的反應(手語也分很多種,這里用的是美國手語)。下面的視頻能更好地幫助大家看看這個項目的效果,并且我希望這一方法能讓大家將關注重點從技術要素上轉移到人類要素上,也就是說要更看重技術能否像人一樣為我們提供服務。

本文將展示系統背后的原理,另外這里有一個Demo可以自己玩一下:shekit.github.io/alexa-sign-language-translator/

早期研究

在我剛有想法的時候,我就對這一項目所需要的元素有了大致掌握:

一個能讀懂手語的神經網絡(即將視頻中的手勢轉換成文字)

一個文本轉語音系統,可以將轉換過后的動作讀給語音助手Alexa聽(注:Alexa是Echo音箱的語音服務,二者是硬件和系統的關系)

一個語音轉文字系統,將Alexa的回復展示給用戶

一個可以運行該系統的設備(電腦或平板),以及一個可以互動的Echo音箱

一個交互界面

一開始,我花了大量時間嘗試各種神經網絡架構,想找出最合適的一個。以下是幾個備選項:

由于手語有視覺和時間兩方面要考慮,所以我最初想結合一個CNN和RNN,其中最后一個卷積層的輸出可以輸入到RNN中作為序列。之后我發現長期循環卷積網絡可以做到這一點。

利用一個3D卷積網絡,其中的卷積可以用到三個維度中,前兩個維度用于圖像分辨,第三個維度處理時間。然而這些網絡需要大量內存,我是想在我用了7年的MacBook Pro上訓練的。

與傳統的視頻流在CNN上一幀一幀地訓練不同,我只在光流表示上進行訓練,這樣會在兩個連續幀之間顯示出明顯的動作變化。我設想的是,可以在其中對動作進行編碼,從而創造一款通用的手語模型。

利用雙流CNN,其中空間流是單幀(RGB),時間流則用光流表示。

在之后的研究中,我發現了好幾篇用到上述方法做視頻動作識別的論文。但是我發現不僅是計算力限制了我的操作,而且我自己的能力的確無法從零開始實現這些方法。所以無奈之下只好放棄。

最終我使用的方法完全不同。

進入TensorFlow.js的世界

TensorFlow.js團隊既推出了針對機器學習專業的人的程序,也對那些不熟悉機器學習的人提供了開源庫,可以自己用JavaScript定義、訓練并運行機器學習模型。作為入門可以試試這兩個有趣的Demo:

Pacman Webcam Controller:storage.googleapis.com/tfjs-examples/webcam-transfer-learning/dist/index.html

Teachable Machine:teachablemachine.withgoogle.com/

雖然它們都將攝像頭捕捉到的圖像作為輸入,并根據訓練數據輸出一個預測,但是二者內部是截然不同的。

Pacman Webcam:它所運用的卷積神經網絡將輸入其中的圖片通過一系列卷積傳遞到最大池化層。這一過程可以提取圖像的主要特征,并且根據訓練樣本預測它的標簽。由于訓練過程成本較高,它是用的一個名為MobileNet的預訓練模型進行的遷移學習。該模型在1000個ImageNet類別中進行的訓練,之后進行了優化。

Teachable Machine:它所用到的是kNN(k-Nearest-Neighbours),這種方法非常簡單,基本不需要任何學習。捕捉到網絡攝像頭的圖像后,它會對其打上標簽進行分類(用訓練樣本中相似的函數或距離矩陣)。但是在輸入到kNN之前,圖像會首先通過一個名為SqueezeNet的小型神經網絡。將網絡倒數第二層的輸出輸入到kNN中,然后訓練自己的類別。這樣做的好處是,不直接將原始像素值輸入到kNN中,而是用SqueezeNet所學的高層次表示來訓練分類器。

現在你可能會想,那手語表示所用的時間怎么辦?這些系統都是一幀一幀地輸入圖像,同時在下一幀之前作出預測。查看RNN的時機是否過早了?有必要真正了解手勢嗎?在我為了這個項目學習手語時,我發現當你想要用手語表示的時候,不同話語之間,開始和結束的手勢以及手的位置都是不同的。跟人交流的時候可能需要看完整個動作才知道說的是什么,但是機器只需要看懂開頭和結尾即可。所以我決定只讓機器辨認最后的動作。

決定使用TensorFlow.js也有其他幾個好處:

不用寫代碼我就能用這些demo做出原型。剛開始時,我只是在瀏覽器上簡單運行原始案例,讓后用手勢訓練它們,看看系統的表現。

我能直接用TensorFlow.js在瀏覽器上運行,雖然這個很大,但是不用向服務器發送數據即可直接運行模型。

由于可以在瀏覽器上運行,我可以用語音轉文字和文字轉語音API進行交互。

測試、訓練、調整的速度都很快。

由于沒有手語數據集,所以我要重復地做很多動作用來訓練,電腦攝像頭能很方便地采集數據。

測試了上述兩種方法后(Pacman和Teachable Machine),我發現二者都能勝任。但是我最終決定用Teachable Machine,因為:

在小數據集上,kNN比CNN表現得更好更快。如果訓練樣本很多的話,kNN可能會變慢,性能也會下降。但是我的數據集很小。

由于kNN并不需要學習,所以它們泛化的能力很弱。所以模型做出的預測并不能很好地進行遷移。不過這對我來說也不是什么障礙,因為模型的訓練和測試都是用我自己的手語動作。

TensorFlow.js團隊開源了一個簡單的模型——boilerplate,對我很有幫助。(github.com/googlecreativelab/teachable-machine-boilerplate)

運行情況

從宏觀角度,系統從頭到尾的運行原理如下:

將系統安裝到瀏覽器后,第一步是提供訓練樣本。也就是要用攝像頭捕捉你的每個手語動作。

訓練完成工,就進入預測模式。將輸入圖像經過分類器,找到與它最相近的訓練模型并打標簽。

如果通過了預測,屏幕左側就會顯示標簽。

之后用Web Speech API進行語音合成,說出檢測出的標簽。

說出“Alexa”喚醒Echo。注意,這里我創建了一個隨機動作來表示“Alexa”這個單詞。

完成整個手語動作后,我用Web Speech API將Echo的回復進行轉換。轉換后的文字出現在屏幕右側讓用戶閱讀。

重新喚醒Alexa,清除屏幕進行再次對話。

雖然系統運行的不錯,它還需要一些改進,例如:

必須等到Alexa被喚醒后才開始檢測手語動作。

加入更多的訓練樣本。

將閾值提高,防止出現預測錯誤。

減少預測率,避免在最大幀率時出現預測,控制每秒預測的量有助于減少錯誤。

保證每個單詞都被檢測到。

由于手語通常忽略冠詞,而是依賴語境。所以我訓練了包括特殊單詞的模型,其中加入了特殊的冠詞或介詞,例如天氣等等。

另一個挑戰就是在用戶完成手語后要精確地做出預測,這就需要精確的文字語音轉換。如果轉換得太快,系統就會開始轉換自己的語音,太慢的話就會錯過Echo的回復。為了解決這個問題,我用了兩種獨立的技術,每種都有自己的優缺點:

首先就是在訓練時將特定的詞語作為結束單詞。例如如果用戶說:“Alexa, what’s the weather?”我們將”the weather”作為結束詞,如果系統檢測到它,就會觸發正確的轉換過程。這個方法不錯,但是這也需要用戶記住訓練時候那個結束詞是什么。

第二種方法是讓用戶特地做出一個結束詞的動作,讓系統知道他說完了。所以整個對話過程中,用戶要先喚醒,再說自己的問題,最后做結束動作。這種方法的缺點是,用戶可能會忘了做結束動作。

我認為還有很多種方法可以實現這個項目,如果你想試試不妨參考以下建議:

TensorFlow.js還發布了PoseNet,這也是個有趣的工具。從機器的角度來看,追蹤手腕、手肘、肩膀的位置,比預測話語更有效。

利用基于CNN的方法可能會提高準確度,并且模型會更穩定。

CNN+RNN或PoseNet+RNN的結合有可能會讓精確度提高一大截哦。

利用新的kNN分類器。

降低網絡的復雜性,利用簡單架構創造模型,一定會讓該項目得到快速應用。我的目標并不僅僅是解決手語到文字的難題,而是用一種全面的設計進行對話,讓機器學習落到實處,從而激勵人們在這個領域進行更多思考。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 亞馬遜
    +關注

    關注

    8

    文章

    2625

    瀏覽量

    83192
  • tensorflow
    +關注

    關注

    13

    文章

    328

    瀏覽量

    60499
  • 語音助理
    +關注

    關注

    0

    文章

    27

    瀏覽量

    8673

原文標題:用TensorFlow.js搭建手語識別器,讓聾啞人也能和語音助手“對話”

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    應對亞馬遜Echo挑戰 谷歌密謀語音控制產品

    智能硬件在語音控制領域掀起了場新的競爭。亞馬遜語音控制類產品Echo款成功的產品,它不僅成
    發表于 04-05 10:26 ?1082次閱讀

    揭秘Amazon Echo語音控制的神秘面紗

    亞馬遜(Amazon) Echo可說是目前最熱銷的物聯網(IoT)裝置,無論你稱它為智慧麥克風、虛擬數位助理、家用機器人、語音控制或R2-D2,這
    發表于 11-10 10:15 ?2924次閱讀

    亞馬遜echo音箱也破案 語音識別如何更智能?

    亞馬遜Echo智能音箱作為智能家居的明星產品已經被普通消費者所熟知,Echo個重要的功能就是Alexa虛擬助手,只需透過語音命令,Alex
    發表于 12-29 10:06 ?3679次閱讀

    亞馬遜Echo占據7成美國語音市場 微軟發新品挑戰Echo

    企業合計占有5.6%的市場,這些企業包括聯想和LG等。有分析人士指出,亞馬遜和谷歌這么做并非要靠硬件賺錢,而在于收集用戶數據。 5月10日消息, 本周二,亞馬遜推出新設備Echo Show, 它是
    發表于 05-10 09:37 ?1017次閱讀

    亞馬遜Echo接入教程

    即可。Echo亞馬遜推出的智能家居的控制裝置,還是款便攜式揚聲器同時還包含了位名叫Alexa的語音
    發表于 12-15 10:48

    輕松搞定亞馬遜Echo控制智能設備

    2017年在CES上亞馬遜Alexa大放光彩,而Echo日前也已爆出貨1000多萬臺,引爆了智能硬件市場。據說,智能語音助理將成為下代計算
    發表于 02-24 16:08

    亞馬遜Echo控制智能家居的原理

    2017年在CES上亞馬遜Alexa大放光彩,而Echo日前也已爆出貨1000多萬臺,引爆了智能硬件市場。據說,智能語音助理將成為下代計算
    發表于 03-08 14:20

    機智云在Amazon Alexa平臺發布Smarthome和Custom Skill,實現亞馬遜Echo直接控制Gokit

    是時下風靡全球的款結合了Amazon人工智能助理 Alexa 的音箱,支持Wi-Fi連接,依靠語音命令進行激活,用戶以最自然的語音交互方
    發表于 03-31 11:54

    意義非凡!亞馬遜echo將加入主動認知功能

    導讀:亞馬遜最近宣布會給其Alexa服務添加通知功能,這樣這數字助理的技能可以自發的給用戶提供信息,而不是被動響應用戶的語音查詢。 目前來說,除非用戶喚醒,Alexa是不會主動說話的
    發表于 05-20 09:32

    快速打造一套可以語音控制的智能家居系統

    貓精靈/Echo控制智能家居系統而打造一套語音控制的智能照明(家居)系統,你需要準備若干WiFi燈泡、藍牙燈泡、藍牙網關、插座、其他智能電器(或傳感器)天貓精靈或
    發表于 09-05 16:43

    介紹一套支持語音交互的車載導航系統

    本文在課題組的車載導航系統和國內兩款語音引擎的基礎上,開發了一套支持語音交互的車載導航系統
    發表于 05-14 06:28

    為何要開發一套無線控文字語音指令系統

    無線控文字語音指令系統背景硬件控制指令指令說明功能效果背景因項目需求:根據不同情形,發出相應的文字語音,且需要遠程控制語音。故開發了一套
    發表于 01-07 06:38

    亞馬遜Echo的發展歷史及開發出Echo智能音響的軟硬件分析

    年銷售目標更是上了 1000 萬臺。這也其他很多智能音箱廠商羨慕不已。對于亞馬遜 Echo 來說,其核心技術則是其集成的智能語音助手 Alexa。而早在 2015 年 6 月 25
    發表于 09-25 09:13 ?13次下載

    三星2019年款電視將支持亞馬遜Alexa或Google Assistant語音助理

    據報道,三星的2019年款電視將支持亞馬遜Alexa或Google Assistant語音助理。不過,用戶需要自行提供輔助設備(無論是Echo,Google Home還是其他智能揚聲器
    發表于 01-08 11:39 ?820次閱讀

    一套成熟的MES系統賣多少錢

    對于MES系統價格來說,相信很多企業都給不出個確定的答案,畢竟現在的MES系統市場上類型較多,功能不,幾萬到幾百萬的系統比比皆是,但是要
    發表于 09-30 17:45 ?3454次閱讀