Speech AI 線上技術研討會
精彩議程搶先看
自二十世紀下半葉第一個基于計算機的語音合成系統誕生,至以隱馬爾可夫模型為代表的統計機器學習合成語音占據主流,再到近十年來基于神經網絡的語音合成快速發展,計算機語音合成技術如今已能媲美真人發聲,并走向大規模的商業化落地階段。
Gartner 技術成熟度曲線表明,語音識別和語音合成技術如今已經達到穩步爬升恢復期和生產成熟期。國內的智能語音市場也形成了比較成熟的格局,智能語音科技企業和互聯網企業成為主導。因此,要實現差異化競爭,企業也在紛紛思考如何從單一的智能語音技術提供商轉型為提供全方位的人工智能技術和應用的服務商。此外,盡管技術已經趨近成熟,門檻大大降低,開發和運行可落地的語音人工智能服務仍然是一項復雜而艱巨的任務,通常需要面臨實時性、可理解性、自然性、低資源、魯棒性等挑戰。
在智能語音市場的競爭格局中,一大空缺是算法、通用類芯片和云端 AI 芯片。借助以 GPU 為代表的通用類芯片上的技術優勢,NVIDIA 進軍了智能語音領域?;谧詣诱Z音識別( ASR )和語音合成( TTS ),NVIDIA Riva 簡化了開發語音 AI 服務的端到端流程,并為語音交互提供實時性能。此外,包括 NVIDIA TensorRT 和 Triton 推理服務器在內的諸多 NVIDIA 技術也幫助各種 Speech AI 工作負載進行大幅的降本增效。不論是 AI 呼叫中心、虛擬主力語音接口,還是視頻會議中的實時字幕等應用,NVIDIA GPU 及 NVIDIA 加速技術都在幫助用戶進一步為技術落地降低門檻,為自動駕駛、醫療等場景的智能語音應用創新賦能。
2022 年 10 月 25 日和 27 日,NVIDIA 在 DataFun 直播間,舉辦 Speech AI 線上技術研討會,由資深專家介紹 NVIDIA NeMo / RIVA 構建語音應用的工作流、GPU 加速和部署 Speech AI 任務全流程的最佳實踐,更榮幸邀請到了 WeNet 開源社區發起人為我們分享 WeNet 社區的最新技術進展。
議題介紹
★
NVIDIA NeMo 工具介紹,以及如何利用 NeMo 進行語音相關任務的訓練
NeMo 是 NVIDIA 推出的一款主打GPU 訓練的工具,可以支持常見的 Speech AI 相關的任務,例如ASR、NLP、TTS、Speaker Recognition 等。將以中文語音識別為例,介紹如何利用 NeMo 快速地完成該任務的訓練。同時也會介紹 NeMo 中目前已有的一些功能,例如 VAD、說話人日志等。
通過本次演講您將收獲以下內容:
如果利用 NeMo 訓練 ASR 模型?
NeMo 對中文語音任務的支持有哪些?
NeMo 支持其他哪些 Speech processing 的任務?
演講嘉賓
丁文 NVIDIA 解決方案架構師
畢業于上海交通大學,導師為俞凱教授。畢業后曾就職于頭部互聯網公司語音交互部門,主要負責流式 ASR 的迭代與優化、粵語 ASR 等。目前就職于 NVIDIA,負責 Riva 中文 ASR 模型迭代,中文 ASR 模型 GPU 部署方案落地與優化等。
★
使用 NVIDIA Riva 部署企業級 ASR 服務
NVIDIA Riva 提供了最先進的 GPU 優化部署解決方案,用于構建和部署完全可定制的實時語音識別服務,用于諸如呼叫中心代理協助、虛擬助理、數字化身、品牌語音和視頻會議轉錄等應用程序。
本次分享將為大家介紹 NVIDIA Riva 的主要特性,包括高精度的預訓練語音模型,高性能推理模型,以及高可擴展的推理服務。
通過本次演講您將收獲以下內容:
如何使用 NVIDIA Riva 在 GPU 上快速部署語音識別服務?
Riva 是如何針對 GPU 進行優化加速的?
怎樣進行定制化達到更好的語音識別精度?
演講嘉賓
齊家興 NVIDIA 解決方案架構師
德國亞琛工業大學博士,目前于英偉達企業解決方案部門擔任高級架構師,多年來從事自然語言處理和語音識別等方向研究,助力多家企業基于 GPU 平臺實現高效易用的訓練和推理平臺。他是英偉達 NeMo,Riva 語音識別訓練推理平臺的中文模型開發者之一。
★
利用 Triton Inference Server 和 TensorRT 加速語音 AI 在云端的運行效率
演講將主要介紹云上部署端到端 ASR 服務最佳實踐以及云上部署端到端 TTS 服務最佳實踐。
通過本次演講您還將收獲以下內容:
了解如何加速語音 AI 模型
了解如何節省語音 AI服務的部署成本
演講嘉賓
劉川 NVIDIA 資深解決方案架構師
NVIDIA 中文語音解決方案主要負責人,對基于 GPU 的語音識別和語音合成在云上的部署有豐富經驗。
★
WeNet 在 Speech AI 的應用與探索
演講將主要介紹開源極簡史、語音開源簡史、WeNet 開源社區以及基于 GPU 的語音識別實踐。
通過本次演講您將收獲以下內容:
了解 WeNet 開源社區
WeNet 社區中如何支持和使用 GPU
演講嘉賓
張彬彬 WeNet 開源社區發起人
碩士畢業于西北工業大學音頻語音與語音處理研究組。WeNet 開源社區發起人,主導了業界領先的開源端到端語音識別項目 WeNet 和大規模多領域中文語音識別開源數據集 WenetSpeech 的開發?,F任地平線語音算法專家,曾先后在微軟、出門問問等公司從事語音識別算法和產品研發。
參與方式
精彩連續,點擊“閱讀原文”或掃描下方海報二維碼,馬上注冊預約!
原文標題:「揭秘」Speech AI 技術發展與前沿應用
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3748瀏覽量
90842
原文標題:「揭秘」Speech AI 技術發展與前沿應用
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論