前言
隨著AI技術的爆發和發展,智能語音技術已逐漸成為人們生活中最普遍的AI交互技術之一。
事實上,語言作為維系人與人之間情感和交際的重要紐帶,一直以不同的承載形式為人們所用。例如在搜狗以語言為核心的AI技術布局中,從中文、多方言和外國語種的語音識別轉寫、AI同傳翻譯,再到個性化的語音合成和變聲……在人們生活中語言應用的方方面面,都不乏搜狗的身影。
如今,搜狗作為國產AI+語音領域顛覆傳統語音行業領先者之一,其AI語音技術具有高識別率、高準確率、低時延和多模態融合等優勢,已廣泛應用到教育、商務、旅游等多個應用場景,并已深入你我身邊的千家萬戶中。
其中,搜狗語音識別準確率最高可達98%,語音日均請求量已達十億級,尤其在錄音筆行業,其搜狗輸入法通過AI賦能,也已為市場超90%的錄音筆提供接入服務。
金準產業研究專家發現,在搜狗AI技術體系一次次引領行業創新,顛覆傳統行業生態的背后,是搜狗AI算法平臺和深度學習平臺Eva搭建起的“骨架”。而AI平臺和深度學習框架的背后,強大的算力平臺也助力其構筑起了語音領域的強大的競爭力和領先性。
一、國內AI語音行業先鋒,語音處理日請求量超十幾億次
2020年開年以來,新型冠狀肺炎病毒疫情一直影響著國內市場的復工和發展,但陳偉帶領的搜狗AI交互技術團隊在科研領域的技術應用和研究,并沒有受到影響而減緩。
搜狗在AI領域始終堅持的就是以語言為核心。搜狗AI交互事業部團隊,核心解決的問題則是圍繞自然交互領域,讓人機交互更加自然,尤其是多模態的交互。
實際上,搜狗以語言為核心的AI技術主要布局自然交互和知識計算兩大賽道。
搜狗AI主要通過語音和圖像的感知、對話、翻譯等來實現人與計算機之間的交互;另一方面,知識計算則更多地圍繞基于海量的網絡數據或已有數據,通過搜索和自然語言處理(NLP),從中抽取出真正的知識以解決問題。
從2012年起,隨著搜狗開始投入智能語音技術的研發,其AI團隊規模已發展至將近1000人。
而在搜狗AI體系構建的背后,有一個名為Eva的搜狗深度學習平臺則發揮了關鍵作用。
在深度神經網絡建立之前,搜狗的每一項技術如語音合成和語音識別,是兩個獨立的方向。但在Eva構建之后,從底層的模型架構到算法設計等方面都形成了一個端到端的有機整體。
通俗地說,就是它能夠將語音、圖像、NLP等技術集成在一起,為研發人員統一提供深度學習模型的訓練。
由于最初的模型和算法并不復雜,搜狗一開始的深度神經網絡仍然依靠CPU來運行。但隨著數據的增長和算法復雜度的提升,模型訓練的數據規模十分龐大,CPU早已無法滿足深度神經網絡的訓練需求。
例如,在語音模型訓練過程中,動輒需要十幾萬小時的數據。就算用數十塊英偉達GPU來進行訓練,也需要數月的時間才能完成。
因此,隨著深度神經網絡并行計算需求的增加,以及模型愈發復雜,搜狗從2013年后開始逐漸探索用GPU來對模型進行訓練,以持續迭代線上的AI服務性能。據了解,基于英偉達強大的GPU算力支持,目前搜狗語音的日均請求量已達十億以上。
二、英偉達GPU+超大規模推理平臺,助力搜狗AI語音兩大創新方向
而在搜狗強大AI交互技術過程中,英偉達T4和Tensor RT為搜狗實現算力突破,創新行業提供了強勁的技術支持。
在陳偉看來,英偉達GPU在訓練和推理兩個方向都提供了強大的算力支持。
一是面向線下的模型訓練,需要GPU具有充分強大的算力和足夠的顯存,以驅動模型基于大數據的訓練,如目前使用的Tesla V100和P40;二是面向線上的推理和部署,這對GPU顯存和算力的需求相對較小,適合對大規模海量計算機進行部署,如Tesla P4和T4。
其中,T4 GPU專為優化和提升AI性能而打造,配備了英偉達Turning Tensor核心,能夠在實現高效算力的同時,進一步支持服務器實現AI訓練和推理的橫向擴展。
T4 GPU具有三大性能優勢。一是其能夠優化可擴展服務器,能效高出CPU的50倍以上,大大降低運營成本;二是它具有多精度計算特性,可實現FP32、FP16到INT8以及INT4精度的突破性AI性能,其訓練性能達到CPU的9.3倍,推理性能超36倍;三是它能夠加速深度學習和機器學習的訓練、推理、視頻解碼和虛擬桌面,并支持所有AI框架和網絡模型,進一步提高大規模部署的效用。
此外,搜狗在使用GPU推理的過程中,還利用了英偉達超大規模推理平臺Tensor RT,以加速深度神經網絡的推理。
據金準產業研究團隊了解,Tensor RT超大規模推理平臺是英偉達專為全球開發者和數據科學家們開發,其配備了英偉達T4 GPU,能夠加速圖像、語音、翻譯和推薦系統等廣泛領域的神經網絡。同時,它還支持加速業內各大主流的深度學習框架,例如TensorFlow、PyTorch、MXNet、Chainer和Caffe2。
好的算法和龐大的數據,一定需要好的運算平臺。英偉達的GPU和AI推理平臺為搜狗AI技術體系的構建,提供了批量運算或并行運算的能力,并逐漸形成良好的開發生態。
三、T4加持,語音識別準確率高達98%
如今,搜狗在自然交互和知識計算兩個AI戰略方向上,布局了語音、計算機視覺、對話、翻譯、問答多個領域,并在搜狗分身、搜狗同傳、搜狗變聲等多個差異化賽道持續領跑,對算力需求進一步提升。
隨著搜狗語音識別、多模態識別(語音+唇語)、OCR、機器翻譯、語音合成、圖像生成等應用場景和需求的擴展,它們對算力資源的需求是根據不同任務而定的。搜狗的多模態識別服務,是將語音和唇語的兩個模態融合后再進行識別,而這一多模態感知的方式也使得模型對運算的要求更加復雜。
金準產業研究團隊認為,AI語音領域對運算的需求只會越來越大。盡管近幾年語音識別顛覆性的創新和突破越來越少,但現有技術還在持續迭代中,模型本身的學習能力也將不斷加強。
與此同時,隨著5G、IoT技術的推動,大數據也在急劇爆發和增長,這對于AI公司來說無疑意味著更復雜的模型和更龐大的訓練數據,從而對GPU的算力提出了更高要求。
在搜狗的語音轉寫應用中,語音識別準確率是影響用戶體驗和應用的重要因素之一。
金準產業研究團隊了解到,目前搜狗語音輸入法在業內具有領先的中英自由說能力、遠場語音識別解決方案,以及業界首創的語音修改能力。例如,搜狗語音輸入法能識別日韓英法等10余種外語和粵川等10種方言,支持語音增強和個性化交互,同時其語音識別準確率最高為98%,日均語音輸入調用次數突破十億次。
實際上,搜狗語音識別準確率的提升,主要依靠算力、深度學習技術和語料數據訓練。在算力方面,搜狗從2017年起開始采用英偉達Tesla P4來加速和優化語音識別模型。
早在2017年,搜狗通過P4的并行計算推理速度,將語音識別請求效率提升50%。在之后的兩年時間里,隨著Cuda升級至9.1以及算力的持續優化,搜狗的語音識別請求效率不斷提升。2019年11月,搜狗將P4升級至T4后效率再度實現突破,提升20%。
伴隨著引進T4 GPU,其語音識別峰值日均調用量也從2017年的3.2億次,迅速增長到了2019年第三季度的8.3億次,有效實現了對海量識別請求的處理,進一步強化了自身語音識別技術的潛力,為行業創新和變革提供了新的發展方向。
四、T4優化WaveRNN聲碼器,推動源技術從學界落地產業
除了語音識別之外,語音合成亦是檢驗語音技術公司實力的標準之一。
搜狗語音合成支持男女多風格和中英俄多語種共數十種音色,同時系統只需用戶上傳5分鐘的音頻,即可生成該說話人的音色,甚至能實現說話人的風格遷移。
技術方面,搜狗的語音合成技術基于WaveNet和WaveRNN聲碼器研發,但由于WaveNet運算復雜度較高,因此它最初很難實現搜狗線上實時生成語音的服務。
為了優化WaveRNN聲碼器,搜狗一方面在WaveRNN源技術論文的基礎上進行了大量的研究工作,并為了實用化修改大量代碼結構;另一方面則基于T4對WaveRNN進行優化,并定制開發實現的gemm算子,進一步降低了語音合成的實時解碼率。
搜狗通過T4的優化性能,也進一步打破學界與產業之間的遷移壁壘,真正實現國內語音行業首創,讓WaveRNN聲碼器技術更好地服務AI語音行業的創新和發展。
不僅如此,隨著搜狗AI交互技術開始涉及更多圖像相關的應用,如虛擬人、OCR、手寫識別、唇語識別、圖像以及視頻生成等,其深度學習平臺對高可用、并行訓練服務能力的需求亦進一步提升。
例如,在搜狗AI平臺對外開放的過程中,會有大量的用戶涌入,基于平臺進行訓練并定制自己的模型,而在這一過程中,搜狗AI平臺需要在任務之間做好排隊調度,并充分考慮GPU的負載均衡等問題。
因此從平臺層面看,搜狗的服務會通過AI開放平臺借助深度學習的能力,去幫助更多的用戶實現定制化AI的可能性。
值得一提的是,隨著英偉達Tensor RT7的推出,目前搜狗也開始在部分任務上嘗試使用該平臺。金準產業研究團隊預測,未來,隨著搜狗AI技術和業務的迭代和創新,也會將Tensor RT7逐步引入到更多任務中。
五、高算力GPU助推語音交互和AI計算平臺未來發展
如今,搜狗在AI語音聽寫方面,已與愛國者、紐曼、索尼、萬城四家錄音筆行業頭部企業成立AI創新聯盟,聯合搜狗輸入法為市場超90%的錄音筆提供接入服務。
除此之外,搜狗通過語音+唇語的多模態識別技術研發唇語識別系統,嘈雜環境下識別準確率提升40%以上,同時搜狗還通過搜狗翻譯、合成和識別等技術,在跨語言交流、機器同傳等多個應用領域拿下行業領先的成績。
未來,隨著AI交互技術應用范圍的不斷擴展,搜狗也將針對搜狗AI開放平臺、多模態技術融合等方面進行升級。
搜狗將借助AI開放平臺加速推動AI核心能力對外開放;語音識別和語音合成兩方面,包括個性化語音合成、語音變聲、多模態交互、手寫識別、多模態同傳等技術也將帶來更多的體驗創新和升級。
從內部看,搜狗也將真正打通各個研究團隊在GPU資源上的共享能力,并基于平臺為公司提供一個相對通用的、統一的一套深度學習的并行訓練能力。
而這些由內而外的技術升級,也將對GPU性能產生更大的需求。
不僅僅是對GPU算力需求的增強,同時也需要GPU能夠為我們提供更豐富的配套服務。英偉達已逐漸打造了一個良好的AI生態,而搜狗作為生態的一份子,同樣也希望它能夠在生態上進一步支持搜狗的自身業務,繼續助力搜狗AI技術的創新發展。
結語:AI交互技術應用全面爆發,GPU助力催化行業創新
語言的多模態應用,不知不覺間已成為人們生活中習以為常的技術,一句簡單的語音識別轉寫、一次跨語種的同傳翻譯……這些都是AI交互技術應用在全面爆發的過程中,為人們生活帶來的便利。
而在這些便利技術背后所催生的巨大算力需求,也為包括搜狗在內的許多企業提出了新的技術挑戰。而搜狗通過借助強大的GPU計算平臺,不僅突破了龐大AI計算負載給AI語音帶來的算力瓶頸,亦為搜狗在AI語音領域的創新發展提供了重要的算力支持。
面對海量的數據分析請教,以及比以往更復雜的模型訓練。在這一背景下,AI技術公司如何開拓并尋找更優質的技術支撐,對自身的基礎設施進行更好的優化和提升,亦是每一家公司在AI落地和應用過程中需要考量的。
責任編輯:gt
-
gpu
+關注
關注
28文章
4702瀏覽量
128712 -
AI
+關注
關注
87文章
30201瀏覽量
268448 -
英偉達
+關注
關注
22文章
3749瀏覽量
90845
發布評論請先 登錄
相關推薦
評論