“這是百度大腦歷史上最具跨越性的升級(jí)。”
近日的百度開(kāi)發(fā)者大會(huì)上,百度首席技術(shù)官王海峰正式發(fā)布百度大腦5.0,并在下午的百度大腦分論壇,公布了其在AI算法、計(jì)算架構(gòu)和應(yīng)用場(chǎng)景各方面的新進(jìn)展。
提出流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA
升級(jí)后的百度大腦5.0更加強(qiáng)調(diào)AI技術(shù)的標(biāo)準(zhǔn)化、自動(dòng)化和模塊化。
百度語(yǔ)音技術(shù)部高級(jí)總監(jiān)高亮介紹,識(shí)別方面,百度提出流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,這是國(guó)際上首次實(shí)現(xiàn)局部注意力建模超越整句的注意力模型,也是國(guó)際上首次實(shí)現(xiàn)在線語(yǔ)音大規(guī)模使用注意力模型。
SMLTA在大幅提升識(shí)別速度的同時(shí),也提高了識(shí)別準(zhǔn)確率。在輸入法有效產(chǎn)品相對(duì)準(zhǔn)確率提升15%,音箱有效產(chǎn)品相對(duì)準(zhǔn)確率提升20%。
合成方面,針對(duì)現(xiàn)階段面臨風(fēng)格遷移、音色模擬和情感擬人的三大挑戰(zhàn),百度推出語(yǔ)音合成技術(shù)Meitron,可以將語(yǔ)音中的音色、風(fēng)格、情感等要素映射到不同的子空間,在使用時(shí),不同要素可以任意組合,靈活的控制合成語(yǔ)音的風(fēng)格。同時(shí)降低語(yǔ)言合成門(mén)檻,僅需20句話(huà)就可以制作一個(gè)人的專(zhuān)屬聲音。
發(fā)布針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互打造的芯片——百度鴻鵠芯片
對(duì)于落地應(yīng)用正在端側(cè)呈現(xiàn)出巨大需求,百度大腦語(yǔ)音團(tuán)隊(duì)研發(fā)出一款針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互打造的芯片——百度鴻鵠芯片。
鴻鵠芯片的設(shè)計(jì)遵循“軟件定義芯片”的全新設(shè)計(jì)思路。該芯片采用雙核HiFi4架構(gòu),2.8M大內(nèi)存,臺(tái)積電40nm工藝,在此硬件規(guī)格上,100mw左右平均工作功耗,即可支持遠(yuǎn)場(chǎng)語(yǔ)音交互核心的陣列信號(hào)處理和語(yǔ)音喚醒能力。同時(shí),按照車(chē)規(guī)級(jí)標(biāo)準(zhǔn)打造使鴻鵠芯片可滿(mǎn)足極嚴(yán)格的需求,將為車(chē)載語(yǔ)音交互,以及智能家居等場(chǎng)景帶來(lái)更大想象力。鴻鵠芯片流片的同時(shí),即實(shí)現(xiàn)了量產(chǎn)。
交互升級(jí)包含一體化人機(jī)交互系統(tǒng)和大場(chǎng)景物理世界交互系統(tǒng)。簡(jiǎn)單而言,一體化人機(jī)交互系統(tǒng)是人與機(jī)器、虛擬環(huán)境的自然交互與融合,該系統(tǒng)適用于實(shí)現(xiàn)AR特效的直播、小視頻、特效小程序等場(chǎng)景,已應(yīng)用于百度多款視頻App。
大場(chǎng)景物理世界交互系統(tǒng)是將視覺(jué)定位與AR技術(shù)突破性結(jié)合,實(shí)現(xiàn)大范圍的虛擬信息與物理世界的精準(zhǔn)疊加,從而建立起AI時(shí)代全新的交互系統(tǒng)。目前,軟硬件結(jié)合可以滿(mǎn)足應(yīng)用場(chǎng)景更高效的視覺(jué)計(jì)算,以及更低延時(shí)的體驗(yàn),同時(shí)能保護(hù)數(shù)據(jù)隱私。百度視覺(jué)方面的軟硬件結(jié)合主要聚焦于模型壓縮平臺(tái)PaddleSlim、多模態(tài)FaceID開(kāi)發(fā)組件以及軟硬件一體解決方案AI相機(jī)三部分。FaceID覆蓋設(shè)備量已超1200萬(wàn)臺(tái)。
視覺(jué)語(yǔ)義化平臺(tái)更新至2.0
視覺(jué)語(yǔ)義化平臺(tái)2.0更新了許多先進(jìn)的感知技術(shù),也讓機(jī)器人技術(shù)實(shí)現(xiàn)新突破。
百度三維視覺(jué)首席科學(xué)家楊睿剛介紹,機(jī)器人就是一個(gè)智能體,除了感知技術(shù),智能體需要決策和動(dòng)作相關(guān)的技術(shù),實(shí)現(xiàn)從環(huán)境感知到主動(dòng)感知。目前,百度研究的智能體技術(shù)主要集中在自動(dòng)駕駛Apollo、工程機(jī)械和服務(wù)機(jī)器人三大方面。
上午主論壇中王海峰現(xiàn)場(chǎng)與一只機(jī)械臂“茶博士”進(jìn)行了互動(dòng)對(duì)話(huà),還完成了傳統(tǒng)的長(zhǎng)嘴壺倒茶工作,其背后依靠的正是服務(wù)機(jī)器人方案。
基于百度3D視覺(jué),機(jī)器人可以對(duì)茶杯的位置進(jìn)行檢測(cè)和追蹤。通過(guò)機(jī)器人運(yùn)動(dòng)規(guī)劃和控制,機(jī)械臂可以對(duì)工作空間進(jìn)行碰撞檢測(cè),避開(kāi)障礙物;實(shí)時(shí)規(guī)劃運(yùn)動(dòng)后,可自動(dòng)生成倒茶軌跡;隨后,感知水流變化,,王海峰在演示過(guò)程中故意改變了茶杯位置,茶博士也準(zhǔn)確識(shí)別出了相關(guān)位置并成功續(xù)茶。
迎接5G時(shí)代,發(fā)布新一代AI計(jì)算架構(gòu)
百度大腦5.0不僅包含算法層面創(chuàng)新,在算力方面也實(shí)現(xiàn)重大突破。近年來(lái),算法對(duì)算力需求增長(zhǎng)近300,000倍,而芯片的計(jì)算性能僅提升30倍,兩者之間存在巨大鴻溝。
百度副總裁侯震宇為現(xiàn)場(chǎng)觀眾分享了百度新一代AI計(jì)算架構(gòu)。面對(duì)AI計(jì)算的挑戰(zhàn),需要能夠從端到端來(lái)提供AI計(jì)算能力,這要求計(jì)算系統(tǒng)從舊有的對(duì)海量數(shù)據(jù)處理能力、對(duì)IO高峰值的追求,轉(zhuǎn)變?yōu)闈M(mǎn)足AI訓(xùn)練功能方面IO密集、計(jì)算密集、通信密集的需求,和AI推理功能方面大吞吐和低延遲的需求。
侯震宇認(rèn)為,面對(duì)即將到來(lái)的AI+5G時(shí)代,計(jì)算將無(wú)處不在。真正的計(jì)算會(huì)發(fā)生在設(shè)備(Device)、邊緣(Edge)和云(Cloud)中,因而D-E-C場(chǎng)景將會(huì)是接下來(lái)需要重點(diǎn)研究的問(wèn)題;與此同時(shí),包括芯片之間、系統(tǒng)之間、設(shè)備之間的互相連接,將幫助不同場(chǎng)景中的計(jì)算連接在一起,產(chǎn)生更大的計(jì)算力。
-
芯片
+關(guān)注
關(guān)注
453文章
50406瀏覽量
421830 -
百度
+關(guān)注
關(guān)注
9文章
2255瀏覽量
90255 -
人工智能
+關(guān)注
關(guān)注
1791文章
46859瀏覽量
237577 -
智能語(yǔ)音
+關(guān)注
關(guān)注
10文章
781瀏覽量
48709
原文標(biāo)題:百度大腦5.0實(shí)現(xiàn)史上最大升級(jí),發(fā)布遠(yuǎn)場(chǎng)語(yǔ)音交互芯片“鴻鵠”
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論