2018年5月9-10日,15屆論道在西安隆重舉行。50多場演講,干貨滿滿;30多個展臺,亮點多多;多場高峰對話,火花四濺。深圳市海思半導體有限公司高級產品經理姚世勇進行了主題為《智慧家庭中的AI》的演講。
兩三年前,智慧家庭還停留在概念階段,現在情況完全不同,已經變成了進行時,從全球范圍來看,歐洲的法電、德電、意電,美國的comcast、Verison,到東南亞的韓國、日本,都相繼推出智慧家庭的戰略。國內情況大家比較熟悉,運營商均成立了智慧家庭聯盟,全球范圍內,60%的領先運營商正在開展智慧家庭業務。
AI將會成為智慧家庭最核心的要素
對于智慧家庭,不同的人有不同的理解,家庭是一個非常特殊的場景,家庭里面應該做到高速網絡無處不在,智能服務無處不在。家庭里可享受以下三種服務:
一是安全的家,希望通過安防業務,構建安全的應用場景;二是舒適的家,這也是大家夢寐以求的,也是核心的應用場景;三是健康的家,圖中都是目前正在開展的業務,當然不限于這些業務。針對這些業務,最重要的就是實現智慧服務,不管是大趨勢、還是大戰略,都頻繁被提到,我們看到的情況也是如此,AI將會成為智慧家庭最核心的要素。
大家一起回顧一下AI發展的情況,在50年代初,AI概念被提出來,馬上就有相應成果,開始是國際跳棋,但算法太簡單,從此以后AI沉寂了近40年。直到1996年,IBM的“深藍”與人類對弈,機器第一次戰勝了國際象棋大師,引起轟動,但仍擺脫不了機器暴力計算的問題。2017年,谷歌的“阿爾法狗”戰勝國際象棋大師,AI重回聚光燈下。總覺得AI跟棋有不解之緣。工業自動化很早就實現了,但是大家覺得用機器做工作,只是比人快一點、更準確些。為什么棋類引起這么大轟動?因為棋類是人類引以為豪的智慧活動。
特別是“阿爾法狗”戰勝人類,其模式已經走向深度智能化,選擇性運算產生的效果已經非常的震撼,前景已經超出大家想象,有人充滿希望,有人充滿恐慌。今天,我們看到智能領域發生了很大變化,取得了很大成功。
一頭狼具有識別獵物的能力,甚至有簡單的協同,但我們現在智能顯然差距很大,有很多人開玩笑,說現在人工智能比不過一條狗,可能就是這個原因,人工智能絕大部分聚焦于專家系統,在某一個特定領域產生非常大的作用,還不能用于廣泛的人工智能。
這個視頻是憨豆去年拍的片,用的是一輛車勞斯萊斯,可以做遠場語音控制,憨豆跟別人聊天的時候,提到車名,車就自動啟動了,還沒有注意到車,車也自動跟隨在身后,隨人走走停停,無意中轉身,發現車很蹊蹺的挪了個地方。這說明一個問題,最高端的語音識別系統也無法區別語境,只能機械接受語音命令,可能會造成笑話。
AI技術兩大科技革命,驅動用戶體驗升級
以后產品會沿著兩大方向演進,一個是交互革命,一個是AI革命。早期的操控,人機界面局限于遙控器、手柄,現在智能語音技術出現了,后續很可能出現智能視頻技術,再到后面可能會出現VR、AR技術實現人機交互,這種控制會完全突破大家一直詬病的操作笨、不方便問題。另外一個是人工智能,從最早的用戶側感知,不斷的進行演進,深度學習到對客戶行為的認知,到最后實現能媲美人類的人工智能。
AI語音技術,是目前成熟度最高的領域之一,人工智能按應用可歸結為兩大類,一類是語音識別,一類是圖片分類。語音識別的成熟度最高,這個生態里面大部分的網絡巨頭在資源整合上有很大潛力。專業語音公司像科大訊飛等,包括BAT廠家也做語音識別,內容廠商的視頻內容聚集,各種音箱硬件廠商都會參與進來,最后由運營商或設備廠家做業務運營。從技術方面看,這么多技術模塊才構建了一個語音識別功能,從最上層的語音分析到中間的拾音、語音增強等,最下面是用戶,通過技術模塊疊加互動,最終實現智能音箱,或者帶STB特性的智能盒子。
作為芯片廠家,我們的著力點在端側,我們希望把云端的語音技術不斷端側化,語音能力在端側建立,最終實現一個效果:在家庭環境里面自然交互。大家有沒有想過買了一個智能音箱,用起來不像宣傳中那么順手、便利,語音識別率沒有那么高,可能就是這個原因。換言之,它是在特定環境里才可以高識別,真正客廳里面人比較多的時候,有噪音的時候,是否操作起來輕松自如,這是一個疑問。
隨著當前語音技術發展,家庭里面要達到真正的自然語音交互,應該做到分布式語音層面,不能說買一個盒子放在客廳,要做一次語音交互,一定得跑到客廳去,家里還有那么多房間,甚至很多人習慣待在房間怎么辦?比如出門前查一個天氣,想問一下交通是否擁堵,怎么辦? 分布式語音解決方案解決這個問題,借助于G.hn+WIFI分布式網絡解決方案,能夠讓整個家庭做到網絡完全覆蓋。順著高速網絡,語音也可以延伸到家庭的每一個角落,拾取主人聲音,給主人一個反饋。
AI視頻技術,借助于AI,可以用攝像頭捕捉家庭情況,或者同步進行3D建模,最后把人像從環境中提取出來,疊加到視頻或者增值內容上面去,比如在家里打太極、學國標舞,可以把整個形象動作同步到原教學視頻里面做比對,可以更精準、高效的學習。借助于圖象技術可以衍生出很多應用,我們怎樣把流量變成大家喜聞樂見的增值業務,這是一個非常大的難題。比如游戲,我們可以通過攝像頭捕捉人物輪廓,作為游戲操控的媒介,來控制游戲里面的角色。第二種是現在玩的比較火的抖音,有舞蹈指導動作,很多感興趣的年輕人可以實現他錄抖音的愛好。第三種是智能試衣鏡,通過現在的3D攝像頭,可以獲取人的三維信息,現在已有技術誤差達到厘米級,非常接近真實人體,獲取的模型跟衣服矢量圖像結合,這樣在網上將會有一個全新購衣體驗,這個衣服可以不買,可以試穿,拍一個照片做一個留念也可以。大家會發現在這幾種應用場景里面,這都是大屏獨有的應用,是手機、電腦做不到的。
視頻AI技術,也是目前在好萊塢大的影視制作公司廣泛采用的技術,在面對低分辨率的圖象時,通過智能技術提升整個畫質。現在家庭影視娛樂設備,包括機頂盒、電視,視頻依然是消費主線,是最基本的元素,脫離這個元素可能會造成用戶大量的流失,我們想在這個方面做技術的加強。現在海量的標清節目、高清節目,可不可以通過AI技術直接提升到4K,同時圖像質量有明顯的提升?這是有可能的。通過AI技術分析視頻對象,結合我們的數據庫和模型,做到真正的“無中生有”,不斷的提升原始圖象的分辨率。
大家可以看一下示例,提升前和提升后的對比,雖然提升后還不是最真實原形,但是相對真實走近了一大步。還有一種AI視頻技術做到人臉、物體的識別,人臉識別基本成熟,甚至有一些地方考慮用人臉支付,能做到這種程度,也是相當精確的技術。
我們跟大家一起探討主動安全,今天新媒體的人講到他們的責任、使命,我們作為芯片廠家,可探索利用終端側的技術去保證安全,我們通過人臉識別技術,能夠識別一些關鍵的信息,比如敏感的人臉或者文字,一旦識別,可以在終端直接打上馬賽克,我們用這個技術,可以將一些人為造成的非法行為攔截住,這是通過技術手段解決的,以前只能在前端,現在有后端技術處理這個事。
增值業務的投放點、投放方式,是整個行業摸索的,作為運營商,運營著這么大的用戶群,可以投放廣告,如果有AI技術加持,可以跟廣告商談投什么廣告,我們把產品的模型記錄下來,在所有播放的視頻畫面中進行識別,一旦出現設定的產品,就會自動識別,運營商可通過用戶可接受的方式,把廣告內容打出來,產生一個增值點。
還有千人千面,大家也比較清楚了,人臉識別技術能比較準確識別家庭成員,根據家庭成員推薦內容EPG。不一定做到按人管理,可以按分類,比如大人、小孩、老人這樣更自然。這里幾個場景采用的技術基本上比較相似,通過信號采集預處理,根據數據庫里面模型進行匹配,最終識別。
AI技術的兩大挑戰:端側智能和實用程度
人工智能并不是像我們想象的那么簡單,這可能也是大家提的比較多,但是用的比較少的原因,我們人工智能當前面臨兩大挑戰:云端化和實用性問題。單一的云端化造成了很多問題,一是太多的人工智能技術依賴于云端,大量的運算堆積在云端造成很大算力負擔,給運營商投資帶來很大影響。二是語音、視頻通過網絡,實時傳到網上云端,總感覺自己生活內容被直播,體驗非常差,不管你說怎么保證內容安全,但是心里感受還是差。三是把自家視頻傳上云端,最后在云端處理完,結果返回來,周期長延時大,不是很自然。
現在端側提供智能能力是重點,行業也正在努力,今天是谷歌I/O大會的第一天。他們正式推出AI框架,在Android系統里面已經集成了,facebook也推出了端側架構,包括蘋果也會提出端側人工智能方案。后續端側智能方案會是一個大方向。
另外一個實用性問題,人工智能現在發展到什么階段,大家印象比較深的還是智能音箱,這個產品大家用了以后,口碑不算很好,國外賣的比較多,也可能跟生活習慣有關,國內這個產品并沒預期中那么普及,接受度并不是那么高,為什么?我們語音識別不是很方便,不能說在家庭環境里面,需要事先讓大家不要說話,再開始語音交互,這樣很詭異。還有識別率怎么樣,實驗室可以98%,甚至有人說語音識別率是百分之百,一旦放在自然環境里面識別率可能是40%、50%,這是不可接受的。另外是要考慮成本與功耗,人工智能跟生物質能相比,能耗比差很多,這個功耗是否大家可以接受,人工智能集成進芯片,發現芯片成本會顯著上升,這個成本是否可以接受。
總結一下,我們認為,現在的人工智能大致處于好玩階段,后面還有兩個階段,一個是好用階段,一個是好管家,終極目標是好管家,希望在家庭環境里面,人工智能像大管家一樣,時刻關注家庭成員的各種狀態和需求,積極主動提供周到細致的服務。
-
人工智能
+關注
關注
1791文章
46896瀏覽量
237672 -
智慧家庭
+關注
關注
5文章
300瀏覽量
40448
原文標題:【大屏AI】海思姚世勇:智慧家庭中的AI
文章出處:【微信號:iptvott,微信公眾號:流媒體網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論