今年11.11正如火如荼進(jìn)行中,各大平臺(tái)的直播間,大家可能已經(jīng)發(fā)現(xiàn)了一群新面孔——數(shù)字人主播。電商直播作為越來(lái)越強(qiáng)大的流量入口,幾乎已經(jīng)成了零售品牌和商家們的必爭(zhēng)之地。而高昂的坑位費(fèi)、主播參差不齊的業(yè)務(wù)能力、不確定的ROI、復(fù)雜的內(nèi)容創(chuàng)作和監(jiān)管機(jī)制……也都是直播經(jīng)濟(jì)真實(shí)存在的另一面,讓商家們?yōu)橹赋睢?/p>
這時(shí)候,數(shù)字人就成了不錯(cuò)的選擇。來(lái)看看下面兩位主播,你能分得清哪個(gè)是真人嗎?
這樣擬人化交互、24小時(shí)在崗、內(nèi)容可控、可快速上線帶貨的數(shù)字主播,解決了許多商家備戰(zhàn)11.11的難題,也刷新了大眾對(duì)數(shù)字人的新認(rèn)知。
近兩年來(lái),很多企業(yè)都推出了各自的數(shù)字人及平臺(tái),有強(qiáng)調(diào)技術(shù)優(yōu)勢(shì)和大模型的云或AI公司,有占據(jù)終端交互入口的手機(jī)IoT廠商,也有強(qiáng)調(diào)內(nèi)容創(chuàng)作能力的虛擬偶像公司……
百花齊放的數(shù)字人,逐漸開始同質(zhì)化競(jìng)爭(zhēng),這時(shí)候,企業(yè)往往會(huì)結(jié)合各自的核心能力,為數(shù)字人選擇不同的發(fā)展策略和市場(chǎng)動(dòng)作。
在11月1日,2022京東云城市峰會(huì)上海站正式舉行,京東云宣布數(shù)智供應(yīng)鏈正加速落地十大產(chǎn)業(yè)場(chǎng)景,其中服務(wù)場(chǎng)景就是京東云言犀的主場(chǎng)。可以看到,與數(shù)智供應(yīng)鏈融合是AI走向產(chǎn)業(yè)的必經(jīng)之路,也為言犀平臺(tái)的一百多個(gè)數(shù)字人員工,創(chuàng)造了在產(chǎn)業(yè)中發(fā)光發(fā)熱的機(jī)會(huì)。
大浪淘沙的競(jìng)爭(zhēng)中,數(shù)字人正在命運(yùn)的分岔路口,奔赴各自的前程。我們不妨借著11.11的契機(jī),來(lái)共同審視一下數(shù)字人產(chǎn)業(yè),在消費(fèi)之余,收獲一些關(guān)于未來(lái)的重要線索。
走出恐怖谷,數(shù)字人才有可能
如果你認(rèn)為大多數(shù)數(shù)字人都能應(yīng)聘上崗、獲得產(chǎn)業(yè)客戶的認(rèn)可,那絕對(duì)是太樂(lè)觀了。高度擬人化、交互性的數(shù)字人,需要同時(shí)具備語(yǔ)音語(yǔ)義、視覺、情感、自然語(yǔ)言處理、知識(shí)圖譜、對(duì)話交互等綜合能力,不能有短板,這是數(shù)字人能夠長(zhǎng)期發(fā)展的前提和基礎(chǔ),也是極少數(shù)數(shù)字人能夠達(dá)到的能力。
大家可能聽說(shuō)過(guò)“恐怖谷效應(yīng)”,就是一些形象上酷似真人的機(jī)器人或智能體,但實(shí)際交互能力卻很差,經(jīng)常出現(xiàn)答非所問(wèn)等問(wèn)題。對(duì)下當(dāng)下的數(shù)字人產(chǎn)業(yè)的發(fā)展,大家肯定希望它們?cè)谕庑紊暇哂懈叩臄M真度,同時(shí)在交互體驗(yàn)上也具備較強(qiáng)的宜人性,即能夠理解用戶、擁有人類一樣的情感和表達(dá)。
言犀數(shù)字人虛擬主播為什么能夠做到真人主播的效果呢?就源自京東云言犀團(tuán)隊(duì)執(zhí)著地解決著數(shù)字人的核心技術(shù)問(wèn)題,從兩個(gè)方面取得突破:
惟妙惟肖之身——多模態(tài)智能技術(shù)。也就是語(yǔ)音、文字、表情、手勢(shì)、肢體等多模態(tài),能夠一體化協(xié)同,這樣能讓數(shù)字人的擬真度更高,避免一些明顯的違和感。面容上,言犀自研的3DNeuralRender神經(jīng)渲染器,可以高保真地合成主播面部細(xì)節(jié),達(dá)到以假亂真的效果;動(dòng)作上,言犀研發(fā)的動(dòng)作合成方案,基于RIFE插幀多插入點(diǎn)的快速動(dòng)作過(guò)渡,可以讓數(shù)字人的動(dòng)作更加流暢自然;互動(dòng)中,2D及超寫實(shí)、高精度3D數(shù)字員工驅(qū)動(dòng)方案,可以實(shí)現(xiàn)音唇精準(zhǔn)同步,數(shù)字人說(shuō)話時(shí),牙齒甚至牙縫都要精準(zhǔn)地對(duì)齊口型,這樣才不會(huì)看著別扭。可以說(shuō),惟妙惟肖的數(shù)字人需要多模態(tài)的綜合性技術(shù)能力。
善解人意之心——實(shí)時(shí)人機(jī)交互技術(shù)。數(shù)字人也不能只是“花瓶”,還要能夠與用戶實(shí)時(shí)互動(dòng),做出合乎邏輯的反應(yīng),這種數(shù)字人則更加稀少了,因?yàn)殡y度也高了一個(gè)數(shù)量級(jí)。首先,實(shí)時(shí)交互需要快速的動(dòng)作、表情渲染,對(duì)AI生成的速度和質(zhì)量要求非常高;其次,實(shí)時(shí)互動(dòng)意味著很多反應(yīng)不能事先生成,而要真正理解用戶的想法和需求,給出精準(zhǔn)的回答,這就要求數(shù)字人具備豐富且細(xì)粒度的知識(shí)突破、自然語(yǔ)言理解、情感計(jì)算等能力。比如用戶想了解A商品和B商品的異同,需要數(shù)字人主播精準(zhǔn)地抓住顧客心理、比對(duì)信息、找到賣點(diǎn),生成有吸引力的文案。為此,基于京東云言犀人工智能應(yīng)用平臺(tái),在智能多模態(tài)對(duì)話與交互領(lǐng)域提出了理解準(zhǔn)確度、知識(shí)覆蓋度、交互流暢度、情感關(guān)懷度、任務(wù)完成度5維為標(biāo)準(zhǔn)的“新圖靈測(cè)試”體系,作為人機(jī)交互服務(wù)機(jī)器人的標(biāo)準(zhǔn),也是數(shù)字人的核心能力。
走向產(chǎn)業(yè),數(shù)字人才有價(jià)值
只有一個(gè)技術(shù)支點(diǎn),能撬動(dòng)起數(shù)字人的市場(chǎng)價(jià)值嗎?至少在京東云言犀團(tuán)隊(duì)看來(lái),數(shù)字人與產(chǎn)業(yè)需求相結(jié)合,才能真正成為游戲規(guī)則的改變者。京東集團(tuán)副總裁、智能產(chǎn)品與服務(wù)部總裁,IEEE Fellow何曉冬博士指出,數(shù)字人作為一種AIGC內(nèi)容生產(chǎn)模式,目前成本還是比較高的,把數(shù)字人能力下放到每一個(gè)商家手中,這是AIGC的機(jī)會(huì)所在。
從實(shí)驗(yàn)室到產(chǎn)業(yè),需要邁過(guò)三個(gè)門檻。
第一重門檻:技術(shù)的可用性。
言犀數(shù)字人虛擬主播關(guān)鍵技術(shù)都達(dá)到國(guó)際的領(lǐng)先水平,包括多粒度韻律增強(qiáng)的語(yǔ)音合成、知識(shí)指導(dǎo)的多模態(tài)可控文本生成、可解釋的多輪對(duì)話決策推理,取得過(guò)多項(xiàng)AI學(xué)術(shù)比賽冠軍。但這只是數(shù)字人產(chǎn)業(yè)化的第一步。在現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景中,會(huì)出現(xiàn)各種意想不到的情況。這時(shí)候,京東云技術(shù)在京東內(nèi)外部多種大規(guī)模業(yè)務(wù)中經(jīng)受過(guò)考驗(yàn),就發(fā)揮了非常重要的試煉作用,讓數(shù)字人技術(shù)能夠真正為產(chǎn)業(yè)所用。
比如2021年12月,江南農(nóng)商銀行與京東云共同合作推出的VTM數(shù)字銀行柜員,不僅形象要好,還要懂銀行基本業(yè)務(wù),這就需要金融類知識(shí)計(jì)算;銀行作業(yè)環(huán)境噪音比較大,來(lái)辦理業(yè)務(wù)的當(dāng)?shù)赜脩粲械膸в蟹窖钥谝簟A硗猓y行柜員需要跟客戶實(shí)時(shí)交互,需要處理動(dòng)態(tài)文本數(shù)據(jù),依靠靜態(tài)數(shù)據(jù)庫(kù)訓(xùn)練出來(lái)的算法可能魯棒性不足……
言犀歷經(jīng)數(shù)十年京東618、11.11等大規(guī)模交互場(chǎng)景考驗(yàn),沉淀了業(yè)界超大的場(chǎng)景知識(shí)圖譜,模型遷移速度快,穩(wěn)定性高,這也使得該VTM數(shù)字銀行柜員順利落地,具有極強(qiáng)的適配性,可以獨(dú)立閉環(huán)完成銀行業(yè)務(wù)交易場(chǎng)景的自助應(yīng)答、業(yè)務(wù)辦理、主動(dòng)服務(wù)、風(fēng)控合規(guī)等全流程服務(wù),幫助銀行解決柜員接待能力不足的問(wèn)題。
還有一些問(wèn)題是落地之后發(fā)現(xiàn)的,數(shù)字人的自然語(yǔ)音語(yǔ)義交互需要綜合深度的技術(shù)突破才能解決。言犀為大同12345提供政務(wù)熱線解決方案的過(guò)程中,就發(fā)現(xiàn)實(shí)際交互是很復(fù)雜的,比如為了避免數(shù)字人搶話,一般會(huì)讓來(lái)電者說(shuō)完,數(shù)字人再接著說(shuō),但停頓時(shí)間又不能太長(zhǎng),讓對(duì)方覺得互動(dòng)不及時(shí)。但實(shí)際接聽市民熱線時(shí)發(fā)現(xiàn),很多老年市民停頓很長(zhǎng),說(shuō)著說(shuō)著就停頓一下,數(shù)字人問(wèn)“昨天有沒有打疫苗”,對(duì)方回答“昨天啊……(停頓一秒)好像沒有”,這個(gè)一秒的停頓對(duì)于數(shù)字人來(lái)說(shuō)都是理解上的挑戰(zhàn),言犀技術(shù)團(tuán)隊(duì)就嘗試通過(guò)跨模態(tài)技術(shù),在斷斷續(xù)續(xù)的情況下也能準(zhǔn)確地理解用戶意圖,技術(shù)創(chuàng)新領(lǐng)先于國(guó)際一流的學(xué)術(shù)型AI機(jī)構(gòu)。所以說(shuō),從產(chǎn)業(yè)中來(lái)、到產(chǎn)業(yè)中去的數(shù)字人,才能真正為產(chǎn)業(yè)所用。
第二重門檻:技術(shù)的可控性。
是不是各類比賽中分?jǐn)?shù)越高的AI就越厲害,打造的數(shù)字人就更強(qiáng)呢?其實(shí)比起技術(shù)收益有多大,技術(shù)風(fēng)險(xiǎn)的可控反而是企業(yè)更在意的,尤其是直播、問(wèn)答這樣實(shí)時(shí)性非常強(qiáng)的內(nèi)容型互動(dòng),對(duì)于AIGC內(nèi)容生成的可控性要求非常高,數(shù)字人主播如果說(shuō)錯(cuò)了信息,導(dǎo)致丟單或直播中斷,都是企業(yè)不希望看到的。如何保證數(shù)字人的輸出是可控的?言犀從京東復(fù)雜業(yè)務(wù)場(chǎng)景中深度解耦而來(lái),京東云花了很多精力讓言犀數(shù)字人虛擬主播的各類AI模型真正可控、可解釋。目前,言犀已經(jīng)累計(jì)生成了30億字的文字,人工審核通過(guò)率95%。言犀平臺(tái)的言犀數(shù)字人虛擬主播就具備很好的可解釋性,能夠?yàn)樯唐飞砷L(zhǎng)文案和直播劇本,除此之外,言犀多模態(tài)數(shù)字人平臺(tái)還有100多款虛擬數(shù)字人形象,在銀行業(yè)務(wù)辦理、政務(wù)服務(wù)等場(chǎng)景大規(guī)模落地,這些場(chǎng)景都對(duì)技術(shù)可控性要求很高。
可以說(shuō),比起實(shí)驗(yàn)室里神乎其神的屠龍術(shù),可控可解釋的數(shù)字人,才是產(chǎn)業(yè)和企業(yè)更歡迎的務(wù)實(shí)型員工。
第三重門檻:技術(shù)的投入產(chǎn)出比。
數(shù)字人進(jìn)入產(chǎn)業(yè)是要幫助企業(yè)降本增效、帶來(lái)正收益的,如果資源消耗巨大、開發(fā)成本高、維護(hù)費(fèi)心費(fèi)力,也會(huì)阻礙數(shù)字人走向產(chǎn)業(yè)的腳步。為了降低數(shù)字人規(guī)模化落地的成本,讓企業(yè)輕輕松松就能用上數(shù)字人,京東云言犀做了兩件事:一是建立完善的形象庫(kù),擁有包括2D真人、3D卡通、超寫實(shí)等多種數(shù)字人形象。基于基礎(chǔ)建模,就可以快速生成各類個(gè)性化數(shù)字人,帶貨各種各樣的商品,美妝、母嬰、電子3C等類型主播應(yīng)有盡有,大大解決了優(yōu)質(zhì)主播數(shù)量不足、直播時(shí)間有限等限制。
二是堅(jiān)實(shí)的人工智能應(yīng)用平臺(tái)。京東云言犀人工智能應(yīng)用平臺(tái),承載著語(yǔ)音與聲學(xué)、視覺感知、情感計(jì)算、語(yǔ)義理解與生成、知識(shí)圖譜、多輪對(duì)話等六個(gè)核心領(lǐng)域的技術(shù)能力,通過(guò)API和產(chǎn)品化等多種形式向外規(guī)模化輸出,就保障了技術(shù)的可用性和低成本。
走向云宇宙,數(shù)字人的未來(lái)
元宇宙本質(zhì)上是多種數(shù)字虛擬技術(shù)的集合體,作為一個(gè)略宏觀和遙遠(yuǎn)的概念,何曉冬直言,我們?cè)诮鉀Q產(chǎn)業(yè)元宇宙的技術(shù)挑戰(zhàn),還處于比較早期的階段。
對(duì)于產(chǎn)業(yè)元宇宙,京東云的技術(shù)人員是篤定地,也是低調(diào)的。
篤定,可能來(lái)自兩方面的原因:一是數(shù)字人之于數(shù)智供應(yīng)鏈的價(jià)值。作為更懂產(chǎn)業(yè)的云,京東云致力推動(dòng)數(shù)智供應(yīng)鏈服務(wù)于千行百業(yè),推動(dòng)實(shí)體經(jīng)濟(jì)與數(shù)字經(jīng)濟(jì)的融合與協(xié)同發(fā)展。數(shù)字人作為交互入口,可以應(yīng)用在大量數(shù)實(shí)融合的業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)數(shù)字世界和物理世界的無(wú)縫融合,比如數(shù)字主播、智能客服、工業(yè)人機(jī)互動(dòng)、景區(qū)導(dǎo)游、社區(qū)養(yǎng)老服務(wù)員等等,數(shù)智供應(yīng)鏈為數(shù)字人提供了獨(dú)一無(wú)二的產(chǎn)業(yè)土壤。
二是數(shù)智供應(yīng)鏈之于產(chǎn)業(yè)的價(jià)值。數(shù)智供應(yīng)鏈?zhǔn)蔷〇|19年轉(zhuǎn)型實(shí)踐反復(fù)驗(yàn)證和凝練的一套完整的能力體系,本身涉及的產(chǎn)業(yè)環(huán)節(jié)足夠多,需要用到大量綜合性技術(shù),比如京東的智能云倉(cāng),就需要AI、大數(shù)據(jù)、云計(jì)算來(lái)一起聯(lián)合運(yùn)作。越來(lái)越多的企業(yè)借由數(shù)智供應(yīng)鏈開展數(shù)字化,自然也讓數(shù)字人有了更多用武之地,有機(jī)會(huì)孕育出更多顛覆性創(chuàng)新,進(jìn)一步放大了言犀數(shù)字人的技術(shù)優(yōu)勢(shì)和商業(yè)價(jià)值。
而低調(diào),則源于京東云對(duì)產(chǎn)業(yè)元宇宙的理性預(yù)期。目前,產(chǎn)業(yè)元宇宙尚處于早期階段,用何曉冬的話來(lái)說(shuō):我們?cè)诘仄骄€上看到了元宇宙的曙光,但抵達(dá)的過(guò)程中還有很多技術(shù)鴻溝,有時(shí)候需要很大的技術(shù)突破才能解決。所以,京東云更希望著重于底層能力和行業(yè)應(yīng)用的建設(shè),以供應(yīng)鏈為主軸,積累和打磨產(chǎn)業(yè)元宇宙所需要的各類數(shù)字技術(shù)。顯然,數(shù)字人作為一個(gè)深度學(xué)習(xí)、多模態(tài)學(xué)習(xí)、人機(jī)交互等技術(shù)的綜合產(chǎn)物,將在京東云技術(shù)研發(fā)戰(zhàn)略中占據(jù)重要位置,成為產(chǎn)業(yè)元宇宙技術(shù)創(chuàng)新的策源地之一。
從這個(gè)角度看,產(chǎn)業(yè)元宇宙和言犀數(shù)字人,將在數(shù)智供應(yīng)鏈的牽引下彼此靠攏、相互成就,最終融于一體、密不可分。攜帶著產(chǎn)業(yè)勢(shì)能與技術(shù)進(jìn)化的言犀多模態(tài)數(shù)字人,自然有能力走得更遠(yuǎn)、更久。
百花齊放的數(shù)字人,將在同質(zhì)化競(jìng)爭(zhēng)加劇的時(shí)刻走到分岔路口,沿著各自的選擇走出差異化的道路。接下來(lái),大家可能會(huì)看到同為數(shù)字人,卻是截然不同的存在,有的作為網(wǎng)紅明星曇花一現(xiàn),有的在產(chǎn)業(yè)世界里靜水流深,成為數(shù)字生活不可或缺的一部分。
岔路口的差異化選擇,將決定不同數(shù)字人的終局。而京東云言犀,正在向產(chǎn)業(yè)加速飛奔。
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1200瀏覽量
55320 -
AI
+關(guān)注
關(guān)注
87文章
30130瀏覽量
268410 -
人工智能
+關(guān)注
關(guān)注
1791文章
46853瀏覽量
237550 -
京東
+關(guān)注
關(guān)注
2文章
995瀏覽量
48416 -
元宇宙
+關(guān)注
關(guān)注
13文章
1388瀏覽量
11335 -
數(shù)字人
+關(guān)注
關(guān)注
0文章
119瀏覽量
1989 -
京東云
+關(guān)注
關(guān)注
0文章
72瀏覽量
28
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論