早在大語(yǔ)言模型如GPT-3.5等的興起和被日漸廣泛的采用之前,教育行業(yè)已經(jīng)在AI輔助教學(xué)領(lǐng)域有過(guò)各種各樣的嘗試。在教育行業(yè),人工智能技術(shù)的采用幫助教育行業(yè)更好地實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量、學(xué)習(xí)效率、學(xué)習(xí)體驗(yàn)、學(xué)習(xí)成果。例如,人工智能技術(shù)可以幫助教師更好地管理課堂,更好地識(shí)別學(xué)生的學(xué)習(xí)需求,更好地提供個(gè)性化的學(xué)習(xí)內(nèi)容,更好地評(píng)估學(xué)生的學(xué)習(xí)成果,更好地提供學(xué)習(xí)支持。此外,人工智能技術(shù)還可以幫助教育行業(yè)更好地實(shí)現(xiàn)自動(dòng)化,提高教育行業(yè)的效率和效果??傊?,人工智能技術(shù)在教育行業(yè)的采用將會(huì)帶來(lái)巨大的變化,為教育行業(yè)帶來(lái)更多的發(fā)展機(jī)遇。
亞馬遜云科技也一直致力于提供更方便快捷,功能更強(qiáng)大的AI服務(wù)來(lái)支持教育行業(yè)客戶的技術(shù)創(chuàng)新和業(yè)務(wù)創(chuàng)新。特別是Amazon Transcribe、Amazon Polly、Amazon Textract、Amazon Translate、Amazon Personalize、Amazon Rekognition、Amazon SageMaker等產(chǎn)品分別從自然語(yǔ)言處理、圖形圖像處理、模型研發(fā)部署等方面為教育行業(yè)提供了強(qiáng)有力的技術(shù)支持。
本文結(jié)合Amazon Transcribe、Amazon Polly,以及OpenAI的大語(yǔ)言模型和D-ID.com公司的2D數(shù)字人生成技術(shù),介紹實(shí)現(xiàn)一個(gè)演示用的可語(yǔ)音對(duì)話的智能2D數(shù)字人設(shè)計(jì)的服務(wù)和具體的實(shí)現(xiàn)過(guò)程。
方案架構(gòu)
為了能在一個(gè)統(tǒng)一的用戶界面呈現(xiàn)語(yǔ)音輸入、語(yǔ)音輸出,以及2D數(shù)字人視頻播放的整體效果,本方案選擇Gradio框架實(shí)現(xiàn)WebUI的功能。呈現(xiàn)的WebUI如下:
用戶可以通過(guò)直接輸入文字內(nèi)容或者使用麥克風(fēng)輸入語(yǔ)音,文字內(nèi)容會(huì)使用Langchain附加上一定的上下文后送給OpenAI的GPT接口調(diào)用,語(yǔ)音輸入會(huì)先調(diào)用Amazon Transcribe服務(wù)進(jìn)行語(yǔ)音到文字的轉(zhuǎn)換。經(jīng)過(guò)GPT接口返回的文字內(nèi)容,會(huì)調(diào)用AWS Polly形成語(yǔ)音文件,同時(shí)語(yǔ)音文件會(huì)作為D-ID.com提供的API渲染出2D的動(dòng)態(tài)視頻在前端自動(dòng)展示和播放。
本方案中語(yǔ)音輸入,語(yǔ)音輸出,文字響應(yīng)生成,以及數(shù)字人視頻生成的功能都可以做自由的組合和替換。特別是對(duì)于OpenAI接口的調(diào)用可以置換為對(duì)自部署的大語(yǔ)言模型的調(diào)用,同時(shí)2D數(shù)字人視頻的生成也可以考慮其他類似服務(wù),如Heygen等。
具體實(shí)現(xiàn)
語(yǔ)音輸入部分
Amazon Transcribe支持實(shí)時(shí)轉(zhuǎn)錄語(yǔ)音(流式傳輸),也可以轉(zhuǎn)錄Amazon S3存儲(chǔ)桶中的語(yǔ)音文件(批處理)。Transcribe支持多達(dá)幾十種的不同國(guó)家的語(yǔ)言。
Transcribe的實(shí)時(shí)轉(zhuǎn)錄能力非常的強(qiáng)大,處理流數(shù)據(jù)的同時(shí),不斷的利用之前的上下文進(jìn)行結(jié)果的實(shí)時(shí)矯正,可以通過(guò)下面這個(gè)截圖看到Transcribe實(shí)時(shí)轉(zhuǎn)錄輸出的效果:
應(yīng)答內(nèi)容生成部分
在本方案里,應(yīng)答內(nèi)容的生成借助Langchain這個(gè)開源框架,調(diào)用基于OpenAI的coversation接口,同時(shí)使用memory庫(kù)對(duì)對(duì)話的上下文做了5輪保存。在實(shí)際的客戶場(chǎng)景里,可以考慮更豐富的方式來(lái)規(guī)范回復(fù)的內(nèi)容的有效性和客觀性。
比如可以使用Langchain的對(duì)話模版來(lái)對(duì)大模型的角色進(jìn)行預(yù)設(shè),或者使用Amazon Kendra,Amazon Opensearch這樣的知識(shí)庫(kù)構(gòu)建和檢索引擎,來(lái)進(jìn)一步限制大模型應(yīng)答的內(nèi)容范圍。
語(yǔ)音輸出部分
Amazon Polly可以將文本轉(zhuǎn)化為逼真的語(yǔ)音。它支持多種語(yǔ)言并且包含各種逼真的聲音模擬,也包含中文普通話語(yǔ)音的模擬。
可以構(gòu)建支持語(yǔ)音并能用于各種位置的應(yīng)用程序,并選擇適合客戶的聲音。Amazon Polly也支持語(yǔ)音合成標(biāo)記語(yǔ)言(SSML),它是一種基于XML的W3C標(biāo)準(zhǔn)標(biāo)記語(yǔ)言,適用于語(yǔ)音合成應(yīng)用程序,且支持使用通用SSML標(biāo)簽進(jìn)行斷句、重音和語(yǔ)調(diào)。自定義Amazon SSML標(biāo)簽提供了獨(dú)特的選項(xiàng),例如,能夠以新聞播音員說(shuō)話風(fēng)格發(fā)出某些聲音。這種靈活性能夠幫助您創(chuàng)建逼真的語(yǔ)音,從而吸引并維持聽眾的注意力。
在本方案中,可以使用Polly的實(shí)時(shí)語(yǔ)音生成接口,使用了中文普通話發(fā)音的VoiceID:Zhiyu,同時(shí)對(duì)特定的字符的發(fā)音做了定制化,這也是Polly一個(gè)非常有用的功能(Lexion)。
2D數(shù)字人視頻的生成部分
這里可以使用一個(gè)外部第三方的SaaS服務(wù)。該服務(wù)由D-ID.com公司提供,對(duì)應(yīng)的API可以直接接收文本輸入和一張人臉圖片來(lái)生成對(duì)應(yīng)的動(dòng)態(tài)播報(bào)視頻,也可以接受語(yǔ)音文件加圖片作為輸入。
當(dāng)你輸入文本的時(shí)候,該API接口可以選擇制定AWS的Polly服務(wù)中的不同的Voice ID來(lái)自動(dòng)為你合成語(yǔ)音。
在本方案中,想體現(xiàn)中文的語(yǔ)音輸出的效果,但是D-ID的API接口中暫時(shí)無(wú)法直接為中文文本指定中文的Voice ID。所以選擇了先用Polly的API生成語(yǔ)音,再把語(yǔ)音和圖片傳送給D-ID的接口生成視頻。
總結(jié)
今年是AIGC爆發(fā)的一年,也是教育行業(yè)所在的客戶看到行業(yè)拐點(diǎn)的一年。在這個(gè)關(guān)鍵的歷史性節(jié)點(diǎn)上,亞馬遜云科技愿意和客戶一起面對(duì)這些新的機(jī)會(huì)和挑戰(zhàn),以客戶的需求為導(dǎo)向,幫助客戶抓住AI浪潮帶來(lái)的紅利。
目前除了本文展示的2D數(shù)字人的方案,亞馬遜云科技也可以幫助客戶提供基于3D數(shù)字人或者其他3D數(shù)字形象的直播,互動(dòng)等方案。同時(shí)亞馬遜云科技也會(huì)引入更多的技術(shù)合作伙伴如躍遷引擎來(lái)豐富整個(gè)數(shù)字人,數(shù)字形象直播、點(diǎn)播、互動(dòng)等場(chǎng)景的解決方案,助力更多的教育行業(yè)客戶加速AI技術(shù)的采用和落地。
原發(fā)標(biāo)題:近實(shí)時(shí)智能應(yīng)答 2D 數(shù)字人搭建
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
87文章
30131瀏覽量
268410 -
人工智能
+關(guān)注
關(guān)注
1791文章
46853瀏覽量
237550 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2624瀏覽量
83189 -
數(shù)字人
+關(guān)注
關(guān)注
0文章
119瀏覽量
1989
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論