精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ASR算法實(shí)踐及部署方案

沐曦MetaX ? 來(lái)源:沐曦AI解決方案 ? 2023-08-31 15:12 ? 次閱讀

引言

語(yǔ)音識(shí)別(Automatic Speech Recognition)是AI領(lǐng)域的一項(xiàng)重要應(yīng)用,是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。

其主要的應(yīng)用場(chǎng)景有:?jiǎn)为?dú)使用該技術(shù)的字幕生成,會(huì)議轉(zhuǎn)寫(xiě)以及聯(lián)合語(yǔ)音合成技術(shù)使用的智能助手、智能音箱、智能汽車等。

其中字幕生成包括視頻的離線字幕生成以及直播場(chǎng)景下的在線字幕生成。隨著短視頻和直播場(chǎng)景的興起,我們對(duì)自動(dòng)字幕的需求也越來(lái)越大,這對(duì)推理GPU的速度、延時(shí)和成本也是很大的挑戰(zhàn)。

本文將介紹ASR模型工作原理,離線字幕生成場(chǎng)景優(yōu)化,以及ASR在沐曦曦思N100人工智能推理GPU上如何做靜態(tài)部署,后者可作為其他序列生成模型的靜態(tài)化部署參考方案。

ASR模型介紹

一般聲音聲波輸入聲學(xué)模型前,會(huì)將語(yǔ)音預(yù)處理轉(zhuǎn)換為梅爾圖譜,即將聲音以一定的幀長(zhǎng)切成短幀,然后使用傅里葉變換得到頻譜,依照人類對(duì)不同頻率音頻的敏感程度不同,頻譜又經(jīng)過(guò)梅爾三角濾波器組,最后得到信息密度更高的梅爾頻譜作為ASR模型的輸入。

為了解決從梅爾頻譜到文字的對(duì)齊問(wèn)題,學(xué)界有兩種對(duì)齊方案:

對(duì)齊方案 1

不學(xué)習(xí)對(duì)齊,允許空格和重復(fù)輸出,直接在計(jì)算損失時(shí)使用CTC 損失得到規(guī)整后為正確結(jié)果的所有路徑概率和,讓概率和最大。本方案為非自回歸方案,速度快、易訓(xùn)練,但由于不考慮上下文,其結(jié)果容易造成結(jié)巴或漏字。

對(duì)齊方案 2

用序列到序列編碼器-解碼器的方式學(xué)習(xí)基于注意力的語(yǔ)音文字軟對(duì)齊。本方案為自回歸方案,考慮了上下文,精度更高,但對(duì)齊靈活性容易被干擾且解碼速度更慢。

目前效果較好且比較流行的語(yǔ)音識(shí)別端到端模型的一般結(jié)構(gòu)是結(jié)合前面兩種方案,即把兩種模型放在同一個(gè)模型結(jié)構(gòu)中,共享編碼器部分,以wenet模型[1]為例,其訓(xùn)練時(shí)的數(shù)據(jù)流向?yàn)椋?/p>

1

用語(yǔ)音預(yù)處理從語(yǔ)音波形中提取梅爾圖譜特征。

2

以conformer模型作為編碼器(綠色),進(jìn)一步提取和融合輸入特征。

3

注意力解碼器部分(紅色)在訓(xùn)練時(shí)為編碼器后接入一個(gè)基于注意力的解碼器,在只能看到歷史信息的掩碼限制下生成目標(biāo)句子,再對(duì)每個(gè)字得到平滑交叉熵?fù)p失。在前向推理時(shí),利用編碼器輸出和歷史解碼器結(jié)果自回歸生成下一個(gè)文字。(紅色部分)。

4

CTC 解碼器部分(黃色)在訓(xùn)練時(shí)為編碼器后接一個(gè)全連接層再接CTC損失,利用CTC規(guī)避訓(xùn)練時(shí)的語(yǔ)音文本對(duì)齊問(wèn)題,在前向推理時(shí)每幀得到空格或文字,對(duì)生成結(jié)果規(guī)整后即得到目標(biāo)語(yǔ)句。CTC 解碼器在前向推理時(shí)可以結(jié)合語(yǔ)言模型如n-gram語(yǔ)言模型一起使用,提升正確率。

c1e1fb5e-47c5-11ee-97a6-92fbcf53809c.png

圖2 ASR模型結(jié)構(gòu)介紹

由于CTC head加ngram語(yǔ)言模型和注意力head均能生成結(jié)果文字,在落地使用時(shí)有多種解碼方式:

解碼方案 1

直接以CTC head結(jié)果為準(zhǔn),這種方案解碼速度很快,但正確率較低。

解碼方案 2

CTC head生成概率最高的topk句,由注意力 head分別為多句進(jìn)行評(píng)分,即整句每個(gè)字概率加和,選出top1的句子,這種方案正確率高于方案1,速度慢于方案1。

解碼方案 3

注意力head每個(gè)字生成后,結(jié)合該字在CTC head的分?jǐn)?shù)共同評(píng)估,得到當(dāng)前時(shí)刻的top1的字,這種方案正確率高于方案2,速度慢于方案2。

從方案1到方案3,正確率越來(lái)越高,解碼速度越來(lái)越慢。使用時(shí)可根據(jù)實(shí)際場(chǎng)景選擇。為確保正確率,一般采取后兩種方案。

字幕生成鏈路改進(jìn)

經(jīng)過(guò)調(diào)研和實(shí)驗(yàn),我們嘗試了一些讓生成字幕準(zhǔn)確率更高的方法,以下為完備有效的鏈路:

c1f97360-47c5-11ee-97a6-92fbcf53809c.png

圖3 字幕生成鏈路

從視頻提取到音頻后,先使用傳統(tǒng)方法對(duì)背景音樂(lè)和噪聲進(jìn)行去除;然后啟用長(zhǎng)音頻切分,即利用深度學(xué)習(xí)方法檢測(cè)人聲,在合適的沒(méi)有檢測(cè)到人聲的地方把長(zhǎng)語(yǔ)音斷成許多短語(yǔ)音;接著將短語(yǔ)音送入ASR聲學(xué)模型,在熱詞的輔助下輸出識(shí)別結(jié)果;最后將結(jié)果送入糾錯(cuò)語(yǔ)言模型進(jìn)行一些簡(jiǎn)單的詞錯(cuò)誤糾正,得到最終的字幕文件。以上各模塊均能發(fā)揮一定的作用。

以下是鏈路中模塊加入前后的示例:

音頻原識(shí)別結(jié)果改進(jìn)后識(shí)別結(jié)果改進(jìn)原理

那這樣吧今天下午我來(lái)拿情臉那這樣吧今天下午我來(lái)拿行李前置去背景音樂(lè)模塊后ASR模型就能正確識(shí)別最后兩個(gè)字

不過(guò)你也知道我大姐的脾氣,他向來(lái)不主張明家的子弟去搞政治不過(guò)你也知道我大姐的脾氣,她向來(lái)不主張明家的子弟去搞政治原音頻為兩段,通過(guò)VAD后聚類后兩段合成一段,使得模型有更多前后信息,“她”字識(shí)別正確

喂清云我錯(cuò)了喂清俞我錯(cuò)了加入的熱詞中有角色名,解碼時(shí)優(yōu)先熱詞,“俞”字識(shí)別正確

下將具體介紹我們?cè)陂L(zhǎng)音頻切分模塊和ASR模型解碼模塊做的一些改進(jìn)。

3.1

長(zhǎng)音頻切分優(yōu)化

長(zhǎng)音頻切分模塊中,我們通過(guò)使用深度學(xué)習(xí)模型marblenet做語(yǔ)音活動(dòng)性檢測(cè),即判斷每一幀是人聲還是環(huán)境音,并通過(guò)模型蒸餾、構(gòu)造數(shù)據(jù)、加入更豐富影視數(shù)據(jù)等提升分類精度。

在得到幀分類后可通過(guò)設(shè)定pad_onset, pad_offset, min_duration.max_duration等參數(shù)找到切分點(diǎn),把長(zhǎng)句切分成多個(gè)短句,可根據(jù)實(shí)際需要調(diào)整以上參數(shù)數(shù)值。

同時(shí)由實(shí)驗(yàn)得到,多個(gè)相關(guān)短句合并成小長(zhǎng)句后識(shí)別效果常好于單個(gè)短句,原因是在解碼時(shí)能利用上文語(yǔ)義信息得到更好的結(jié)果,但太長(zhǎng)又會(huì)導(dǎo)致耗時(shí)和顯存增加。故在切分準(zhǔn)確的基礎(chǔ)上,我們通過(guò)一維時(shí)間聚類的方式,將距離較近的短句通過(guò)多輪融合,形成限定長(zhǎng)度內(nèi)的小長(zhǎng)句進(jìn)行識(shí)別。

具體的合并邏輯是所有短句按照由短到長(zhǎng)的優(yōu)先順序,每個(gè)短句左右擴(kuò)張pad_len,若觸達(dá)另一短句則合二為一。以上邏輯重復(fù)多次,pad_len也慢慢增大。同時(shí)在合并過(guò)程中如果長(zhǎng)度達(dá)到max_len則也不再擴(kuò)張。

c210cff6-47c5-11ee-97a6-92fbcf53809c.png

圖4 短句聚合邏輯

以上邏輯能在合理范圍內(nèi),把時(shí)間上靠近的短句集合合成一句長(zhǎng)句,有利于在解碼時(shí)語(yǔ)言模型的信息獲取,使識(shí)別結(jié)果更加準(zhǔn)確。

3.2

ASR模型及解碼參數(shù)優(yōu)化

在電視劇場(chǎng)景中使用ASR模型首先會(huì)碰到背景噪聲問(wèn)題,我們?cè)谀P头矫嬉沧隽宋⒄{(diào)使得ASR模型對(duì)噪聲更加魯棒。具體的做法是取部分訓(xùn)練數(shù)據(jù),在訓(xùn)練時(shí)原語(yǔ)音隨機(jī)添加上腳步聲、人群嘈雜聲、環(huán)境聲等噪聲數(shù)據(jù),利用這些數(shù)據(jù)對(duì)原始模型進(jìn)行微調(diào),微調(diào)后字幕CER減少0.07%左右。

同時(shí),我們?cè)贑TC解碼時(shí)使用上了4_gram語(yǔ)言模型,以下是一些字幕生成場(chǎng)景下ASR模型解碼參數(shù)調(diào)整經(jīng)驗(yàn):

1

電視劇涉獵較廣,如古裝電視劇常出現(xiàn)成語(yǔ),商業(yè)電視劇常出現(xiàn)經(jīng)濟(jì)用語(yǔ)等,可根據(jù)實(shí)際需要針對(duì)性地增加4_gram語(yǔ)言模型的訓(xùn)練語(yǔ)料。

2

也可把上述4_gram語(yǔ)言模型換成bert或者加入bert,能提升一些識(shí)別正確率但是嚴(yán)重影響解碼速度,故工程上還是建議4_gram語(yǔ)言模型。

3

電視劇語(yǔ)氣詞較多,若要保留這些語(yǔ)氣詞,防止使用語(yǔ)言模型后語(yǔ)氣詞消失,需調(diào)高識(shí)別成空格的閾值,blank_skip_thresh可設(shè)為0.99。

4

與上同理,為保留更多語(yǔ)氣詞適當(dāng)增加WFST解碼時(shí)聲學(xué)模型的概率,acoustic_scale可設(shè)為2。

5

為讓熱詞發(fā)揮更好的效果,可適當(dāng)調(diào)大熱詞權(quán)重,context_score可設(shè)為10。

總的來(lái)說(shuō),在影視劇字幕生成領(lǐng)域中,我們發(fā)現(xiàn)長(zhǎng)音頻切分的好壞對(duì)字幕結(jié)果起到了決定性作用。同時(shí)將wenet模型用于部署時(shí)可根據(jù)使用場(chǎng)景對(duì)模型或者解碼參數(shù)進(jìn)行一些微調(diào),能在目標(biāo)領(lǐng)域變得更加準(zhǔn)確。通過(guò)以上改進(jìn)再加上鏈路上的前后處理,我們測(cè)試集上平均字錯(cuò)率由16.57%下降到12.11%。僅從識(shí)別準(zhǔn)確度看,比當(dāng)前最好的商用軟件效果略好。

ASR部署

出于對(duì)推理速度的要求,一般需要將訓(xùn)練好的模型部署在GPU上使用, ASR模型輸入shape是動(dòng)態(tài)變化的,為達(dá)到靜態(tài)化部署的目的,這里采用padding-分桶思路來(lái)支持動(dòng)態(tài)輸入,本方案對(duì)其他編碼器_解碼器類生成式任務(wù)的靜態(tài)化部署都有借鑒意義。

在ASR中,輸入的語(yǔ)音長(zhǎng)度是變化的,即編碼器的輸入輸出,CTC 解碼器的輸入輸出以及注意力解碼器的輸入輸出都是變化的,中間特征的長(zhǎng)度會(huì)隨著輸入語(yǔ)音長(zhǎng)度的變化而變化。

為固定輸入長(zhǎng)度,我們將輸入語(yǔ)音pad到最長(zhǎng)語(yǔ)音長(zhǎng)度max_speech_len,之后用mask控制計(jì)算的范圍,同時(shí)使用注意力解碼器時(shí)也把歷史文字輸出pad到最長(zhǎng)文字長(zhǎng)度max_word_len,之后用valid_len來(lái)表示本次前向要生成的文字編號(hào)。具體來(lái)說(shuō),需要對(duì)編碼器編碼模塊和注意力解碼模塊做一定的調(diào)整。

實(shí)踐使用中,可以設(shè)置多個(gè)梯度max_speech_len,實(shí)際使用中按照輸入語(yǔ)音長(zhǎng)度分桶,用對(duì)應(yīng)最大長(zhǎng)度模型解碼。

4.1

encoder模塊部署

其中,encoder的具體模型結(jié)構(gòu)如下:

c21e0dc4-47c5-11ee-97a6-92fbcf53809c.png

圖5 encoder部分細(xì)節(jié)結(jié)構(gòu)圖

其中token_num取決于輸入語(yǔ)音的長(zhǎng)度,是可變的,為剔除動(dòng)態(tài)性我們將該維度pad到最大,但是直接padding會(huì)影響softmax計(jì)算和conformer結(jié)構(gòu)里相對(duì)位置編碼以及depthwise卷積部分,為了消除對(duì)計(jì)算結(jié)果的影響,需要對(duì)模型結(jié)構(gòu)進(jìn)行微調(diào)。

4.1.1

消除Padding對(duì)softmax計(jì)算的影響

c238e9e6-47c5-11ee-97a6-92fbcf53809c.png

圖6 encoder部分RelPositionAttention模塊前向圖

模型的輸入改為:

input_pad:pad后的input

mask:記錄了input_pad中有效的長(zhǎng)度,其中mask的前valid_len個(gè)為1,后面為0

mask中包含有效長(zhǎng)度信息后能去除掉計(jì)算中pad部分的影響。

4.1.2

消除Padding對(duì)rel_shift的影響

如上圖中所示,espnet工程中matrix_bd會(huì)先經(jīng)過(guò)rel_shift來(lái)達(dá)到把matrix_bd中絕對(duì)位置編碼改成相對(duì)位置編碼的目的,原代碼的實(shí)現(xiàn)方式為:

c24fa83e-47c5-11ee-97a6-92fbcf53809c.png

圖7 rel_shift 實(shí)現(xiàn)方式

來(lái)源:https://zhuanlan.zhihu.com/p/74485142

通過(guò)對(duì)矩陣的pad+reshape達(dá)到相對(duì)位置編碼的作用。

輸入作pad填充后token_emb后面為無(wú)效特征,再用pad+reshape方式rel_shift,會(huì)導(dǎo)致無(wú)效特征前移錯(cuò)位。

我們這里先分別用gather操作得到左下角和右上角矩陣,再利用一個(gè)半角mask將兩個(gè)矩陣進(jìn)行合并。最后對(duì)多余部分進(jìn)行置0操作,得到和原rel_shift操作結(jié)果一致(只是做了pad)的結(jié)果。

c28ee53a-47c5-11ee-97a6-92fbcf53809c.png

圖8 輸入pad后復(fù)現(xiàn)rel_shift 方案

4.1.3

消除Padding對(duì)depthwise_conv的影響

c2b1c2ee-47c5-11ee-97a6-92fbcf53809c.png

圖9 輸入pad后復(fù)現(xiàn)rel_shift方案

conformer模塊中使用了分組卷積,前后分別進(jìn)行pointwise conv和1D depthwise conv。由于token_num/4維度我們會(huì)pad到最大,此時(shí)由于depthwise conv kernel》1,會(huì)讓無(wú)效特征也參與計(jì)算干擾結(jié)果。

解決方案是在depthwise前加一步根據(jù)mask的歸0操作,把pad進(jìn)去部分的特征都?xì)w0。

4.2

Attention decoder模塊部署

c2d0b776-47c5-11ee-97a6-92fbcf53809c.png

圖10 encoder部分細(xì)節(jié)結(jié)構(gòu)圖

Attention decoder每次調(diào)用只生成一個(gè)字。其輸入是encoder output特征,我們記作memory,以及歷史生成的字x,輸出是語(yǔ)音的下一個(gè)字。生成一句N個(gè)字的句子需要調(diào)用Attention decoder N+1次,在遇到標(biāo)簽或者達(dá)到最高字?jǐn)?shù)時(shí)停止。

這里模型調(diào)用了6層decode layer,每層由一個(gè)self attention以及一個(gè)cross attention組成,為減少重復(fù)計(jì)算,會(huì)保存每次每層decoder layer的輸出(我們記作cache),在下一次計(jì)算時(shí)只計(jì)算每層最新的一個(gè)token結(jié)果然后和保存的concat,再輸往下一層,同時(shí)為下一次decoder保存當(dāng)前new_cache。

原始輸入為x,memory和cache。

要把Attention decoder改為固定長(zhǎng)度輸入,需要做的修改如下:

1

self attention部分:x改為x_pad和x_q,這里x表示歷史的n無(wú)法根據(jù)index動(dòng)態(tài)抽取,我們提前將最后一個(gè)token單獨(dú)提取出來(lái)作為外部傳入的輸入x_q,x_q為x_pad里有效的最后一個(gè)token,注意需手動(dòng)加上對(duì)應(yīng)位置的position embedding。

2

cross attention部分:保持前面self attention的結(jié)果作為把原始的不定長(zhǎng)的memory改為encoder output輸入的pad后memory,同時(shí)加上memory mask以指示有效長(zhǎng)度,防止關(guān)注到pad的部分,用于cross attention部分。

3

self attention和cross attention組成一層完整的decoder層,在生成一層decoder輸出x_q后,在動(dòng)態(tài)輸入操作中,需要把之前保存的該層輸出前面token結(jié)果concat到x_q上去,這也屬于動(dòng)態(tài)維度的操作,部署中無(wú)法使用,而在我們靜態(tài)輸入中,則選擇where操作把x_q拷貝到pad后的state的第valid_len-1位置上去,故這里需要valid_len作為輸入來(lái)進(jìn)行拷貝引導(dǎo),這里的valid_len是用于指示當(dāng)前共有幾個(gè)字,即我們關(guān)注的是第幾個(gè)token的輸出,在使用時(shí)每次調(diào)用valid_len加一。

4

取最后一層decoder的輸出的x_q,經(jīng)過(guò)一層softmax層得到最終的token概率分布。

修改后的輸入為x_pad,x_q,memory,memory_mask,cache和valid_len,

修改后的代碼流程如下:

c2e3db6c-47c5-11ee-97a6-92fbcf53809c.png

圖11 attention decoder部分修改后示意圖

小結(jié)

以上介紹了語(yǔ)音識(shí)別技術(shù)的應(yīng)用場(chǎng)景,語(yǔ)音識(shí)別算法的原理、難點(diǎn)和解決方案,也介紹了我們?cè)谧帜簧蓤?chǎng)景中所做的實(shí)踐。微調(diào)開(kāi)源模型加上細(xì)致的前后處理,在我們的測(cè)試集上能夠達(dá)到較好的可使用效果。未來(lái)ASR瓶頸更多的在于如何提升識(shí)別速度,以及在復(fù)雜場(chǎng)景下怎樣結(jié)合其他技術(shù)優(yōu)化ASR結(jié)果。

最后我們?yōu)锳SR在沐曦曦思N100人工智能推理GPU上做了較好的靜態(tài)部署,通過(guò)pad加mask的方案使動(dòng)態(tài)輸入達(dá)成固定長(zhǎng)度,為保持計(jì)算邏輯不變,我們也對(duì)模型編碼器和注意力解碼器部分做了許多調(diào)整,該解決方案可作為其他序列生成模型的靜態(tài)化部署參考。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4601

    瀏覽量

    92677
  • ASR
    ASR
    +關(guān)注

    關(guān)注

    2

    文章

    42

    瀏覽量

    18701
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3178

    瀏覽量

    48731
  • 傅里葉變換
    +關(guān)注

    關(guān)注

    6

    文章

    438

    瀏覽量

    42566

原文標(biāo)題:【智算芯聞】ASR算法實(shí)踐及部署方案

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    最新一款LoRa 集成了單芯片SoC ASR6501/ASR6502

    的基于ASR6501的RF-AL42UH這一新的LoRa無(wú)線方案能有效緩解國(guó)內(nèi)芯片半導(dǎo)體客戶的緊張情緒。ASRASR6501/ASR650
    發(fā)表于 03-11 15:06

    國(guó)內(nèi)全新LoRa系統(tǒng)芯片ASR6505 內(nèi)置SOC

    LoRa系列產(chǎn)品已能夠支持幾乎全部行業(yè)應(yīng)用及產(chǎn)品解決方案ASR6505是基于STM 8位MCU與SX1262 的SiP芯片,相對(duì)于32位MCU更具成本優(yōu)勢(shì),8mm*8mm*0.9mm的超小尺寸可以滿足
    發(fā)表于 03-11 15:39

    ASR6501與SX1262優(yōu)勢(shì)區(qū)別

    家合作伙伴,包括模組廠和系統(tǒng)方案商。慧聯(lián)無(wú)限、瑞興恒方、唯傳科技、門(mén)思科技、光寶科技等十余家客戶已采用ASR6501芯片設(shè)計(jì)出小尺寸模組。上海順舟、杭州金卡智能等系統(tǒng)方案商也在使用ASR
    發(fā)表于 03-23 14:33

    簡(jiǎn)化針對(duì)云服務(wù)的語(yǔ)音檢測(cè)算法部署

    DBM10芯片為完整解決方案的原因。SoC針對(duì)音頻算法以及使用通用DSP和稱為nNetLite的神經(jīng)網(wǎng)絡(luò)處理器的感應(yīng)AI算法進(jìn)行了優(yōu)化。此外,DSP Group提供了在Wi-Fi芯片上運(yùn)行的其他
    發(fā)表于 03-03 10:46

    怎樣去驗(yàn)證可部署目標(biāo)硬件與軟件算法模型之間的算法性能一致性?

    如何去設(shè)計(jì)一款合理的電子硬件解決方案,從而實(shí)現(xiàn)經(jīng)濟(jì)有效的大規(guī)模生產(chǎn)與部署?怎樣去驗(yàn)證可部署目標(biāo)硬件與軟件算法模型之間的算法性能一致性?Sys
    發(fā)表于 04-08 06:25

    asr翱捷LORA系列芯片選型參考推薦ASR6601/asr6505/asr6501/asr6500

    ASR6601 SoC是國(guó)內(nèi)首顆支持LoRa的LPWAN SoC。ASR6601芯片中集成的超低功耗收發(fā)機(jī),除了支持LoRa調(diào)制方式外,還可以支持FSK收發(fā)、MSK收發(fā)和BPSK發(fā)射等。在3.3V
    發(fā)表于 03-22 13:14

    ASR控制系統(tǒng),ASR控制系統(tǒng)是什么意思

    ASR控制系統(tǒng),ASR控制系統(tǒng)是什么意思 如圖1所示為ASR控制系統(tǒng)的原理框圖。
    發(fā)表于 03-11 17:40 ?1.7w次閱讀

    基于粒子群優(yōu)化PSO算法部署策略

    針對(duì)云計(jì)算基礎(chǔ)設(shè)施即服務(wù)(IaaS)中的虛擬機(jī)部署問(wèn)題,提出一種基于粒子群優(yōu)化(PSO)算法部署策略。由于PSO算法在處理虛擬機(jī)部署這類大
    發(fā)表于 12-26 10:32 ?1次下載

    docker compose一鍵打包部署項(xiàng)目的實(shí)踐

    【導(dǎo)讀】本文介紹了 docker compose 一鍵打包部署項(xiàng)目的實(shí)踐
    的頭像 發(fā)表于 08-30 11:03 ?1510次閱讀

    解決自動(dòng)語(yǔ)音識(shí)別部署難題

    成功部署自動(dòng)語(yǔ)音識(shí)別( ASR )應(yīng)用程序可能是令人沮喪的體驗(yàn)。例如,考慮到存在許多不同的方言和發(fā)音, ASR 系統(tǒng)很難在保持低延遲的同時(shí)正確識(shí)別單詞。
    的頭像 發(fā)表于 10-11 10:56 ?959次閱讀
    解決自動(dòng)語(yǔ)音識(shí)別<b class='flag-5'>部署</b>難題

    部署Linux的最佳實(shí)踐探索

    編者按:本文節(jié)選自節(jié)選自《基于Linux的企業(yè)自動(dòng)化》第五章。“第5章,使用Ansible構(gòu)建用于部署的虛擬機(jī)模板,通過(guò)構(gòu)建虛擬機(jī)模板來(lái)探索部署Linux的最佳實(shí)踐,虛擬機(jī)模板將以實(shí)際操作的方式大規(guī)模
    的頭像 發(fā)表于 05-16 09:35 ?546次閱讀

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語(yǔ)音識(shí)別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語(yǔ)音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。以下是對(duì)ASR
    的頭像 發(fā)表于 11-18 15:12 ?346次閱讀

    ASR和機(jī)器學(xué)習(xí)的關(guān)系

    自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)的發(fā)展一直是人工智能領(lǐng)域的一個(gè)重要分支,它使得機(jī)器能夠理解和處理人類語(yǔ)言。隨著機(jī)器學(xué)習(xí)(ML)技術(shù)的迅猛發(fā)展,ASR系統(tǒng)的性能和準(zhǔn)確性得到了顯著提升。 ASR技術(shù)概述 自動(dòng)
    的頭像 發(fā)表于 11-18 15:16 ?231次閱讀

    ASR技術(shù)的未來(lái)發(fā)展趨勢(shì) ASR系統(tǒng)常見(jiàn)問(wèn)題及解決方案

    自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,簡(jiǎn)稱ASR)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它使得機(jī)器能夠理解和處理人類語(yǔ)言。隨著技術(shù)的進(jìn)步,ASR技術(shù)的未來(lái)發(fā)展趨勢(shì)主要
    的頭像 發(fā)表于 11-18 15:20 ?385次閱讀

    ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

    ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)與傳統(tǒng)語(yǔ)音識(shí)別在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這兩者的對(duì)比: 一、技術(shù)基礎(chǔ) ASR : 基于深度學(xué)習(xí)算法的新型語(yǔ)音
    的頭像 發(fā)表于 11-18 15:22 ?329次閱讀