對(duì)于有語(yǔ)言障礙的人來(lái)說(shuō),內(nèi)心的表達(dá)只能通過(guò)紙筆或者是手語(yǔ)來(lái)與人溝通交流,但他們想說(shuō)的話卻會(huì)在腦海里時(shí)時(shí)回蕩,如果能將這些腦中的信號(hào)轉(zhuǎn)換為語(yǔ)音發(fā)出,將會(huì)給他們帶來(lái)巨大的幫助。隨著科技的迅猛發(fā)展,新技術(shù)有可能會(huì)造福于這些失語(yǔ)人群。最近,有三個(gè)研究小組進(jìn)行了相關(guān)研究,他們使用基于神經(jīng)網(wǎng)絡(luò)的計(jì)算模型,將大腦中的腦電數(shù)據(jù)轉(zhuǎn)化為語(yǔ)言,并通過(guò)計(jì)算機(jī)合成出語(yǔ)音,重建了可被聽(tīng)眾理解的單詞和句子。
傳統(tǒng)語(yǔ)音轉(zhuǎn)換
雖然目前已有基于默讀時(shí)的肌肉信號(hào)來(lái)進(jìn)行語(yǔ)音合成技術(shù)的初步研究,但這種方式更多是幫助人們?cè)诓环奖阏f(shuō)話的時(shí)候與計(jì)算機(jī)或者其他人交流。
對(duì)于語(yǔ)音障礙人士特別是先天障礙,這種方式無(wú)法通過(guò)通常的肌肉信號(hào)來(lái)捕捉并合成出對(duì)應(yīng)的語(yǔ)音。如有有朝一日,新技術(shù)可以?xún)H僅基于人們的思維過(guò)程而重建出人們腦中想表達(dá)的語(yǔ)言,將會(huì)造福更多的人。在中風(fēng)或疾病之后失去說(shuō)話能力的人可以使用眼動(dòng)跟蹤、聯(lián)想輸入和語(yǔ)音合成播放三個(gè)步驟達(dá)到重新表達(dá)的目的。 霍金的個(gè)人助理設(shè)備就是觀測(cè)無(wú)法通過(guò)收縮他臉頰上的某塊肌肉,來(lái)觸發(fā)安裝在眼鏡上的開(kāi)關(guān),從而輸入文字向世界傳達(dá)他的觀點(diǎn)和見(jiàn)解,但是他每分鐘僅可以輸入5-15個(gè)單詞,無(wú)法像正常人一樣流暢的表達(dá)自己的觀點(diǎn),思維受制于設(shè)備的速度。試想,如果霍金可以像馬斯克或者老黃一樣流暢的發(fā)表自己的演講,不用花大量的時(shí)間用于輸出單詞,那么他很可能會(huì)為世界帶來(lái)更多的巨大的貢獻(xiàn)。
如果未來(lái)可以通過(guò)腦機(jī)接口來(lái)重構(gòu)他們的語(yǔ)言系統(tǒng),那將會(huì)為霍金一樣的使用者帶來(lái)巨大的幫助,他們不僅可以表達(dá)想說(shuō)的話,還可以控制說(shuō)話的音調(diào),表達(dá)的速度也會(huì)大幅提升,使得殘障人士實(shí)時(shí)對(duì)話和有效的表達(dá)成為可能。
已有的突破
前途是光明的,道路是曲折的。最先遇到的問(wèn)題在于數(shù)據(jù)采集和數(shù)據(jù)量的限制。在不同個(gè)體之間,腦電信號(hào)轉(zhuǎn)化為語(yǔ)音的過(guò)程存在一定的差異性,因此必須對(duì)每個(gè)人(的個(gè)性化數(shù)據(jù))進(jìn)行“訓(xùn)練”。
而且眾所周知:使用的數(shù)據(jù)越精確,模型的運(yùn)行效果就越好,但是精準(zhǔn)的模型需要開(kāi)顱手術(shù)后才能獲得,這樣嚴(yán)苛的條件大大限制了數(shù)據(jù)的獲取,研究人員只能在極少數(shù)的情況下進(jìn)行。一種情況是在移除腦腫瘤的手術(shù)期間,另一種情況是在癲癇患者腦內(nèi)植入電極,來(lái)診斷癲癇發(fā)作的起因。但是,每次留給研究者們的數(shù)據(jù)收集最多只有二三十分鐘。數(shù)據(jù)量非常有限。
研究人員目前正在致力于尋找出可替代的有效的數(shù)據(jù)獲取方式。其中一部分研究人員利用聽(tīng)覺(jué)區(qū)域的植入電極來(lái)獲取大腦的信號(hào),并試圖找出在不同時(shí)間點(diǎn)的神經(jīng)元模型推斷出對(duì)應(yīng)的語(yǔ)音。神經(jīng)網(wǎng)絡(luò)的計(jì)算模型過(guò)將信息傳遞到計(jì)算“節(jié)點(diǎn)”層來(lái)處理復(fù)雜模式。網(wǎng)絡(luò)通過(guò)調(diào)整節(jié)點(diǎn)之間的連接來(lái)學(xué)習(xí)。
在實(shí)驗(yàn)中研究人員使用了兩種回歸模型一種用于生產(chǎn)聽(tīng)覺(jué)頻譜,一種用于生成聲音信息的向量編碼。網(wǎng)絡(luò)的監(jiān)督信號(hào)和輸入信息分別是一個(gè)人產(chǎn)生或聽(tīng)到的語(yǔ)音記錄和同時(shí)期的大腦活動(dòng)數(shù)據(jù)中。一個(gè)團(tuán)隊(duì)使用了來(lái)自五名癲癇患者的數(shù)據(jù)。他們的網(wǎng)絡(luò)分析了當(dāng)病人聽(tīng)到了故事和從0到9的數(shù)字的錄音時(shí)聽(tīng)覺(jué)皮層(在語(yǔ)音和聽(tīng)力過(guò)程中都很活躍)的活動(dòng)狀況,然后利用計(jì)算機(jī),以采集到的神經(jīng)數(shù)據(jù)為依據(jù),重建口述的數(shù)字。合成后的語(yǔ)音,準(zhǔn)確率達(dá)到了75%。
另外一支由德國(guó)不來(lái)梅大學(xué)的神經(jīng)科學(xué)家和荷蘭馬斯特里赫特大學(xué)的學(xué)者組成的團(tuán)隊(duì),他們使用來(lái)源于六名接受腦瘤手術(shù)患者的數(shù)據(jù)。首先,患者被要求重復(fù)屏幕上出現(xiàn)的詞語(yǔ),同時(shí)通過(guò)麥克風(fēng)來(lái)捕捉音頻信息。同時(shí)研究者們還需捕捉從大腦的語(yǔ)音規(guī)劃區(qū)域和運(yùn)動(dòng)區(qū)域獲取的信號(hào),這些信號(hào)向聲道發(fā)送命令,并使得人們能清楚說(shuō)出單詞。
最后,利用神經(jīng)網(wǎng)絡(luò)模型將腦電信號(hào)映射到音頻記錄,然后從數(shù)據(jù)中重建單詞。研究結(jié)果表明:大約40%的計(jì)算機(jī)生成的單詞是可以理解的。研究人員主要使用了下圖所示的densenet模型來(lái)實(shí)現(xiàn)電信號(hào)的音頻信號(hào)的重建:
此外自于加州大學(xué)舊金山分校的團(tuán)隊(duì)通過(guò)從語(yǔ)言和運(yùn)動(dòng)區(qū)域捕獲的大腦活動(dòng)來(lái)重建整個(gè)句子,他們所使用的數(shù)據(jù)采集于三名癲癇的患者大聲朗讀的過(guò)程中。為了驗(yàn)證重建句子的有效性,邀請(qǐng)了166名受試者進(jìn)行了在線測(cè)試。實(shí)驗(yàn)結(jié)果表明,對(duì)于某些句子,達(dá)到了超過(guò)80%的識(shí)別準(zhǔn)確率。
研究人員還進(jìn)一步改進(jìn)了模型:他們使用該模型來(lái)基于默念采集到的信息來(lái)重建句子。該研究使得人們基于腦中思維過(guò)程而重建出腦中想表達(dá)的內(nèi)容的目標(biāo)又更進(jìn)一步。
未來(lái)展望
未來(lái),我們期望的是患者不用說(shuō)話,僅僅通過(guò)腦中的思維過(guò)程來(lái)進(jìn)行語(yǔ)音合成。當(dāng)一個(gè)人默念和感知到某種語(yǔ)言時(shí),大腦的反應(yīng)與真正說(shuō)出和聽(tīng)到聲音時(shí)的信號(hào)不同。如果沒(méi)有外部聲音來(lái)匹配大腦活動(dòng),計(jì)算機(jī)甚至可能很難理清內(nèi)部語(yǔ)音的開(kāi)始和結(jié)束位置。解碼”想象中的語(yǔ)言” 需要利用腦機(jī)接口向用戶提供反饋——他們能夠?qū)崟r(shí)聽(tīng)到計(jì)算機(jī)的語(yǔ)音解釋?zhuān)o出計(jì)算機(jī)反饋,以獲得他們想要的結(jié)果。通過(guò)對(duì)用戶和神經(jīng)網(wǎng)絡(luò)的充分訓(xùn)練,未來(lái)的某一天,大腦和計(jì)算機(jī)也許能找到更好的配合方法。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4762瀏覽量
100541 -
語(yǔ)音合成技術(shù)
+關(guān)注
關(guān)注
0文章
8瀏覽量
2480
原文標(biāo)題:所思即所講,腦波語(yǔ)音合成技術(shù)助力語(yǔ)言障礙人士表達(dá)心聲
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論