通常在談到關(guān)于DSP解碼與系統(tǒng)整體性能表現(xiàn)時,我們主要利用了傳統(tǒng)的SNR、瞬時誤差和相位誤差等方法進(jìn)行判斷。本文以心理-聲學(xué)壓縮設(shè)計的方法來考察DSP解碼的性能與表現(xiàn),介紹了基于心理-聲學(xué)的音頻壓縮解碼概念,并給出了基于心理-聲學(xué)的DSP性能分析。
從上個世紀(jì)90年代以來,數(shù)字信號處理技術(shù)便逐步在消費音頻市場占據(jù)重要地位。數(shù)字信號處理器最初主要用于處理數(shù)字化的模擬音頻信號,即PCM數(shù)據(jù)的處理。在當(dāng)前的系統(tǒng)設(shè)計時代,基于具有靈活軟件設(shè)計特性的DSP系統(tǒng)設(shè)計方案是傳統(tǒng)設(shè)計的理想替代方法。
在音頻系統(tǒng)的設(shè)計中,通常在信號源進(jìn)行壓縮編碼時采用心理-聲學(xué)模型去除信號中的冗余數(shù)據(jù),通過選擇合適位數(shù)的DSP可以保證系統(tǒng)的性能。實際應(yīng)用中DSP的選擇需要涉及到很多因素,包括精度(24位/32位)、主頻、成本和內(nèi)存容量等。本文就音頻解碼應(yīng)用中,基于心理-聲學(xué)模型對DSP的性能進(jìn)行了分析。
DSP分貝與聲壓分貝的關(guān)系
本文在后面所述的數(shù)據(jù)都是在dBFS下的測量值,即滿刻度分貝值。從可聞度來分析,需要將這些數(shù)值與dB SPL關(guān)聯(lián)起來,即轉(zhuǎn)換為聲壓強度的分貝數(shù)。在DSP之后的模擬信號鏈上包括DAC、前置放大器、功率放大器和揚聲器,盡管對于不同的系統(tǒng),每個元件的增益和性能可能會有顯著的差異,但單純從系統(tǒng)配置的角度而言,仍可能把dBFS與dB SPL以足夠的準(zhǔn)確性關(guān)聯(lián)起來。
通常,數(shù)字音軌以-20dBFS電平進(jìn)行錄音,完全滿足信號峰值所要達(dá)到的幅值,同時也擁有足夠的動態(tài)范圍以展現(xiàn)音頻文件的靜音部分,在CD、Dolby Digital和DTS等不同格式下也不會失真。眾所周知, THX推薦的聽覺配置是在85dB聲壓強度下再現(xiàn)-20dBFS聲音信號,這時音量通常會很大,而正常的收聽時會比該強度低很多。
從上面是的事實得出dBFS與dB SPL之間是線性映射的,具有以下關(guān)系:0dBFS的信號可在105dB SPL再現(xiàn),需要注意的是這種情況下產(chǎn)生的聲音非常高,不適合長時間收聽; 0dB SPL對應(yīng)與-105dBFS。
聽覺與聽覺閾值
人類的聽覺是有極限的,通常在聲壓強度的設(shè)計上會把0dB設(shè)定為最低可聽范圍水平。聲音頻譜中的大部分(300Hz以下和10KHz以上)只有在10dB的聲壓強度之上才可以聽到,正弦波的最高敏感度在3~4KHz,而且這樣的聲音在-3~-4的dB SPL就可以被聽力極好的人感知。
從生理學(xué)上看,要達(dá)到聲音聽覺閾值,其能量需要大到能在人的耳鼓產(chǎn)生一個駐波,從而使那兒的細(xì)小毛發(fā)產(chǎn)生波動。沒有這種波動,連接聽覺皮層的神經(jīng)元就不能被觸發(fā),因而聲音不能被感知。從上面的討論我們得到的關(guān)于音頻系統(tǒng)設(shè)計的啟發(fā),即當(dāng)噪音的水平低于人們的聽覺閾值時,一味追求高精度的DSP實現(xiàn)方案并沒有實際意義。
利用先前得到的聽力配置關(guān)系,最低的可聽聲壓為-4dB SPL,即-109dBFS。假設(shè)在信號鏈所有其它部分(DAC、前置放大器等)均為零失真,這就意味著任何能夠產(chǎn)生好于109dB信噪比的DSP都不會成為系統(tǒng)性能的瓶頸,這是采用DSP實現(xiàn)系統(tǒng)設(shè)計的一個很重要的問題。實際應(yīng)用中,模擬信號鏈?zhǔn)窍到y(tǒng)中噪音的最主要來源,而DSP對噪音的貢獻(xiàn)遠(yuǎn)遠(yuǎn)低于這些模擬器件。
滿足系統(tǒng)性能的DSP位數(shù)
上面的分析是建立在-20dBFS平均水平和THX聽力配置情況下。盡管這是一個極限情況,考慮到dBFS/dB SPL轉(zhuǎn)換關(guān)系的變化,在設(shè)計時還要留出一些性能余量。因此,一個考慮周全的設(shè)計應(yīng)該使DSP的位數(shù)比理論位數(shù)大約多出兩位,即121dB使用6dB/位的配置,對應(yīng)著PCM輸出的20位動態(tài)范圍。
以上的分析與杜比公司的Dolby Digital設(shè)計方案的假設(shè)一致,該方案同樣是采用20位的精度。同時,實際的ADC/DAC也限制在20位精度的性能(《120dB),即使是DAT錄音也是采用20位的精度。所有的這些都驗證了上面的分析的正確性。
上述數(shù)據(jù)是基于最壞的情況,因為在實際情況下功率放大器、前置放大器和DAC產(chǎn)生的噪音量比DSP的性能對系統(tǒng)整體的性能影響更大。最好的功率放大器也僅僅能獲得109dB的信噪比,因為噪音能量在線性區(qū)域中可累加,這意味著一個輸出是121dB的20位DSP,僅僅會產(chǎn)生放大器6.66%的噪音。而如果揚聲器的性能也作為考慮因素,那么DSP產(chǎn)生的噪音就是1/6??揚聲器失真,這是可以完全忽略的。
上面的分析甚至沒有考慮編碼的失真、ADC或麥克風(fēng)產(chǎn)生的噪音,所有這些都是非常關(guān)鍵的。如果所有信號鏈都考慮到,很顯然20位的DSP已經(jīng)足夠用。僅僅用非常態(tài)正弦波測試,人為的合成精度超過20位的信號才能得到可測量的差別,并且這種差別實際上是人類聽覺不能感知的。
帶有“透明”音頻質(zhì)量的有損壓縮
心理-聲學(xué)壓縮設(shè)計是針對給定信號的有損壓縮,進(jìn)而了解在什么程度下不同的頻域/時域信號是可聽見或聽不見,以便相應(yīng)調(diào)整編碼過程,使引入的噪音降到聽覺閾值之下。基本的現(xiàn)象為信號中強音部分會掩蔽臨近弱音部分,理想的情況下,這樣的數(shù)據(jù)減少不會導(dǎo)致感覺到音質(zhì)的損失,這樣就引出“透明”音頻編碼或壓縮的概念。
這與簡單的SNR測量有根本的不同,同時更為復(fù)雜,因為它需要精確再現(xiàn)特殊信號中相關(guān)的可聽部分。換句話說,雖然SNR是不錯的確定編/解碼質(zhì)量的準(zhǔn)則,但它卻不合適用這個標(biāo)準(zhǔn)去判定能夠產(chǎn)生-140dB THD+N的DSP就一定比-130dB THD+N的好。因為心理-聲學(xué)壓縮設(shè)計是建立在人類聽覺閾值曲線基礎(chǔ)之上,上面的結(jié)論也就變得非常明顯,在這個閾值之下的信號不能被聽見。
關(guān)于獲得“透明”音頻壓縮的問題
實際的編/解碼輸出質(zhì)量的決定因素有如下幾點:
1. 使用的算法
2. 壓縮的比特率
3. 分析輸入信號中用到的心理-聲學(xué)模型
4. 瞬時分析架構(gòu)與轉(zhuǎn)換濾波器組
5. 位分配策略
在實現(xiàn)編碼/解碼過程中,上述的因素均與算法精度無關(guān),即使是使用無窮精度實現(xiàn),上面的因素同樣對音頻質(zhì)量起決定性影響。
基于上面討論的有損壓縮系統(tǒng),可以得出下面的結(jié)論:傳統(tǒng)的SNR、THD+N、瞬態(tài)誤差和相位誤差等測量方法,在比較不同實現(xiàn)方案的性能時都不再是最終的度量標(biāo)準(zhǔn),只能在鑒定和校驗系統(tǒng)性能時作為參考,不能用來對與心理-聲學(xué)驗證的約120dB性能的閾值有細(xì)微的差別的系統(tǒng)進(jìn)行評級。
DSP增值建議
通常20位DSP已經(jīng)能滿足系統(tǒng),而從心理-聲學(xué)角度16位就已足夠,對于一個給定的壓縮方案而言,一旦解碼器達(dá)到了一定的性能,單純增加DSP的精度就不會進(jìn)一步的提高系統(tǒng)性能。實際的DSP增值解決方案就變成了對解碼音頻程序的后期處理和它所提供的系統(tǒng)級特性。事實上,最終消費者還需要產(chǎn)品具有更多的附加特性,例如自動監(jiān)測、錯誤屏蔽和擁有提供虛擬音效的后期處理器等。
單從市場反映來看,采用32位DSP在概念上還是很成功,因為從數(shù)字上可以直觀感覺到性能的進(jìn)步。實際上,從整體性能和更多功能上來考慮是一種明顯的誤解,這種誤解就相當(dāng)于對PC機只比較CPU的主頻,而不考慮系統(tǒng)的整體性能一樣。
32位的DSP并不能真正有助于提高系統(tǒng)最終性能,它需要更大的內(nèi)存(比24位DSP多出大約33%)。同時,因為32×32MAC比24×24MAC慢,一個32位DSP核將始終比相應(yīng)的24位核的解碼器慢。就信噪比而言,實際應(yīng)用效果證明,通過優(yōu)化處理,24位DSP可以得到和32位DSP相同(甚至更高)的性能。
需要注意的是,上面討論僅僅基于基本的解碼器,32位DSP在后期處理上仍然存在某些優(yōu)勢。因此,如果前端使用高度優(yōu)化的24位DSP解碼引擎,后端處理器為一個32位DSP,這樣一個優(yōu)化的設(shè)計結(jié)合了兩者的優(yōu)勢是一種不錯的選擇,目前已經(jīng)有這樣的系統(tǒng)級芯片方案提供。
本文小結(jié)
在現(xiàn)實世界中利用心理-聲學(xué)來壓縮編碼時,SNR測試方法在比較系統(tǒng)性能上并不是合適的標(biāo)準(zhǔn)。而ITU PEAQ測試平臺方法則更適合測量可感知音頻的質(zhì)量。此外,當(dāng)我們在評估一個DSP解決方案時,還需要考慮到系統(tǒng)的錯誤屏蔽、自動檢測和后期處理的特性,以及系統(tǒng)的啟動響應(yīng)時間和批量延遲等。
影響AV接收系統(tǒng)解碼器質(zhì)量的因素并不全是DSP精度的問題。通過較強的DSP算法技巧和優(yōu)化,能使一個24位精度的性能超越32位DSP。然而,隨著制造工藝的不斷提高,32位的DSP將最終解決上述問題,使32位的解碼器更具成本和技術(shù)上的比較優(yōu)勢。
責(zé)任編輯:gt
評論
查看更多