什么是數碼壓縮音頻格式
日常生活中我們能接觸到很多聲音信息。而記錄這些信息的方法也是多種多樣。最常見的就是磁帶、CD、MD、MP3。當然,還有其他比如LP、DVD-A等。這里主要介紹最為常見的MP3、MD和比較有對比性的APE格式。這三種格式都是數碼音頻格式,且都是壓縮格式。要了解這些數碼格式之前,我們還要了解什么是數碼信號。
“數碼/數字”這兩個詞如今使用是越來越普遍了。感覺只要什么東西和這兩個詞粘上關系就屬于“高科技”了。其實,所謂數碼最終形式只不過是“開關”而已。當然,和家里電源的開關不是很一樣。數碼是一種“電子開關”。它最終只會包含兩種信息,一個是“0”一個是“1”。之所以能表現出復雜的各種形式,是因為“電子開關”的速度相當驚人,每秒的“開關”(運算)速度是極快的,這種速度遠遠高于人能夠分辨的程度。
理解了數碼信號接下來理解一下“音頻數碼信號”。同樣的道理,數碼音頻信號的最終形式仍然是“0/1”構成的。它們可能是任何排列和組合,比如“0001110101”或者“11100001010”。當然,組合不同,其效果當然就不一樣。看到這里,應該有朋友注意到了。如果聲音是用“00101010”這樣的形式來記錄,那最終形態豈不就是一個“點”,也就是一個簡單的“開關”過程而已。聲音是連續不斷的,怎么能用“點”來記錄呢?這樣我們聽到的聲音不就應該是一段一段的嗎?道理不難理解。回家打開日光燈,你能發現日光燈在閃嗎?不能?其實日光燈的確是在不停閃爍的。看過動畫片吧,那些都是用一格一格的靜止的圖畫連接成的。一格一格的圖畫我們也可以簡單的理解為一個一個的“點”。人對自然界的感覺是有極限的,視覺和聽覺都是如此。動畫片能產生連貫的動作是因為這些“點”在人的視覺未能及時做出反映的情況下讓人產生的一種錯覺,除了機器,人是無法把這些“點”區分開的。聲音也是如此。如果聲音閃動的頻率很快,人也是無法分辨的。另外,由于聲音在進行“數字轉換模擬信號”(D/A轉換)的時候,解碼芯片已經將這些“點”用連貫的串在一起了,所以我們聽到的是非常連貫的聲音了。
要理解“數碼音頻”當然必不可少還要理解兩個東西!
1.速率。
什么是速率?當然我不能直接給你解釋說“速率就是比特率”。呵呵,對于這樣的解釋還不如不說的好。大家在用一些軟件播放聲音文件的時候應該注意到了一個小小的信息。比如“128Kbps”、“1411Kbps”...也有朋友知道了,通常情況下,”Kbps”前面的數字越大,聲音效果越好。比如CD就是“1411Kbps"。那么,到底這些數字代表什么呢?簡單的說來就是在每秒鐘時間內,有多少數據被轉換成聲音。之所以CD的音質比MP3好(別拿D版的CD來說哦),是因為CD在每一秒內的信息比MP3多。比如,128Kbps的MP3文件相比1411Kbps的CD文件,其每秒被轉換的數據量,MP3比CD少了近12倍。同樣的一首歌曲,CD聽來就要細膩得多(當然人群中有這么一群號稱“木耳”的人可能覺得效果是一樣的)MP3用較少的數據表達相同的內容,其詳細程度當然就不如CD了。這里可以把CD理解為一篇美文,而MP3就相當于段落總結。兩者都能讓人理解其主要內容,不過要想了解文章的美妙只看段落總結是不行的。至于MP3的原理后面會說到。
2.采樣率。
采樣率也是很常見的一個詞語。具體表現形式為“XXHZ”,其中“XX”是一個具體數字。比如“44100HZ”,“32000HZ”等。采樣率這個詞從字面意思來理解應該不難。之前已經說過了,數碼音頻文件是由很多個“點”來組成的,那么采樣率其實就是采集這些“點”的一個“數量”標準。很顯然“44100HZ”比“32000HZ”的采樣率要高,所以單位時間內(1秒)搜集到的點就更多。單位時間的點越多聲音的信息也就越完善,當然也就更接近于真實。所以,如果在保證速率相同的條件下,“44100HZ”的文件要好于“32000HZ”。(不是絕對的,原因后面會說到)
了解到以上“知識”之后,我們就可以進一步來了解各種音頻格式了。這里,我不能把每一種格式都一一介紹。只取了幾個比較有代表性的格式來說明一下。其中CD只是作為對比格式粗略說明。
CDDA(Compact Disc Digital Audio):
不要變了一個稱呼就不知道這是什么格式了,這就是大家最熟悉的“CD”格式的全稱。說到CD,種類有不少。最為常見的有“HDCD”(微軟)“SACD”(索尼)“XRCD”(JVC),不要被這些字母搞暈了。總的說來就是“CD”,只是運用的技術不同。有些需要專用的解碼器才能達到最優質的效果,這里就不多說到底這些格式之間有哪些差異了。
CD是大家最容易獲取到的音質最好的音頻文件之一。通常CD采樣都是“44100HZ”而速率是“1411Kbps”。由于CD的精度已經非常高,所以,我們稱這種格式為“無損音頻格式”。CD是由荷蘭“飛利普”和日本“索尼”共同制定的格式。
MP3(MPEG
沒想到MP3的名字有這么長吧~~
1987年德國Fraunhofer研究院研制成功了一種有損壓縮音頻格式,1989年取得了專利。MP3剛出來并沒有引起人們的注意,在當初年代,MP3可以說是毫無競爭力。因為它本身會對音頻文件造成過多的損壞,所以,當時是不能被人們所接受的。那個時候的MP3技術也不成熟,聽MP3還不如買盤磁帶聽著舒服。直到后來網絡的發展,讓人們意識到MP3這種格式的方便性。于是MP3由于互聯網的關系迅速在全世界蔓延開了。如今已經是家喻戶曉的東西了。
早期的MP3都是固定速率編碼。后來格式進一步改善,之后出現可變比特率。這種方式相比單純的固碼率要先進得多。它能對聲音進行進一步的分析。能將聲音中某些需要加強的地方采用高速率編碼,而某些聲音簡單一些的地方使用低速率編碼。這樣一來,MP3文件在播放的時候速率就不固定了。這種做法既能節約有效空間又能達到更優秀的音質。
MP3壓縮原理運用到了“心理聲學數據儲存”。簡單的說,就是丟棄一些人耳不易或者不能察覺到的信號。比如刪除超高頻和超低頻的聲音,保留主要的一些部分。也利用到了人耳的“屏蔽效應”(簡單的說就是當兩個聲音同時響起的時候,如果其中一個聲音音量大過另外一個聲音很多,那么另外一個聲音就會完全被第一個聲音所掩蓋,人就聽不到另外一個聲音了。比如在極其吵鬧的“的吧”,由于音響聲音非常大,所以用平時的聲音說話根本就聽不見。另外,低頻的聲音比較容易屏蔽高頻聲音,而高頻聲音卻難屏蔽低頻),所以,MP3文件能在比CD小很多的情況下仍然有不錯的音質。
ATRAC:
MD大家應該多少都有一些了解,MD所用格式就是ATRAC。1991年,索尼開發出了ATRAC技術。同時采用了MD碟來儲存這種格式。從時間上來看,MP3的發展時間要比ATRAC要早,不過早期MP3并沒有得到人們的重視,所以發展較晚。
MD被索尼定義為“隨時隨地享受音樂”。最初,索尼大勢宣傳ATRAC屬于“無損壓縮”。不過,索尼的這一種做法遭到了無數“金耳朵”的指責。有相當一部分人能夠聽出ATRAC與CD之間的差異。如今,索尼意識到群眾的耳朵是“金子”做的,于是,取消掉了這種說法。
ATRAC格式演變到現在已經進化了N次了。如今這種格式可以說已經比較成熟了。它的目的是在壓縮聲音文件的同時盡量取得更優質的音質效果。其原理和MP3類似,不過算法比MP3更先進。所以ATRAC在相同速率的情況下(默認44100HZ采樣率)音質優于MP3。ATRAC格式屬于固定速率編碼。
APE:
APE是Monkey's Audio提供的一種無損壓縮格式。這個才是真正意義上的無損格式。
APE文件需要專用的播放軟件或者安裝有APE格式插件的播放器才能播放。對于APE的歷史我了解的不多。不過相信在之后的時間里,這種格式能被更多人所使用,其相關數據也會被更多人所了解。
APE格式不同于MP3和ATRAC。它的目的并不是在壓縮的前提下盡量保證音質,而是絕對的完整的保證音質。APE格式的壓縮比不大,如果采用最高壓縮則可以減小到原文件的3倍-4倍不等。同樣大的兩個聲音文件APE可能壓縮出來的大小不一樣。很簡單的道理,APE并不是采用的固定速率進行壓縮的。在回放APE文件的時候能很清楚的看到文件的速率是在不停的變化著的。由此可見,可變速率的編碼方式在保證音質方面是非常實用的技術。
有損與有損、有損與無損之間的差異:
之前說到了ATRAC的音質在相同速率的條件下要好于MP3。為什么相同的速率相同的采樣率音質卻不相同呢?這個當然和文件本身的計算方式有直接的關系。MP3在很多人眼中有點“暴力”傾向。因為MP3在壓縮過程中往往遺漏掉很多細節,抓不住重點部分,對音質影響很關鍵。
大家知道,采樣率是用來采集點數量的標準。同是44100HZ的CD文件其速率是1411Kbps,而MP3可以減少到128Kbps(MP3標準格式)甚至更少。也就是說,MP3要在“點”的數量相同的條件下,用更少的信息去記錄這些點的關系。MP3為了減小文件體積,不得不從1411Kbps的信息當中刪除1000多的信息量,而被刪除的這1000多的信息量當中卻記錄著N個“點”。MP3刪除了這些信息也就意味著刪除了這些信息當中的N個“點”。那么,MP3在回放的時候怎么還能以44100HZ的采樣率播放呢?這里運用到的一個技術就是插值算法。
舉一個簡單的例子,假如聲音信號里面有1、2、3、4、5、6、7、8、9、0這10個點。如果MP3刪除了有關2、3、5、6、8、9的數據,在回放的時候,為了保證還有這么多的“點”,就要插入一些數據來填充這些漏洞。所以,經過MP3解碼之后得到的數據可能就是1、②、③、4、⑤、⑥、7、⑧、⑨、0。雖然“點”的數量還原了,不過丟失的點卻是“算”不回來的,只有靠相近的一些“點”來填補空缺。這樣的做法雖然保證了“點”的數量卻改變了“點”的一些性質,所以從根本上就對音質起了破壞作用。
之前提到ATRAC格式在相同速率的條件下其效果要優于MP3。原理在于ATRAC格式比MP3格式更“聰明”一些。雖然壓縮的基本原理都差不多,不過ATRAC格式能更準確的抓住重要的信息。ATRAC格式能更清楚的分辨哪些“點”是更重要的“點”,是需要保留的信息。
同樣舉例說明一下。假如有10個點:1、2、3、4、5、6、7、8、9、0 其中2、4、6、8為相對重要的“點”。MP3結果則還是同上面一樣直接丟失2、3、5、6、8、9而得到1、②、③、4、⑤、⑥、7、⑧、⑨、0 的形式。ATRAC可能就完全不同,ATRAC能更多的抓住這些“點”。ATRAC還原出來的點就可能是①、2、③、④、5、⑥、⑦、8、⑨、0 由此可見ATRAC格式在刪除信息的時候能夠更多的保留一些重要信息。因此聲音的還原度比MP3高。實際聽感也是如此,如今132Kbps的ATRAC格式就已經不比256Kbps的MP3格式音質差,甚至還更好。(音質問題屬于主觀因素,這里只做參考)
APE是一種比較優秀的壓縮模式。它采用的技術與MP3和ATRAC完全不同。APE是真正意義上能做到“無損”的格式。要說到APE的算法那就有點復雜了,非理科人材可能根本看不懂。如何去理解呢?其實這里有一個現成的例子!人人電腦上都應該有的一個軟件“WIN RAR”,對于這個軟件大家并不陌生。這是一個文件壓縮軟件。它的目的是讓文件通過壓縮之后體積減小,而在解壓縮的時候能100%還原原文件信息。當然,聲音文件也可以通過“WIN RAR”來壓縮。但是“WIN RAR”對聲音的壓縮比并不高。APE壓縮方式類似于“WIN RAR”,不同的是APE是專用做對聲音壓縮的格式。它能比“WIN RAR”更快而且壓縮比更高。
做一個簡單的實驗。
同樣的一個WAV(無損格式)文件,其所占容量是47.4MB。用“WIN RAR”最高壓縮后文件是25.5MB,而使用APE最高壓縮之后是15.6MB。雖然壓縮比不一樣,但是解壓縮之后所還原的WAV文件卻是和原文件一模一樣。(利用2進制對比)這是保證音質的關鍵。
APE壓縮就好比家里的棉被又松又大不好收拾。疊好了裝進塑料帶然后抽空里面的空氣可以減小很大一部分體積。而且絕對不會損壞棉被本身,還原后還是和之前一樣。MP3和ATRAC就好比把棉被里面的棉絮抽出來扔掉了,體積可以縮小到更小的程度。但是要用的時候由于扔掉的棉絮找不回來就只能隨便找些棉絮塞進去。棉被還是棉被,表面上看好象還是那樣,但是根本早已改變。
那么是否高速率(采樣率相同)的聲音文件就一定比低速率的要好呢?
這一點是不確定的!速率只代表信息的多少并不能代表信息的正確性。就好比上面所說ATRAC格式和MP3格式的差異一樣。另外再舉一個簡單的例子。把一段64Kbps的MP3刻錄成CD,速率一下子就從64Kbps升到了1411Kbps。速率的確上去了,不過音質卻只有64Kbps。原理很簡單。64Kbps的MP3文件已經把很多信息丟掉了,即便速率上去了但是彌補進來的信息就猶如上面所說的填棉絮的方法,和之前的信息已經完全不同。這也是如今D版CD音質下降的主要原因之一。如今D版CD有相當多一部分都是直接用MP3轉過來的。音質效果=MP3,這種D版是一種極其讓人討厭的東西,所以我有好久都沒買D版碟了。
有關音頻文件的壓縮損耗也會造成速率相同音質不同的現象。
有損壓縮格式會在壓縮的時候丟失部分信息,所以應該盡量減少壓縮次數。舉一個例子:
CD轉MP3分兩種轉法。1.先把CD轉成320Kbps,然后轉成256Kbps,最后轉成128Kbps。2.直接把CD轉為128Kbps。如果你可以做這樣一個實驗,那通過第一種方式得到的文件其效果甚至不如96Kbps的文件。所以在壓縮文件的時候盡量做到一次到位,多次壓縮會使得數據丟失更加嚴重。
看完以上內容相信大家應該對數碼音頻格式有一定的了解。對于文章中如果出現的不正確的比喻或者觀點還請各位提出來。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
相關閱讀:
( 發表人:admin )