不同平均數的比較;圖片來源:維基百科
大概是最常見的數據分析任務
你有一組數字。你希望用更少的數字概括它們,最好是只用一個數字。因此,你將這組數字加起來,然后除以數字的數目。哇,你得到了“平均數”,沒錯吧?
也許。
和流行的觀點不同,從數學上說,平均數通常不是一樣東西。意思是:沒有可以恰當地稱作“平均數”的數學運算。我們通常所說的平均數是“算術平均數”,具體計算過程如前所述。我們稱其為“平均數”,是因為我們期望它符合“平均數”的口頭定義:一個典型的、正態的中間值。我們常常是對的,但正確的頻率比我們想象的要低。
概述統計量
算術平均數僅僅是得到“平均”值的許多方法的其中之一。技術一點地說,這些屬于概述統計量、集中趨勢測度、位置測度。
中位數大概是第二出名的概述統計量。由于中位數是數據集中間的值,因此常常比均值更平均。我這里不討論中位數,不過在許多情形下,算術平均數被濫用在中位數更合適的地方。更多關于中位數的內容,可以參考下面三篇文章:
https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/
http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/
https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a
本文將重點討論知名度相對較低的幾何平均數和調和平均數。
畢達哥拉斯平均數
平方平均數和畢達哥拉斯平均數;圖片來源:維基百科
算術平均數是3種畢達哥拉斯平均數之一(名稱源自研究這些性質的畢達哥拉斯及其學派)。另外兩種畢達哥拉斯平均數是幾何平均數和調和平均數。
為了了解它們的基本功能,讓我們從熟悉的算術平均數開始。
算術平均數
算術平均數的名字取得很合適:我們累加數據集中的所有數字,接著除以數據集包含的數字數目。
不過,加法沒有什么特別的。它只不過是一種簡單的數學運算。在數字之間存在可加性(additive)關系的數據集上,算術平均數效果很好。這樣的關系經常被稱為線性,因為如果我們將所有數字按升序或降序排列,數字傾向于落在一根直線上。一個簡單而理想化的例子是公差為3的等差數列:
然而,不是所有的數據集都適宜用這種關系描述的。有些數據集內部存在乘法或指數關系,例如,公比為3的等比數列:
我們看到,算術平均數(156)并不特別接近我們的數據集中的大多數數字。實際上,它是中位數(27)的5倍。
將數據繪制在一根數軸上,能夠更明顯地看到這一扭曲。
所以,我們做什么?
引入……
幾何平均數
由于數據集中數字之間的關系是相乘,我們通過乘法和取方根(總共有幾個數字就開幾次方根)來得到幾何平均數。
我們可以看到,在等比數列上,幾何平均數更能代表數據集的中間值。事實上,在這個等比數列數據集上,它等于中位數。
從單根數軸上也可以看到這一點:
幾何平均數的真實世界應用
實際上,有很多實際場景適合使用幾何平均數,因為類似相乘的關系在真實世界中很常見。
一個經典的例子是復利問題。
假設我們有一筆5年期存款,本金為$100,000,每年的利率是變動的:
年利率:1%、9%、6%、2%、15%
我們想要找到平均年利率,并據此計算5年后本金和利息的總和。我們嘗試“平均”這些利率:
(.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%
然后我們將平均利率代入復利計算公式:
100000 * (1.066 ** 5 - 1) + 100000 = 137653.11
比較以下不使用平均利率,直接計算的結果:
100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70
可以看到,我們的簡便計算方法誤差接近$1,000。
我們犯了一個常見的錯誤:我們將加法操作應用于相乘過程,得到了不精確的結果。
現在,讓我們試試幾何平均數:
1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042
1.368837042開5次方根 = 1.064805657
將幾何平均數代入復利計算公式:
100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70
這個數字正好等于我們逐年計算所得的結果。
我們使用了合適的平均數,并得到了正確的結果。
幾何平均數還適合什么場景呢?
幾何平均數的一個很酷的特性是,你可以對尺度完全不同的數字取平均數。
例如,假設我們想比較兩間咖啡店來源不同的在線評價。問題在于,來源一的評價使用五星制,而來源二的評分評價使用百分制:
咖啡店A
來源一:4.5
來源二:68
咖啡店B
來源一:3
來源二:75
如果我們直接根據原始分值計算算術平均數:
咖啡店 A = (4.5 + 68) / 2 = 36.25
咖啡店 B = (3 + 75) / 2 = 39
根據上面的數據,我們得出結論咖啡店B是贏家。
如果我們對數字有一點敏感性,我們會知道在應用算術平均數得到精確的結果之前,我們首先需要標準化(normalize)數據集中的值至同一尺度。
所以,我們將來源一中的評價乘以20,將其從五星尺度拉伸到來源二的百分制尺度:
# 咖啡店A
4.6 * 20 = 90
(90 + 68) / 2 = 79
# 咖啡店B
3 * 20 = 60
(60 + 75) / 2 = 67.5
我們發現,其實咖啡店A才是贏家。
然而,幾何平均數,允許我們在不考慮尺度問題的前提下得到一樣的結論:
咖啡店A = (4.5 * 68) 的平方根 = 17.5
咖啡店B = (3 * 75) 的平方根 = 15
算術平均數被尺度較大的數字支配了,以至于得出了錯誤的結果。這是因為算術平均數期望數字間的加法關系,而沒有考慮尺度和比例問題。所以需要在應用算術平均數之前將數字轉換為同一尺度。
另一方面,幾何平均數,很容易就能處理比例問題,因為它本質上是乘法關系。這是一個極為有用的性質,但注意我們損失了什么:我們不再具有可解釋的尺度了。在這樣的情況下,幾何平均數其實是無單位的(unitless)。
例如,以上的幾何平均數既不意味著百分制中的17.5分,也不意味著五星制中的15星。它們不過是無單位的數字,互相之間比例一致(技術上說,它們的尺度是原尺度5 & 100的幾何平均數,也就是22.361)。不過,如果我們只需比較兩間咖啡店評價的高低,那么這不會成為一個問題。
幾何平均數回顧
幾何平均數對值相乘,而不是相加,接著取n次方根,而不是除以n。
它基本上是在說:如果我們的數據集中的數字都是一樣的,那么這個數字應該是什么,才能得到和實際數據集一樣的乘積?
這使它非常適合描述相乘關系,例如比率,即使這些比率的尺度不同。(因此,它經常用來計算財經指數和其他指數。)
缺點:應用幾何平均數時,可能會丟失有意義的尺度和單位。另外,它對離散值的不敏感性可能會遮蔽可能具有較大影響的大數值。
和生活中的大多數事情一樣,極少有牢不可破的規則說必須使用幾何平均數(復利等少數情形除外)。有一些啟發式的規則和經驗規則,但無疑需要判斷力和科學的懷疑,才能應用合理的經驗。
在最后的總結中我們將繼續討論這些,不過現在讓我們引入最后一種畢達哥拉斯平均數……
調和平均數
算術平均數需要加法,幾何平均數則利用乘法,調和平均數使用倒數。
我們可以用語言描述調和平均數:數據集的倒數的算術平均數的倒數。
聽起來當中包含很多倒數,但實際上不過是一些簡單的步驟:
對數據集中的所有數字取倒數
找到這些倒數的算術平均數
對上一步所得取倒數
源自維基百科的一個簡單例子:1、4、4的調和平均數是2:
注意,由于0沒有倒數,因此調和平均數和幾何平均數一樣,無法處理包含0的數據集。
好,我們已經明白數學部分如何工作了。不過調和平均數適用于哪些場景呢?
調和平均數的現實世界應用
為了回答上面的問題,我們需要回答:倒數適用于哪些場景?
由于倒數和除法類似,不過是偽裝的乘法(乘法不過是偽裝的加法),我們意識到:倒數幫助我們更方便地除以分數。
例如,5 ÷ 3/7等于多少?如果你還記得初等數學,你大概會將5乘以7/3(3/7的倒數)。
不過有一個等價的方法,將5和3/7縮放至共同的分母:
5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667
類似之前使用幾何平均數作為快捷路徑,在未標準化的情況下找到不同尺度評分的相加算術平均數的關系,調和平均數幫助我們在不操心共同分母的情況下找到乘/除關系。
因此,調和平均數很自然地成為幾何平均數之上的另一層乘/除。因此,它有助于處理包含長度或周期不同的比率的數據集。
(你可能在想:“等一下,我原以為幾何平均數用在平均利率和不同尺度的比率上!”你想的沒錯。你也不是第一個為此感到困惑的人。我自己寫下下面的內容正是為了厘清我自己的思考和理解。我希望下面的例子讓這個主題更清楚了,在文章后面的總結部分也會回顧所有的區別。)
平均速度
現實世界中,使用調和平均數的經典例子是以不同的速度通過物理空間。
考慮一次去便利店并返回的行程:
去程速度為30 mph
返程時交通有一些擁堵,所以速度為10 mph
去程和返程走的是同一路線,也就是說距離一樣(5 miles)
整個行程的平均速度是多少?
同樣,我們可以不假思索地直接應用30 mph和10 mph的算術平均數,然后自豪地宣布結果是20 mph。
但是再想一想:由于你在一個方向上的速度較高,因此你更快地完成了去程的5 miles,在那個速度上花了整個行程中更少的時間,所以整個行程期間你的平均速度不會是30 mph和10 mph的中點,它應該更接近10 mph,因為你更多的時間是以10 mph的速度行駛。
為了正確地應用算術平均數,我們需要判定以每種速率行駛所花的時間,然后以適當的權重加權算術平均數的計算:
去程:5 / (30/60) = 10 minutes
返程:5 / (10/60) = 30 minutes
總行程:10 + 30 = 40 minutes
加權算術平均數:(30 * 10/40) + (10 * 30/40) = 15 mph
所以,我們看到,真正的平均速度是15 mph,比使用未加權的算術平均數計算所得低了5 mph(或者25%)。
你大概猜到了我們下面要做什么……
讓我們試著使用調和平均數:
2 / (1/30 + 1/10) = 15
真正的行程平均速度,自動根據在每個方向上使用的時間進行調整,是15 mph!
有一些地方需要注意:
可以直接應用調和平均數的前提是不同速度行駛的總距離是相等的。如果距離不同,我們需要使用加權調和平均數,或加權算術平均數。
當距離不等時,算術平均數仍然以不同速度行駛的時間作為加權,而調和平均數則以不同速度行駛的距離作為加權(因為通過取倒數,已經隱式地考慮了不同速度的時間比例)。
畢達哥拉斯平均數大部分的復雜性和麻煩源于比率的本質以及我們對比率的哪方面更感興趣。例如,算術平均數總是用分母的單位表示。在行程問題中,比率是每小時的英里數,因此,算術平均數給出的結果是以分母(某種意義上隱藏的)單位表示,小時:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我們在每個方向上所花的時間是一樣的,那么這個結果會是精確的。然而,我們知道,在每個方向上所花的時間并不一樣。相反,調和平均數通過取倒數翻轉這些比率,將我們實際感興趣的數字放入分母,接著取算術平均數,并再次翻轉,給出我們要求的平均速度。(可以使用財經的P/E率更深入地探討這一問題,請參閱論文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)
幾何平均數適用于復利問題的原因是,利率的周期是相等的:每種利率一年。如果周期是可變的,也就是說每種利率的持續時間不同,那么我們同樣需要使用某種權重。
幾何平均數可以處理相乘關系,例如復利問題和不同評分尺度上的比率,而調和平均數則通過神奇的倒數容納了另一層次的乘/除關系,例如可變周期或長度。
類似復利問題和幾何平均數,這是一個準確、客觀正確的調和平均數的應用案例。不過,事情并不總是如此清晰。有其他準確的、可以在數學上論證的調和平均數的應用,包括物理、財經、水文學,甚至(源自傳統)棒球統計。和數據科學關系更密切的:調和平均數經常用在評估機器學習模型的準確率和召回中。但是,在更多的情況下,調和平均數的應用需要判斷力,需要你對數據和手頭問題的靈活理解。
總結
1. 3種畢達哥拉斯平均數密切相關
例如,我們已經看到:
不同尺度評分的幾何平均數有時保留了這些值標準化至同一尺度后的算術平均數的次序。
調和平均數等價于行程速度的加權算術平均數(權重為相對行程時間)
在下篇中,我們將看到,數據集的幾何平均數等價于數據集中每個數字的對數的算術平均數。所以,正如調和平均數不過是算術平均數加上一些倒數變換,幾何平均數不過是算術平均數加上對數變換。
2. 畢達哥拉斯平均數遵循嚴格的次序
根據相應的公式,調和平均數總是小于幾何平均數,幾何平均數總是小于算術平均數。
這三種平均數是彼此接近還是互相遠離,取決于數據的分布。以上規則唯一的例外是,在數據集中所有數字相等的極端情形下,3種平均數同樣相等。也就是說,以下不等關系成立:
調和平均數 ≤ 幾何平均數 ≤ 算術平均數
從本節開頭的畢達哥拉斯平均數的幾何描述中也能看到這一點。
認識到這一次序關系有助于理解何時應用哪種平均數,以及不同平均數對結果的影響。
讓我們回顧之前的相加和相乘數據集,這次我們將畫出所有三種平均數:
很明顯,幾何平均數和調和平均數看起來要比這一線性、相加數據集的中間低不少。這是因為這兩種平均數對較小的數字而不是較大的數字更敏感(讓它們相對而言對較大的離散值不敏感)。
這里,幾何平均數準確地位于數據集的中點,而調和平均數則向低端扭曲,算術平均數則受較大的離散值的影響,向高端扭曲。
描繪一個集中趨勢用調和平均數表達最佳的數據集并不容易,因此我將直接轉入下一部分……
3. 強硬的規則,一些啟發式的方法,和許多判斷的空間
不同尺度的比率:使用幾何平均數(或在標準化的數據上應用算術平均數)。
周期一致的復合比率:使用幾何平均數。
不同周期或長度上的比率:使用調和平均數(或加權平均數)。
了解比率的哪一邊你更感興趣,以決定應用哪種平均數。算術平均數是以分母的單位表達的(顯式或隱式)。調和平均數讓你可以倒置比率,讓結果以原本分子的單位表達。
如果數據體現出相加結構:算術平均數通常是安全的選擇。
如果數據體現出相乘結構和/或包含較大的離散值:幾何平均數或調和平均數可能更合適(中位數可能也比較合適)。
任何決定都有缺陷和折衷:
使用幾何平均數可能損失有意義的尺度或單位。
包含0的數據集無法應用幾何平均數或調和平均數,包含負數的數據集意味著無法應用幾何平均數。
使用幾何平均數或調和平均數時,受眾可能不熟悉這兩個概念。
經常,更實用、更易解釋的方法是:
存在較大的離散值時直接使用中位數
移除離散值
使用加權算術平均數或統計學變換,而不是難懂的畢達哥拉斯平均數
統計計算語言R內置矩陣求逆和三次樣條插值的方法,卻沒有內置計算簡單的幾何平均數或調和平均數的函數,這可能多少暗示了這兩種平均數狹窄的使用場景。(不過Google sheets和Excel倒是包含這兩種平均數。)
如果要用一句話概括整篇文章,那么:
理解數據的本質,仔細思考你用來描述數據的概述統計量,才能避免用錯平均數的風險。
請留言分享你使用這兩種不那么常見的畢達哥拉斯平均數的案例和經歷(以及你發現的本文的錯誤)。
-
統計
+關注
關注
1文章
19瀏覽量
13496 -
算術
+關注
關注
0文章
12瀏覽量
7370 -
數據分析
+關注
關注
2文章
1429瀏覽量
34015
原文標題:平均而言,你用的是錯誤的平均數(上):幾何平均數和調和平均數
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論