編者按:數據科學家Rosebud Anwuri使用R語言分析了告示牌百強單曲榜上的歌曲特征,以揭示過去60年來流行音樂的演變。
你從“年長者”那里最常聽到的關于現代流行樂的看法是什么?一般來說是這個:“你們的音樂太吵了,缺乏內容。”他們喜歡談論“古早”年代,有意義的歌曲,有靈魂的歌手,催人淚下的低音吉他。
這兩者差別很大。然而,需要進行一些數據分析才能得出一般結論。作為千禧一代和數據科學家,我對此很感興趣。“偉大”的音樂的標準真改變了那么多?是聲音、歌詞還是“消息”改變了?如果它們改變了,它們具體是如何改變的?
我將使用告示牌百強單曲榜(Billboard's Hot 100)和Spotify的API作為數據來源,仔細查看流行音樂在過去六十年來的變化,并找出現在的流行音樂和以前的不同之處。
我的方法
在本文中,我所說的“偉大音樂”指進入告示牌百強單曲榜的音樂。我在GitHub上找到了相應的數據集kevinschaich/billboard-top-100-lyrics。這一數據集中包含許多有趣的特征,例如情感(Sentiment)、迷霧指數(估計在第一遍閱讀時理解文本所需的正式教育年限)、單詞數、重復單詞/詞組數。 此外,Spotify的API提供了一個有趣的接口getaudiofeatures,其中提供了很多音樂特征,例如響度、樂器性(使用樂器的程度)、活力、現場性(現場是否有觀眾)、語音性、時長等。加上這些,我收集的1950年到2015年的告示牌百強單曲,總共有30項特征。
這些特征的描述可以在GitHub倉庫的README文件和Spotify的API文檔中查到,我也會在后文解釋其中的部分特征。
我最初決定在這個項目中使用Python,某種程度上說,我確實用了Python。在我數據收集的第一次迭代的時候,我使用了Python的pandas和spotipy這兩個庫。
然而,隨著項目的進行,我重新審視了我所用的方法,找到了一個更有趣的數據集。為此,我轉而使用R來完成這一項目,主要是因為R提供的tidyr::gather()函數(用pandas合并數據真是讓我心煩意亂)。
我用R和Python寫的代碼,以及我最終整理的數據集,均可通過GitHub訪問:RosebudAnwuri/TheArtandScienceofData/The Making of Great Music 和我的其他項目相比,我在收集數據方面花的時間很少,這是因為,和我的其他項目不同,有人花時間準備了可以直接使用的數據集。我之所以分享整理的數據集,同樣也是希望能為其他人提供方便。
讓我們開始吧!
1. 六十年來的主要變化
通過聚類算法,我們可以根據歌曲的特征找到音樂家及其作品的相似性/聚類。
我們找到了兩個藝術家聚類——弦樂愛好者(The String Lovers)和詩論家(The Poetics)。這兩個名稱的由來是影響聚類的最重要因素:樂器性(Instrumentalness)和語音性(Speechiness)。
弦樂愛好者的樂器性數值高,而語音性數值低。這意味著,這一階段的藝術家相比語言,更傾向于樂器。
詩論家正好與此相反。
大部分弦樂愛好者出現在上世紀90年代前的百強榜上。
大部分詩論家出現在上世紀90年代后的百強榜上。
上世紀90年代看起來是一個關鍵時期。如我們所見,弦樂愛好者和詩論家這兩個聚類在上世紀90年代幾乎平分秋色。
2. 樂器使用下降主要是因為搖滾樂隊不再流行
在上世紀60年代后期到21世紀早期,樂隊極為流行,數量和單獨的藝術家一樣多。
在21世紀之前,對每一年而言,樂隊數量越多,當年的平均樂器性的數值就越高。
然而,在21世紀以來,樂隊數對樂器的使用基本上毫無影響。
除了兩個離散值,從上圖我們可以看到,樂隊數和樂器使用沒什么關系。這很有趣,因為正如我之前提到過的,在21世紀早期,樂隊仍然很流行。
所以,發生了什么?
我相信你已經猜到了。樂隊的類型變化了。
在上世紀90年代之前,大約60%的樂隊是搖滾樂隊——典型的搖滾樂隊由一名主唱和一組樂器手組成。
然而,21世紀以來,搖滾樂隊的百分比顯著下降了,為流行樂隊(Pop bands)騰出了空間,流行樂隊通常完全由歌手組成,例如天命真女(Destiny's Child)、小野貓(Pussycat Dolls)、五美(Fifth Harmony)、單向(One Direction)。
3. 詩論家聚群的興盛也許部分歸因于嘻哈的興起
除了語音值的提升(用詞的增加),詩論家聚群使用復合詞的幾率是弦樂愛好者聚群的兩倍以上(例如,Jay-Z喜歡用opulence而不是wealth),用詞的音節數也更多。這讓我們馬上聯想到了一種音樂流派:嘻哈(Hip-Hop)。
我們看到,嘻哈在上圖的四項統計中均排第一,難怪嘻哈在上世紀90年代成為主流流行樂——和詩論家聚群的興盛相呼應。
4. 盡管音樂風格大變,過去六十年流行歌曲的主題始終是愛情
我使用主題建模算法得出了這一結論。顧名思義,該算法搜索給定文本的主題。
在我們的例子中,文本為告示牌百強單曲的歌詞。
讓我們看看主題是如何隨著年代而改變的:
乍看起來,主題和風格一樣,都在上世紀90年代發生了交替。然而,讓我們看看這兩個主題(Topic 1和Topic 2)的具體內容:
我們看到,這兩個主題其實大同小異。過去60年的百強單曲,大部分都是“Yeah, I love my baby”(耶!我愛我的寶貝!)
主要的差別在于,上世紀90年代之前的歌曲可能更“直接”一點,正如你在上圖中看到的“gonna”(將要)。而上世紀90年代之后的歌曲看起來要間接一點,用“wanna”(想要)取代了“gonna”(將要)。
比較“安靜”的流派在詩論家時代絕跡了
這多多少少確認了我們比以前更偏愛大聲的音樂。
各個流派的平均響度
五個最安靜的流派是——爵士(Jazz)、搖擺樂(Swing)、民謠(Folk)、藍調(Blues)、迪斯科(Disco)。
在詩論家時代,這些流派在百強榜上絕跡了,除了爵士樂還靠Norah Jones勉強存活。
這些意味著什么?
總結一下:
上世紀90年代是流行音樂極其重要的時期。
今日流行樂的形態,與搖滾樂隊的衰弱和嘻哈的興起有很大關系。
過去六十年來,愛情是流行樂永恒的主題,不過不同時期的音樂對這一主題的演繹有一些微妙的不同。
是的,現代藝術家可能更大聲,但這是因為我們有話要說 :)
獎勵邁克爾·杰克遜,盡管主要活躍于上世紀80年代,屬于詩論家聚群!他領先了時代!
結語
為了更好地演示這個項目的數據,我基于chart.js創建了一個面板
http://bit.ly/music-dashboard
現在這個面板有兩個標簽頁,第一個藝術家標簽頁(Artist Dashboard)可以讓你查看藝術家的歌曲特征的平均值。
第二個對比標簽頁(Comparison Dashboard)可以讓你比較2-3位藝術家的歌曲特征。
我所說的詩論家時代正是當前的時代,因此如果我們有2016年到2018年的數據(特別是陷阱音樂的興起),上面的有些見解可能會改變。不過,我認為大體上不會有太大的變動。
評測歌曲的“政治覺悟”(politically-aware)會很有意思。我可能會在Twitter上(@RosebudAnwuri)發布這一結果。
我在創建這個項目的時候獲得了很多樂趣,我希望你閱讀的時候也獲得了同樣的樂趣。
-
聚類算法
+關注
關注
2文章
118瀏覽量
12123 -
python
+關注
關注
56文章
4783瀏覽量
84473 -
數據集
+關注
關注
4文章
1205瀏覽量
24649
原文標題:如何通過數據分析揭示60年來流行樂的演變
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論