设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 applewat 娱乐 服务
当前位置: 首页 > 大数据 > 正文

数盟说 | 用文本挖掘找出50年以来最流行的音乐

发布时间:2021-05-14 00:03 所属栏目:[大数据] 来源:网络整理
导读:【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】 本文为数盟原创译文,转载请注明出处,并务必保留本文底部二维码。 从1958年开始每年十二月Billboard都会发布一个年

【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】


本文为数盟原创译文,转载请注明出处,并务必保留本文底部二维码。


从1958年开始每年十二月Billboard都会发布一个年度百首流行曲金榜。这个图表涵盖了美国全年的流行单曲表现。

通过R语言,我已经把50年的(1965-2015)?年度流行金榜百首的歌词合并到一个数据集进行分析。你可以在我的Github库中下载该数据集。


获取歌词

用于分析的歌曲是来自于对维基百科中每个Billboard年度流行金榜百首(如2014年)的抓取。这是整个年度的图表,而不是每周的排名。许多艺术家做过周图表,但没有做过年度图表。年度图表是通过周Billboard的逆点系统来进行计算的。

我使用XML和RCurl从每个维基百科词条中抓取歌曲和艺术家的名字。然后我用这个列表从有可预见的URL字符串的网站上抓取歌词(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一个站点抓取失败了,就转向第二个,依此类推。大约78.9%的歌词是从metrolyics.com上抓取的,15.7%是从songlyrics.com上,1.8%是从lyricsmode.com上。另外大约3.6%(187/5100)没有找到。

该数据集对5100个观测对象根据歌曲、艺术家、年份、歌词和来源进行了1-100的特征等级划分。归功于维基百科艺术家特征是相当标准化的,但当涉及到与艺术家的合作时就存在一些问题。如果在抓取的歌词中存在错误,如拼写错误或另外的像把“night”写成了“nite”,这些并没有得到纠正。


管理数据

最常见的歌词

数盟说 | 用文本挖掘找出50年以来最流行的音乐

58%一单首现象

出现在年度图表上的1989名中的1154名艺术家(约占58%)都仅仅只有一首知名曲目。右边的数据是通过把艺术家的歌曲进行汇总而计算出来的;另外把“精选”艺术家都单独列出来。这意味着只有位列第一的艺术家才能得到对其歌曲的完全信任。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

马拉松vs冲刺生涯

我们惊讶地发现一些位居表格顶端的艺术家反而有相对较短的职业生涯(Rihanna在10年时间内有28个入表的歌曲),所以我观察了一下歌手职业生涯的长度和入榜歌曲的平均数量之间的关系,并发现这两者之间是呈负相关的。职业生涯跨度每增加一年,每年歌曲入榜平均数量就会减少94%。

*数据集不包括1964年披头士乐队第一年入选年度榜单,所以实际上他们的职业生涯跨度是12年。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

数盟说 | 用文本挖掘找出50年以来最流行的音乐


随时间增长歌词的变化

词汇和曲长不断增长

数据集中的歌曲平均总长332个单词,114种词汇。平均字数(包括种类和数量)随着时间的推移不断增加。字数的变化量也有所增加,可能是由于随着时间的推移进入榜单排名的歌曲体裁更加多样。可变方差通过字数统计的转换日志进行校正,并和两个线性模型拟合,最后产生总系数0.01873和单词种类系数0.0136。在每年的增加量上,总字数平均每年增加1.87%,字数种类增加1.36%。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

这个增长可能是由于较长的歌曲——自从20世纪60年代以来歌曲逐渐从2.5分钟增长至4分钟,这时期快节奏的音乐风格和歌曲特征盛行,超过了对某个艺术家的关注。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

从Boogie到Bitch:十年间最具特色的歌词

利用我先前的职位(Text Mining South Park)中列出的对数似然统计,我能够识别在特定十年内最有特色的歌词。总之,在有较高的对数似然语料库中,单词会比预期出现的频率更高。 25个最有力的结果(总数>81; P <0.001下显著度10.83)。

很明显,个别歌曲是在反复重复从而影响了结果。这反而引起了对数似然在歌词上的适用性方面的一个很好的议题——一首高度重复的歌曲会扭转这个结果吗?

数盟说 | 用文本挖掘找出50年以来最流行的音乐

注意事项

广告牌年终热门100首排行榜政策的变化

流行歌曲内容的一般变化至少可以部分归因于随着时间的推移百强排名方法的演变。广告牌通过发现和购买音乐的方法改变其排名政策以保持其时代相关性。

1958年至1991年:由单曲销量和AirPlay的比例确定排名

1991年:广告牌开始收集数字销售数据(使用SoundScan的),以便更快更准确的制作图表

1998年:广告牌要求歌曲必须作为单曲发行才能出现在图表上

2005:包括数字下载(如iTunes)

2012:流媒体点播服务(Spotify,狂想曲)收录

2013:包括视频形式(YouTube)

现在的消费者比以往在单曲榜中更多的发言权。在此之前的2005年,消费者可以通过购买单曲或在电台上点歌来影响图表排名。现在,消费者可以通过观看视频、下载单曲或购买物理拷贝版本来对歌曲的流行度做出影响。


了解更多,请点击“阅读原文”

投稿、合作请发送邮件至contact@dataunion.org

数盟说 | 用文本挖掘找出50年以来最流行的音乐

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读