2020-12-30 11:48:26 阅读(156)
为了找到最悲伤的一首歌,我分析了王力宏、周杰伦、林俊杰和潘玮柏的32万字歌词。这个项目受到了文章《我分析了42万字歌词,只是为了找出民谣歌手在唱什么》和下图的启发,让我更加确定了“不年轻”的残酷事实。说实话,我只认识上面一半的歌手,听过的歌也不那么可怜。大概只有《青春修炼手册》、《演员》、杰森翻唱的《街角的祝福》。对中国男歌手的理解应该停在初中。当时流行的是周杰伦、王力宏、林俊杰和潘玮柏——我们班的几个男生有“宗杰伦”、“温俊杰”、“鱼力宏”这样的绰号,因为他们经常唱他们的歌;我们宿舍在社会实践表演会上合唱了一首《枫树》。因为我这个跑调天王的存在,我们没有获得最佳歌曲节目奖;有一个学期,我在操场上捡了一个电池mp3,只有512mb。我们在电脑课上复制歌曲,然后每天晚上轮流听,听了很长时间;因为他们的歌很熟悉,所以有几个学生发展了一个坏爱好——改编歌词,经常变得非常粗俗,菊花残留这很普通,最粗俗的歌曲是——腋毛海。嗯,虽然有很多类似的记忆,但让我们停下来。毕竟,本文的主要目的是从数据分析的角度分析王力宏、周杰伦、林俊杰和潘玮柏的歌词。主要研究几个有趣的问题,比如:1。他们最积极的十首歌是什么?2.他们最负面情绪的十首歌是什么?3.总的来说,谁的歌词最悲伤?4.总的来说,谁的歌词最欢快!他们最喜欢的季节是什么?6.他们最常用“你”,“我”还是“她”?7.谁最会说“爱”字?当然,由于歌词和歌手之间存在一定程度的分歧,有些歌词不是歌手本身,但这项研究并不考虑这些问题。从另一个角度来看,这些歌曲是由歌手不断唱歌而闻名的,所以它们必须包含歌手自己的情感和认知,否则它们就不会唱火了,对吧?(突然觉得自己说的很有道理,嗯)数据来源于百度音乐。我用第三方工具pyspider写了一个爬虫,自动抓取了1000多个数据。说实话,从百度音乐中捕捉到的歌词数据格式并不是特别漂亮和凌乱。例如,在歌词的开头,歌手、作曲和作词的顺序是不同的。这让我想起了以前用酷狗听歌的时候,歌词都是云匹配的,好坏参半。许多歌词前面都会有一个QQ号,大概是制作这首歌词的人,有的甚至会写一两段,比如“XXX,你要知道我一直很爱你”之类的话,有点莫名其妙。然而,百度音乐是目前最好的选择,因为一些版权和爬虫抓取难度。最后,我得到的数据包括以下字段:专辑名album、歌手singer、歌词lyrics和歌名title部分共有32万个字符。由于有些歌曲缺乏歌词,我们不得不处理它们。数据清洗后,有效歌曲数量如下:然后开始今天的亮点-情感分析。在情感分析中,我使用了BosonNLP工具,可以直接在python中调用字符串进行情感分析。免费用户一天只能调用500次,但就够了(我注册了三四个号)。在BosonNLP工具中,情绪分析的结果由正面情绪和负面情绪两部分组成,加起来相当于1。在整体情感分析之前,我选择了一些歌曲来测试即将到来的工具。在下表sentiment栏中,左边的数字代表积极情绪点,右边的数字代表消极情绪点。第一个测试是周杰伦的“安静”,结果是绝对负面的,似乎很好:另一个“阳光御宅族”,结果是绝对积极的,符合预期:最后测试潘伟伯的“我告诉天空”,这首歌真的很悲伤,似乎工具可以正确识别:测试三个后我放心开始整体探索(实际上我也测试了很多),毕竟,人们卖这个工具,精度一定很高。最后,我得到了一个整体的结果。我发现林俊杰是四位情绪分数最高的歌手,其次是潘玮柏、王力宏和周杰伦。最后,我得到了一个整体的结果。我发现林俊杰是四位歌手中积极情绪分数最高的,其次是潘玮柏,王力宏是第三位,周杰伦是最低的。因为相互加1,消极情绪分数的排名恰恰相反。周杰伦的歌曲积极情绪最低,消极情绪可能有两个原因:1)他的许多歌词本身更悲伤2)周杰伦的歌曲总数比其他三首歌曲,他们的大部分歌曲属于情歌,大多数情歌非常悲伤,所以会降低积极情绪的分数。接下来,让我们来看看每位歌手最积极、最消极的十大金曲。王力宏王力宏十大“负面情绪”歌曲:周杰伦十大“负面情绪”歌曲:周杰伦十大“正面情绪”歌曲:林俊杰十大“负面情绪”歌曲:林俊杰十大“正面情绪”歌曲:潘玮柏十大“负面情绪”歌曲:潘玮柏十大“正面情绪”歌曲:基于以上榜单,我终于找到了最悲伤的歌曲《倒带》(虽然周杰伦只唱过倒带)歌曲查询地址:王力宏、周杰伦、林俊杰、潘玮柏的歌曲情感查询使用了金数据的一个功能。点击后,输入你想查的歌名,会得到相应的反馈。如图所示:在主要情感分析内容结束后,我也对歌词的用词和形象进行了一些探索。我拆分了每首歌的歌词,排除了停用词,并对剩下的单词进行了频率统计。你我还是她?我先分析一下“你”、“我”、“他/她”三个字。大多数歌曲主要是第一人称和第二人称。其中,王力宏歌词中第一人称出现率较高,潘玮柏歌词中第二人称出现率较高。相对而言,第三人称在周杰伦歌词中的比例相对较高。我们能推断出什么?王力宏是一个自我意识强、善于表达自己的人;潘玮柏善于与人沟通,会从对方的角度思考;周杰伦从旁观者的角度描述别人,有一种距离感(这是我的胡说八道)“爱”你有多深?在流行歌曲中,情歌占绝大多数,所以“爱”这个词的频率相对较高,我也做了一个统计数据。结果表明,在王力宏的所有歌曲中,“爱”出现的频率略高于其他三位男歌手,而周杰伦则是最低的。这也可能与他的“旁观者”角度有关。王力宏经常表达自己的爱,因为他经常用“我”这个词,所以他一想就解释清楚了。四个人最喜欢的季节?通过词频分析,周杰伦的歌词中关于秋天的形象最多,而王力宏更喜欢冬天和春天。林俊杰对夏天有着强烈的热爱,潘玮柏的歌词并不倾向。本项目的总结和展望主要从数据分析的角度探索了四位中国男歌手的歌词,分析了歌词的情感,找到了前十名的负面和积极的排名,并对几个单词进行了有趣的探索。这是我第一次接触中文文本分析,自然有很大的不足。起初,我想自己写一个情感分析模块,但因为如果我自己写,它将涉及许多问题,如情感词典、否定词和程度词权重。我尝试后得到的结果并不令人满意,我不小心找到了一个快速的工具,所以我放弃了自我建立的情感分析。希望以后有机会再试一次,用机器学习的方式做出自己的文本分析模型。感谢大家的留言,基本上每一条都看了,并根据大家的意见重新修改了内容。再次感谢您纠正本文的不足之处。另外,代码都放在我的github上,需要自取(不过这次notebook写的有点乱)。作为一个小白,希望能和大家多交流,互相学习!
以上就是关于数据分析帮我找到了最伤感的一首歌的相关介绍,更多数据分析帮我找到了最伤感的一首歌相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析帮我找到了最伤感的一首歌有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一