2020-12-30 11:45:11 阅读(243)
当“你有frestyle吗?”风靡全网后,你从未听说过的rapper像加拿大土拨鼠播报的春天一样出现了洞口——你突然觉得,妈的,hiphop真的想成为主流吗?我努力改天靠这个吃饭吗?然后,作为一个对HipHop一无所知的吃瓜者,尤其是对中国HipHop一无所知的人,你自然会好奇以下三个问题:HipHop在唱什么?各国各地的Rapper想说什么就唱什么?如果我想成为一名Rapper,我应该如何写词来跟上潮流而不离题太远?所以我用Python抓住了美国、英国、台湾、香港和中国大陆的6000万首歌词,包括600万首歌词。我做了一些数据分析,目的是给你想要的答案。我的数据源选择了虾音乐,因为虾有详细的嘻哈音乐分类,其他的,如网易云音乐QQ、Spotify、iTunes、StreetVoice,要么对歌手音乐风格缺乏分类,要么分类粗糙,不能作为数据源。选择虾音乐后,写了一段时间的代码,抓住歌词的爬虫开始摩擦工作,爬虫通常会面临两个问题——1。经常抓取网站页面的代理问题,IP很容易被密封。所以我写了一个爬虫抓免费代理,抓了800多个代理IP,够了。2.效率问题10万首歌,即使一秒一个请求,也要27个小时,我等不了27个小时。所以我决定开10个线程,三个小时就能跑完。...然后三个小时后,我收获了一个约100M、49419首歌的数据库。看着这满满的记录,感受到蜜蜂辛辛苦苦搬运后看蜂蜜的喜悦。我相信所有关于HipHop歌词的秘密都包含在里面。接下来是一些数据清理、处理和分析。虾的歌词是由用户编辑和上传的,格式不适用于数据分析,因此我必须删除无用的符号、编曲、歌词和其他信息(统一格式有多重要,朋友们),然后用中文和英文分开。英语需要停止单词(对数据分析无用的单词通常没有实际意义,如is、on、at、which),大小写变换,以及词形变换。英语中的词汇有单复数和各种时态。为了便于分析,需要还原为词干。此外,汉语和英语都需要词性标记。一般来说,这些现成的开源库用于分析名词和形容词(这里省去了1000万字)。简而言之,我已经完成了,以下是分析结果。让我们先来看看大陆的raper歌词中写的关键词“世界”和“时间”占据了第一位,“老子”、“兄弟”、“baby”、“money”、“bitch”、“real“等词让rapper的形象呼之欲出。rapper的词中经常提到“音乐”、“歌词”、“旋律”、由此可见,他们非常关心自己的音乐。嘻哈音乐有frestyle的文化,对个人写作有要求,否则就不会“real从节目中他们对偶像raper的diss中也可以看出。接下来,让我们来看看与其他地区的关键词比较↓ rapper的生活似乎是一样的,大陆和台湾都喜欢喊“baby身边有一群“兄弟”和“朋友”,有“梦想”hiphop",有“烦恼”就骂街。亮点是美国的关键词top1是“nigga“,这与种族歧视意味着“nigger还不是一个词。这个Tupac有一个有趣的定义。nigger:ablackmanwithaslaverychainaroundhisneck.nigga:ablackmanwithagoldchainonhisneck.接下来,为了了解说唱的生活状况,我开始分析歌词中一些常见词汇的频率。饶舌歌手的生活一定是豪车,骑摩拜可能有被解雇的风险。感谢维基提供了汽车品牌页面,并亲密地分为英文名称和中国大陆翻译名称,所以我写了一个爬虫来抓住品牌名称,然后统计数据库中每个品牌的频率。这是中国16284首嘻哈歌曲中各汽车品牌的情况。它出现在一首歌的歌词中一次,至少出现在400多首歌曲中一次。可以看出,饶舌歌手喜欢宝马和奔驰,只有一个特点,就是贵!事实上,夏利、桑塔纳等车也有很多歌曲提到,但一般表达的是消极情绪。然后我统计了说唱歌手喝什么*红色是国内说唱歌手的数据,黄色是总数据说说说唱歌手不太喜欢喝威士忌,威士忌前面也有龙舌兰酒、白兰地、朗姆酒,仅限于图表的大小,我没有把这些列入图表。香槟作为财富的象征,遥遥领先,但国内饶舌歌手似乎处于消费尚未升级的水平,啤酒排名第一。外国人更喜欢金酒,国内饶舌歌手几乎没有提到,虽然金酒一般用来调节鸡尾酒,但鸡尾酒提到的次数也很少。绝对伏特加在《中国有嘻哈》中做广告的确是找对了地方,说唱人对伏特加的偏好高于普通人。所以rapper是怎么喝金酒的?我看了看歌词。“Sippin’ginandjuiceLayin’underneaththepalmtrees”,gin&juice是最常见的组合,rapper特别喜欢,因为它的名字是rapperSnopdogg发送的同名单曲。“ThinkweajokeI’llputthreeinyourthroatDrunkoffginandC&C;cokethenwefleeinaboat金酒与可乐混合,听起来不错。“Rollingweedinrawpapers,takingshots,gingotmefadedIfIgetbacktoyourspot,won’tknowhowImadeit一边飞叶一边喝金酒!“Havin’funwithsomebitchessmokin’weedintherideOnthecornerwithmydogsdrinkin’gintosurvive这个rapper和一只狗喝gin,似乎有很多故事。“Swimmin’underwaterlikeI’maquamanIusedtodrinkginnowit’svodkaman“,这个raper喝腻了,从金酒到伏特加阵营...然后,我们来看看药物控制的情况。 果然,大家还是喜欢叶子,不只是饶舌歌手。饶舌歌手喜欢互相diss,所以他们diss会骂什么?让我们看看他们都骂了什么脏话。这个统计有一个小插曲。第一次统计发现没有中文脏话,以为净网运动成功了。结果发现分词的词库里根本没有脏话,重新手动加入词库就好了。(左边是所有数据的数量,右边是大陆说唱的数量)大陆16284首歌有2496首脏话,脏话率约为15%,而不是大陆数据。33134首歌有13217首脏话,脏话率约为40%。总体而言,我国歌手更符合社会主义核心价值观。我试着把“damn”和“shit“这两个不那么“脏”、口语常见的词在国外统计中被去掉,最后脏话率还是33%,比例远高于大陆。一种推测是,英语脏话词汇在歌词中更容易押韵,或者唱flow更容易把握。另一种可能是审查原因。早就有了“in3”这样的乐队英文歌词被禁,国内的说唱歌词也不能太奔放。最后,让我们来讨论一下rap中的押韵。在《中国有嘻哈》中,我们可以看到各种层出不穷的押韵,包括单押、双押、三押。旋律、押韵和节奏是说唱歌曲的三个重要标准。一个好的押韵可以使歌曲的flow更加流畅。那我们怎样才能唱出酷酷的押韵呢?我从歌词库中取出所有的歌词,分词,然后根据韵母和声调进行分类,然后得到押韵词汇文件。韵脚的分布挺有意思的。我统计了前十个字的韵脚,可以看出ii是最容易押韵的。下图中这个韵脚的部分词汇。“势利”、“世纪”、“日志”、“秘密”……看着这些话,我忍不住说出来了,dropthebeat!双押x9达成!以上应该能告诉你中国有什么样的嘻哈。到目前为止,歌词分析还有更多的工作要做,比如统计歌手的词汇量,国外Mattdaniels统计饶舌歌手的词汇量(点击阅读原文),并与莎士比亚的词汇量进行比较。
以上就是关于HipHop到底在唱些什么?的相关介绍,更多HipHop到底在唱些什么?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对HipHop到底在唱些什么?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一