首页 >知识讲堂 >数据分析知识>Python爬取捞月狗数据分析

Python爬取捞月狗数据分析

2020-12-30 10:32:11 阅读(207 评论(0)

本文利用Python从捞月狗网站上获取国服各区和外服王者的数据信息,然后利用R软件对数据进行初步探索和分析。在数据背后找到有趣的东西!爱生活,爱数据!Python爬月狗数据要抓取的数据如下图所示:主要包括王者游戏ID、区服、胜点、胜点、负场、胜率、最近状态、擅长位置、本命英雄等。因为钓月狗的数据每天都在更新,所以在不同的时间爬行数据可能会有所不同。Python代码如下:导入所需模块:importrequestsimportportpandasaspd设置头部信息:head={'User-Agent':'你自己的头部信息'}设定正则获取国服王者信息:rem=re.compile(r'class="subStrTitle">(.*).*server">(.*).*class="icon-dan">(.*).*(.*)(.*)<.*\t/.*(.*)(.*).*"percentage">(.*).*/score/(.*).png.*color-zhongdan">(.*).*alt="(.*)"/>.*alt="(.*)"/>.*alt="(.*)"/>',re.S)外服正则用于获取外服王者信息:reh=re.compile(r'(.*).*player-server">(.*).*(.*).*(.*)(.*).*.*(.*)(.*).*"percentage">(.*).*score/(.*).png.*"color-zhongdan">(.*).*src="(.*)">.*src="(.*)">.*src="(.*)">',re.S)获取国服对应的战区,存储在zhanqu_list_cn中:url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=cn&area=1'html_cn=requests.get(url_cn,headers=head)reg=re.compile(r'class="cn-li.*href="(.*)">',re.S)zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区获得外服对应的战区,存储在zhanqu_list_en中:url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=foreign&area=kr'html_en=requests.get(url_en,headers=head)ren=re.compile(r'class="foreign-li.*href="(.*)">',re.S)zhanqu_list_en=re.findall(ren,html_en.text)定义下载中国战区数据的函数:defupdown_cn(zhanqu_list_cn):  forzhanquinzhanqu_list_cn:    forminrange(1,11):      url=zhanqu '&page=' str(m)      im=requests.get(url,headers=head)      ifim.status_code==200:        data=re.findall(rem,im.text) #数据rem代表国服数据        data=pd.DataFrame(data)        data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式        data=[]定义下载外服战区数据的函数:defupdown_en(zhanqu_list_en):  forzhanquinzhanqu_list_en:    forminrange(1,11):      url=zhanqu '&page=' str(m)      im=requests.get(url,headers=head)      ifim.status_code==200:        data=re.findall(reh,im.text) #获取数据reh代表外服数据        data=pd.DataFrame(data)        data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式        data=[]下载数据:updown_cn(zhanqu_list_cn) #下载中国战区数据updown_en(zhanqu_list_en) #下载外服战区数据下载的数据保存格式为CSV格式,内容如下图所示:查看数据后,只发现几个格式异常数据(已手动删除)。R语言数据初步探索下面用R软件分析数据,看看能不能发现一些有趣的东西!R语言程序包用于导入分析:library(data.table)library(plotly)library(magrittr)library(wordcloud2)导入数据:dt=fread(file.choose()国服数据:dt_cn=dt[1:2500]#即前2500个外服数据:dt_en=dt[2501:4480]各战区王者数量(国服):>dt_cn[,.(.N),by=.(战区)   所在战区 N1: 艾欧尼亚 902:   祖安 803: 诺克萨斯 804: 班德尔城 905:皮尔特沃夫 90...25: 扭曲丛林 9926:教育网专区 2527: 巨龙之巢 9028: 男爵领域 9029: 峡谷之巅 80   所在战区 N概览数据(国服):>summary(dt_cn[,.(.N),by=.(战区)) 所在战区       N     Length:29     Min. :25.00 Class:character 1stQu.:80.00 Mode :character Median:90.00           Mean :86.21           3rdQu.:90.00           Max. :100.00 #王者最少的区>dt_cn[,.(.N),by=.(战区)[N==25]  所在战区 N1:教育网专区25#王者有100人(最多100人)>dt_cn[,.(.N),by=.(战区)[N==100] 所在战区 N1:均衡教派1002:守望之海100外服王者数量:plot_ly(dt_en[,.(.N),by=.(战区),x=~所在战区,y=~N,type="bar")外服王者数量较多(相对于国服一区),可能是有些外服只是服务器,比如韩国,也和捞月狗的统计数据有关。国服各区平均胜点:dt_cn[,.(mean=mean(胜点),by=.(战区)这里看不出艾欧尼亚是最强的战区。王者通常处于什么样的游戏状态?wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !国王通常处于什么样的游戏状态:wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !大多数王者最近的状态往往是S级状态。不幸的是,数据集中没有其他部分的数据。如果是这样,你也可以比较每个部分玩家的通常游戏状态。王者擅长的位置:各地的王者更喜欢打野和上单的位置。这两个位置也是英雄联盟中受伤较多的位置,也可以说他们可能更倾向于玩“肉”的英雄。职业联赛中常说这样的英雄容错率比较高。换句话说,有肉有输出英雄。王者本命英雄(2017.08.05):#因为有些本命英雄在爬数据的时候并不是我们预期的,所以在这里删除(也就是3~4).dt_all=fread(file.choose())dt_cn<-dt_all[1:2497]dt_1<-dt_cn[,本命英雄1]dt_2<-dt_cn[,本命英雄2]dt_3<-dt_cn[,本命英雄3]all_hero�ta.frame()%>%wordcloud2(shape='star')#以星形的形式绘制云图。不愧为王者玩家,玩盲僧这样

以上就是关于Python爬取捞月狗数据分析的相关介绍,更多Python爬取捞月狗数据分析相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对Python爬取捞月狗数据分析有更深的了解和认识。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

这8款表情包输入法,哪款更有趣适合斗图?

信息化高速发展的时代下,手机输入法的属性经历了由单纯的输入工具到信息服务载体的转变,聊天更是进入了图文交互的方式,对于此现象,各大输入法厂家也在不断优化和调整输入法的产品功能,以下为大家介绍8款表情包输入法,看看哪…查看详情

怎么做传单制作设计会更好呢?技巧是什么?

发宣传单说话的技巧?胆子要大。不要害怕,要鼓起勇气,其实大多数路人还是不会拒绝有几分钟的时候来看一下你的传单的,因此首先自己不要胆怯,一旦自己胆怯了,气场就下来了。面带微笑。无论做的多么辛苦,无论是寒风还是烈日,不…查看详情

好用的查重软件有哪些 论文查重软件排行榜

  现在不管是大学毕业生论文查重或者是很多的科研项目大家都会去查论文的重复率问题,下面小编就给大家来详细介绍一下好用的查重软件有哪些 论文查重软件排行榜这一块的相关内容,希望能帮助到大家。  论文查重软件排行榜…查看详情

音频转文字软件有哪些?这几款安利给你

现在很多人都比较依赖于各种智能化的软件,比如说音频转文字的软件,就具有很高的实用性,如果不想打字,或者是想要快速的将自己的一些观点发布出去,就可以选择这样的软件,轻松的完成了,那么音频转文字软件有哪些呢?这几款安…查看详情

2021有哪些建筑设备管理系统值得推荐?

建筑设备管理系统层出不穷,但是真正能创造管理价值并实际落地于建筑企业的系统却少之又少,建筑行业普遍在选择建筑设备管理系统上面犯愁,那么2021有哪些建筑设备管理系统值得推荐? 1. 云智易建筑设备管理系统 以物...查看详情

adobe是什么软件

Adobe是什么?Adobe是美国一家跨国电脑软件公司。Adobe由约翰·沃诺克和查尔斯·格什克于1982年12月创办,两人先前都曾任职于施乐公司的帕洛阿尔托研究中心,离开后组建了Adobe,使PostScript页面描述语言得到商业化应用...查看详情

电脑广告一键屏蔽软件推挤,营造绿色上网环境

不管是电脑还是手机,使用的时间长了设备里面多多少少都有一些病毒,包括在使用的过程中还会弹出烦人的广告,那么,大家可以运用屏蔽广告软件屏蔽掉这些,这样的话也不用担心广告了。1、ADSafe净网大师是我们中国首款免费靠谱的无广…查看详情

抽油烟机有哪些品牌 抽油烟机十大名牌排名

相信油烟机在厨房中的地位是非常重要的,很多人选择油烟机的时候都会很细心,下面万商云集小编给大家来详细介绍一下抽油烟机有哪些品牌  抽油烟机十大名牌排名这一块的内容,不知道下面的这些抽油烟机品牌大家使用过没有。…查看详情

caj阅读器怎么把高亮删除

CAJ阅读器是一种常用的文献阅读工具,它可以方便地对文本进行高亮标注。如果你想删除某个已经添加的高亮标注,可以按照以下步骤进行操作: 1.打开CAJ阅读器,并加载需要操作的文献文件。2.在文档中找到包含高亮标注的部分。3.将鼠…查看详情

送女朋友礼物排行榜

导语:为了表达对女友的爱意和关心,选择一份合适的礼物是至关重要的。以下是一份送女朋友礼物的排行榜,希望能给您一些灵感和指引。1. 个性定制珠宝:珠宝是女性喜爱的经典礼物之一。选择一款个性定制的项链、手链或戒指,可以…查看详情

好用的电脑录音软件有哪些 电脑录音软件排行榜

录音软件在我们生活中,已经是很常见的一款工具了,通常我们都是用它来进行声音的录制,比如开会进行会议纪要,我们通常都是录下来回去整理,或者去上演讲课,知识点太多都录下来,那么在我们录音的时候肯定是选择操作简单的录音…查看详情

买票软件哪个好?五大买票软件值得推荐

很多人不管是出差或者是旅游的时候,不是坐火车就是坐飞机,不管是乘坐什么样的交通工具都是需要买票的。但是有时候可能时间就比较忙,等买票的时候也都会选择一些软件来购买,其实每个的软件比较多,应该要找到比较好的软件来购…查看详情

打开网页出现504该怎么解决 网页报错504解决办法

 很多的人在做网站或者是打开网页的时候都会遇到504报错问题,很多的人不知道怎么解决,下面万商云集小编给大家来详细介绍一下打开网页出现504该怎么解决 网页报错504解决办法,希望能帮助到大家解决这个问题。   ...查看详情

工作之后才知道的常用的会计核算软件

信息化时代的今天,尽管企业已经开始全面信息化转型,但许多中小企业的信息化水平目前还是不高。导致中小企业信息化水平不高的原因主要是定制的软件成本高、升级周期长费用高、维护费用高,就是最基本的会计核算软件中小企业的普…查看详情

php怎么清除html代码

HTML和PHP编写的代码有什么区别?简单的说就是:HTML代码是静态的,显示信息用的,你看到网页上显示的大部分是HTML代码;PHP是动态的代码?就是起到运算,修改,编辑连接数据库等操作的动态代码;其实就是一个是用来显示的,一个是用来逻…...查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询