首页 >知识讲堂 >数据分析知识>如何实现一个完整的数据科学项目?

如何实现一个完整的数据科学项目?

2021-01-04 10:43:51 阅读(186 评论(0)

本文使用R语言模拟美国足球比赛的数据,我们将完成以下工作。获取和清理美国足球比赛数据分析和理解美国足球比赛数据构建测量攻防能力指标模拟单一游戏模拟多个游戏计算决定游戏介绍美国足球是美国最受欢迎的体育,也是世界上第九受欢迎的体育。每年,足球迷们都期待着9月份的新赛季:17周的常规赛,第二年1月的季后赛,以及第二年1月底或2月初的超级碗。首先,我们通过一些统计指标对本章中使用的足球比赛数据有了初步的了解和理解,并通过比较团队之间的统计指标来确定比赛的赢家。然后,我们可以使用这些指标来模拟单场比赛和多场足球比赛。在众多的模拟比赛中,虽然我们可以通过收集和利用球队中每个球员参加每场比赛的数据来模拟非常详细的单场比赛,但在制作橄榄球电动游戏时,只需要这样详细的模拟。在本章中,我们将采取一种相对简单的方法:利用球队粒度的统计数据,我们可以有效地决定哪支球队应该在比赛中获胜。本章的目的是展示如何实现一个完整的数据科学项目,包括从网站获取数据、提出指标、公式和计算方法,并解释不同的现实场景。最后,我们可以利用历史数据中总结的信息来模拟未来的比赛。为了显示R不仅可以进行统计建模,而且是一种编程语言,我们选择使用R来获取、处理和显示项目中的数据。本章仍遵循数据科学项目的实现过程,但由于处理不同的数据类型和任务类型,将进行适当的修改。为了完成本章的数据科学项目,您需要一台可以访问互联网的计算机,该计算机已经安装了R语言和以下R包。同时,上述内容需要包含在R语言环境中。XML包读取网络上的HTML数据、RSQLite和Stringr包处理和变换数据,GGPlot2可以实现数据的可视化。此外,如果读者不熟悉美国足球,他们可以访问http://www.nfl.com/rulebook/beginersguidetofotball获取基本背景知识。在获取和清洁美国足球比赛数据网络上,有许多网站下载美国足球相关数据(日程安排、比赛分数和简单的比赛统计数据)。需要注意的是,当我们寻找分析数据集时,我们关注数据的有用性、质量和格式。因此,考虑到http://sports.yahoo.com/它是一个可靠的数据源,有我们需要的数据和相对较好的数据格式。它的数据只需要简单的清理。我们将从这里下载活动数据。如果您已经安装并包含了简介中提到的R包,并将您当前的工作目录设置为您想要存储文件的地方,那么我们可以开始处理和分析数据。通过以下步骤获取和清理处理过程中的数据。1.首先,我们需要在一个赛季内获得每支球队的进攻数据。因为我们写这本书的时候,2013赛季是最近的完成赛季,所以我们把变量year设置为2013。2.其次,我们将设置数据地址的URL中年为2013,并将整个URL赋值为URL变量。3.当我们有一个完整的URL时,我们可以从网络上获取数据。执行上述命令可以创建一个数据框offense,存储2013赛季32支球队的所有进攻统计数据,如下图所示。4.我们首先注意到下载的团队数据中有许多空白列,为了确保正确的数据格式,我们需要首先清理数据。如下所示,我们清除空白列,并给出每列所需的数据类型。最后的TOP是控球时间,或者是不同球队每场比赛的平均进攻时间。在原始下载的数据中,其格式为分:秒。我们将其转换为以秒为单位的变量,这样TOP就能反映出不同球队在进攻时拥有控球权的平均秒。现在,下载的攻击数据变得干净整洁,如下图所示。5.现在我们以同样的方式获取防守数据。就像进攻数据一样,我们在URL中设置年份,可以获得防守数据。6.其次,我们将URL传输到readHTMLTable函数并下载数据。readHTMLTable函数将下载整个网页,因此我们可以在命令结束时添加[[7]]来选择我们需要的第七列元素。读者还可以尝试修改括号中的数据,观察网络元素的变化。下图显示了球队的防守数据。7.就像我们需要清理攻击数据一样,防守数据也需要清理。在将变量offense修改为defense的同时,我们将使用上述数据清理命令。需要注意的是,由于控球时间不适用于防守部分,TOP将不包括在defense中。如下图所示,清洁并赋予适当数据类型的防御数据。工作原理R语言中的paste()函数连接字符串(concatenate)。如果您不熟悉操作数据,则连接(concatenation)这意味着将两个字符串在一起。我们使用paste函数连接下载数据的URL和需要获取数据的年份,以便仅通过改变year的值来改变整个下载数据的URL。在改变year值为2012或2011的前提下,读者可以尝试重新操作上述步骤。如果网站服务器中有2011或2012的数据,程序可以自动下载数据,并且存在offense和defense变量。另一个非常有用的R函数是apply()。我们可以同时将多列变量转换为数值类型,只使用一行代码。apply()函数不仅可以用来改变数据类型,还可以用于其他数学计算。例如,defense数据框已经从第2列改为第13列,如果我们想要每列的平均值,我们可以通过以下代码实现。

以上就是关于如何实现一个完整的数据科学项目?的相关介绍,更多如何实现一个完整的数据科学项目?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对如何实现一个完整的数据科学项目?有更深的了解和认识。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

发明专利公开到授权需要多长时间?

   第三十五条发明专利申请自申请日起三年内,国务院专利行政部门可以根据申请人随时提出的请求,对其申请进行实质审查;申请人无正当理由逾期不请求实质审查的,该申请即被视为撤回。下面小编就带大家来看看详细的内容。  一…查看详情

专利权中三类的含义是什么

   专利权是由国务院专利行政部门依照法律规定,根据法定程序赋予专利权人的一种专有权利。下面万商云集小编给大家详细解释下专利权中三类的含义的相关内容。  一、专利权中三类的含义是什么  (1)专利权是国家依法授予专利…查看详情

运营网店的方法

当代越来越多的无业游民都选择开网店,网店确实是一个不错的途径,那么如何开网店,相信大家都已经了如指掌了,但是如何运营好网店,小编还没有系统的整理过。那么小编今天也来追赶一下潮流,整理一篇运营网店的方法。 一、提…查看详情

建网站不花钱免费建站

一般大企业都会打造不一样的网站建设效果,这样才能够得到很好的推广,但是也有些小企业在建设网站的时候不想要花钱。这个时候就应该要找到免费的建站平台,其实建网站不花钱可以找到很多的平台,只要选择对了平台,也能够制作出…查看详情

专利证书号有没有用 专利证书号的作用

    专利证书号是大家在申请专利权的时候获得的一个编号,很多人对这个编号不是很了解,下面万商云集小编就带大家看一下专利证书号的相关作用。    一、专利证书号的作用  专利证书号是已经发出多少专利的意思了,这和…查看详情

免费的视频聊天工具 2022好用的视频聊天工具

  现在很多的人都用视频聊天工具和朋友沟通,下面小编就给大家推荐下几款免费的好用的视频聊天工具。希望能帮助到你。多亏Skype等视频通话工具,人们在新冠疫情期间仍可与家人和朋友保持“面谈”。为了帮助人们更好地“见面”,德…查看详情

十大汽车保险公司排行榜

  近年来,汽车行业的发展日趋迅速,伴随而来的是汽车保险公司的蓬勃发展。随着汽车数量的增加和消费者的意识提高,汽车保险公司的市场竞争越来越激烈。在这个背景下,人们需要了解哪些是十大汽车保险公司排行榜,以帮助他们做…查看详情

windows10忘记密码怎么解决

  如果你忘记了你的Windows10帐户密码,你将无法登录到Windows系统中。然而,你不必担心,因为你有几个选项可以重置或恢复密码。以下是一些可行的解决方案:  方法一:使用Microsoft帐户密码重置  如果你使用Microsof...查看详情

代驾app排行榜 十大代驾app排行榜

代驾app的出现给大家的生活带来了不少便利,让大家出门在外有了安全的保障,不用再担心喝酒后不能驾车的问题,可以和朋友放心喝大胆玩了,今天就带大家一起盘点一下有哪些好用的代驾app。1.滴滴代驾滴滴代驾是滴滴旗下的一款代驾app,…查看详情

免费的ps软件有哪些 免费的ps软件排行榜

  相信很多的小伙伴在平时都会使用到ps软件,其实市面上也有很多这类型的PS软件,下面小编就给大家来详细介绍一下免费的ps软件有哪些  免费的ps软件排行榜这一块的内容,希望能帮助到大家,下面的这些ps软件都是很不错的。...查看详情

集成电路设计能不能获得专利权?

  根据相关法律规定,集成电路布图设计不能取得专利权,下面万商云集小编给大家来介绍下这方面的详细内容。  一、集成电路设计能不能获得专利权  根据相关法律规定,集成电路布图设计不能取得专利权,应由集成电路布图设计…查看详情

分频器的作用是什么

分频器上有个灯泡是干什么用的?分频器的小灯泡是用来保护高频喇叭的。在高频喇叭上接一个灯泡在高电压(峰值功率或大功率输入)时点亮能有效保护高音喇叭。分频器和接线板对喇叭有什么作用?音箱分频器的作用,是把设计好频率分频点(工…查看详情

2021年EHR人力资源管理系统怎么选,有哪些注意事项?

目前EHR人力资源管理系统受到越来越多的企业青睐,但是应对市场上各种知名品牌,公司在选择全过程中存在哪些常见问题,如何极端防坑,选择符合公司要求的系统?小万梳理了市场上各类ehr系统在选择时应该注意的要点,供各位参考学习…查看详情

php代码是什么

如何运行php代码?需要在计算机上安装PHP解释器,并且要在支持PHP的Web服务器或本地开发环境中打开PHP文件。具体步骤如下:1.下载和安装PHP解释器,例如从https://www.php.net/下载最新的PHP版本。2.安装支持P...查看详情

华为浏览器纯净模式怎么关闭

华为浏览器是华为手机自带的浏览器应用程序,它具有纯净模式(也称为无痕浏览模式)以提供更私密和安全的浏览体验。关闭纯净模式很简单,以下是一般情况下关闭华为浏览器纯净模式的方法:1. 打开华为浏览器:在您的华为手机上找…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询