首页 >知识讲堂 >数据分析知识>一个好的作品集一般由多个项目构成

一个好的作品集一般由多个项目构成

2020-12-31 14:59:13 阅读(230 评论(0)

通常情况下,您需要将这些项目的数据集合起来,以便于将其整合成一个具有实际能力的项目。好消息是,你完全控制着自己的作品集。假如付出了一些努力,你就能打造出给用人单位留下深刻印象的高质量作品集。要打造高质量的作品集,第一步就是要弄清楚应该在作品中展示什么样的能力。公司希望数据科学家具备的能力(即他们希望作品集能展示的能力)包括:沟通能力与他人合作能力技术能力数据推断能力主观能动性一个好的作品集一般由多个项目组成,每个项目展示以上1-2个能力点。这篇文章是关于如何建立一个丰满的数据科学作品集的第三篇文章。本文将介绍如何创建作品集中的第二个项目,以及如何创建一个完整的机器学习项目。最后,您将拥有一个能够显示合理数据能力和技术能力的项目。如果您想要用这样的话,就可以很少的数据集合理解为业务价值。r/datasets—一个拥有数百个有趣数据集的subredditGooglePublicDatasets-GoogleBigQuery上的一些公共数据集Awesomedasets-Github上托管的数据集列表浏览这些数据集时,想想如果有这些数据集,人们可能会问什么问题,然后想想这些问题是否是一次性的(”S&P500和房价之间的相关性是什么?”,或者是可持续的(“你能预测股价吗?”)。这里的关键是找到那些可持续的问题。这些问题需要多次操作并输入不同的数据来回答。在本文中,我们选择房利美(FannieMae)贷款数据。房利美是一家由美国政府资助的从贷款人那里购买抵押贷款的企业。购买抵押贷款后,它将把抵押贷款打包成一些由抵押贷款支持的证券(MBS)在第一季度,我们可以预测哪些抵押贷款将被出售。这将有助于贷款人获得更多的抵押贷款,并为市场创造更大的流动性。从理论上讲,它将产生更多的住房所有者,然后产生更好的抵押贷款政策。然而,从借款人的角度来看,情况并没有什么不同。房利美公开了两种数据——购买的抵押贷款数据和抵押贷款性能数据。在最理想的情况下,一个人从贷款人那里借钱,然后一直还钱,直到贷款还清。然而,如果借款人多次未偿还,可能会导致抵押品赎回权的丧失。此时,银行将获得房屋所有权,因为它没有偿还抵押贷款。房利美记录了哪些抵押贷款没有偿还,哪些抵押贷款需要取消抵押品赎回权。这些数据每季度发布一次,并将滞后一年。在撰写本文时,最新的数据集是2015年第一季度。当房利美购买抵押贷款时,它将发布收购信息,包含有很多关于借款分数据,包括信息,包括信用评分和信用评分,这些信息,以及其中通常很难预测到每个季度是否有足够的。如果我们选择哪些抵押贷款分。 |R|OTHER|4.625|28000|360|2012|04/2012|31|1|23|801|N|C|SF|1|I|CA|945|FRM|10003735682|R|SUNTUSTMORTGAGEINC.|||3.99|4600||360||2012||2012|||2012|||2012||2012|||2012|||2012||||2012|||||2012||||||2012||||||2018||||||||||2012|||||||2012||||||2012|||||||||||||||2012|||||||2012|||||01||||2012||||||||||2012||||||||||||||||||。花点时间理解数据是非常有用的。特别是对于商业项目,除非一开始就找到它们,否则很难找到一些细节,因为我们没有互动来探索数据。在这种情况下,第一步是在房利美的网站上阅读相关数据集的材料:在阅读了这些材料后,我们了解了一些有用的关键信息:从2000年到现在,每季度都有收购文件和性能文件。数据滞后一年,所以最近的数据是,2015年的这些文件是文本形式。没有文档使用|作为分隔符,但我们列出的所有列表都加在一起。这些文件包含2200万抵押贷款数据,因为性能文件涵盖了以前的抵押贷款信息,因此在早期,抵押贷款将有更多的性能数据(例如,在设计项目结构和处理数据时,这些信息可以帮助我们节省很多时间。在下载和探索数据之前,设计项目结构是非常重要的。在下载和探索数据之前,设计项目结构是非常重要的。在创建一个完整的项目时,我们的主要目标是输出一个可行的解决方案来快速运行和消耗最少的资源,这样其他人就可以很容易地扩展项目,这样其他人就可以很容易地理解编写的代码越少越好。为了实现这些目标,我们应该设计项目的结构。一个结构良好的项目遵循以下规范:将原始数据和生成数据与数据文件和源代码分开.md文件介绍了如何安装和使用这个项目有一个requirementss.txt文件,包括项目所需的所有模块,都有settingss.py文件包含所有其他文件所需的设置,例如,如果有很多Python脚本读取相同的文件,最好让它们导入settings并从这个地方获取文件.Gitignore文件可以防止一些特别大或私人的文件被提交给Git,将任务分成几个步骤,并将其放置在可以单独执行的文件中。例如,用一个文件读取数据,一个文件建立特征,一个文件执行预测存储中间值。例如,一个脚本可能会输出另一个脚本读取的文件,这样我们就可以在数据处理过程中做出一些改变,而且不需要重新计算该项目的文件结构如下:loan-prediction├──data├──processed├──.gitignore├──README.md├──requirements.txt├──settings.首先创建loan-prediction文件夹,py创建初始文件。在这个文件夹中,创建data文件夹和procesed文件夹。在这个文件夹中,创建data文件夹和procesed文件夹。第一个用于存储原始数据,第二个用于存储所有中间值。接着,创建.gitignore文件。.gitignore文件将确保一些文件会被git忽略,而不会被推到github上。在每个文件夹中创建OSX。.DS_Store文件就是这种需要忽略的文件。要入门.这里可以参考gitignore文件。我们也应该忽略一些太大的文件,房利美的条款不允许再次发布这些文件,所以我们应该在那里.gitignore文件最后加上这两行:dataprocesed这里是这个项目的示例.gitignore文件。然后创建READMEE.md,这有助于人们了解项目。.代表本文件的markdown格式为markdown。Markdown可以让你直接用纯文本写作,但如果你愿意,你也可以添加一些漂亮的排版格式。这是markdown指南。如果你上传了一个叫做READMEE的Github.Github将自动处理md文件,并将其作为主页显示给访问者。这里有一个例子。目前,READMEE只需要.在md中放一个简短的描述:LoanPrediction-----------------------PredictwhetherornotloansacquiredbyFannieMaewillgointoforeclosure. FannieMaeacquiresloansfromotherlendersasawayofinducingthemtolendmore. FannieMaereleasesdataontheloansithasacquiredandtheirperformanceaft

以上就是关于一个好的作品集一般由多个项目构成的相关介绍,更多一个好的作品集一般由多个项目构成相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对一个好的作品集一般由多个项目构成有更深的了解和认识。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

企业应该如何选择代运营公司

电商行业发展这么多年,如今的电商行业已经非常成熟,很多人都选择通过网络创业,有人买就有人卖,各行各业就像蝴蝶效应一样,随机伴随而来的相关产业也应运而生,比如说网店代运营公司,在近几年网店代运营公司就像雨后春笋一样…查看详情

【直播赋能电商双十一】数以万计电商隔空拼杀,简直不要太刺激!

2020年10月12日,毕马威联合阿里研究院发布研究报告《迈向万亿市场的直播电商》预计,今年直播电商整体规模进入“万亿时代”。商务部数据显示,2020年上半年,全国范围电商直播数量超过1000万场,活跃主播数量超过40万,*人数超过500亿...查看详情

efi系统分区能删除吗

EFI(ExtensibleFirmwareInterface)系统分区是用于存储计算机启动相关信息的分区,通常位于*盘上的一个特定区域。这个分区包含了启动管理器、引导加载程序和操作系统的引导文件等重要数据。由于其重要性,推荐不要随意删除E...查看详情

rar是什么格式的文件

RAR是什么格式?RAR是一种常用的数据压缩格式,它可以把一个较大的文件或多个文件压缩到一个更小的体积内。它最早是WinRAR开发出来的,后来也被其他系统所支持,如Unix、Linux等。RAR文件使用独特的压缩算法,压缩率比Zip文件更高...查看详情

2022比较好用的翻译软件有哪些

  现在很多的行业都要用到翻译软件,但是不同的行业的翻译软件的需求是不同的,下面万商云集小编给大家来盘点几款好用的翻译软件。  一、谷歌翻译  谷歌翻译作为入门级别的翻译软件,基本上家喻户晓。谷歌浏览器有全网页翻…查看详情

制作flash的软件有哪些 免费制作flash的软件推荐

Flash属于一个做设计类的软件,当我们学得是设计专业,需要给别人设计东西的时候,就会用到这种软件,但是,目前为止很多人都还不清楚制作flash的软件都有什么,因此不知道下载哪个用。1、flash8用这个软件制作出来的文件非常小,这样便…查看详情

消费者薅电商羊毛越来越难,线上线下同款同价大势所趋

双十一已经走过了11个年头,天猫每年都在刷新双十一的成交总额,今年定格在2684亿,相较去年的2135亿元,增长了25.71%。我们看到的是不断增长的数字,背后却是无数商家绞尽脑汁想各种双十一的玩法,都希望通过新玩法让店铺的销量上一个…查看详情

有哪些投票软件呢?这几款值得选择

日常的生活中难免会遇到网上投票的情况,而通过使用一款专业的投票软件可以快速的投票,还可以拉票,更能够掌握实时的投票数据情况,尤其是粉丝想要给偶像投票的话,选择一款实用的投票软件也是很重要的,那么有哪些投票软件呢?…查看详情

企业管理有顺序,走好这5步不会乱

企业管理包含哪些内容?概括起来是五个方面:计划管理、流程管理、组织管理、战略管理、文化管理。这五方面内容是一个递进关系,顺序不能颠倒,也不能只强调一个而忽略其它。一个好的企业管理,需要这五方面内容协同作用,而这五…查看详情

电脑定位软件-如何定位找人

随着科技和互联网的迅速发展,定位软件也层出不穷,市面上出现的电脑定位软件也越来越多。一款好用的电脑定位软件可以精准定位,今天为大家介绍一些电脑定位软件,供大家挑选时参考。1.WialonGPSTrackingWialonGPSTrackin...查看详情

c语言strcmp是什么意思

c语言比较函数?字符串比较函数,一般形式为strcmp(字符串1,字符串2)。比较规则:对两个字符串自左至右逐个字符相比(按ASCII码值大小比较),直到出现不同的字符或遇到‘\0’为止。如果全部字符相同,则认为相等;若出现不相同的字符,…...查看详情

SAP和ERP有哪些区别?

  SAP和ERP是两种涉及企业资源规划的概念,虽然它们之间存在一些相似的概念和特点,但在实际应用中,它们具有不同的范畴和实现方式。本文将详细介绍SAP和ERP之间的区别,以及它们各自的定义、特点以及对企业的价值等方面的分析。 …查看详情

看小说哪个网站好呢?2021必看十大网络小说网站排行榜

你知道看小说哪个网站好吗?网络小说网站的排行版块囊括了国内各大主流小说网站和论坛以及搜索引擎小说搜索热度排行,想知道在哪看小说不容易踩雷,以下2021必看十大网络小说网站排行榜一定要收藏! 1.起点中文网 起点中文网…查看详情

大主播都用什么声卡 唱歌主播专业声卡推荐

我们都知道现在是互联网的时代,很多人都已经转型做了主播,主播相对来说是比较赚钱的,尤其是对于一些娱乐主播来说,那么,娱乐主播在直播的时候也是有设备的,其中的声卡就是非常重要的一个设备,那么主播声卡排行榜都有什么呢…查看详情

信息化时代微博现状及解决方案—微博舆情监控系统

信息化时代,科技越来越发达,社交软件也层出不穷。微博早已进入大多数人们的视野里,伴随着微博用户爆炸式增加的同时,一些规避各种责任的商业微博已经出现了泥沙俱下的乱象。如恶意散布虚假信息已经严重威胁了社会的稳定和安全…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询