2020-12-31 14:59:13 阅读(215)
通常情况下,您需要将这些项目的数据集合起来,以便于将其整合成一个具有实际能力的项目。好消息是,你完全控制着自己的作品集。假如付出了一些努力,你就能打造出给用人单位留下深刻印象的高质量作品集。要打造高质量的作品集,第一步就是要弄清楚应该在作品中展示什么样的能力。公司希望数据科学家具备的能力(即他们希望作品集能展示的能力)包括:沟通能力与他人合作能力技术能力数据推断能力主观能动性一个好的作品集一般由多个项目组成,每个项目展示以上1-2个能力点。这篇文章是关于如何建立一个丰满的数据科学作品集的第三篇文章。本文将介绍如何创建作品集中的第二个项目,以及如何创建一个完整的机器学习项目。最后,您将拥有一个能够显示合理数据能力和技术能力的项目。如果您想要用这样的话,就可以很少的数据集合理解为业务价值。r/datasets—一个拥有数百个有趣数据集的subredditGooglePublicDatasets-GoogleBigQuery上的一些公共数据集Awesomedasets-Github上托管的数据集列表浏览这些数据集时,想想如果有这些数据集,人们可能会问什么问题,然后想想这些问题是否是一次性的(”S&P500和房价之间的相关性是什么?”,或者是可持续的(“你能预测股价吗?”)。这里的关键是找到那些可持续的问题。这些问题需要多次操作并输入不同的数据来回答。在本文中,我们选择房利美(FannieMae)贷款数据。房利美是一家由美国政府资助的从贷款人那里购买抵押贷款的企业。购买抵押贷款后,它将把抵押贷款打包成一些由抵押贷款支持的证券(MBS)在第一季度,我们可以预测哪些抵押贷款将被出售。这将有助于贷款人获得更多的抵押贷款,并为市场创造更大的流动性。从理论上讲,它将产生更多的住房所有者,然后产生更好的抵押贷款政策。然而,从借款人的角度来看,情况并没有什么不同。房利美公开了两种数据——购买的抵押贷款数据和抵押贷款性能数据。在最理想的情况下,一个人从贷款人那里借钱,然后一直还钱,直到贷款还清。然而,如果借款人多次未偿还,可能会导致抵押品赎回权的丧失。此时,银行将获得房屋所有权,因为它没有偿还抵押贷款。房利美记录了哪些抵押贷款没有偿还,哪些抵押贷款需要取消抵押品赎回权。这些数据每季度发布一次,并将滞后一年。在撰写本文时,最新的数据集是2015年第一季度。当房利美购买抵押贷款时,它将发布收购信息,包含有很多关于借款分数据,包括信息,包括信用评分和信用评分,这些信息,以及其中通常很难预测到每个季度是否有足够的。如果我们选择哪些抵押贷款分。 |R|OTHER|4.625|28000|360|2012|04/2012|31|1|23|801|N|C|SF|1|I|CA|945|FRM|10003735682|R|SUNTUSTMORTGAGEINC.|||3.99|4600||360||2012||2012|||2012|||2012||2012|||2012|||2012||||2012|||||2012||||||2012||||||2018||||||||||2012|||||||2012||||||2012|||||||||||||||2012|||||||2012|||||01||||2012||||||||||2012||||||||||||||||||。花点时间理解数据是非常有用的。特别是对于商业项目,除非一开始就找到它们,否则很难找到一些细节,因为我们没有互动来探索数据。在这种情况下,第一步是在房利美的网站上阅读相关数据集的材料:在阅读了这些材料后,我们了解了一些有用的关键信息:从2000年到现在,每季度都有收购文件和性能文件。数据滞后一年,所以最近的数据是,2015年的这些文件是文本形式。没有文档使用|作为分隔符,但我们列出的所有列表都加在一起。这些文件包含2200万抵押贷款数据,因为性能文件涵盖了以前的抵押贷款信息,因此在早期,抵押贷款将有更多的性能数据(例如,在设计项目结构和处理数据时,这些信息可以帮助我们节省很多时间。在下载和探索数据之前,设计项目结构是非常重要的。在下载和探索数据之前,设计项目结构是非常重要的。在创建一个完整的项目时,我们的主要目标是输出一个可行的解决方案来快速运行和消耗最少的资源,这样其他人就可以很容易地扩展项目,这样其他人就可以很容易地理解编写的代码越少越好。为了实现这些目标,我们应该设计项目的结构。一个结构良好的项目遵循以下规范:将原始数据和生成数据与数据文件和源代码分开.md文件介绍了如何安装和使用这个项目有一个requirementss.txt文件,包括项目所需的所有模块,都有settingss.py文件包含所有其他文件所需的设置,例如,如果有很多Python脚本读取相同的文件,最好让它们导入settings并从这个地方获取文件.Gitignore文件可以防止一些特别大或私人的文件被提交给Git,将任务分成几个步骤,并将其放置在可以单独执行的文件中。例如,用一个文件读取数据,一个文件建立特征,一个文件执行预测存储中间值。例如,一个脚本可能会输出另一个脚本读取的文件,这样我们就可以在数据处理过程中做出一些改变,而且不需要重新计算该项目的文件结构如下:loan-prediction├──data├──processed├──.gitignore├──README.md├──requirements.txt├──settings.首先创建loan-prediction文件夹,py创建初始文件。在这个文件夹中,创建data文件夹和procesed文件夹。在这个文件夹中,创建data文件夹和procesed文件夹。第一个用于存储原始数据,第二个用于存储所有中间值。接着,创建.gitignore文件。.gitignore文件将确保一些文件会被git忽略,而不会被推到github上。在每个文件夹中创建OSX。.DS_Store文件就是这种需要忽略的文件。要入门.这里可以参考gitignore文件。我们也应该忽略一些太大的文件,房利美的条款不允许再次发布这些文件,所以我们应该在那里.gitignore文件最后加上这两行:dataprocesed这里是这个项目的示例.gitignore文件。然后创建READMEE.md,这有助于人们了解项目。.代表本文件的markdown格式为markdown。Markdown可以让你直接用纯文本写作,但如果你愿意,你也可以添加一些漂亮的排版格式。这是markdown指南。如果你上传了一个叫做READMEE的Github.Github将自动处理md文件,并将其作为主页显示给访问者。这里有一个例子。目前,READMEE只需要.在md中放一个简短的描述:LoanPrediction-----------------------PredictwhetherornotloansacquiredbyFannieMaewillgointoforeclosure. FannieMaeacquiresloansfromotherlendersasawayofinducingthemtolendmore. FannieMaereleasesdataontheloansithasacquiredandtheirperformanceaft
以上就是关于一个好的作品集一般由多个项目构成的相关介绍,更多一个好的作品集一般由多个项目构成相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对一个好的作品集一般由多个项目构成有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一