2020-12-31 17:32:45 阅读(159)
在从事数据相关项目的过程中,数据梳理、数据集成和数据补充需要大量的时间和精力,进入数据分析和数据挖掘阶段对数据的完整性也有严格的要求。对统计算法的验证和研究也面临着根据自身业务情况特点配置数据属性的需要。今天,我们将简要介绍几种基本的数据生产方法,以简化我们的ETL流程,方便您根据业务定义生产数据。本文以面向对象的JAVA语义为例。小伙伴们可以根据自己熟悉的各种语言来实现,笔者秉承逻辑方法高于开发语言选择的理念去发现和解决问题。业务场景:在医院治疗过程中,系统需要记录病案号、姓名、性别、发病时间、体重等基本信息。这些数据必须符合客观规律和结构化。接下来,我们将逐一介绍每个属性的数据生产方法。1、根据面向对象的原则,建立一个父类。首先,我们建立一个抽象的AttributeValueGenerator,在这个类别中声明一个实体entity,并建立一个getty。、set方法,之后的每一种方法都继承了这个父类。2、病案号病案号的定义是一组规则的、自定义的递增数列,我们可以通过递增的方式生成。定义两个参数:病案号的起始数和增长规模。病案号的起始数为10001,每次增加1。3、区分性别,我们用一组枚举数列填充性别属性。根据业务需要定制男女就诊比例,按百分比产生随机数。第一个参数是性别,第二个参数是出现的概率。4、发病日期分布在不同的年份和月份,需要计划起始日期、截止日期和期间概率,并在随机生成范围内转换为int输出。2005年发病时间占27%、在2006年的占73%5、体重正态分布一组成年人的体重数据应根据男女区别对待,并符合正态分布的规律。生成正态分布数据可以控制期望、方差、开始和截止日期。若为男性,平均值为67公斤,方差为10公斤、漂浮在40-150公斤之间。如果是女性,平均值为57公斤,方差为10、漂浮在40-150公斤之间。综上所述,我们可以不断思考,根据项目的需要,随时随地开发一些属性的生成函数。不要低估这些细节,一旦需要就可以快速生产。所谓:积土成山,风雨如雨;积水成渊,蛟龙生焉;积善成德,神明自得,圣心备焉。所以不积小步,无以千里;不积小流,不能成江海。你认为这是事实吗?
以上就是关于简化ETL流程的几种基础数据生产方法的相关介绍,更多简化ETL流程的几种基础数据生产方法相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对简化ETL流程的几种基础数据生产方法有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一