2020-12-29 11:31:23 阅读(140)
在做数据分析的时候,我觉得很多数据分析师会像《R语言实战第二版》的作者卡巴科弗一样感叹:“数据分析师花了60%的时间预处理数据……”。是的,我们所知道的建模、评估模型等数据分析工作所花费的时间远远少于数据预处理。这件事虽然麻烦多事,但“功在千秋”。如果数据分析前期的数据预处理做得很好,后面的步骤会说话。相信我,他们会感谢你的。这就像减肥一样。这个过程很艰难,但是创造了101的杨超月也下定决心唱了一句:“燃烧我的卡路里,你是最好的。”一方面,数据预处理是为了提高数据质量,另一方面,它也是为了适应数据分析的软件或方法。一般来说,数据预处理步骤包括数据清理、数据集成、数据变换和数据规则,每个大步骤都有一些小细分点。当然,这四个步骤可能不需要在数据预处理中执行。顾名思义,“黑”变成“白”,“脏”数据变成“干净”,脏数据表现在形式和内容上:形式上的脏如缺失值,有特殊符号;内容上的脏如异常值。缺失值缺失值包括缺失值的识别和缺失值的处理。识别R中缺失值的使用函数is.na()判断函数completete,.cases()确定样本数据是否完整。常用的处理缺失值的方法有删除、更换和插补。1、删除法:根据删除的不同角度,删除法可分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit()函数可以删除所含缺失值的行,相当于减少样本量以换取信息的完整性。但是,当变量缺失较大,对研究目标影响不大时,可以考虑删除变量R中的语句mydata[-p]来完成,mydata表示删除的数据集的名称,p是删除变量的列数,-表示删除。2、替换方法:替换方法,顾名思义,根据不同的变量和不同的替换规则,变量为变量下其他数字的平均值,变量为非数值变量,其他观测值的中位数或众数。3、插补法:插补法分为回归插补法和多插补法;回归插补法是指将插补变量视为变量y,其他变量看错自变量,利用回归模型拟合,利用lm()回归函数在R中插补缺失值;多插补法是指从一组包含缺失值的数据集中生成一组完整的数据,多次生成缺失值的随机样本。异常值异常值与缺失值相同,包括异常值的识别和异常值的处理。异常值异常值与缺失值相同,包括异常值的识别和异常值的处理。异常值的识别通常由单变量散点图或箱形图处理,R中dotchart()是绘制单变量散点图的函数,boxplot()函数绘制箱现图;在图形中,远离正常范围的点被视为异常值。异常值的处理包括删除包含异常值的观察(直接删除,当样本较少时,直接删除会导致样本量不足,改变变量的分布)、作为缺失值(用现有信息填写缺失值)、平均值修正(用前后两个观测值的平均值修正异常值)、不处理。在处理异常值时,首先复习异常值的可能原因,然后判断异常值是否应放弃。所谓数据集成,就是将多个数据源合并并放入数据存储中。当然,如果分析的数据最初存储在数据存储中,则不需要数据集成(多合一)。数据集成的实现是基于关键字在R中使用merge()函数实现两个数据框,语句为merge(dataframe1,dataframe2,by=“关键词”),默认按升序排列。数据集成中可能存在以下问题:1同名异义,数据源A中的属性名称与数据源B中的属性名称相同,但实体不同,不能作为关键字;2异名同义,即两个数据源中的属性名称不同,但代表相同的实体,可以作为关键字;3数据集成往往导致数据冗余,可能多次出现相同的属性,也可能是属性名称不一致,对于重复属性,先做相关分析检测,然后删除。数据转换数据转换是为了满足软件或分析理论的需要,将数据转换为适当的形式。数据转换数据转换是为了满足软件或分析理论的需要,将数据转换为适当的形式。简单函数转换简单函数转换用于将没有正态分布的数据转换为正态分布的数据,通常包括平方、开方、取对数、差分等;例如,在时间序列中,数据对数或差分操作经常将不稳定序列转换为稳定序列。标准化就是消除变量大纲上的影响,比如直接比较身高和体重的差异,单位和价值范围的差异,使得这件事无法直接比较。1最小-最大标准化:也称为离差标准化,线性数据转换,范围为[0,1]20-平均标准化:也称为标准差标准化,处理数据平均值等于0,标准差为13小数标准标准化:移动属性值小数位数,属性值映射到[-1,1]连续属性离散将连续属性变量转换为分类属性,即连续属性离散,特别是一些分类算法要求数据是分类属性,如ID3算法。常用的离散方法有以下几种。1等宽法:将属性值域划分为宽度相同的范围,类似于生产频率分布表2等频法:将相同的记录放入每个范围31维聚类:两个步骤,首先使用连续属性值聚类算法,然后将聚类集合并为连续值,做相同的标记数据规约数据规约可以减少无效错误数据对建模的影响,减少时间,减少存储数据的空间。属性规约属性规约是寻找最小属性子集,并确定子集概率分布接近原始数据的概率分布。1合并属性:将一些旧属性合并为新属性2,逐步向前选择。从空属性集开始,每次在原始属性集中中中选择当前最优属性并添加到当前子集中,直到无法选择最优属性或满足约束值为止。3.从空属性集开始,每次在原始属性集中中选择当前最差属性并删除当前子集中,4决策树归纳,直到无法选择最差属性或满足约束值:从初始集合中删除未出现在决策树上的属性,以获得更好的属性子集5 主要成分分析:通过减少数据量,包括参数和无参数方法,用较少的变量解释原始数据中的大多数变量(将相关性较高的变量转化为相互独立或不相关的变量),有线性回归、多元回归等参数,直方图、抽样等无参数法。
以上就是关于数据预处理是什么?基础步骤如下的相关介绍,更多数据预处理是什么?基础步骤如下相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据预处理是什么?基础步骤如下有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一