首页 >知识讲堂 >数据分析知识>数据分析人员称道和接受的数据降维方法

数据分析人员称道和接受的数据降维方法

2021-01-11 10:52:13 阅读(171 评论(0)

近年来,由于数据记录和属性规模的快速增长,也出现了大数据处理平台和并行数据分析算法。同时,这也促进了数据降维处理的应用。事实上,数据量有时过多。有时在数据分析应用中,大量的数据会产生更糟糕的性能。最新的例子是使用2009KDChalenge大数据集来预测客户流失。数据集维度达到15000维。大多数据挖掘算法直接逐列处理数据,当数据数量较大时,算法越来越慢。这个项目最重要的是减少数据列数,尽可能少地丢失数据信息。以这个项目为例,我们开始讨论数据分析师在当前数据分析领域称赞和接受的数据降维方法。缺失值比率(MissingValuesRatio)该方法是基于包含过多缺失值的数据列,包含有用信息的可能性较小。因此,数据列缺失值大于一定阈值的列可以去除。阈值越高,降维方法越积极,即降维越少。该方法示意图如下:低方差滤波(LowVarianceFilter)类似于上一种方法,假设数据列变化很小的列所包含的信息量较少。因此,所有数据列方差小的列都被删除了。需要注意的是,方差与数据范围有关,因此在采用该方法之前需要对数据进行归一化。算法示意图如下:高相关滤波器(HighCorrelationFilter)高相关滤波器认为,当两列数据变化趋势相似时,也显示了它们所包含的信息。这样,机器学习模型就可以通过使用类似列中的一列来满足。通过计算相关系数来表示数值列之间的相似性,通过计算皮尔逊卡方值来表示名词类列的相关系数。两列相关系数大于一定阈值的列只保留一列。还需要注意的是,相关系数对范围敏感,因此在计算前也需要对数据进行归一化。算法示意图如下:随机森林/组合树(RandomForests)组合决策树通常被用作随机森林,在选择特征和构建有效的分类器时非常有用。一种常用的降维方法是根据每个属性的统计结果,对目标属性产生许多巨大的树木,然后找到信息量最大的特征子集。例如,我们可以将一棵非常大的数据集生成非常浅层的树,每棵树只训练一小部分属性。若属性往往成为最佳分裂属性,则很可能是需要保留的信息特征。与其他属性相比,随机森林数据属性的统计评分将向我们揭示哪个属性是预测能力最好的属性。算法示意图如下:主成分分析(PCA)主要成分分析是一个统计过程,通过正交变换将原始n维数据集转换为新的数据集,称为主要成分。在变换后的结果中,第一个主要成分具有最大的方差,每个后续成分在与上述主要成分正交条件的限制下具有最大的方差。降维时只保存前m(m<n)保持最大数据信息量的主要成分。需要注意的是,主要成分的转换对正交向量的尺度很敏感。变换前需要对数据进行归一化处理。还需要注意的是,新的主要成分不是由实际系统产生的,因此在PCA转换后会失去对数据的解释。如果数据的解释能力对你的分析很重要,那么PCA可能不适用于你。算法示意图如下:消除反向特征(BackwardFeatureElimination)在这种方法中,所有分类算法首先使用n个特征进行训练。每次降维操作,用n-1个特性对分类器进行n次训练,获得新的n个分类器。将新分类器中错分率变化最小的分类器使用的n-1维特征作为降维后的特征集。通过不断迭代这个过程,可以得到降维后的结果。n-k维特征分类器是在第k次迭代过程中获得的。通过选择最大的错误容忍度,我们可以得到在选择分类器时达到指定分类性能的最小特征。算法示意图如下:前向特征结构(ForwardFeatureConstruction)构建前向特征是消除反向特征的反过程。在前向特征的过程中,我们从一个特征开始,每次训练增加一个特征,最大限度地提高分类器的性能。前向特征结构和反向特征消除都非常耗时。它们通常用于输入维数相对较低的数据集。算法示意图如下:我们选择2009KDChanlenge的切割数据集,比较这些降维技术的降维率、精度损失率和计算速度。当然,最终的准确性和损失率也与所选数据分析模型有关。因此,最终降维率和精度的比较是在三种模型中进行的,即决策树、神经网络和简单贝叶斯。通过运行优化循环,最佳循环终止意味着低纬度和高精度取决于七种降维方法和最佳分类模型。通过将训练模型的基准精度与ROC曲线下的面积进行比较,最终最佳模型的性能。以下是对所有比较结果的比较。从上表的比较可以看出,数据降维算法不仅可以提高算法的执行速度,还可以提高分析模型的性能。采用数据集:缺失值降维、低方差滤波、高相关滤波或随机森林降维时,表中的AoC在测试数据集中略有增长。的确,在大数据时代,数据越多越好,似乎已经成为公理。当数据集宝航行过多的数据噪声时,算法的性能会导致算法的性能达不到预期。只有少量甚至无效的信息才能帮助我们构建更具可扩展性和通用性的数据模型。新数据集中的数据模型可能会表现得更好。最近,我们咨询了Linkedin数据分析小组中最常用的数据降维方法。除了本博客中提到的数据降维方法外,它还包括:随机投影(RandomProjections)、非负矩阵分解(N0n-negativeMatrixFactorization),自动编码(Auto-encoders),卡方检测和信息增益(Chi-squareandinformationgain),多维标定(MultidimensionalScaling),相关性分析(CoorespondenceAnalysis),因子分析(FactorAnalysis)、聚类(Clustering)贝叶斯模型(BayesianModels)。感谢Asteriosstergioudis、RaoulSavos和MichaelWill在Linkedin小组中提供意见。本博客在KNIMEEXAMPLES服务器上描述了“003_”的工作流程Preprocessing/003005_dimensionality_reduction可以在目录中找到。本博客在KNIMEEXAMPLES服务器上描述了“003_”的工作流程Preprocessing/003005_dimensionality_reduction可以在目录中找到。2009KDChalenge大小数据集下载地址:下载。本博文只是对整个项目的简要总结,如果您想了解更多细节,可以阅读相关白皮书,白皮书下载地址:链接本博文原载:dataminingreporting.com#sthash.3vHXD9wv.dpuf翻译后记本文翻译自7machineleningtechniquesfordimensioninityreduction。为了方便解释,白皮书在原有的基础上进行了比较,每种方法的示意图都是从白皮书中添加的,有兴趣的可以直接阅读白皮书。翻译后没有仔细校对。如果有错误,请读者雅正。

以上就是关于数据分析人员称道和接受的数据降维方法的相关介绍,更多数据分析人员称道和接受的数据降维方法相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析人员称道和接受的数据降维方法有更深的了解和认识。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

编程一般要学多久

学习UG编程一般要多久?一般来说学ug大约需要3个月以上的时间差不多能学会,不过前提是你的悟性好,有一定编程或建模基础。不过去培训机构,则差不多1个月左右即可学成。自学PLC编程要多久?自学PLC编程语言大概3个月,才略有所成,PLC是…查看详情

五款实用会员管理系统推荐

会员一词在我们生活中并不陌生,不管做什么都会有普通与会员之分,为了让客人长期与自已合作产生长期消费,很多饭店、酒店、美容美发等服务行业都会有会员制度,会员可以比普通消费更有优惠些,会员太多了就不好管理了,所以就得…查看详情

外贸CRM软件符合行业需求的必备功能

外贸行业市场竞争加大,价格战销售时代已经过去了,企业的综合实力和系统化配套服务成为了外贸商获得认可的重要参考,因为这也是省心、高效、低风险的标志,外贸CRM软件逐渐被企业关注。实用的外贸CRM软件需要根据外贸行业的具体需…查看详情

注册商标,多少费用是合理的?

企业/个人进行商标注册通常有两种方式,一种是自行申请,另一种是委托代理机构(或知识产权服务公司)办理。商标申请人及代理结构需要在受到商标局缴费通知书的15天内,向商标局缴纳相关费用,商标局对于商标注册的费用是有明确规…查看详情

减肥水果有哪些?十大减肥水果排行榜

下面是一个关于十大减肥水果排行榜的简短介绍:1. 西柚:西柚富含维生素C和纤维,可以帮助消化和代谢脂肪。2. 苹果:苹果含有丰富的纤维和水分,能够增加饱腹感,控制食欲,并提供少量的热量。3. 蓝莓:蓝莓富含抗氧...查看详情

2022比较好用的翻译软件有哪些

  现在很多的行业都要用到翻译软件,但是不同的行业的翻译软件的需求是不同的,下面万商云集小编给大家来盘点几款好用的翻译软件。  一、谷歌翻译  谷歌翻译作为入门级别的翻译软件,基本上家喻户晓。谷歌浏览器有全网页翻…查看详情

安全高效!旗舰版财务软件让你省心

选择一个安全高效的财务软件对办公来说帮助很大。市面上有很多免费的财务软件,但其功效都是一言难尽,不是数据出错就是系统卡顿,不时刻备份数据就会丢失,而且相对来说免费的财务软件安全性极低,所以如果预算是充足的,还是建…查看详情

企业订货系统的7个功能,帮助企业解决三大问题

随着互联网供应链管理系统越来越成熟,很多人都开始主动寻找一款企业订货系统,想要来减轻企业在业务方面的巨大成本,提高效率减去繁琐的流程。下面我们就来了解一下“企业订货系统”相关内容吧。 图片来源于网络 什么是企…查看详情

查水费明细的软件有哪些 查水费明细的软件排行榜

  很多朋友都不知道自己家里的水表消费明细在哪查,而且很多人对这一块都不是很熟悉,下面小编就给大家来详细介绍一下查水费明细的软件有哪些 查水费明细的软件排行榜这一块的相关内容,希望能帮助到大家。  查水费明细的…查看详情

中小企业品牌网站建设应该怎么做

怎样才能做好品牌网站建设呢?这个问题对于很多想要通过网络营销来拓展品牌渠道招商的中小企业来讲,真正非常关键。因为品牌网站建设的策划将影响到整个品牌的发展前景和招商工作的开展程度。一起来看看做好品牌网站建设需要注意…查看详情

这5款经典在线订购管理系统你一定要知道

基于互联网的飞速发展,网络深入各领域各行业,成为企业发展的重要风口。实体厂家和代理商家、批发商之间的交流也有线下订货转为网络平台直接下单订货,既高校又准确,能够解决传统订货方式中出现的很多问题。所以挑选一个优质的…查看详情

动态壁纸软件哪些比较好?推荐几款好用的动态壁纸软件

很多人在使用电脑的时候都特别喜欢屏幕有动态壁纸保护,动态壁纸能够带来更加炫酷的效果,拖动鼠标伴随着声音的节奏,能够带来很美妙的效果。动态壁纸软件其实也是比较多的,那么动态壁纸软件哪些比较好呢?下面就来给大家推荐几…查看详情

掌握这5款聊天软件,轻松愉快的交际陌生人

现实中的朋友固然重要但是在现代的社会,线上的交友有时候也会给你带来意外的惊喜,所谓多个朋友多条路,往大了说两个做生意的小伙伴聊着聊着就不小心达成了一场交易,往小了说相约在游戏里一起游戏也是很好的不是吗,那么各位小…查看详情

处于成长型的小公司erp该怎么选?是否有必要?

想要实现数字化管理一直是企业所面临的首要问题。小公司不同于中大型公司,能够花费巨额的费用来做软件的定制开发,小公司erp的选择更多地是追求性价比。那么小公司erp该怎么选?是否有必要呢?图片来源于网络 小公司erp是否有必…查看详情

蛋糕店品牌有哪些 2022蛋糕店十大品牌

  相信很多的小伙伴平时都经常吃蛋糕,而且很多人还是特别喜欢吃蛋糕这种,下面万商云集小编给大家来详细介绍一下蛋糕店品牌有哪些 2022蛋糕店十大品牌这一块的内容,不知道下面的品牌蛋糕小伙伴们吃过没有。  一、Holiland好利…...查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询