2020-12-18 15:39:32 阅读(164)
下面介绍十种数据挖掘方法(DataMining)为了方便大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有所帮助!(甚至有数据挖掘公司可以用其中一个算法独步世界)1、基于历史的MBR分析(Memory-BasedReasoning;MBR)基于历史的MBR分析方法的主要概念是使用已知的案例(case)预测未来案例的一些属性(attribute),通常找最相似的案例进行比较。记忆基础推理法有两个主要要素,即距离函数(distancefunction)与结合函数(combinationfunction)。距离函数的目的是找出最相似的案例;结合函数结合类似案例的属性进行预测。基本的记忆推理方法的优点是它允许不服从某些假设的各种类型的数据。另一个优点是它有学习能力,通过学习旧案例可以获得新案例的知识。更受批评的是,它需要大量的历史数据,并且有足够的历史数据来做好预测。此外,记忆基础推理法在处理上也比较费时,不易找到最佳距离函数和组合函数。其应用范围包括欺诈检测、客户反应预测、医疗诊疗、反应分类等。2、购物篮分析(MarketBasketAnalysis)购物篮分析的主要目的是找出应该放在一起的东西。商业应用程序是通过客户的购买行为来了解什么样的客户,以及为什么这些客户购买这些产品,并找到相关的联想(association)通过挖掘这些规则,企业可以获得利益,建立竞争优势。例如,零售店可以通过分析来改变货架上的商品排列或设计吸引顾客的商业套餐。购物篮分析的基本操作过程包括以下三点:(1)选择正确的项目:这里指的正确性是针对企业,必须在数百个项目中选择真正有用的项目。(2)通过共同发生矩阵(co-occurrencematrix)探讨挖掘联想规则。(3)克服实际限制:选择的项目越多,计算消耗的资源和时间就越长(指数增加)。此时,必须使用一些技术来减少资源和时间的损失。购物篮分析技术可应用于以下问题:(1)对于信用卡购物,可预测未来客户可能会购买什么。(2)对于电信和金融服务业来说,通过购物篮分析,可以设计不同的服务组合来扩大利润。(3)通过购物篮分析,保险业可以发现可能不寻常的投保组合并进行预防。(4)对于患者来说,购物篮分析可以作为判断这些疗程组合是否会导致并发症的依据。3、决策树(DecisionTrees)决策树在解决分类和预测方面具有很强的能力。它以规则的形式表达,这些规则以一系列问题表达,最终通过不断询问问题导出所需的结果。典型的决策树的顶部是树根,底部有许多叶子。它将记录分解为不同的子集,每个子集中的字段可能包含一个简单的规则。此外,决策树可能有不同的外观,如二元树、三元树或混合决策树。4、遗传算法(GeneticAlgorithm)通过不断的选择、复制、交配、突变,学习细胞进化的遗传算法,细胞间可以产生更好的新细胞。基因算法的操作模式也非常相似。它必须提前建立一个模型,然后通过一系列类似的操作来产生新的细胞过程,并使用适当的函数(fitnessfunction)决定产生的后代是否符合这种模式,最终只有最一致的结果才能生存,这个程序一直运行到函数收敛到最佳解决方案。基因算法在群集中(cluster)问题表现良好,一般可用于辅助记忆基础推理法和类神经网络的应用。5、聚类分析(ClusterDetection)该技术涵盖了广泛的范围,包括基因算法、类神经网络和统计群集分析。它的目标是在数据中找到以前未知的类似群体。在许多分析中,集群检测技术最初被用作研究的开始。6、连接分析(LinkAnalysis)连接分析是基于数学中的图形理论(graphtheory)在此基础上,通过记录之间的关系开发了一种模式。它以关系为主体,通过人与人、物与物或人与物之间的关系开发了相当多的应用。例如,电信服务行业可以通过连接分析收集客户使用电话的时间和频率,从而推断客户的使用偏好,并提出有利于公司的解决方案。除了电信行业,越来越多的营销人员也利用连接分析来做有利于企业的研究。7、OLAP分析(On-LineAnalyticProcessing;OLAP)严格地说,OLAP分析并不是一种特殊的数据挖掘技术,但通过在线分析处理工具,用户可以更清楚地理解数据隐藏的潜在含义。就像一些视觉处理技术一样,通过图表或图形出现对普通人来说会更友好。这种工具也有助于将数据转化为信息的目标。8、神经网络(NeuralNetworks)神经网络是通过重复学习将一系列例子交给学习,从而总结出一种足以区分的风格。如果面对新的例子,神经网络可以根据其过去的学习成果进行总结,并推断出新的结果,这是一种机器学习。数据挖掘的相关问题也可以采用神经学习的方法,其学习效果非常正确,可以作为预测功能。9、判别分析(DiscriminantAnalysis)当遇到问题时,其因变量是定性的(categorical),自变量(预测变量)是定量的(metric)判别分析是一种非常合适的技术,通常用于解决分类问题。如果变量由两组组成,则称为双组-判别分析(Two-GroupDiscriminantAnalysis);若由多个群体组成,则称为多元判别分析(MultipleDiscriminantAnalysis;MDA)。(1)找出预测变量的线性组合,使组间变异比组内变异最大,每个线性组合与之前获得的线性组合无关。(2)检查每组的重心是否有差异。(3)找出哪些预测变量有最大的区别。(4)根据新受试者的预测变量值,将受试者分配给某一组。10、罗吉斯回归分析(LogisticAnalysis)罗吉斯回归分析是判断分析中群体不符合正态分布假设的好替代方法。罗吉斯回归分析不是预测事件(event)是否发生,而是预测事件的概率。它假设自变量和因变量之间的关系是S线的形状,当自变量非常小时,概率值接近为零;当自变量值缓慢增加时,曲线协议开始减小,因此概率值在0和1之间。
以上就是关于十种数据挖掘(Data Mining)的分析方法的相关介绍,更多十种数据挖掘(Data Mining)的分析方法相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对十种数据挖掘(Data Mining)的分析方法有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一