2021-01-04 15:52:37 阅读(137)
相关分析(AnalysisofCorrelation)它是网站分析中常用的分析方法之一。通过分析不同特征或数据之间的关系,发现业务运营中的关键影响和驱动因素。并预测业务的发展。本文将介绍五种常用的分析方法。在介绍相关分析之前,需要特别注意的是,相关关系并不等于因果关系。有许多方法可以进行相关分析,主要方法可以快速发现数据之间的关系,如正相关、负相关或非相关。中间的方法可以衡量数据间关系的强度,如完全相关、不完全相关等。先进的方法可以将数据之间的关系转化为模型,并通过模型预测未来的业务发展。下面我们介绍一组广告的成本数据和曝光数据。以下是每日广告曝光和成本的数据,每行代表一天的成本和广告曝光的数量。根据经验判断,这两组数据之间应该有联系,但只有通过这两组数据,我们无法证明这种关系是真实的,也无法衡量这种关系的强度。因此,我们希望通过相关分析找出两组数据之间的关系,并测量这种关系的进度。1.图表相关分析(折线图和散点图)第一种相关分析方法是可视化数据,简单来说就是画图表。仅仅从数据的角度来看,很难找到趋势和联系,在将数据点绘制成图表后,趋势和联系就会变得清晰。对于时间维度明显的数据,我们选择使用折线图。 为了更清楚地比较这两组数据的变化和趋势,我们使用双坐标轴折线图,其中主坐标轴用于绘制广告曝光数据,次坐标轴用于绘制成本数据。通过折线图,我们可以发现成本和广告曝光两组数据的变化和趋势大致相同。从总体趋势来看,成本和广告曝光两组数据都呈现出增长趋势。在规律性方面,成本和广告曝光数据的最低点出现在同一天。从细节上看,两组数据的短期趋势也基本相同。经过以上比较,我们可以说广告曝光率和成本之间存在一些相关性,但这种方法在整个分析过程和解释中过于复杂。如果用更复杂的数据或相关性较低的数据代替,就会出现很多问题。散点图比折线图更直观。散点图消除了时间维度的影响,只关注两组数据之间的关系,即广告曝光和成本。在绘制散点图之前,我们将成本标记为X,即自变量,将广告曝光标记为y,即因变量。以下是每天根据广告曝光和成本数据绘制的散点图。X轴是自变量成本数据,Y轴是变量广告曝光数据。从数据点的分布可以看出,自变量x和因变量y有相同的变化趋势,当成本增加时,广告曝光率也会增加。折线图和散点图都清楚地表示了两组数据之间的关系,即广告曝光率和成本成本。优点是显示相关关系清晰,缺点是不能准确测量相关关系,缺乏说服力。当数据超过两组时,不能完成每组数据之间的相关分析。两组或两组以上数据之间的关系需要通过具体数字来衡量,需要使用第二种方法:协方差。2.协方差和协方差矩阵的第二种相关分析方法是计算协方差。协方差用于衡量两个变量的整体误差。如果两个变量的变化趋势一致,协方差为正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差为负值,则表明两个变量为负相关。若两个变量相互独立,则协方差为0,说明两个变量无关。以下是协方差的计算公式:以下是广告曝光和成本成本之间协方差的计算过程和结果。经过计算,我们得到了很大的积极值,因此可以表明两组数据之间是正相关的。随着成本的增加,广告曝光率增加。在实际工作中,不需要按以下方法计算,两组数据的协方差可以通过Excel中的COVAR()函数直接获得。协方差只能分析两组数据的相关性。当有两组以上的数据时,需要使用协方差矩阵。以下是三组数据x,y,z,协方差矩阵计算公式。通过数字测量变量间的相关性,正值表示正相关,负值表示负相关。但无法衡量相关的密切程度。当我们面对多个变量时,我们无法通过协方差来解释这两组数据的最高相关性。为了测量和比较相关性的密切性,需要使用下一种方法:相关系数。,3.相关系数的第三种相关分析方法是相关系数。相关系数(Correlationcoefficient)它是反应变量之间关系密切程度的统计指标,相关系数的值范围在1-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量无关。数据越接近0,相关性就越弱。以下是相关系数的计算公式。Rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X样本标准差,Sy表示y样本标准差。以下是Sxy协方差和Sx和Sy标准差的计算公式。由于样品协方差和样品标准差,分母使用n-1。以下是计算相关系数的过程。在表中,我们分别计算了x、y变量的协方差和各自的标准差,相关系数值为0.93。0.93大于0表示两个变量之间的正相关,同时0.93非常接近1,表示两个变量之间的高度相关。在实际工作中,不需要上述复杂的计算过程。在Excel数据分析模块中选择相关系数功能,设置x,y变量后自动获得相关系数值。从以下结果可以看出,广告曝光率与成本成本的相关系数与我们手动要求的结果是一致的。相关系数的优点是可以通过数字测量变量关系,方向性,1表示正相关,-1表示负相关,可以测量变量关系的强度,接近0的相关性越弱。缺点是无法利用这种关系来预测数据。简单来说,变量间的关系没有细化和固化,形成模型。为了利用变量间的关系进行预测,需要采用下一种相关的分析方法进行回归分析。,第四种相关分析方法是回归分析,一元回归和多元回归。回归分析(regressionanalysis)是确定两组或两组以上变量间关系的统计方法。根据变量的数量,回归分析分为一元回归和多元回归。两个变量用一元回归,两个以上变量用多元回归。回归分析前有两个准备工作,第一个是确定变量的数量。二是确定自变量和因变量。我们的数据只包括两个变量:广告曝光率和成本成本,因此使用一元回报。根据经验,广告曝光量随成本的变化而变化,因此成本设置为自变量x,广告曝光设置为变量y。以下是一元回归方程,其中y表示广告曝光,x表示成本。b0是方程的截距,b1是斜率,也表示两个变量之间的关系。我们的目标是B0和B1的值,知道这两个值就知道变量之间的关系。广告曝光可以通过这种关系在已知成本的情况下预测。这是b1的计算公式,我们通过已知的成本x和广告曝光y来计算b1的值。b1值的具体计算过程和结果是通过最小二乘法计算的,b1值为5.84。同时,我们也获得了自变量和因变量的平均值。b0值可以通过这三个值来计算。以下是b0的计算公式,在已知b1和自变量与因变量平均值的情况下,很容易计算b0的值。将自变量、因变量的平均值和斜率B1代入公式,找出一元回归方程截距B0的值为374。我们在这里保留两位小数,取值5.84。Excel可以帮助我们自动完成并给出结果,而无需在实际工作中进行如此繁琐的计算。在Excel中使用数据分析中的回归功能,输入自变量和因变量范围后自动获得b0(Intercept)5.84值为362.15和b1。这里的b0和之前手动计算获得的值有些不同,因为之前用来计算的b1值只保留了两位小数。这里还要单独说明RSquare的0.87值。该值称为判断系数,用于测量回归方程的拟合优度。值越大,回归方程越有意义,自变量对因变量的解释就越高。将截距B0和斜率B1代入一元回归方程,获得自变量与因变量的关系。每增加1元,广告曝光率就会增加379.84次。通过这种关系,我们可以根据成本预测广告曝光数据。投资成本也可以根据转换所需的广告曝光率进行反推。获得这个方程的另一个更简单的方法是在Excel中生成自变量和因变量的散点图,然后选择添加趋势线,在添加趋势线的菜单中选择显示公式和R平方值。以上介绍了两个变量的一元回归方法。如果使用Excel中的回归分析有两个以上的变量,则可以选择相应的自变量和变量范围。以下是多元回归方程。5.信息熵和互信息最后一种相关分析方法是信息熵和互信息。我们一直在分析消费成本和广告曝光两组数据。影响实际工作最终效果的因素可能很多,不一定是数值形式。例如,我们从更高的维度看以前的数据。广告曝光只是一个过程指标,最终需要分析和关注用户是否购买。影响这一结果的因素不仅仅是消费成本或其他数值指标。可能是一些特征值。比如用户所在的城市,用户的性别,年龄间隔的分布,是否第一次访问网站等等。这些都不能通过数字来衡量。测量这些文本特征值之间关系的方法是相互信息。通过这种方法,我们可以发现哪种特征与最终结果密切相关。以下是我们模拟的一些用户特征和数据。在这些数据中,我们忽略了以前的消费成本和广告曝光数据,只关注特征和状态之间的关系。对于信息熵和相互信息的具体计算过程,请参考决策树分类和预测算法的原理和实现,直接给出每个特征的相互信息值和排名结果。经过计算,城市与购买状态的相关性最高,北京的用户购买率较高。到目前为止,已经介绍了五种相关的分析方法,每种方法都有自己的特点。其中,图表方法最直观。相关系数方法可以看到变量间的相关性。回归方程可以细化相关关系,生成预测的模型。相互信息可以测量文本特征之间的相关关系。
以上就是关于网站分析中常用的5种分析方法的相关介绍,更多网站分析中常用的5种分析方法相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对网站分析中常用的5种分析方法有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一