2021-01-05 10:41:11 阅读(274)
逻辑回归(LogisticRegression,LR)逻辑回归分析,又称逻辑回归分析,是分类预测算法之一。通过历史数据的表现来预测未来结果的可能性。例如,我们可以将购买概率设置为变量,将用户的特征属性,如性别、年龄、注册时间等设置为自变量。根据特征属性预测购买概率。逻辑回归和回归分析有很多相似之处。在我们开始介绍逻辑回归之前,让我们来看看回归分析。回归分析用于描述自变量X和因变量Y之间的关系,或者自变量X对因变量Y的影响,并预测因变量Y。因变量是我们想要的结果,自变量是影响结果的潜在因素,可以有一个或多个自变量。自变量称为一元回归分析,超过一个自变量称为多元回归分析。以下是一组广告成本和曝光次数的数据,成本与曝光次数一一对应。曝光次数是我们想知道的结果。成本是影响曝光次数的因素。我们将成本设置为自变量X,并将曝光次数设置为变量Y。我们可以通过一元线性回归方程和判断系数找到成本(X)对曝光次数(Y)的影响。以下是一元回归线性方式,其中y是变量,X是自变量。我们只需要截距B0和斜率B1来获得成本和曝光次数之间的关系,并预测曝光次数。在这里,我们用最小的二乘法来计算截距b0和斜率b1。最小二乘法通过最小化误差的平方与搜索数据的最佳函数匹配。下表是使用最小二乘法计算回归方程的必要计算过程。表中最左边的两列是自变量X和因变量Y。我们首先计算自变量和因变量的平均值,然后计算每个观测值和平均值之间的差异,以及计算回归方程斜率B1所需的数据。回归方程的斜率b1是根据表中的数据和公式计算的,计算过程如下。斜率表示自变量与变量之间的关系,正变量与变量正相关,负变量与变量负相关,0变量与变量无关。在获得斜率B1后,Y轴的截距B0可以根据以下公式找到。将斜率B1和截距B0替换为回归方程。通过这个方程,我们可以获得自变量和因变量之间的关系。每增加1元,曝光次数将增加7437次。以下是回归方程和图表。在回归方程的图表中,还有一个R平方,称为判断系数,用来衡量回归方程是否很好地拟合了样本数据。判断系数在0-1之间,值越大,拟合越好,换句话说,自变量对因变量的解释越高。判断系数的计算公式是SST=SSR SSE,SST为总平方和,SSR为回归平方和,SSE为误差平方和。下表是计算判断系数所需三个指标的必要计算过程。根据之前要求的回归平方和(SSR)和总平方和(SST)判断系数为0.94344。以上是回归方程的计算过程。在根据成本预测曝光量的情况下,我们可以通过回归方程在已知成本的情况下计算曝光量。在线性回归的基础上,逻辑回归比回归方程增加了逻辑函数。例如,通过用户的属性和特征来判断用户最终是否会购买。购买的概率是由于变量Y,用户的属性和特征是自变量X。Y值越大,用户购买的概率就越大。在这里,我们使用事件发生的可能性(odds)表示购买与未购买的比例。使用E作为购买事件,P(E)是购买的概率,P(E")是未购买的概率,Odds(E)事件E(购买)发生的可能性。Odds是一个从0到无限的数字,Odds的值越大,事件发生的可能性就越大。我们将Odds转换为0-1之间的概率函数。首先,对Odds取自然对数,得到logit方程,logit是负无限到正无限的范围。基于上述logit方程,获得以下公式:其中使用π替换公式中的P(E),π=P(E)。根据指数函数和对数规则获得以下公式:用户购买概率按逻辑回归方程计算。下表为用户注册天数和是否购买数据,其中注册天数为自变量X,是否购买为自变量Y。我们将购买标记为1,未购买标记为0。在Excel中,我们将通过8个步骤计算逻辑回归方程的斜率和截距。并通过方程预测新用户是否会购买。第一步是利用Excel的排序功能,根据变量Y对原始数据进行排序,将购买和未购买的数据分开,使数据特征更加明显。第二步是根据Logit方程预设斜率b1和截距b0的值,在这里我们将两个值预设为0.1。然后通过Excel寻求最优解。第三步是根据logit方程计算L值,使用前预设的斜率和截距值。第四步是自然对数L值,第五步是计算P(X)的值,P(X)对事件发生的可能性(Odds)。具体的计算步骤和过程见下图。第六步,计算每个值的对数似然函数估计值(Log-Likelihood)。方法和过程见下图。第七步是总结对数似然函数值。第八步是利用Excel的规划求解功能计算最大对数似然函数值。方法和过程见下图。设置汇总的对数似乎是函数值LL最大化的目标,预设的斜率B1和截距B0是可变单元格,取消“无约束变量为非负数”的选项。进行求解。如下图所示,Excel将自动找出逻辑回归方程中斜率和截距的最佳解。在获得逻辑回归方程的斜率和截距后,我们可以将值代入方程,获得注册天数和购买概率的预测模型。通过这个模型,我们可以对不同的注册天数进行测量(X)用户的购买概率(Y)进行预测。以下是计算过程。第一步是输入自变量注册天数(X)我们在这里输入50天。第二步是将输入的X值、斜率和截距放入Logit方程中,以获得L值。第三步,对L值自然对数。第四步是寻求时间的可能性(X)的概率值。用户购买注册天数为50天的概率约为17.60%。我们将注册天数的所有值代入购买概率预测模型,获得了注册天数对购买概率影响的曲线。从曲线上可以发现,注册天数较低、天数较高的用户购买概率相对稳定。用户购买中间天数的概率变化很大。在上述计算结果中,我们继续增加新的自变量“年龄”。以下是原始数据的截图。现在有两个自变量和一个因变量:年龄和注册天数。按照上述方法计算斜率和截距的最佳解,获得逻辑回归方程,将不同年龄和注册天数替换到方程,获得用户年龄和注册天数购买的预测模型。通过Excel的三维图表绘制年龄和注册天数对购买概率的影响。购买概率随着注册天数的增加而增加,在同一注册天数下,年轻用户的购买概率相对较高。
以上就是关于逻辑回归分析如何预测购买概率?的相关介绍,更多逻辑回归分析如何预测购买概率?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对逻辑回归分析如何预测购买概率?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一