A/B测试和置信区间，一起实现用A/B测试驱动产品优化

2020-12-01 15:42:02 阅读（140） 评论（0）

P-value定义P-value(以下简称P值)，又称“显著水平”，是指样本数据在真实情况下拒绝原假设事件的概率，可用于评估假设检验中最关键的第一类错误概率。今年3月，美国统计协会（ASA）《关于统计显著性和P值的声明》在其官方网站上发布，进一步阐述了P值的概念和用途：P值可以表达数据与给定模型（即原假设下的模型）不匹配的程度；P值不能衡量假设的真实概率，或者数据仅由随机因素产生的概率；科学结论、商业决策或政策制定不仅取决于P值是否超过给定阈值；合理的推断过程需要完整的报告和透明度；P值或统计显著性不衡量影响的大小或结果的重要性；P值本身不是一个很好的测量模型或假设的证据大小。P-value的计算-T检验P值的计算公式取决于假设检验的具体方法。常用的假设检验方法包括Z检验、T检验和卡方检验。不同的方法有不同的适用条件和检验目标。A/B测试采用对照版本和测试版本两个样本的数据来测试两个样本的整体差异，因此适用于T测试方法中的独立双样本测试(independenttwo-samplesttest)。A/B测试采用对照版本和测试版本两个样本的数据来测试两个样本的整体差异，因此适用于T测试方法中的独立双样本测试(independenttwo-samplesttest)。相关概率水平，即P-value的值，是通过T分布理论来计算的。T检验的计算公式首先通过来公式计算统计检验量Z值。公式中的相关组成因素是：两个版本的平均值、方差（标准差）和样本的大小，以计算统计量的Z值。然后通过t分布(大样本下近似正态分布)的公式计算出与Z值对应的P值，阴影部分的面积为P-value值。计算P值后，我们可以根据上述假设检验决策规则来判断两个样本平均值之间的差异是否明显。P-value中常见的错误Aalue．统计显著=效果显著=效果的商业价值？这个公式的意思是，P值只代表样本数据与原始假设之间的不一致性，而不代表你发现的效果（或差异）的大小。尽管研究人员希望在许多情况下计算出零假设的真实概率或数据由随机因素产生的概率，但遗憾的是，这两者都不是P值。P值只解释数据和假设之间的关系，而不解释假设本身。也就是说，无论P-value的值有多小，它只能告诉你两个版本之间是否有不同的效果，不知道不同的效果有多大，更不用说我们的效果是否有实际价值了。比如我们通过A/B测试优化一个资源消耗超过10倍的推荐算法，得到p值=0.001，说明测试结果显著。试验的效果只增加了收入的万分之一。当资源消耗增加10倍以上时，收入只有很小的增加，所以总的来说，这种优化带来的商业效果其实是非常不显著的。因此，改变带来的商业效果无法从P值来判断。B.一旦P≤α，立即得出结论？这是一种经典的错误使用P值的方法：不断观察和检查P值(multipletesting)，一旦p值小于α停止试验得出结论，以确定标准(即统计显著)。事实上，这会导致第一类错误的发生率很高。以Airbnb的A/B测试为例，当测试开始运行时，每天观察测试数据和p值，并绘制以下图表。当试验运行到第7天时，可以发现，p-value的值首次小于α判断标准，实验结果显示。但过了一段时间，p值并没有稳定下来，甚至一度增加到实验结果显示不明显。也就是说，单纯依靠p-value值来判断实验结果是否显著是不可靠的。特别是在试验开始前7-10天内，单纯依靠p-value值来判断版本差异，出错的概率非常大。以上是P-value的介绍。如果你在阅读过程中对P值有更深入的了解，那就是我们在这篇文章中最大的成功。最后，我想说的是，P值不是数据分析的终点，所有决策过程都应该综合考虑多个因素，而不是“一锤交易”。许多其他合适可行的方法同时应用于A/B测试，它们的共同作用帮助我们判断最佳测试版本。在下一篇文章中，我们将讨论用户在A/B测试中最关心的部分——信心范围。

以上就是关于的相关介绍，更多相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：作为一个微信服务号运营er，平时都要看哪些数据呢？下一条：三个模块来解析简书的发展和运营过程