首页 >知识讲堂 >运营知识>A/B测试和置信区间,一起实现用A/B测试驱动产品优化

A/B测试和置信区间,一起实现用A/B测试驱动产品优化

2020-12-01 15:42:02 阅读(156 评论(0)

P-value定义P-value(以下简称P值),又称“显著水平”,是指样本数据在真实情况下拒绝原假设事件的概率,可用于评估假设检验中最关键的第一类错误概率。今年3月,美国统计协会(ASA)《关于统计显著性和P值的声明》在其官方网站上发布,进一步阐述了P值的概念和用途:P值可以表达数据与给定模型(即原假设下的模型)不匹配的程度;P值不能衡量假设的真实概率,或者数据仅由随机因素产生的概率;科学结论、商业决策或政策制定不仅取决于P值是否超过给定阈值;合理的推断过程需要完整的报告和透明度;P值或统计显著性不衡量影响的大小或结果的重要性;P值本身不是一个很好的测量模型或假设的证据大小。P-value的计算-T检验P值的计算公式取决于假设检验的具体方法。常用的假设检验方法包括Z检验、T检验和卡方检验。不同的方法有不同的适用条件和检验目标。A/B测试采用对照版本和测试版本两个样本的数据来测试两个样本的整体差异,因此适用于T测试方法中的独立双样本测试(independenttwo-samplesttest)。A/B测试采用对照版本和测试版本两个样本的数据来测试两个样本的整体差异,因此适用于T测试方法中的独立双样本测试(independenttwo-samplesttest)。相关概率水平,即P-value的值,是通过T分布理论来计算的。T检验的计算公式首先通过来公式计算统计检验量Z值。公式中的相关组成因素是:两个版本的平均值、方差(标准差)和样本的大小,以计算统计量的Z值。然后通过t分布(大样本下近似正态分布)的公式计算出与Z值对应的P值,阴影部分的面积为P-value值。计算P值后,我们可以根据上述假设检验决策规则来判断两个样本平均值之间的差异是否明显。P-value中常见的错误Aalue.统计显著=效果显著=效果的商业价值?这个公式的意思是,P值只代表样本数据与原始假设之间的不一致性,而不代表你发现的效果(或差异)的大小。尽管研究人员希望在许多情况下计算出零假设的真实概率或数据由随机因素产生的概率,但遗憾的是,这两者都不是P值。P值只解释数据和假设之间的关系,而不解释假设本身。也就是说,无论P-value的值有多小,它只能告诉你两个版本之间是否有不同的效果,不知道不同的效果有多大,更不用说我们的效果是否有实际价值了。比如我们通过A/B测试优化一个资源消耗超过10倍的推荐算法,得到p值=0.001,说明测试结果显著。试验的效果只增加了收入的万分之一。当资源消耗增加10倍以上时,收入只有很小的增加,所以总的来说,这种优化带来的商业效果其实是非常不显著的。因此,改变带来的商业效果无法从P值来判断。B.一旦P≤α,立即得出结论?这是一种经典的错误使用P值的方法:不断观察和检查P值(multipletesting),一旦p值小于α停止试验得出结论,以确定标准(即统计显著)。事实上,这会导致第一类错误的发生率很高。以Airbnb的A/B测试为例,当测试开始运行时,每天观察测试数据和p值,并绘制以下图表。当试验运行到第7天时,可以发现,p-value的值首次小于α判断标准,实验结果显示。但过了一段时间,p值并没有稳定下来,甚至一度增加到实验结果显示不明显。也就是说,单纯依靠p-value值来判断实验结果是否显著是不可靠的。特别是在试验开始前7-10天内,单纯依靠p-value值来判断版本差异,出错的概率非常大。以上是P-value的介绍。如果你在阅读过程中对P值有更深入的了解,那就是我们在这篇文章中最大的成功。最后,我想说的是,P值不是数据分析的终点,所有决策过程都应该综合考虑多个因素,而不是“一锤交易”。许多其他合适可行的方法同时应用于A/B测试,它们的共同作用帮助我们判断最佳测试版本。在下一篇文章中,我们将讨论用户在A/B测试中最关心的部分——信心范围。

以上就是关于的相关介绍,更多相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

可以电音制作的软件有哪些 可以电音制作的软件排行榜

  最近几年电音特别流行,而且现在很多的软件都是可以制作电音的,下面小编就给大家来介绍一下可以电音制作的软件有哪些 可以电音制作的软件排行榜这一块的相关内容,希望能帮助到大家。  可以电音制作的软件排行榜  1、…查看详情

重镑出击!拍账王于万亿市场之中,打造全国领先的去中心化超级AI企服平台

近年来,“互联网+”推动着互联网与各行各业的融合,对传统行业也带来了很大的影响。时代的变化与改革,也迎来了“互联网+财税”的发展新趋势。 根据国家市场监督管理总局数据统计,截止2020年9月末,全国实有各类市场主体1.3亿户…查看详情

商标注册查询的必要性及查询方法

商标注册查询是企业或个人进行商标注册的前提步骤,需要对查询的商标备案登记信息数据进行分析,来判断自己需要注册的商标与已经注册的商标的近似程度,同一个类别是不允许相同或极近相同的商标同时进行注册的。图片来源于网络商…查看详情

2022年六大广告牌制作软件

如果想要自己的东西卖出去就需要打广告,打广告就需要好看的背景来制作,所以这就显得广告牌有多么重要,今天我就来给大家介绍一下2052年六大广告牌制作软件,只要你下载了其中一款软件,你以后的广告牌都被它承包了。1.广告牌生成…查看详情

实木门十大品牌 2023实木门品牌排行榜

  随着家居行业的发展,实木门已经成为了现代家居中不可缺少的一部分,不仅美观大方,而且功能齐全,具有很高的使用价值。而如今市面上的实木门品牌琳琅满目,消费者该如何选择呢?下面就为大家介绍实木门十大品牌排行榜,希望…查看详情

2022年亚马逊开店流程及费用

  亚马逊商城是目前全球最大的电商平台,卖家和买家数量都是非常多的。现在仍有不少卖家想到亚马逊商城开店,那么大家首先要了解清楚亚马逊商城开店条件及费用有哪些,这样才能更加顺利的完成亚马逊商城注册。亚马逊开店流程 …查看详情

row函数的使用方法及实例

Excel返回行号函数ROW()和ROWS()使用详解?1、返回行号主要是使用函数row。在单元格里面输入=ROW(),此时函数没有添加任何参数,返回单元格的行号,比如这里的6。sqlrow函数的使用方法?SQLROW函数用于创建一个行值,...查看详情

U盘排行榜前十都有哪些?

对于一些学习平面设计和装修的人来说,U盘是必须要有的东西,因为U盘里面可以放很多东西,我们出门出差的时候不需要带计算机,直接带一个U盘出去就可以了,那么,关于U盘排行榜前十都有哪些呢?1、闪迪此款U盘的接头选用USB2.0接头;U盘…查看详情

小程序怎么引流到公众号

  如何利用微信公众号为网站引流?  现在不论是做线上还是线下的推广,都应该相互结合。  1、通过多个门店小程序为商城小程序进行本地引流。哪里有门店就在哪里开通附近门店定位引流。或者一个城市或多个城市定位多个门店。 …查看详情

版权登记的难度 取决于两个关键影响因素

版权登记的审查环节是采用形式审查,对材料实质内容的审核度并不是特别高,版权登记的难度根据登记作品的类型、原创度和登记方式综合决定的。常规作品的通过率是比较高的,但是特殊作品和软件著作权的难度相对较大。 图片来源…查看详情

英文网站运营本质还是与用户沟通,依旧内容至上!

网站运营的本质是流量和转化,英文网站运营不同的一点大多是搜索引擎算法的差别,国内使用较多的是百度、搜狗,英文网站更多的是使用Google。但是,搜索引擎的差别对网站优化影响比较大,对基本的网站运营相对较小。下面就英文网站…查看详情

分销电商系统适合行业发展空间比较大的中小企业

分销电商系统是当下比较热门的体统类型,受到大量中小企业及个体商家的青睐,起主要的功能就是基于微信社交平台的巨量用户基础,拓展自身产品营销渠道和方式。系统在到达率、精准度和活跃度方面具有较高优势,适合行业发展空间比…查看详情

专业网站建设,警惕“专业”两大坑

寻求第三方合作进行专业网站建设是现代企业建站的主流趋势。市面上,号称专业网站建设的服务企业涵盖了设计行业、互联网行业,甚至一些资深平台,不同领域对网站建设擅长之处各异,那么到底何谓专业网站建设? 在我看来,企业…查看详情

xor是什么运算指令?

xor是什么运算指令?XOR是异或运算指令。异或(xor)是一个数学运算符。它应用于逻辑运算。异或的数学符号为“⊕”,计算机符号为“xor”。譬如,异或可逆运算。1xor1=0,0xor0=0,1xor0=1,0xor1=1。axorb的运...查看详情

抽奖系统哪个好 好用的抽奖软件推荐

随着科技的发展和社会的进步,人们的生活质量大大提高,人们对于精神生活的要求也越来越高,为了满足人们的生活需求和生活乐趣,各种各样的抽奖系统应运而生,下面我给大家介绍六款简单实用的抽奖系统。1、全能抽奖软件全能抽奖系…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询