2021-01-04 10:34:15 阅读(151)
这篇文章是《赤裸裸的统计学》的读后感。结合一些互联网分析的知识,我发现很多概念都有隐藏的交流,非常有趣。推荐阅读。为什么要明白统计学应该成为普通大众必备的常识,避免被越来越精致的数字陷阱所欺骗。至少当你看到各种百分比和收益率时,你可以更加警惕,思考他们的来源和计算方法。对于互联网工作者来说,在互联网上投射统计知识是数据相关的方法论。例如,流行的A/BTest本质上是控制变量法实验之一。不同的是,互联网更容易获取数据,比较实验更方便。这将是统计/数据分析的重大事件。想象一下Facebook中的数千个A/BGate,这是一个前所未有的大规模人口社会实验。这就是为什么近几年GrowthHacker,DataScientist越来越受欢迎的原因。容易获取数据量,降低存储成本,提高分析效率,使统计分析成本更低,规模更大,输出价值更高。在个人理解上,统计分析应该是整个数据过程的不同组成部分。统计在于工具或手段,分析更注重概念。比如回归分析之所以叫分析,不叫统计,是因为它已经包含了一些归因思想。再举一个栗子,决定取一批数据的平均数还是中位数,这是统计,如何使用,是分析。正如《赤裸裸的统计学》所指出的,统计分析是:坑1:通过选择合适的统计指标,准确表达数据集的内容。同时,也要防止有人利用这些指标的优缺点误导舆论,影响你的决策。平均数、中位数、四分位数:平均数对极值敏感,中位数不敏感。因此,北京的学生经常觉得他们的工资收入减慢了集体的后腿。.但如果看中位数和四分位数,情况可能会大不相同。绝对值,比率值:注册数为绝对值,注册率为比率值。当比率值出现异常时,首先要注意分子和分母的情况。比如有一天发现网站UV周同比增长了500%,可能是上周基数太低造成的。若一上来就从维度上细分,很容易跑偏。百分比,百分比差,百分比:百分比是一种常见的数据表达形式,其中猫腻也比较多。这类数字往往需要注意分母和分子之间的差异。以下是两个常见的例子:1。一件商品降价15%,然后涨价15%是一样的吗?2.对于百分差和百分比,税率从3%上升到5%,可以说上升了2个百分点,也可以说上升了67%,让人觉得效果大不相同。指数数据:即通过各种数据计算的指数,其优点是将所有信息浓缩成一个数字,易于理解,但容易忽略成分数据的影响。美团外卖在评估城市用户体验方面有一个非常复杂的指标,这是一个很好的例子。通过多项数据的整合,我们很好地实现了用户体验等虚拟事物。但需要注意的是,过度依赖它很容易导致误导性的结论。坑二:统计背景不够清晰,首先要了解:准确性和准确性有本质区别。如果你着急的时候我告诉你,公厕在你右边直走134.12米,很准确。但实际上,厕所在左边。准确的本质是让指标接近所描述的东西。这就需要统一衡量事物的指标。前20011年有争论:美国制造业是否正在衰退?从整体产出来看,从2000年开始一直在增长,而制造业的就业却在下降。因此,需要统一指标来表达制造业的繁荣。就像电子商务一样,我们需要明确我们目前关注的唯一核心指标,如订单数量、交易量等。不同的关注会导致公司的战略差异。第三,确定指标后,需要确定描述主体。同样的房价,政府说我们今年有60%的城市,平均房价比去年低!买房有希望!但实际上,40%的房子都涨价了,都集中在核心城市。人们还是买不起房子..关注时代背景:《赤裸裸的统计学》举了一个有趣的例子:如何评价历史上票房最高的电影。截至2011年,好莱坞票房前五名是阿凡达、泰坦尼克号、蝙蝠侠前传二、星球大战四和怪物史莱克二。但在历史阶段,通胀是不同的。考虑到通胀因素后,该榜单应更新为:乱世佳人、星球大战四、音乐之声、外星人ET和十诫。使用统计手段会影响人们的解读:截取有利时间段,混淆单位等。坑三:统计指标也有偏见。在选择样本和进行统计分析时,会出现各种偏见,导致结果丢失,谬误数千英里。选择性偏见:选择错误的样本,分析结论自然是错误的。例如,在硅谷的第三季中,Richard发布了Beta版本给自己的开发者朋友,好评如潮。但由于其启动难度太大,普通用户根本无法使用,最终注册用户虽有百万之巨,但活跃用户却寥寥无几。同样,在分析电子商务用户的习惯时,一、二线城市和三、四线城市的消费水平和习惯肯定会有所不同,单独选择会有偏见。发表偏见:学术研究或新闻更愿意发表肯定性结论,而不是否定性结论。玩游戏不会导致癌症的研究肯定不如证明PM会导致更短寿命的实验更受关注。记忆偏见:人们会因为结果而修改记忆。例如,许多成功人士会将原因归咎于某些因素,并将其放大为关键原因。但事实并非如此。幸存者偏见:通过选择样本来控制数据。简而言之,对于那些成功下单的用户,他们的注册成功率是100%。在日常分析中,要时刻警惕这种偏见的变异版本。坑4:在研究事物的相关性时,仔细选择统计实验,控制变量实验是一种更科学的做法。在现实生活中,有些变量很难甚至无法控制,因此需要通过各种统计实验来接近这种效果。随机控制实验:随机抽取样本,随机分配实验组和对照组。这是最理想的A//BTest,分桶战略的核心。自然实验:利用现有数据创建类似的随机实验。例如,在O2O城市运营中,很难长期控制城市进行实验所需的推广活动,以比较哪种更有效。适当的方法是从现有数据中选择不同活动的城市进行比较分析。差分类差分实验:利用时间和空间的比较来控制变量。例如,在研究教育年龄对寿命的影响实验中,美国分析了田纳西州在教育改革前后的数据变化,并与邻近州进行了比较。非连续分析实验:选择条件相似但结果不同的样本进行对比分析。如果你选择一群犯罪情况相似的青少年,一组需要被送往监狱,另一组只是为了避免监狱的灾难。通过对这两组人的分析,研究监狱对青少年后续犯罪率的影响。在赤裸裸的统计学中,还有一些关于概率、期望和回归分析的部分,仅限于篇幅,这里就不多说了。感兴趣的学生建议详细阅读这本书。一本更老的书还有《统计数字会撒谎》。希望这次分享能给大家带来一点收获。
以上就是关于分析知识与统计学理念的互通之处的相关介绍,更多分析知识与统计学理念的互通之处相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分析知识与统计学理念的互通之处有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一