数据分析容易在那些方面犯错，如何解决？

2021-01-04 16:36:10 阅读（191） 评论（0）

摘要：在大大小小的数据分析中，由于各种原因会犯不同的错误，以及如何解决？错误地将相关性视为因果性correlationvsss.经典冰淇淋销量与游泳溺水人数成正比，这并不意味着冰淇淋销量的增加会导致更多的人溺水，而只能说明两者之间的相关性。例如，由于天气炎热，两者的数量都增加了。这个例子很明显。有些人可能认为有些人怎么会犯这样的错误。然而，在现实生活、学习和工作中，有些人会不时犯这样的错误。例如栗子数据显示，当科比投篮10-19次时，湖人的胜率是71.5%；当科比投篮20-29次时，湖人的胜率急剧下降到60.8%；当科比投篮30次或更多时，湖人的胜率只有41.7%。根据这组数据，科比应该少出手才能赢？不一定如此。可能是因为队友状态好，科比投篮少了，不需要他投篮太多。也可能是因为球队早早领先，垃圾时间太多。由于比赛困难或队友状态不佳，他需要挺身而出。当然，以上只是可能之一。光靠这组数据就无法得出具体情况的结论。—声明：非科比粉，路人偏黑。在Survivivorshipbias数据分析中，幸存者偏差中看到的样本是“幸存了一些经验”，导致结论不正确。例如，比尔盖茨、乔布斯和扎克伯格都没有完成大学学业，所以每个人都应该辍学创业。这个结论最大的问题是退学但没有成功的例子，我们经常看不到。另一方面，他们因为牛逼而退学，而不是退学。看，相关性/因果关系真的很有限。另一个例子是Uber发现新用户有10元的优惠券，但平均评价只有3星。相反，第二次使用时没有优惠券，但评价高达4星半。这说明用户对不给优惠券的评价会更高。果然，虽然用户喜欢使用优惠券，但他们仍然觉得便宜，没有好东西。很明显，幸存者偏差反映在这个例子中，那些评价一星和二星的用户之后可能没有第二次。更明显，这个例子是我胡说八道的。以知乎为例，样本与整体有本质区别。会有一种错觉，每个人的年薪都是100万，从985/211开始，各种GFSBFM，中国的收入水平直接接近湾区码工。但一方面，这是幸存者的偏差，知乎大V的声音更容易被看到(看，幸存者的偏差也是阴魂不散)。另一方面，不要低估知乎和中国网民的区别，以及中国网民和中国人民的区别–样本与整体不同。类似的例子包括水木工作部分、步行街收入和中国网站的贫困线。图片来源：http://i.stack.imgur.com/yZQgZ.gif过于追求统计显著性的statisticalsignificance统计101告诉我们，要比较两组数是否不同，最基本的一点就是看它们的区别是否显著。比如Linkedin又要修改了(我为什么要再说一遍)，A和B有两个版本.灰度测试发现，与现有版本相比，A的日常生活比现有版本高20%，但统计数据并不明显。虽然B的日常生活只比现有版本高3%，但统计显著。于是PM拿出统计101翻到第二页说，来吧，让我们把统计显著版B上线吧。数据科学家DS说，等一下！并非所有时候都选择统计显著的那一个，我们再来看看版本A的数据吧(具体分析略过一万字)。显然，这个例子也是我胡说八道的。不做数据可视化，更可怕:做错或误导性的数据可视化，比如@谢科在回答中提到的「数据会说谎」有哪些真实的例子？–在趋势图中，谢科的回答是，为了说明增长趋势有多明显，Y不从0开始。这样的差距会看起来很大，增长很大，但是如果从0开始看Y轴，基本上就没有差距了。(下一步是安排23333的twitter示例，因为数据分析显示，有twitter公司这样的示例会更有趣。)通过分析文本数据，发现数据分析提供的结果和建议不可行。。。算了吧，我编不出来，由此可见，不可行的结果虽然是“理论正确”的分析结果，但并卵。。。不要做数据分析，不要笑。据以前学校后来大家都不知道叫什么PM说，这是真的。(开个玩笑，如果大家的同事都介意，我就删了。)-这部电影应该是每个人的小秘书的最后一个大动作:如何解释p-value，我就不说了。如果我说错了，明天怎么面对老板和同事？欢迎有兴趣解释p-value的留言。

以上就是关于数据分析容易在那些方面犯错，如何解决？的相关介绍，更多数据分析容易在那些方面犯错，如何解决？相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析容易在那些方面犯错，如何解决？有更深的了解和认识。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：案例分析丨如何建立一套数据生态系统？下一条：常见的转化思维误区与有效转化步骤