2020-12-28 13:43:26 阅读(149)
数据分析师最怕什么?数据错误!无论您是初级数据提取器还是高级商业分析师,无论您是通过数据统计工具埋点获取数据,还是通过SQL汇总或提取数据,还是使用Python计算数据。无法逃脱数据错误的问题。这个看似低级的错误是数据分析师永远无法摆脱的痛苦。数据错误不可避免的问题可能来自分析师的主观操作错误或各种客观因素。例如,不同统计工具之间的统计逻辑差异、业务方对同一指标的不同定义和计算规则、用户和合作伙伴行为的复杂性和潜在的欺诈流量、原始数据太脏或缺失、复杂多变的业务逻辑,以及需求方可能不知道或表达他们想要什么?从单一数据提取到商业分析报告,无论重要性如何,无论公司规模如何,都会遇到数据错误的问题。就连目前市值500亿美元的Facebook也反复表明,我们在2012年上市之初的几份季度报告中犯了一些关键指标错误。如果你不相信,往下看。2012年2月1日,Facebook提交S-1文件。在随后的2012年Q3和Q4季度报告中,特别使用了“关键指标的局限性”(LimitationsofKeyMetrics)说明影响指标的因素和关键指标中的错误。(我在S-1文件中没有找到Limitationsofkeymetrics部分的内容和地理位置指标算法的披露)以下是具体内容:“例如,在2012年6月初,我们发现了用于估计用户地理位置的算法中的一个错误,这影响了我们截至2012年3月31日对某些用户位置的归属。虽然这个问题并没有影响我们的全球MAU总数,但它确实影响了我们对不同地理区域用户的所有权。据估计,截至2012年3月31日,美国和加拿大的MAU数量因误差被高估约3%,被其他地区低估抵消。此外,这些因素也影响了我们对用户位置收入的估计。为了提高其准确性,我们定期审查并尽可能调整计算这些指标的过程。另外,由于方法上的差异,我们的MAU和DAU估计将不同于第三方公布的估计。例如,一些第三方无法准确测量移动用户,或计算特定用户组的移动用户数量,也无法分析移动用户数量。“由于早期Facebook通过IP地址统计PC端的用户地理位置,Facebook对用户地理所有权的错误是由于IP地址库本身的准确性和用户使用代理服务器的问题。它影响了美国和加拿大MAU和ARPU值的计算结果。Facebook在随后的Q4中仍然单独解释了这个问题。这个问题在2013年Q1季度报告中被转移到风险因素(RiskFactors)并且一直保留到现在。如果你去看2018年Q4的报告,你仍然会发现这些错误的信息。此外,还包括重复账户和虚假账户信息对MAU的影响。Facebook错误确实影响了数据的准确性,但对宏观业务表现没有影响。换句话说,美国和加拿大的MAU被高估了3%,但不会影响MAU在整体排名中的地位和ARPU值的重要性。数据不够准确,但非常准确。那么既然数据错误是不可避免的,遇到这个问题该怎么办呢?结合Facebook的处理方法和以往的经验,我们给出了两种方法:事前说明和事后补救。事先说明事后补救主要是业务逻辑和衡量指标的统一。若最基本的指标定义不一致,则计算方法也必须不一致。结果是数据错误。因此,在一开始,有必要列出每个指标的关键指标系统和定义和计算方法。在形成共识后,附在每个分析报告的后面。当然,这是一种处理现有数据的方法,另一种情况是缺乏数据,或者需要预测和推理,然后需要事后补救。事后补救是在估计计算逻辑中的缺失值时,写下现有条件、您的假设和具体的计算方法。说白了,当你拍脑袋的时候,告诉大家你是按照什么逻辑拍的。是按历史数据增长率计算,还是按行业平均增长率计算。每个值来自哪里等等。比如预测之前文章讨论的AppleAppStore的累计下载量。Apple官方下载量数据仅限于2016年Q1的1000亿。在现有的历史数据下,我们大致推测2016年Q2累计下载量为1162亿。iphone销售变化对app下载的影响没有考虑在这里。对于分析师来说,数据错误是不可避免的。即使主观上做到最好,客观因素也不可能涵盖一切。人类的行为是复杂多变的,不可能用一个简单的数字来覆盖,甚至脸书也不能妥善处理这样的问题。因此,请了解数据分析师的工作,以及这些混乱和不可改变的客观因素。力求准确,但求准确。
以上就是关于数据分析师最怕的数据错误!的相关介绍,更多数据分析师最怕的数据错误!相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析师最怕的数据错误!有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一