2020-12-30 16:03:08 阅读(250)
数据欺诈的筛选是数据分析领域的热门话题,也是对数据分析师的挑战。有很多方法可以分析数据欺诈。我们在前一系列文章中介绍了两种测试作弊流量的方法。一种是根据历史经验和分布进行多维交叉检查,另一种是根据已知作弊流量的特点,使用随机森林模型对新流量进行分类和预测。本文介绍了本福德定律的一种神奇的数据检测方法(Benford’sLaw)。本福德定律是一种广泛使用的数据检验方法,用于安然破产和伊朗选票筛选。本福德定律通过自然生成的数字中1-9的使用频率来检验数据。假如你的数据有一定的规模,没有人工设定的最大值和最小值,而且数据本身受人为因素的影响较小。然后,本福德定律可以用来检查数据,以确定数据是否被人工修改。本福德定律和公式本福德定律中自然生成的第一个数字概率为30.10%,第二个数字概率为17.61%,依次递减,第一个数字概率仅为4.58%。我们可以根据这个预期概率值来检验数据。以下是本福德定律的计算公式。这个公式可以计算出每个数字在1-9中首先出现数据的概率。例如,数字9下面的公式可以计算出一组自然生成的数字9出现在数字首位的概率。我们用本福德定律公式逐一计算数字1-9出现在首位的概率。以下是每个数字的概率值。以后会根据这个预期的概率值来筛选数据是否人工修改。通过图表,我们可以更直观地看到本福德定律中每个数字的频率和不同数字之间的差异。与我们想象的不同,数字频率分布不均匀。1出现次数为30.10%,9出现次数仅为4.58%。下面,我们将使用本福德定律来检查工作中常见的数据,以确定数据是否被人工修改。检查广告显示量数据,首先检查一组广告曝光数据。以下是某广告一段时间的曝光数据。我们通过本福德定律提取每个显示数据的第一个数字来检验这组数据。第一步是计算显示数据中数字1-9的次数。第二步是计算所有显示数据的项目,显示数据为474条。第三步是计算数字1-9的频率。第四步是用本福德定律计算数字1-9频率的期望值。将曝光数据与本福德定律的期望值绘制到图表中进行比较,可以发现曝光数据的第一个数字的频率与本福德定律基本相同。在数字2、3和5上略有差异。这个柱状图能说明什么?表明数据符合本福德定律?三个数据点的区别是什么?数据中是否有人工修改?仅从实际概览值和图表上,我们无法区分数据是否被人工修改。要准确判断数据是否自然生成,还需要计算KS值和截止值两个指标。然后比较两个指标。如果KS值低于截止值,则可以判断数据是自然生成的,未经人工修改。否则,可能会有欺诈的风险。KS值是数据实际概率值与预期概率值差异的最大值,截止值为1.36除以数据条目数的平方根。我们计算KS值和截止值的前面的数据表。第五步是计算实际概率值和预期概率值之间的差异。在这里,我们取差异的绝对值,以避免负数。第六步,计算K-S值后,计算K-S值为0.043,即数字5频率的差异。第七步,计算截止值,这里有474条曝光数据,因此截止值为0.053。第八步是比较K-S值和截止值,K-S值小于截止值。因此,数据属于自然生成。未经人工修饰。按照前面的方法检查广告点击量数据,我们检查同一组广告的点击量数据。在下面的柱状图中,蓝色是本福德定律的预期概率值,绿色是广告点击量的第一个数字分布。可以发现,实际值和期望值在数字1、3和4之间存在很大差异。尤其在数字3上。但仅根据这些差异,我们无法判断数据是否人工修改。进一步计算K-S值和截止值并进行比较。K-这里是0.115,S值是数据点之间最大的差异值。截止值计算为0.054。K-S值明显大于截止值。因此,可以判断点击量数据是人工修改的可能性,需要进一步检查。除了广告数据外,本福德定律还可以在许多场景中检查贷款金额数据。例如,贷款金额的数据。以下是贷款金额首位数字分布与本福德定律逾期分布的对比图。两者趋势一致,差异较小。通过计算K-S值和截止值进行比较,K-S值0.019小于截止值0.022。说明贷款金额数据是自然生成的,没有人工修改。在Excel随机数检验结束时,我们手动生成一组“假数据”,看看本福德定律的检验结果。使用Excel的随机数函数生成100个随机数。并与本福德定律的预期分布进行比较。显然,Excel生成的随机数在第一位数上分布均匀。与本福德定律的预期分布相去甚远。K-S值和截止值的计算和比较也再次证明了均匀分布的数据是人工生成的。K-S值0.201大于截止值0.116。 除了计算第一个数字的概率外,还有一个强化版本,可以计算第二个数字甚至第三个数字的概率,并通过这些期望对数据进行更深入和严格的测试。以下是计算第二位数字概率的公式。d1表示第一个数字,d2表示第二个数字。若要计算第二位数为6的期望值,则将数字6代入公式,如下截图所示。分别计算1-9每个数字与第二位数字6组合的概率,然后加总是数字6作为第二位数字的预期概率值。在Excel的实际计算下,蓝色部分是第一个数字和出现的概率。第二位数字从0-9依次与第一位数字组合的概率值依次出现。我们按列汇总是每个第二位数字出现的概率。第三位数字出现的概率可以进一步计算。该方法类似于计算第二位数字的方法,但更负责任。以下是计算公式。将0-9的10个数字与前两位的各种数字结合起来计算,然后总结每种情况下单个数字出现的概率,这是该数字出现在第三位的预期值。以第三位数字为0为例,蓝色列表示第一位数字的值,因为第一位不能为0,所以数字范围为1-9。第一行黑色背景为第二位数字值,从0-9。在各种组合条件下,计算第三位数为0的概率并进行总结。最后0.1018是0作为第三位数出现的概率值。我们用同样的方法计算了0-9在第三位的概率,并总结了之前计算的第一和第二位数字的概率,生成了以下数据检验表。通过这个概率分布表,可以更深入地检验数据的真实性。
以上就是关于如何甄别数据造假?的相关介绍,更多如何甄别数据造假?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对如何甄别数据造假?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一