2021-01-04 10:58:02 阅读(142)
嗯,无论是官方统计局还是民间组织,每次数据机构发布“平均工资”的信息,大家都很感兴趣。但是,除了少数土豪,想必很多人看完数据都会觉得自己又拖后腿了!等等,如果大家都在拖后腿,这种评价方法有什么问题吗?今天,我们将介绍一种比平均值更好的条件数量估计方法来帮助你定位自己。首先,许多读者和我一样,每当统计局宣布城市的平均工资时,他们都会感叹自己又一次。!一!次!拖后腿了。除了一点悲伤,心里可能还有一些小问题——一定是因为少数工资超高的大神的存在,所以平均工资提高了!大多数人的工资应该和我差不多吧?至少在同一年龄段应该是这样!我没拖后腿..对吧?...我一直这样安慰自己,机智如我!然而,作者通过蜂蜜安慰自己,让自己冷静下来,或者必须使用自己的专业知识来验证自己的猜测。所谓的平均工资从字面意义上理解,是调查样本的平均工资;当工资分配不对称或工资离群时,用平均水平描述城市居民工资收入的平均水平,影响准确性。此时,中位数和众数似乎是一个更合理的指标。中位数是指位于一组数据中间的数据点的值。因为是相对位置,不受离群点的影响。如果给出全市工资的中位数,可以权衡是排在前50%还是后50%!听起来很有参考意义。另一个指标——数量,是一组数据中最常见的数据点,换句话说,最有可能的数据点值,如果你知道城市工资,你知道大多数人的工资水平,如果你的工资和数量差别不大,至少,你不仅不是一个人,而且有很多人陪伴。如何估计中位数和众数?预测中位数主要用于分位回归。虽然分位回归不像平均回归(最经典的是多线性回归)那么频繁,但方法已经非常成熟,使用者也不少;考虑到(1)幅(言)有(不)限(合),我们不会在本文中做具体介绍。感兴趣的朋友可以留言,我们可以找机会再写一期。说到众数,你认为我会开始介绍众数估计方法吗?并不。直接估计工资收入的数量总是感觉更少,毕竟,不同条件的人的工资收入可能会有明显的差异,工作经验、职业类型、行业等可能会影响工资水平。在给定条件下谈工资收入水平,对大家来说可能更有参考价值。因此,我们的目标是估计条件众数。二、如何预测条件众数的估计方法?从众数的定义出发,找出最有可能的数据点,找到众数;所谓的“最有可能”转换为统计语言,是条件概率密度函数的最大值,条件概率密度函数是概率密度函数的简单转换。因此,如果我们想估计众数,只要我们知道如何估计概率密度函数,然后找到使条件概率密度函数达到最大值的数据点,它的值就是我们关心的整体众数。估计密度函数的直接方法是核密度估计,它是一种非参数估计方法,不假设数据的分布形式,只根据样本数据的特性来估计密度函数。数据本身的特征是什么?对于从未知整体中提取的少量样本,如果样本中出现一定数量,我们可以认为该数量的概率密度相对较大,接近该数据点的概率密度相对较大,远离该数据点的概率密度相对较小。核密度估计中的“核”(Kernel),它代表了核函数。核函数的函数形式将确保离观察点越近,核函数的值越大,反之亦然。通过这种方式,所有观察点都可以积累概率密度的估计值。常用核函数的名称和表达式如下图所示:考虑到众数、平均值、中位数都是测量分布中心位置的指标,在Ganoun,A.、Saracco,J.和Yu,K.M.在三人合写的一篇文章中,提出了众数、均值、中位数之间存在线性关系的假设。因此,在具体估计中,我们将核密度估计结果作为初始值,并再次线性拟合平均值和中位数。此时读者容易产生的一个问题是,既然通过核密度估计获得了初始估计值,为什么要在估计值的基础上拟合回归模型,然后再次获得数量估计值?这会有更大的偏差吗?别担心,作者带来了自己的“小天才学习机”,模拟研究了各种样本量和不同分布的数据。模拟结果表明,通过二次拟合获得的众数估计效果优于核密度估计方法。衡量估计效果的标准是积分均方误差(MISE)。最后,我们需要补充的是,在估计平均值和中位数时,我们使用基于Backfiting算法的局部线性可添加模型。Backfiting算法是一种迭代算法,而局部线性可添加模型是一种非参数估计方法,旨在提高预测的准确性,并在解释大量变量时确保非参数估计的收敛速度和稳定性。3、实际应用-年龄组工资收入的数量估计可能会被上述各种估计方法所迷惑。实际使用时,应将其交给软件。R语言中有核密度估计、可添加模型和分位回归程序包,可直接调用。至于其他未涵盖的方法的实现,没有什么是编程一次解决不了的。如果有,继续找现有的程序包,因为很有可能你找不到(我不会说用两次编程解决)。但我确实用编程解决了这个问题,花了一个星期,当然,这并不意味着花了24x7小时,毕竟,我必须去上班。我们模拟了公司全体员工的工资收入和年龄:员工总数为3000人,主要职能部门为5个;员工结构为金字塔,员工水平越高,员工数量越少;高低员工工资收入差异较大;部门间员工结构与收入结构相似。年龄和收入的数据分布如下表所示。从表中可以看出,年龄与工资收入的相关性明显,员工收入的一半以上集中在5000-15000元之间。我们选择其中一个部门作为样本(共189个样本),首先估计公司员工的平均工资收入和数量,以了解公司员工的收入水平。通过区间估计和核密度估计,平均收入为22477元,95%的信心区间为[19361,25592],收入为8521元。如果我们用平均收入来衡量公司员工的平均收入水平,超过60%的员工会哭;但是,如果我们能等一会儿再哭,看到估计的结果,我相信大多数人的心情都会好转。虽然所有员工的工资收入都可以提供大多数人的收入信息,但它对某些年龄段的员工没有太大的参考,如35岁以上的员工。因此,为了估计公司不同年龄段员工最有可能的工资收入,我们试图在已知年龄条件下进行众多回报。估计结果如下表所示,我们之前提到的总数接近30岁以下员工的实际情况,这也表明大多数员工都处于这个年龄段;35岁以上的员工之前看到总数有很大的优越感,看到年龄组的工资收入水平表,有些人可能会不高兴,毕竟,在你这个年龄,大多数人的收入远高于8521元。你觉得这种对比方法合理多了吗?看了我们的研究成果,你还觉得你在拖全市工资吗?心情好多了吗?数据挖掘能保护你的心理健康吗?你觉得自己其实很土豪吗?
以上就是关于数据研究丨对照法分析市平均工资,看清真相!的相关介绍,更多数据研究丨对照法分析市平均工资,看清真相!相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据研究丨对照法分析市平均工资,看清真相!有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一