首页 >知识讲堂 >数据分析知识>如何把控在线问卷的数据质量?

如何把控在线问卷的数据质量?

2021-01-05 11:35:47 阅读(223 评论(0)

在用户对互联网产品的研究中,通过在线问卷收集数据是一种非常常见的方式。在线问卷,不受访问环境限制,回收速度快,优势明显。但由于受访者没有相关指导,设备不同,回答态度不同,数据质量能否得到保证是一个关键问题。数据质量决定了数据是否科学,能否代表用户,能否给出准确的研究结论。因此,要考虑质量控制在线问卷数据的具体方法,保证问卷数据的质量。为什么我们需要在线问卷数据的质量控制?用户在线回答问卷时会出现一些问题。综上所述,有以下三类:1、答案点击失误会发生2。、理解错误会导致错误的答案3。、会出现前两种情况,回答不认真敷衍,属于客观不可避免的小概率事件,不易通过技术控制数据质量,但可能性小,可以忽略。第三种情况是,用户的回答态度存在偏差,可以通过技术实现质量控制,从而发现和消除问题数据。如何找到问卷数据并消除问卷数据?我们如何才能通过以下三个层次找到不认真回答问题的问卷数据。1.我们的第一种方法和最常用的方法是在问卷中设置地雷问题,并通过地雷问题的数据检查问卷数据的准确性。那么,什么是地雷问题呢?地雷问题是在问卷设计中验证用户是否认真回答的问题。这类题目往往是两个,对应出现。也就是说,在问卷中以不明显差异的方式提问两次。如果受访者回答了相应的两个问题,并给出了完全相反或巨大差异的答案,那么它可以在一定程度上反映出这个人回答问卷的态度不够正确,可以怀疑这个人的数据是不真实的。例如,在问卷中,Q1的问题是:以下项目,你的家人有什么,包括“汽车”选项。Q10问题是:你家有以下个人资产,包括“汽车”选项。Q1和Q10是地雷问题。如果受访者对汽车选项的答案有所不同,则认为这是一个不合格的数据。如何在问卷收集前设置地雷问题?如果没有设置,就不能通过它进行质量控制。同时需要注意的是,地雷问题的设置也很熟练,对于选择题,两个地雷问题之间的距离应尽可能大。因为受访者在回答问卷时不一定记得以前的问题和选择的答案。如果地雷问题之间有很多问题,如果用户的态度不正确,就很容易被识别出来。以下是实验数据结果。实验是将相同的地雷问题放在问卷的三个不同位置,筛选出不合格问卷数据的比例。我们发现地雷问题之间的距离越大,受访者回答与相应选项之间的矛盾比例就越高。实验数据1:地雷问题设置在不同位置的效果2。通过回答时间的长短,我们可以了解许多受访者的答案:(1)整体问卷回答时间(2)单个问卷回答时间(3)整体问卷/单个问卷平均回答时间(4)整体问卷/单个问卷的时间离散程度。。。通过以上时间数据,我们可以看到受访者在正常情况下,回答整个问卷或单个问题需要多长时间。如果平均需要15分钟才能回答问卷,而有些人需要1分钟才能回答,而有些人需要2个小时,这就解释了问题。回答时间过长或过短的受访者在回答问卷时存在一些问题。但还有一种情况,如果平均时间是15分钟,那么3分钟是否认真回答,40分钟是否不认真回答?我们需要什么基础来判断这一点?这需要一个标准。稍后我们将公布这个标准。但另一种情况是,如果平均时间是15分钟,3分钟是否认真回答,40分钟是否不认真回答?我们需要什么基础来判断这一点?这需要一个标准。稍后我们将公布这个标准。3.问题选项的数量也可以通过受访者回答问卷的多选题、选项的数量来控制问卷数据的质量。如果受访者回答问题,选择的选项明显超过或少于所有受访者回答问卷的平均选项,请注意!以下是一些问卷问题。受访者选择的选项实验数据2:我们可以看到不同在线问卷问题选项数量的平均值和最大值。对于日常问题,如饮食、饮料和水果,受访者选择的选项数量明显大于平均值或不合理,应视为不合理。例如,在图片中,一些用户选择在三天内吃18种水果,这些数据可能有问题。3σ原则数据检验标准刚才提到了答题时间和选项数量,可以反映受访者答题的数据质量。所以对于这两个因素,有没有一个标准可以准确判断,什么情况,我们必须删除样本数据,我们必须引入一个概念。即统计原理3σ原则。3σ该标准也被称为拉依达标准,首先假设一组测试数据只包含随机误差,计算标准偏差,根据一定的概率确定一个范围,认为超过该范围的误差不是随机误差,而是粗误差,应删除包含该误差的数据。这种判断处理的原理和方法仅限于正态或近似正态分布的样本数据处理,其前提是测量次数充分。在正态分布中σ代表标准差,μ代表均值。3σ原理是数值分布(μ-σ,μ σ)数值分布在0.6826中(μ-2σ,μ 2σ)0.9544中的概率,数值分布在(μ-3σ,μ 3σ)0.9974的概率,可以认为Y的取值几乎全部集中在0.974(μ-3σ,μ 3σ)超出此范围的可能性不到0.3%。3σ原则告诉我们,99.7%的可能数据应该落在标准正态分布中μ 3σ的范围内。在一定程度上,选项的数量相对稳定,即每个人选择的数量的平均值相对稳定。考虑到每个人在不同情况下的行为差异,我们需要注意每个人选择数量的标准差异来衡量其离散程度。数据分布如下图所示,因为多选题中没有负数。数据落在μ 3σ范围内的概率超过99%,也就是说,99%的正常数据可能会落在这个范围内,超过这个范围的值的概率很小。因此,一旦发生,可以认为是一个奇怪的值,需要删除。结合上面的例子:如果1000人回答吃水果的问题,平均值是4,标准差是4,那么这个问题选项数量合理范围的最小值是0(4-3*4=-8,水果数量不能为负,取0),最大值是16(4 3*4)超过16个问卷数据应视为无效,无效受访者不超过3人。同样的方法也可以验证受访者的回答时间是否合理。今天,我们讨论了如何通过不同的方式和方法控制在线问卷数据的质量。我希望今天的内容能帮助您处理问卷数据。今后,我们将进一步完善相关方法,并及时与您讨论。

以上就是关于如何把控在线问卷的数据质量?的相关介绍,更多如何把控在线问卷的数据质量?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对如何把控在线问卷的数据质量?有更深的了解和认识。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询