2020-12-28 11:40:31 阅读(149)
如果我们在数据分析之前需要做什么,那么有几个关键词:数据收集、特征提取、数据标准化、数据清理和数据预处理,这些都是传统数据分析之前的工作。让我们来看看常规数据分析的过程。首先,我们将有一个需求,通过一些阶段到达数据预处理。通常做数据分析的人从这一步开始,获取数据开始预处理、数据分析、建模、结果可视化或产品输出。今天我想和大家分享的是,在这些阶段的中间,在需求之后,到数据收集的这个阶段,中间也需要使用数据分析方法来做,包括数据收集的一部分量化,也就是说,在收集之前,我们需要在收集之前量化它。首先,需求理解和沟通我们得到了需求,需求可能来自客户沟通,也可能是领导告诉我们,在说话的过程中,不同的人,沟通表达的复杂性完全不同,有些人非常清楚,需求列出,有些人说炒作,最后说我的需求,你看,非常不同和开放。此时,他的主题可以总结为一句话,我们的第一步就是细化研究工作。我给你举个例子:我们早上都在食堂吃过早餐。当我们吃鸡蛋时,我们可能会发现有些蛋壳很容易剥皮,甚至可以直接吹掉。有些蛋壳很难剥皮。如果领导问你,用数据分析告诉你这个问题,你会从哪里开始。在生活场景中得到这样一个很小的问题:为什么熟鸡蛋有些难剥,有些容易剥?假如你得到了这个问题,你的第一反应是不是,我想要数据。然后领导说你可以回去。这些数据需要我们自己设计和实现来收集。我们传统的数据分析人员习惯于提供整理数据进行分析,但如何收集数据和收集数据通常是数据分析的工作。看看第二个例子:基本上每年,媒体都会发布这样的消息,高考后的家庭,离婚率会增加,民政局想否认谣言,如果我们这样做,我们能做什么。看第三个例子:知乎上的帖子很长时间都很流行,男女之间是否有纯粹的友谊。作为一名数据分析师,获得这一需求的第一步是拆解多个子主题(子需求)。子需求的拆解不是凭空想象的。当你听到这个话题时,有很多结论。例如,知乎上有几个高赞的结论。首先,男女之间有纯粹的友谊,越丑越纯;其他人说婚后会有纯粹的友谊。由于我们的研究能量有限,我们需要将大话题分成多个话题,从多个话题中选择一两个。所以我们分开:是所有男女之间都有纯粹的友谊,还是有些人有,有些人没有;越丑越纯洁——友谊与外表水平有关,什么关系,外表水平在其中发挥了多大作用;婚后(更年期)纯洁——友谊与年龄有关;纯度有多高;纯度是否会改变。这些都是细化后的子研究内容,然后选择内容,收集数据。第二步,有了研究内容,我们需要操作概念。你可能没听说过这些,但我们一定听说过另一个名词——抽象化或概念化,把抽象化的过程反过来称为操作化。以鸡蛋难剥为例,可以操作拆分成两个,鸡蛋的完整性和剥壳时间,鸡蛋的完整性是测量剥蛋后剩下多少。通过概念操作,我们实现了将宏观概念转化为可测量的微观概念。有了微观概念,下一步是如何测量。剥壳时间可以直接用表测量,那么如何测量完整性呢?剥皮后,鸡蛋的表面可能是坑坑洼洼的,也可能是一半的。有一套严格的概念操作方法论。抽象的过程往往是不同的结果,重复性差,但可操作性,不同的人做,往往重复性很高,因为遵循一套理论——概念定义、概念分类、自然指标的设计。操作后,我们需要设计指标和测量工具。让我们来谈谈男女之间纯粹友谊的话题。我们定义了一个叫做友谊纯洁的指标。这个指标不是一两句话就能掌握的,所以我们应该设计一个特殊的测量工具。有些人可能会说,我做数据分析,这些推给产品经理可以做,通常这样做,但掌握数据分析方法分析数据和不掌握数据的方法,往往有很大的不同,可以着陆和不能着陆的区别。有了测量工具,下一步需要检查:有效性和难度(针对不同人群)、信度、敏感度。数据分析方法:项目分析、探索性因素分析、验证性因素分析、聚类分析、IRT等。如果测量工具无效,后续工具将无效,因此测量工具非常重要。这些验证需要两年或更长时间,最终简化有效的测量工具。当然,现在已经有一些成熟的测量工具来验证量表,同样,这些量表也被广泛应用于心理学中。那么,测量工具检查后,数据收集是否开始?不是的。下一步需要理论模型设计在大数据中,包括数据挖掘等相关分析,方法涉及输入层输出层,这是一个常规模型,但在实际问题上,许多模型不是这样,如贝叶斯模型,我们的研究人员不会设计这些东西,也许贝叶斯,马尔科夫没有听说过,只了解数据分析方法,了解这些方法,根据我们的业务,涉及多少关系,关系是单向的还是双向的,等等,这样的图片首先是由理解数据分析方法的研究人员设计的,然后进入数据收集阶段。数据收集可以通过网上爬虫、直接从数据库导入数据、线下收集等方式进行。数据收集可以通过在线爬虫、直接从数据库导入数据、离线收集等方式进行。这里还提到了抽样方法,通过不同的理论模型选择不同的抽样方法。举个例子:北方到冬天会有暖气,暖气会造成空气污染,那么暖气会影响人的寿命吗?我们如何用数据分析来验证这件事,我们应该如何获取数据?我们的常规想法是在北方和南方找一些人,看看暖气是否会影响寿命。然而,这涉及到因果关系的验证。因果关系有三个前提。第一,两个事件必须相关;第二,原因事件必须发生在结果事件之前;第三,需要控制干扰因素。在这种情况下,一些学者在常规方法的基础上提出了改进和创新,称为断点回归。他不是在北方和南方抽烟,而是在中国南北分界线的地方抽烟。众所周知,寿命与很多因素有关。选择淮河两岸人员,可以有效保证他们的生活环境等因素大致相同。然后他得出结论,有暖气会降低人的寿命5.5年。上一本书对未来的发展有什么影响吗?学者选择某省一条曲线,上下加减5分,在这10分带中,人的未来发展是不同的。同样,这个案例也采用了断点回归的方法。在其他现实场景中,人们通常会考虑多种因素,那么所有涉及多种因素的人都应该包括在内吗?事实并非如此。日本统计学家发明了一种正交设计方法,采集特定的覆盖特征数据。接下来,数据二次抽样。吉野家正在做各种促销活动。有一次,它改进了营销平台。实验组用性感女模特的照片和宣传稿代替展示图片;对照组使用普通图片和文字。推广结果非常令人惊讶。实验组的推广远低于对照组。找出原因,采用PSM模型进行二次抽样。该方法将对照组与实验组数据逐一匹配,可有效解决样本的选择性偏差。以上是数据分析前需要做的各种量化工作。
以上就是关于数据分析前的常规工作有哪些?的相关介绍,更多数据分析前的常规工作有哪些?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析前的常规工作有哪些?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一