2021-01-06 10:38:38 阅读(165)
简介:数据分析师的角色就像一个厨师。如果原材料有问题,厨师肯定不能做出香味好的好菜。如果数据有问题,数据分析师得出的结论自然是不可靠的。正文:如果你是厨师,你刚刚向客人描述了如何搭配一道色、香、味俱佳的大菜,甚至解释了烹饪的方法。当你准备好各种调味品,为这道菜增鲜增色后准备烹饪时,你会发现所需的主要原料有问题。数据分析师的角色就像一个厨师,原材料有问题,厨师必须做好菜,数据问题,数据分析师的结论自然不可靠,无论数据分析方法有多好只是基于扭曲数据,努力构建数据系统当然是浪费。在过去的项目中,作者经常遇到这样的情况。客户用永宏科技的产品做了一些精美专业的数据报告,但由于数据不准确,报告的使用价值受到影响。在前两篇文章中,作者讨论了如何分析数据指标以及如何构建系统的数据系统。本文是《数据操作方法论系列》的第三篇文章,其核心主题是数据治理。推荐阅读:第一篇文章《大道至简数据分析方法论》第二篇文章《大道至简数据系统构建方法论》的数据治理是一项基础工作,在很多人眼里是一项艰苦的工作。但是,这样的工作越多,就越不能忽视。如果基础扎实,上层建筑会更稳定。接下来,笔者从脏数据的类型和处理方法入手。首先,让我们了解脏数据的类型,以及我们可能面临的问题。数据缺失:缺少一些记录,或者一个记录中缺少一些值(空值),或者两者都缺少。可能有很多原因,包括系统或人为的可能性。若有空值,为不影响分析的准确性,要么不将空值纳入分析范围,要么进行补值。前者会减少分析的样本量,后者需要根据分析的计算逻辑填充平均数、零或等比例的随机数。如果缺少一些记录,如果业务系统中有这些记录,则通过系统再次导入。如果业务系统没有这些记录,则只能手动补充或放弃。2数据重复:出现多个相同的记录。这种情况相对容易处理。删除重复记录。但害怕不完全重复,如两个会员记录,其余值相同,地址不同,这很麻烦,有时间属性也可以判断新值,没有时间属性不能开始,只能手动判断处理。3数据错误:数据未严格按照规范记录。比如异常值,价格范围明显在100以内,但有价格=200的记录;比如格式错误,日期格式记录成字符串;比如数据不统一,有的叫北京,有的叫BJ,有的叫beijing。对于异常值,可以通过区间限制找到并排除;对于格式错误,需要从系统级别找到原因;对于数据不统一,系统无能为力,因为它不是真正的“错误”。系统不知道BJ和beijing是一样的。只能手动干预,制作清洁规则表,给出匹配关系。第一列是原始值,第二列是清洁值。最好通过近似值算法自动找到可能不统一的数据。不能使用数据:数据正确,但不能使用。4数据不可用:数据正确,但不可用。例如,地址写为“北京海淀区中关村”。当你想分析“区”级别的区域时,你必须拆除“海淀区”才能使用。最好从源头上解决这种情况,即数据治理。事后补救只能通过关键词匹配,不一定能全部解决。接下来,让我们了解一下BI对数据的要求,结合上述脏数据的类型,中间的规避手段就是数据处理。结构化:数据必须结构化。这可能是胡说八道。如果数据是大文本,比如微博,就不能用BI进行量化分析,而是用分词技术进行语义分析,比如舆论分析。语义分析不像BI定量分析那样100%准确,而是有概率的。人的语言千变万化,人不能保证完全理解到位,系统更不可能,只能尽可能提高准确性。2标准化:数据足够标准化。简单来说就是解决上述各种脏数据的问题,把所有脏数据洗成“干净数据”。3可关联:如果您想对两个维度/指标进行相关分析,这两个维度/指标必须能够相关,要么在同一张表中,要么在两个具有相关字段的表中。在数据治理的原则之前,我们讨论了脏数据的处理方法,但这些都是治标不治本的应对方法,做这项痛苦的工作需要很长时间和人力。要从根本上改善脏数据的问题,还需要做好数据处理的标准化工作。简单来说,数据治理就是约束输入,规范输出。约束输入:你永远不会想到用户会输入什么值,所以不要给用户太多的发挥空间,做好约束。用户填写的系统必须设置为“必填”;如果有固定的选项,用户必须使用列表进行选择,而不是手动输入;系统检查输入提交,格式错误,值不在正常范围内,用户必须重新输入;设计输入表,如上述地址,分为国家、省、市、区、详细地址等字段,避免事后拆分;输入数据保存的数据表也尽可能统一,不会产生大量相同数据的表,造成数据重复隐患。2标准输出:老板看到不同的人做报告,相同的“收益率”指标,每个报告的价值都不同,老板的心一定要崩溃,不知道该骂谁,只能骂全部。2标准输出:老板看到不同的人做报告,相同的“收益率”指标,每个报告的价值都不同,老板的心必须崩溃,不知道该骂谁,只能全部骂。排除计算错误,一般是由统计口径不一致造成的。所以要统一语义,做一个公司级别的语义字典(不是数据库的数据字典)。报告中的所有指标名称都应在语义字典中记录,语义字典明确定义其统计口径和含义。不同的名词必须使用不同统计口径的指标。若发现一个词已在语义字典中存在,则必须通过流程向语义字典注册一个新词。落地脏数据的数据处理需要ETL工具,语义字典不需要系统的帮助。事实上,由于这类系统过于复杂,国内实施成功的案例很少,Excel加系统可以取得很好的效果。关于实施推广策略,也很简单,老板决定必须实施,然后用优先声音吸引部门试点,然后横向扩张。哪个部门先落地,哪个部门可以根据最符合自己习惯的词来命名指标,相当于占坑。后面的部门要遵循前人的标准,重名但意义不同的指标需要另找词来命名。这样就不怕没有人主动了。以上是数据治理方法论的精炼版。我们都知道这是一项艰苦的工作,但作者也提醒我们,你开始得越晚,你就越痛苦。有了经验,在设计新的业务系统时,可以充分考虑数据治理的规范。
以上就是关于数据治理的原则与方法的相关介绍,更多数据治理的原则与方法相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据治理的原则与方法有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一