2020-12-17 11:16:58 阅读(143)
前一篇文章——网站数据分析中的一些问题(2)主要是BI相关问题,本文主要是数据仓库相关问题。因为最近在阅读一些数据仓库信息和书籍,想提出以前和当前的主要问题(博客数据仓库相关内容请参考网站数据仓库目录),同时也对数据仓库知识进行整理和理解,很长一段时间没有在博客上发送新文章,不能让自己太懒。之前看过Inmon和DW2的《构建数据仓库》.0.另一位数据仓库大师Kimball的《数据仓库生命周期工具箱》没有时间阅读。最近有时间看大部分,迫不及待想写点东西。事实上,数据仓库领域普遍认为,Inmon和Kimball的理论是相反的。两者在构建数据仓库方向上的差异一直在争论,没有人能说服任何人哪种方法更好。我不知道什么时候从Evernote的笔记中摘录了对两者观点的一般描述,非常简洁明了,一针见血:其实看了《数据仓库生命周期工具箱》,发现两者的观点没有那么大的本质区别。随着数据仓库的不断发展,两者在整体结构上逐渐趋同。基本上,建立统一的企业数据仓库的方向是一致的,而Inmon倾向于从底层数据集成开始,而Kimball倾向于从上层需求的角度开始,这可能与他们从事的项目和位置有关。有了以上高质量的总结,第一个问题——你更喜欢如何构建数据仓库(BOTTOM-UPorTOP-DOWN),优缺点是什么?——事实上,没有必要问,所以下面主要提到一些实际上可能经常遇到或需要想清楚的问题:Q1、数据仓库的技术解决方案是什么,这些解决方案的优势和瓶颈是什么?随着数据仓库的不断发展和成熟,“大数据”概念的普及,相关产品越来越多。最常见的技术解决方案包括hadoop和hive,oracle,mysqlinfobright,grenplumnosql,或多种组合使用。事实上,有两种类型:一种是以传统RDBMS为主导的数据库管理数据,oracle、mysql等都是基于传统的关系数据库,其优点是数据结构更加严格,关系数据库对数据的管理更加规范,数据处理过程中可能出现的非人为误差极小,而标准的SQL接口使得数据获取成本更低,数据的查询和获取更加灵活高效;但缺点也很明显。当数据量达到一定程度时,海量数据的处理和存储能力不足会出现明显的瓶颈。但是基于文本的分布式处理引擎,hadoop、greenplum和nosql都是基于文本数据的处理和存储。其优点是数据处理能力强,分布式架构支持平行计算,扩展能力强;缺点是上接口不方便,因此,Hadoop上层的hive和grenplum上层的postgresQL都是为了解决数据接口问题,数据查询和获取难以实时响应,灵活性不足。Q2、数据仓库是否应保存聚合数据,细节数据不应放入数据仓库?Q2、数据仓库是否应保存聚合数据,细节数据是否不应放入数据仓库?事实上,这个问题基本上已经达成了共识。如果是企业数据仓库的建设,那么细节数据的集成和存储是必不可少的,但实际上仍有许多直接从外部数据源计算和聚合后导入数据仓库的例子。如果数据仓库只是一个轻量级的应用程序,只存储聚合数据是可以理解的。毕竟,没有人规定数据仓库必须是什么样子。最终目标是满足对数据的支持和需求。但对于企业的长期发展,数据仓库存储细节数据有两个优势:一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对文本数据和外部文档数据管理更加标准化,数据仓库保留历史和不可改变的特点可以使信息不丢失;另一方面是使用数据,数据仓库使数据更容易获取和使用,集成细节数据使大量的文本数据可以查询和相关性,而主题设计使数据显示和分析更有方向性和目的性,细节数据对支持数据分析和数据挖掘应用至关重要。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。Q3、您将数据仓库分为几层,每层的数据功能是什么?没有标准答案,数据仓库可以根据数据仓库中数据的复杂性和对数据使用的需求进行划分。我通常把数据仓库分为三层:底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,由于数据量大,需要优化存储;中间层是多维模型,管理策略是优化结构和查询,主题多维模型设计,需要满足OLAP和数据查询的多样化需求,确保查询的便利性,关键在于维度表的设计和维度的选择和组合。事实表需要注意存储和索引的优化;上层是显示数据,管理策略是优化效率。一般来说,它将存储每天需要显示的汇总报告,或根据多维模型组装的视图,显示层的数据需要以最快的速度显示,通常用于BI平台的Dashboard和报告。Q4、数据仓库建设中最复杂的事情是什么,最容易缺失的是什么?Q4、数据仓库建设中最复杂的事情是什么,最容易丢失的部分是什么?我一直认为数据仓库的核心不是数据集成。当然,数据集成是数据仓库实现价值的前提。数据仓库的真实价值反映在数据的有效应用中,数据源于业务对业务的反应。数据仓库建设的核心在于数据仓库的架构和数据模型的设计。如何权衡数据存储与数据获取效率之间的矛盾是数据仓库管理的难点。任何数据仓库都会有这个困难,大数据增加了这个平衡的难度。数据集成和数据质量控制是数据仓库建设中最复杂的事情,尤其是数据清洗过程。我以前写过几篇关于数据质量控制的文章,但实际上,这个过程要复杂得多。此外,为了上层数据输出的准确性和有效性,这项工作必须尽可能详细地完成。构建数据仓库中最容易缺少的是元数据的管理。很少有数据仓库团队拥有完整的元数据。当然,构建数据仓库的工程师本身就是活的元数据,但元数据对于使用数据的人和数据仓库本身的团队来说是必不可少的。一方面,元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们独立快速获取数据,另一方面,数据仓库团队成员可以从日常数据解释中解脱出来,无论是后期迭代更新维护还是培训新员工,元数据都可以使数据仓库的应用和维护更加高效。
以上就是关于问与答:关于网站数据分析的一些问题(3)的相关介绍,更多问与答:关于网站数据分析的一些问题(3)相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对问与答:关于网站数据分析的一些问题(3)有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一