数据分析方法论有效性的评判关键是什么？

2021-01-11 10:25:24 阅读（231） 评论（0）

1、在数据集成项目中，最困难的过程是数据分析。数据分析过程位于数据集成项目的整个过程（准备早期研究）—–数据分析—–界面实现)的第二步为第三步界面实现提供了充分的准备，因此数据分析的正确性在很大程度上决定了数据集成的成功实现和完成。如何有效地进行数据分析，如何提前在数据分析中尽量避免出现问题，直到实现为止？这是判断数据分析方法论有效的关键。经过几个项目的经验，我反思了做这些项目时更有效的方法和错误的方法，总结了一套我认为可行的数据分析方法。该数据分析方法仅适用于数据库-文件-数据库或数据库-数据库的分析，以及接口集成（如调用对方的webservice、EJB接口等。)不适用，在这种数据分析方法中，指导数据分析的步骤和需要注意的问题，编写这个blog，希望有同行的同学多交流。2、数据分析方法论中涉及的术语的解释：目标数据源是指需要在数据集成中导入数据的数据源，可以是数据库或文件。2、该方法所涉及的术语的解释：目标数据源是指需要在数据集成中导入数据的数据源，可能是数据库或文件。源数据源是指在数据集成中获取数据的数据源，可能是数据库或文件。字典代码以代码的形式存储在数据库中(如数字、英文字母等)。)而不是中文意思，这些代码称为字典代码。2.1.步骤2.1.1.分析目标数据源数据结构目标数据源可能是数据库或文件，但无论如何，它都有数据结构，首先要做的是分析目标数据源数据结构，在分析目标数据源数据结构时，分析清楚：表目标数据源需要交换什么表，这些表的含义是什么。这些表中包含的字段、字段类型和长度。分析每个字段的含义，包括字段的中文含义、字段所涉及的字典代码和字段规则(如业务规则、生成规则)。在分析了上述表、字段和字段的含义后，形成了以下结构的文档：字典代码字段规则idnumber（10）主键流量-流量，unitcodevarchar2(19)单位编码字典-2.1.2.完成第一步后，分析目标数据源的表关系，然后分析目标数据源的表关系。分析表关系最重要的是分析每个表之间的关联关系（如一对一、一对多、主键和外键），其次，需要根据业务分析每个表之间的隐性关联，例如，只有当A表中的某个值为03时，才与B表相关。对目标数据源的表关系进行分析后，形成以下Rose图：2.1.3.数据源分析的数据结构方法与2.1相同.1.分析对象改为源数据源，分析后形成相同的2.1.1中的文档。对目标数据源的表关系进行分析后，形成以下Rose图：2.1.3.分析源数据源的数据结构方法与2.1相同.1.分析对象改为源数据源，分析后形成相同的2.1.文档1.2.1.4.分析源数据源的表关系方法与2.1相同.2.分析对象改为源数据源，分析后形成相同的2.1.2中的Rose图。2.1.5.根据目标数据源的表关系，根据目标数据源的表关系，分析其与源数据源表的对应关系。在这一步中，我们需要清楚地分析目标数据源的表数据来自源数据源，以及如何获取这些数据，分析后，可以形成一个标准来验证数据集成是否正确，也就是说，目标数据源的数据量应该与来源数据源的数据量一致。在分析过程中，仍然根据目标表的业务意义在源数据源的表中找到具有相同意义的表。在分析过程中，可能会遇到以下情况：意义相同的表通常使用一个表存储目标数据源和源数据源，意义相同的表通常是一对一的数据关系，例如，目标数据源中有一个表是常住人口的基本信息，源数据源中有一个常住人员的基本信息，两个表可以对应。当然，有时意义不一定相同，这需要从业务层面来判断。在这种情况下，目标数据源通常是一个表，源数据源是多个表。此时，形成多对一关系。例如，目标数据源中有一个表是项目表，源数据源中有几个表，如手机和证券。此时，您需要将手机和证券表对应于项目表。或者可能会遇到这样的现象，目标数据源是一个表，源数据源也是一个表，但源数据源每行记录包含两种类型的目标表记录，在这种情况下需要将源数据源记录分成两个进入目标表，如目标数据源是迁出表，其存储模式是单独记录存储，源数据源也是迁出表，但是，它的存储方式是在同一条记录中进行迁出和迁出。此时，将源数据源的迁出表的一行记录分为两条进行导入。具有包含意义的表与具有包含意义的表相反。含义表与上述含义表相反。根据业务的对应关系，这是最复杂的。例如，可能会遇到这样的现象。当源数据源中表的一个字段的值为多个时，需要将其分成两个记录并导入到目标表中。综上所述，目标数据源表和源数据源表可能存在一对一、一对多、多对一、多对多、条件对应几种关系，分析后形成以下文档：目标数据源数据源验证标准AAAA.数据量==A.数据量(变化(新增、编辑、删除)BB CB.数据量==B.数据量 C.数据量C DDC.数据量 D.数据量=D.数据量 C.数据量=D.数据量(D.wplx=’03’)D.数据量=D.数据量(D.wplx=’05’)EEE.数据量=E.数据量*2FFF.数据量=F.数据量/2(F.qrsj=F.qcsj)GGG.数据量=G.数据量 G.数据量(G.name包含，的总数-1)2.1.6.根据表的对应关系分析字段的对应关系和转换规则，根据表的单一对应关系（如目标数据源的B表对应源数据源的B表）、C表需要分为B对应B和B对应C两个步骤进行分析)来分析每个表中字段的对应关系和转换规则，相应的方法是：首先在相应的表中找到相应的字段，如果找不到相应的字段，需要从业务意义的角度推测字段是否需要合并多个字段或拆分字段，或根据某些业务规则生成字段的值。找到相应的字段后，首先根据类型和长度分析是否需要处理类型和长度，然后分析是否通过与其他表相关的字段获得，然后分析字段是否涉及字典代码。如果涉及，则需要比较两侧的字典代码是否一致，如果不一致，则需要形成两侧字典代码的对应关系，最后分析字段是否涉及业务意义，如果涉及，应注明如何处理。分析完成后，形成以下文档：idnumber(10)表名字段类型及长度源数据源字段类型及长度转换规则.idnumber(10)unitcodevarchar2(19).xzqh 表名.unitvarchar2(8) varchar2(20)单位代码字典映射contentvarchar2(100)Substr(表名.content,0,50、Varchar2(100)ifmonthVarchar2(1)If(表名.createdate.月份==系统时间的月份) Return‘1’;ElseReturn‘2’.unitnameVarchar2(100)UnitNames.unitNameVarchar2(100)表名.xzqh 表名.unit=UnitNames.UnitCode2.2.需要注意的问题是，数据集成是系统中最重要的基础，因此，在进行数据集成时，特别需要仔细考虑不会对数据产生破坏性影响，这也是数据分析过程中需要仔细考虑的问题。2.2.1.在进行数据分析时，需要考虑数据覆盖/混乱的问题，以便在集成数据后是否会非法覆盖或混淆现有数据。这个问题通常是由主键引起的，在进行数据分析时需要考虑。2.2.2.在进行数据分析时，需要考虑数据集成后可能出现的错误。对于这些可能出现的错误，需要制定相应的补偿方案，以避免数据的损坏。2.2.2.在进行数据分析时，需要考虑数据集成后可能出现的错误。对于这些可能出现的错误，需要制定相应的补偿方案，以避免数据的损坏。2.2.3.源数据源数据质量问题的解决方案需要考虑如何处理或避免源数据源本身的数据质量问题。2.2.4.在整个数据分析过程中，业务专家的支持可以看出，业务专家起着非常重要的作用。可以说，如果没有业务专家，数据分析很可能会失败，或者需要走很多弯路才能最终探索。可以肯定的是，在业务专家的支持下，整个数据分析过程将大大延长。从这个角度可以看出，在进行数据分析时，尽量得到业务专家的支持。3、总结上述方法对数据分析的过程和避免问题的方法进行了一定的描述。在实际的数据分析中，最重要的是负责数据分析的人对系统的理解。有系统设计经验的人成功进行数据分析的概率要高得多。一些非常专业的系统必须依靠有相应设计经验的人才来完成，比如流程系统的数据集成。在数据分析过程中，可以制定出判断数据集成是否成功的标准，也可以列为TDD的入口条件，J。在数据分析过程中，可以制定出判断数据集成是否成功的标准，也可以列为TDD的入口条件，J。方法论仍然是理论。我不是一个那么讲理论的人，但我不否认理论对实践有很好的指导作用。最好避免在实践过程中走太多弯路，将理论与实践相结合。理论指导实践，实践改进理论。

以上就是关于数据分析方法论有效性的评判关键是什么？的相关介绍，更多数据分析方法论有效性的评判关键是什么？相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析方法论有效性的评判关键是什么？有更深的了解和认识。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：如何撰写你的第一份数据报告？下一条：阿里数据分析师的岗位面试题及要求