整理丨数据分析过程中的常见问题

2021-01-06 10:21:26 阅读（154） 评论（0）

1、最早的数据分析可能会报告许多数据分析后的结果。有许多形式的显示，包括各种图形和报告。最早的数据应该是几个简单的数据，然后建立一个web页面来显示数据。早期数据量可能不大，随便搞个数据库，然后SQL搞一下，数据报表就出来了。但是如何分析大数据量呢？数据分析后如何传输？如何实现如此大的数据量？如果分析的结果数据不是很好，如果分析的结果数据仍然发生了很大的变化呢？在这篇文章中可以找到这些问题的答案，下面每一个都被打破了。2、要做数据分析，首先要有数据这个标题感觉有点废话，但要做饭需要同样的食材。业务积累的一些数据，比如交易订单的数据，每笔交易都会有一个订单，然后分析订单数据。然而，在某些情况下，数据不能测试业务积累，需要依靠外部。此时，如果外部有现成的数据，最好直接来，但有时需要自己获取。例如，爬虫爬网页的数据，有时单台机器爬虫爬不完。此时，可能会开始考虑单机多线程爬行或分布式多线程爬行数据，其中涉及一个步骤，即在线业务数据，在进行分析之前，需要每天晚上导入离线系统。3、有了数据，如何分析？3、有了数据，如何分析？首先，当数据量较小时，可以制作一个复杂的SQL，然后制作一个web服务器。当页面要求时，执行SQL，然后显示数据。嗯，最简单的数据分析是严格意义上的统计分析。在这种情况下，分析的数据源很小，分析脚本是在线SQL，分析结果不需要传输，结果显示在页面上，整个过程是一站式的。4、数据量大，无法在线分析。我该怎么办？此时，数据量已经很大，无法以在线执行SQL的形式进行统计分析。这时，顺应时代的东西出现了(当然还有别的，我就知道这个哈哈)，数据离线数据工具hadoop出来了。此时，您的数据以文件的形式存在，每个属性都可能被逗号隔开，数据条数量超过十亿。此时，您可能需要建立一个hadoop集群，然后将您的文件导入集群。进入集群后，文件为HDFS格式。然后，如果您想进行统计分析，您需要编写mapreduce程序。所谓mapreduce程序，就是实现map和reduce的接口，根据自己的业务逻辑编写分析过程，然后将程序打成jar包并上传到集群，然后开始执行。分析后的结果仍然以文件的形式产生。分析结果仍然以文件的形式产生。5、分析数据还需要写java代码是否低效。的确，mapreduce程序本身的可测性没有简单的单元测试那么酷，所以效率真的不高。此时，hive出现了，hive是一种数据仓库分析语言，语法类似于SQL的数据库，但有几个地方是不同的。有了hive之后，数据分析就像之前写SQL一样，按照逻辑编写hiveSQL，然后控制台执行。也许最大的感觉就是数据库的sql很快就会有结果，但是hive，即使是一个很小的数据分析，也需要几分钟。构建hive，需要在hadop集群中，原理非常简单，是构建文件形式（有数据库或内存数据库维护表schema信息），然后提交写好的hivesql，hadop集群中的程序将hive脚本转换为相应的mapreduce程序执行。此时，做离线数据分析简单写脚本，不需要做java代码，然后上传执行。6、如何在线提供服务的数据库中获得数据产生的结果？此时，分析结果可能是一个非常宽和长的excel表格，需要导入在线数据库。也许你认为，如果我的数据库是mysql，我会直接执行load命令，这就不那么麻烦了。但可能有更多的数据源，mysql/oracle/hbase/hdfs以笛卡尔积的形式杀死程序员。此时出现了datax(已开源)，可以实现异构数据源的导入和导出，并以插件的形式设计，可以支持未来的数据源。如果需要导数据，可以在web页面上配置dataxxml文件或点击。7、离线分析有时差。实时怎么办？要构建实时分析系统，其实在结果数据出来之前，架构和离线是完全不同的。如果在大并发海量数据流的过程中进行自己的业务分析？其实说起来简单也简单，说起来复杂也复杂。目前，我已经联系了这个计划。当业务数据写入数据库时，这里的数据库mysql在数据库的机器上安装了一个类似JMS的程序系统，用于监控binlog的变化，收到日志信息，将日志信息转换为特定数据，然后以消息的形式发送。此时实现了解耦，这样的处理不会影响正常的业务流程。此时需要有一个Storm集群，Storm集群做什么？对于一件事，分析数据，该集群接收刚才提到的JMS系统发送的信息，然后按照规定的规则进行逻辑合并计算，并将计算结果保存在数据库中。这样，流动数据就可以再次筛选。8、分析结果数据特别大，在线请求这些结果数据数据无法携带，怎么办？一般来说，结果数据的数据量没有那么大，只有几十万。这样的数据级别对mysql等数据库没有压力，但如果数据量增加到1000万或1亿，并且有复杂的SQL查询，mysql在这个时候肯定无法携带。此时，可能需要构建索引（例如，通过lucene添加索引），或使用分布式内存服务器完成查询。简而言之，有两套想法，一种是以文件索引的形式，直率地说，是空间改变时间，另一种是使用内存，是使用更快的存储来抵抗请求。9、除了mysql，在线数据库还包括mysql、除了oracle，还有其他选择吗？事实上，目前人们的思维定势往往是oracle或mysql的第一选择。事实上，他们可以根据场景进行选择。mysql和oracle是传统的关系数据库。目前，有许多nosql数据库，如HBase。如果数据离散分布强，并根据特定的key进行查询，HBase实际上是一个不错的选择。10、如何分析空间数据？以上分析大多是统计维度。其实最简单的描述就是求和或者平均值。这时，问题来了。如何分析大数据量的空间数据？对我们的电子商务而言，空间数据可能是大量的收货地址数据。需要进行分析，第一步是将经纬度添加到数据中（如果添加经纬度，可以通过地图服务提供商进行http请求，或根据测绘公司的基本数据进行文本切割分析），然后空间数据是二维的，但我们的共同代数是一维的，此时出现了一个重要的算法，geohash算法，将经纬度数据转换为可比性，可排序字符串算法。然后，这样就可以分析空间距离，比如距离，比如方圆周围的数据分析。然后，这样就可以分析空间距离，比如距离，比如方圆周围的数据。11、以上只是统计。如果你想做算法或挖掘，你该怎么办？以上大部分分析都是统计分析。如果你想在这个时候更先进，比如添加算法，你该怎么办？我没有接触过其他复杂的算法。以我练过的算法为例。逻辑回归，如果样本数据量不是很大，您可以使用weka进行回归，获得表达式，然后将表达式应用于在线系统。这种类似的表达式访问对实时性要求不是很高，所以公式每天运行一次。如果数据量大，单机weka无法满足需求，可以在系统中集成weka的jar包进行分析。当然，这种表达式也可以通过hadoop中的mahout进行离线分析。12、我只是想离线分析数据，但我无法忍受hive或hadoop的速度。事实上，从事hadoop一段时间的人一定有点不高兴，也就是说，离线分析的速度太慢，可能需要很长时间。此时，spark出现了。它类似于hadoop，但因为它是在内存中计算的，所以速度要快得多。HDFS的文件系统可以在底部进行干预，具体我没用过，但是公司内部的一个团队已经用spark来分析了。13、这就是大数据？13、这就是大数据吗？有了这些工具，你就可以做大数据了？答案肯定不是。这只是一个工具。真正做大数据的可能是思维的变化，用数据思考，用数据做决定。目前的无线和大数据有什么关系？我认为无线终端是数据的来源和消费者，需要大数据的分析，两者是不可分割的。

以上就是关于整理丨数据分析过程中的常见问题的相关介绍，更多整理丨数据分析过程中的常见问题相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对整理丨数据分析过程中的常见问题有更深的了解和认识。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：竞品分析与产品分析的区别与侧重点下一条：数据分析师不仅仅是数据工具的使用者