解读：大数据分析与挖掘系统

2020-12-18 10:41:00 阅读（164） 评论（0）

任何更*行业新闻的人都会知道IT行业近一两年的几个关键词:移动终端，LBS、SNS和大数据。前三个，大家应该都很熟悉，因为身边已经充斥着相关的应用。只有最后一个大数据在大多数人眼里是非常陌生的。除了知道几个看似很深刻的词，比如数据挖掘和智能推荐，他们不知道。首先，作者需要告诉你数据的价值。许多人可能认为数据只是一堆数字，毫无价值。事实上，这些人很可能已经享受到了数据的红利。比如早在2006年中旬上线的百度指数(index.baidu.com)，其实是基于大数据的数据产品的雏形，但不能说是完整的大数据产品。百度指数用于反映过去30天关键词的网络曝光率和用户*度。它可以生动地反映关键词的日常变化趋势，并显示这些搜索的区域分布和简单的人群属性。百度指数的数据被广泛用作百度甚至其他搜索引擎的SEO参考，并经常被一些研究公司和学者作为一些研究报告的参考。百度指数之后，阿里巴巴集团也推出了淘宝指数。与百度指数相比，淘宝指数(http://shu.taobao.com)这是一个更完整的数据产品。用户可以在淘宝指数中搜索任何关键词，获取淘宝（天猫）上关键词的搜索/交易趋势、人群信息（如性别、年龄、星座、地区、爱好）等，您还可以查询淘宝上相关商品、商品属性、品牌的销售情况，以及任何人群信息组合（如25-30岁北京女性）下的相关交易信息。目前淘宝指数也是免费开放的，只要用淘宝账号登录即可。通过淘宝指数，我们很容易发现很多有趣的事情:比如通过查看“周大福钻石”的搜索和交易信息，我们可以清楚地看到，从2011年8月1日到2012年11月30日，有68%的女性和32%的男性在487天内搜索周大福钻石。但在购买周大福钻石的人群中，是100%的男性。另一个例子是，与“加多宝”和“王老吉”相比，我们很容易看到，自今年4月中旬加多宝出现以来，王老吉的搜索量大幅下降，而加多宝则大幅上升。9月12日左右，两者的曲线发生了历史性的交汇。淘宝指数开发团队(注:暨南集团-cdo-自2010年以来，数据平台和产品部还推出了淘宝（天猫）商户收费数据产品数据魔方，基于淘宝品牌、属性等提供更详细的多维数据组合查询。与此同时，新浪微博还推出了新浪微指数，优酷推出了直接呈现数据的优酷指数。以数据统计、挖掘、总结和分析为主题的产品是大数据时代的第一个产品。在大数据时代，还有一种产品是基于大数据分析和挖掘能力，为用户推送个性化信息的产品。目前，该产品在亚马逊、阿里巴巴集团淘宝等电子商务网站上得到了越来越广泛的应用，并取得了良好的转化效果，转化率高于传统的导购模式(可以理解为看这些页面的人实际购买这些页面呈现的商品的比例)。此外，在网站的背景下，基于大数据的BI(商业智能)分析早已为网站的运营商和规划者提供了宝贵的信息支持。此外，在网站的背景下，基于大数据的BI（商业智能）分析已经为网站的运营商和规划师提供了宝贵的信息支持。目前，国内外也有许多数据公司通过建立大数据分析系统来为各种企业的BI部门提供服务。看到这里，有些人可能会觉得所谓的数据产品只是对数据进行一些统计分析，然后呈现出来，没什么大不了的。从某种意义上说，这是真的，但作者希望这篇文章的读者随时记住一句话：看似简单的事情，本质上往往并不简单。先说什么是大数据:从公认的定义来看，大数据至少应该达到PB级别(1PB=1024TB=1048576GB)。目前，我们从公共信息中了解到，阿里巴巴集团目前的数据系统之一“梯子”总存储容量为50PB，实际使用容量超过40PB。百度搜索引擎捕获的数据大约是10-50个PB，范围很大，因为这种情况每隔一小时就会发生很大的变化。此外，其UGC，即用户生成的内容，如百度贴吧，百度知道百度图书馆的内容，这些内容是大多数互联网用户自己生成、上传、共享的数据，这部分数据目前已达到1PB。处理这么多数据，显然，单独的计算机，即使是大型机器，也很可能是力有不抓。所以，我们必须使用所谓的云计算技术。在介绍这一部分的同时，作者还将介绍离线计算、实时计算和流数据计算三个概念。离线计算是指在用户查询计算产生的数据之前，计算已经完成，用户只是查询计算的最终结果。例如，如果你小心，你可能会发现百度指数和淘宝指数中的大多数数据每天更新一次，因为这些数据通常是在每天早上离线计算的。离线计算不需要计算所消耗的时间长度，因为计算是在用户查询之前完成的。目前，开源Hadop系统广泛应用于离线计算。在阿里巴巴集团中，其数据系统之一是在Hadoop上架构的云梯系统。该集群目前有3200多个节点，基于英特尔处理器的x86服务器日均运行量高达15万。相关数据产品每天凌晨处理1.5PB以上的数据量，几小时内处理完毕，每秒处理的数据量可以以GB为单位。与此同时，阿里集团还有另一套规模略小但基于自主知识产权开发的飞天系统(ODPS)数据处理系统也有成千上万的节点。至于百度，根据其2011年公布的情况，其所有Hadoop集群的节点总数应超过1万个，但节点分布在多个不同的集群中。离线计算输出的结果数据是固定的组合。例如，我们可以计算北京男性在百度上搜索的“王老吉”一词的搜索量。然后，在查询数据产品的前端系统时，可以直接查询并取出此类数据。但是这里有一个问题。如果前端用户需要多维组合查询，比如查询任何性别(男女)*任何年龄(假设五个年龄组)*任何城市(340多个城市)*任何爱好(假设有10种爱好)的人的搜索量，那么如果这些组合都需要离线计算，就会有2*5*340*10=3400。一个词每天有3.4万个结果数据，因此结合计算的效率和结果的存储成本是不可接受的。因此，我们必须在用户查询时构建一个实时计算系统和计算系统。因此，我们必须在用户查询时构建一个实时计算系统和计算系统。我们经常将离线计算系统归类为OLAP(On-LineAnalyticalProcessing，在线分析系统)中。有些读者可能使用过一些数据库系统，如sqlserverr、mysql、从本质上讲，oracle等，这些数据库中的数据计算也发生在查询过程中。然而，在大数据时代，数据量的极度扩大使得这些传统数据库很难在短时间内从海量数据中查询和计算用户需要的数据。例如，假设淘宝（天猫）每天的交易量为1000万笔（实际上明显不止这个数字），30天内积累3亿数据。在这3亿数据条目中，需要在0.5秒内查询满足三四个条件组合的交易量，并进行分组(group)、汇总(sum)、排序(order)在运算组合的情况下，oracle单机部署、mysql等性能不能满足这一要求。因此，在多个节点上并行计算的实时计算系统需要更高性能的支持。因此，有必要支持性能更高、并行计算在多个节点上的实时计算系统。目前，实时计算系统中还没有开源软件像Hadoop那样占有很大的市场份额。主要公司正在开发自己的实时计算系统，如阿里巴巴集团的Garuda系统。与业务数据库一起，实时计算系统通常也被归类为OLTP(在线事务处理系统)。离线计算和实时计算，虽然计算时间不同，但数据装载时间往往相同，每天早上装载。流数据计算系统是指在数据到达时连续流入系统并计算相关结果的系统。显然，流数据系统可以在几分钟内计算出新的数据。目前，阿里巴巴集团数据平台Galaxy系统等相关应用较少，为数据魔方提供流数据计算支持。综上所述，大数据是大量的(Volume)、多种类的(Variety)、需要大规模的处理才能凝聚足够的价值(Value)、处理和检索响应速度快(Velocity)的数据。与传统的数据挖掘工作所需的系统相比，处理大数据所需的系统有着根本的区别。与此同时，大数据时代越来越强调数据的相关性，将各种数据的相关性结合起来，产生更大的价值。我们可以想象，以中国公安机关拥有的公民信息为核心，结合民航和铁路部门拥有的出行信息、银行拥有的交易信息、各城市社保公积金数据、电信系统数据等，构建了大规模的国家数据挖掘处理系统。这个系统的数据价值自然很大，显然可以充分体现出来。相关大数据(LinkedBigData)巨大的价值。

以上就是关于解读：大数据分析与挖掘系统的相关介绍，更多解读：大数据分析与挖掘系统相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对解读：大数据分析与挖掘系统有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：市场部到底是做什么的？为什么需要做正在做的事情？下一条：通过QQ空间社交广告数据，聊聊生态竞争。