详细介绍eBay的Hadoop集群应用及大数据管理

2021-01-04 14:52:30 阅读（215） 评论（0）

eBay,1995年劳动节周末，世界上最大的在线交易平台由程序员PierreOmidyar在美国成立。它最初被称为AuctionWeb，并于1997年7月正式更名为eBay。它将于今年9月庆祝其20周年。eBay的第一笔交易是一支损坏的激光笔，成交价格为14.83美元。pierre主动联系买家，以确保他们知道这是一支损坏的激光笔，买家回答说“我是一个损坏的激光笔收藏家”。从那时起，eBay20年的发展正式开始，引领了电子商务行业的快速增长。如今，eBay已成为世界上最大的在线交易网站。买家分布在世界190多个国家，活跃卖家2500多万，活跃买家1.57亿，活跃商品8亿，通过connectedcommerce连接世界各地的买家和买家，2014年GMV产量超过2550亿美元，其中来自移动终端的GMV超过280亿美元。据统计，美国每五秒钟卖一个手袋，澳大利亚每分钟通过移动终端卖一双鞋，德国每10分钟通过移动终端卖一辆车或卡车。据统计，在美国每五秒钟卖一个手袋，在澳大利亚每分钟通过移动终端卖一双鞋，在德国每10分钟通过移动终端卖一辆汽车或卡车。在如此大量的用户和交易下，数据已经成为ebay的首要任务，从点击流到搜索、商品查看、交易和愿望清单。在eBay数据平台中存储超过100个PB的数据。关键是如何获取、存储、处理和分析数据，并释放数据的价值，使其成为行动指南。然而，各大数据平台为成千上万的分析师和业务用户提供了坚实的保障和基础，并不断创新，以满足日新月异的变化和需求。EBAY目前的大数据平台分为三层，数据集成层：负责数据采集、处理和清洁，包括批处理和实时处理能力，包括相关商业产品和开源产品；数据平台层：主要由传统数据仓库组成（EDW），基于Teradata集群，总容量超过10PB；奇点(Singularity)，存储半结构化和深层次结构化数据存储，总容量超过36PB；以及Hadoop集群，总容量超过100PB；数据访问层：业务用户和分析师通过各种工具访问和分析相关数据的能力，包括各种商业工具、开源产品和自主研发的各种平台。本文将重点介绍EBay在相关领域的发展、平台和未来发展趋势。本文将重点介绍ebay在相关领域的发展、平台和未来发展趋势。conectwithhadop1.EBay最早的Hadop应用是在EBay研究实验室(eBayResearchLab,eRL)为了提高日常日志处理速度，主要用于日志分析。最初的版本是0.18.2，4个节点，存储和处理约数百GB的日志，最大的处理能力是44个Map。随后，EBay搜索团队建立了10个节点的集群，开始了Hadoop在EBay搜索领域的发展，并于2012年推出了基于HBase的搜索平台：Cassini。2010年，EBay推出了基于CDH2的集群，节点532个，存储容量5PB以上，2012年推出了基于HDP的集群，节点3000多个，容量50PB以上。2014年，总节点数据超过1万，存储容量超过170PB，活跃用户超过2000。目前，相关规模仍在增长。随之而来的管理、监控、分析和存储挑战越来越严峻。基础设施的创新主导了Hadoop的演变，从基于HDFS和Mapreduce的批处理应用不断演变，第一代Hadoop提供了灵活可扩展的数据结构和处理能力，满足了公司在大数据兴起时的各种大小数据处理需求。然而，毕竟，这只是第一步，有各种各样的限制。如果将其与操作系统进行比较，第一代Hadoop，如操作系统和应用程序，如记事本，只有一个应用程序，即Mapreduce。然而，随之而来的大量任务导致了调度瓶颈，从而导致YARN(YetAnotherResourceNegotiator)项目的建立和发展解决了Jobtracker在超大规模集中中成为瓶颈的问题，并通过YARN支持各种应用程序进行资源调度和管理，从而将Hadoop带入下一个时代，从面向批处理到提供交互式处理能力，下一代Hadoop取得了巨大的进步。并提供了支持独立执行模式的战略决策，例如，Mapreduce可以作为YARN上的应用程序运行。例如，MapReduce可以作为YARN上的一个应用程序运行，提供支持独立执行模式的战略决策。此后，Hadoop通过YARN成为一个真正的数据操作系统。目前，交易数据库、文档数据库和图形数据库的数据可以存储在Hadoop上，可以访问基于YARN的数据，包括Mapreduce，而无需复制或移动不同应用程序的数据、Hive、各种应用，如HBase和Spark。从而提供了丰富的数据处理和创新能力。一个统一的数据存储，平台的使用将是一个确定的趋势。2.目前，分层存储的普遍认知是利用廉价*件形成Hadoop集群，存储超大容量数据并提供计算能力。例如，如果一个1000节点的集群具有20TB的存储能力，整个集群可以存储20PB的数据。为了实现Hadoop，所有机器都有足够的计算能力：“MovingComputationisCheaperthanMovingData”。不同类型的数据集通常存储在同一个集群中，并由不同的团队共享，以满足业务需求。随着时间的推移，数据的利用率会逐渐降低，越新的数据利用率越高，越旧的数据访问次数也会逐渐降低。第一次生成的数据利用率最高。我们将其定义为Hot。根据我们的分析，一周内访问量下降的数据称为Warm，而在接下来的三个月内只有少量访问的数据称为Cold。最后，访问率降低到每年只有几次甚至零的数据集，称为frozen，如下表所示：分析，在同一集群中存储不同热量的数据，使用相同的计算和存储资源变得越来越有问题，随着时间的增长，越来越多的冷数据，将占据宝贵的存储和计算资源，当需要进入更多的热数据或大量计算时，相应的存储成为瓶颈，许多其他公司甚至提到了删除低价值数据的做法。在管理和运维超大Hadop集群时，如何处理不同热度的数据已经成为一个迫切的需求和现实挑战。如何处理不同热量的数据已成为管理和运维超大型Hadoop集群的迫切需求和实际挑战。将低热量数据集和高热量数据集作为不同的存储策略是必不可少的。在Hadoop2.3中，HDFS支持分层存储，通过在集群中添加归档存储容量，为冷却数据提供深度存储容量，并保持上层应用程序的透明度。由于数据仍在同一集群中，当需要访问相应的冷数据时，仍然可以及时获取。例如，我们可以在上述示例中添加100个节点，每个节点都有200TB存储，但只使用有限的计算资源，因此整个集群的总量将变为40PB（20PB磁盘）＋20PB归档)。通过相关的数据策略，将不同热度的数据分布到不同的存储中。例如，假设每个数据默认按Hadoop设置复制三份，Hot数据将三份数据全部存储在快速磁盘上，Warm类型数据只存储一份复制在快速磁盘上，其余两份存储在归档存储中，并存储所有Cold和Frozen数据。为了有效地分配不同的数据，如下图所示：分层存储已用于eBay最大的Hadoop集群，该集群有40PB存储，我们增加了额外的10PB存储，每个节点都有220TB容量，因此Warm、逐步迁移Cold和Frozen数据集。由于计算能力有限，这些节点的每GB成本是其他节点的4倍左右。EBay将继续在这方面进行研究和投资，如SSD存储。3.当集群数量达到成千上万的规模时，监控、报警和自动化操作和维护是确保高数据可用性和为上层应用程序提供持续服务的基础。在ebay的日常工作中，Hadoop集群的管理和维护任务相当繁重，现有的管理和监控工具无法满足多集群、大规模分布式收集日志和监控数据的需要。因此，ebay开发了一个名为eagle的集群监控报警平台。Eagle主要由不同应用领域的基本核心框架和许多应用组成。它专注于解决大数据时代大型分布式系统本身监控的复杂大数据问题。它具有高可扩展性、高实时性和高可用性的特点。同时，它支持机器学习的使用，为复杂情况提供预测和分析。轻量级分布式流处理框架:以DAG为基础模型抽象一般流处理范式。在开发期间，用户只需要根据DSLAPI定义监控程序的流处理逻辑，然后在运行期间选择实际的物理执行环境，默认支持单流程和Storm，也支持其他执行环境的扩展，如SparkStreaming或Flink。实时流聚合引擎：提供简单易用的实时流聚合规则定义语法，元数据驱动，动态部署，实现线性扩展的实时监控数据流聚合。分布式Policy发动机：分布式实时预警规则执行发动机，提供SQL描述性规则定义语法和机器学习自动扩展，支持动态加载和分区预警规则。存储和查询框架：一般监控数据存储框架，可用于存储和查询日志、指标、报警、事件等类型的数据，默认支持HBase，并对HBase进行各种优化和扩展，如Coproceser、二次索引和分区，也支持RDBMS等其他存储类型的扩展，并提供一般ORM，RESTAPI和强大的SQL查询语法易于使用。可定制监控报表：提供类Notebook的交互式实时可视化分析，还支持部分图标的进一步选择，并将布局定义为dashboard进行共享或持续监控。除了监控日常集群指标外，Eagle还集成了Jobperformanceancealyzer(JPA)，通过实时监控Hadoop平台上的运行现状和历史执行状态，提供不同粒度的多维性能分析，支持运行时间长、读写慢、数据倾斜、失败任务比例过高等各种异常预警和性能警告，在操作不能满足SLA之前，可以有效提供预警和性能建议。同时，结合机器学习模型，根据任务分布或指标变化等协同预测任务或服务器节点的潜在异常，集成Remediation系统自动修复系统。同时，EagleDAM是针对异常用户行为和危险操作开发的(DataActivitiesMonitoring)通过自定义策略和机器学习模型，对关键数据和操作进行监控和报警，防止安全监控应用处于萌芽状态。4.在线交互分析当数据规模随着用户群体的多样化扩展而增长时，我们的用户，如分析师和业务部门，希望继续使用他们熟悉的工具和方法来访问和分析超大规模数据集存储在Hadoop上，并希望在Hadoop集群上完成数据访问、处理、存储和分析，无需将数据从一个数据源转移到另一个数据源。EBay中国R&D中心在研究和评估了各种开源和商业产品后，于2013年中正式启动了OLAPonHadop项目，并于2014年10月开源，然后贡献给APache基金会，目前正处于孵化阶段。Apachekylin由建模者定义相关维度、测量等设置，通过映射Hive中星结构的表生成元数据。构建引擎自动生成基于元数据的相关Hive查询、一系列Mapreduce任务和HBase操作，从而从Hive中读取数据并提前计算，并将结果存储在HBase中。之后，同一数据模型的查询将直接读取已经计算好的存储在HBase中的数据，从而实现秒甚至亚秒的查询延迟。包括Impala在内的项目初始阶段进行了研究和评估，Stinger，PhoenixonHBase,Teradata，Microstrategy等多种开源和商业选项，最终发现没有一种能够满足ebay的实际业务需求，为超大规模数据集提供二级交互式查询能力。在研究了许多技术、论文和参考实现后，开发团队最终选择了MOLAP，即提前计算数据模型，为前端业务用户和分析师提供TB甚至PB级数据集上的交互查询能力。在上面的拓扑图中，下面的节点是实际数据，上面的每个节点代表一个维度组合。理论上，所有SQL查询都可以被拓扑图覆盖。因此，只要引擎能够正确分析查询句并访问正确的数据存储地址，就可以在很短的时间内获得结果。在实际开发过程中，Kylin系统有效地降低了维度，减少了不必要组合的计算，增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际开发过程中，Kylin系统有效降低了维度，减少了不必要组合的计算，增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际生产环境中，90%的ile查询延迟1.5秒，95%的ile小于5秒（最近30天）。虽然基于MOLAP的应用系统在大规模数据集上为相关业务用户提供了查询应用，但构建Cube需要大量的系统资源和时间，一方面是集群带

以上就是关于详细介绍eBay的Hadoop集群应用及大数据管理的相关介绍，更多详细介绍eBay的Hadoop集群应用及大数据管理相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对详细介绍eBay的Hadoop集群应用及大数据管理有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：网站备案将升级为公安部备案是真的吗？下一条：个人用户 VS 公司用户，谁交的税更少?