首页 >知识讲堂 >网站建设知识>详细介绍eBay的Hadoop集群应用及大数据管理

详细介绍eBay的Hadoop集群应用及大数据管理

2021-01-04 14:52:30 阅读(213 评论(0)

eBay,1995年劳动节周末,世界上最大的在线交易平台由程序员PierreOmidyar在美国成立。它最初被称为AuctionWeb,并于1997年7月正式更名为eBay。它将于今年9月庆祝其20周年。eBay的第一笔交易是一支损坏的激光笔,成交价格为14.83美元。pierre主动联系买家,以确保他们知道这是一支损坏的激光笔,买家回答说“我是一个损坏的激光笔收藏家”。从那时起,eBay20年的发展正式开始,引领了电子商务行业的快速增长。如今,eBay已成为世界上最大的在线交易网站。买家分布在世界190多个国家,活跃卖家2500多万,活跃买家1.57亿,活跃商品8亿,通过connectedcommerce连接世界各地的买家和买家,2014年GMV产量超过2550亿美元,其中来自移动终端的GMV超过280亿美元。据统计,美国每五秒钟卖一个手袋,澳大利亚每分钟通过移动终端卖一双鞋,德国每10分钟通过移动终端卖一辆车或卡车。据统计,在美国每五秒钟卖一个手袋,在澳大利亚每分钟通过移动终端卖一双鞋,在德国每10分钟通过移动终端卖一辆汽车或卡车。在如此大量的用户和交易下,数据已经成为ebay的首要任务,从点击流到搜索、商品查看、交易和愿望清单。在eBay数据平台中存储超过100个PB的数据。关键是如何获取、存储、处理和分析数据,并释放数据的价值,使其成为行动指南。然而,各大数据平台为成千上万的分析师和业务用户提供了坚实的保障和基础,并不断创新,以满足日新月异的变化和需求。EBAY目前的大数据平台分为三层,数据集成层:负责数据采集、处理和清洁,包括批处理和实时处理能力,包括相关商业产品和开源产品;数据平台层:主要由传统数据仓库组成(EDW),基于Teradata集群,总容量超过10PB;奇点(Singularity),存储半结构化和深层次结构化数据存储,总容量超过36PB;以及Hadoop集群,总容量超过100PB;数据访问层:业务用户和分析师通过各种工具访问和分析相关数据的能力,包括各种商业工具、开源产品和自主研发的各种平台。本文将重点介绍EBay在相关领域的发展、平台和未来发展趋势。本文将重点介绍ebay在相关领域的发展、平台和未来发展趋势。conectwithhadop1.EBay最早的Hadop应用是在EBay研究实验室(eBayResearchLab,eRL)为了提高日常日志处理速度,主要用于日志分析。最初的版本是0.18.2,4个节点,存储和处理约数百GB的日志,最大的处理能力是44个Map。随后,EBay搜索团队建立了10个节点的集群,开始了Hadoop在EBay搜索领域的发展,并于2012年推出了基于HBase的搜索平台:Cassini。2010年,EBay推出了基于CDH2的集群,节点532个,存储容量5PB以上,2012年推出了基于HDP的集群,节点3000多个,容量50PB以上。2014年,总节点数据超过1万,存储容量超过170PB,活跃用户超过2000。目前,相关规模仍在增长。随之而来的管理、监控、分析和存储挑战越来越严峻。基础设施的创新主导了Hadoop的演变,从基于HDFS和Mapreduce的批处理应用不断演变,第一代Hadoop提供了灵活可扩展的数据结构和处理能力,满足了公司在大数据兴起时的各种大小数据处理需求。然而,毕竟,这只是第一步,有各种各样的限制。如果将其与操作系统进行比较,第一代Hadoop,如操作系统和应用程序,如记事本,只有一个应用程序,即Mapreduce。然而,随之而来的大量任务导致了调度瓶颈,从而导致YARN(YetAnotherResourceNegotiator)项目的建立和发展解决了Jobtracker在超大规模集中中成为瓶颈的问题,并通过YARN支持各种应用程序进行资源调度和管理,从而将Hadoop带入下一个时代,从面向批处理到提供交互式处理能力,下一代Hadoop取得了巨大的进步。并提供了支持独立执行模式的战略决策,例如,Mapreduce可以作为YARN上的应用程序运行。例如,MapReduce可以作为YARN上的一个应用程序运行,提供支持独立执行模式的战略决策。此后,Hadoop通过YARN成为一个真正的数据操作系统。目前,交易数据库、文档数据库和图形数据库的数据可以存储在Hadoop上,可以访问基于YARN的数据,包括Mapreduce,而无需复制或移动不同应用程序的数据、Hive、各种应用,如HBase和Spark。从而提供了丰富的数据处理和创新能力。一个统一的数据存储,平台的使用将是一个确定的趋势。2.目前,分层存储的普遍认知是利用廉价*件形成Hadoop集群,存储超大容量数据并提供计算能力。例如,如果一个1000节点的集群具有20TB的存储能力,整个集群可以存储20PB的数据。为了实现Hadoop,所有机器都有足够的计算能力:“MovingComputationisCheaperthanMovingData”。不同类型的数据集通常存储在同一个集群中,并由不同的团队共享,以满足业务需求。随着时间的推移,数据的利用率会逐渐降低,越新的数据利用率越高,越旧的数据访问次数也会逐渐降低。第一次生成的数据利用率最高。我们将其定义为Hot。根据我们的分析,一周内访问量下降的数据称为Warm,而在接下来的三个月内只有少量访问的数据称为Cold。最后,访问率降低到每年只有几次甚至零的数据集,称为frozen,如下表所示:分析,在同一集群中存储不同热量的数据,使用相同的计算和存储资源变得越来越有问题,随着时间的增长,越来越多的冷数据,将占据宝贵的存储和计算资源,当需要进入更多的热数据或大量计算时,相应的存储成为瓶颈,许多其他公司甚至提到了删除低价值数据的做法。在管理和运维超大Hadop集群时,如何处理不同热度的数据已经成为一个迫切的需求和现实挑战。如何处理不同热量的数据已成为管理和运维超大型Hadoop集群的迫切需求和实际挑战。将低热量数据集和高热量数据集作为不同的存储策略是必不可少的。在Hadoop2.3中,HDFS支持分层存储,通过在集群中添加归档存储容量,为冷却数据提供深度存储容量,并保持上层应用程序的透明度。由于数据仍在同一集群中,当需要访问相应的冷数据时,仍然可以及时获取。例如,我们可以在上述示例中添加100个节点,每个节点都有200TB存储,但只使用有限的计算资源,因此整个集群的总量将变为40PB(20PB磁盘)+20PB归档)。通过相关的数据策略,将不同热度的数据分布到不同的存储中。例如,假设每个数据默认按Hadoop设置复制三份,Hot数据将三份数据全部存储在快速磁盘上,Warm类型数据只存储一份复制在快速磁盘上,其余两份存储在归档存储中,并存储所有Cold和Frozen数据。为了有效地分配不同的数据,如下图所示:分层存储已用于eBay最大的Hadoop集群,该集群有40PB存储,我们增加了额外的10PB存储,每个节点都有220TB容量,因此Warm、逐步迁移Cold和Frozen数据集。由于计算能力有限,这些节点的每GB成本是其他节点的4倍左右。EBay将继续在这方面进行研究和投资,如SSD存储。3.当集群数量达到成千上万的规模时,监控、报警和自动化操作和维护是确保高数据可用性和为上层应用程序提供持续服务的基础。在ebay的日常工作中,Hadoop集群的管理和维护任务相当繁重,现有的管理和监控工具无法满足多集群、大规模分布式收集日志和监控数据的需要。因此,ebay开发了一个名为eagle的集群监控报警平台。Eagle主要由不同应用领域的基本核心框架和许多应用组成。它专注于解决大数据时代大型分布式系统本身监控的复杂大数据问题。它具有高可扩展性、高实时性和高可用性的特点。同时,它支持机器学习的使用,为复杂情况提供预测和分析。轻量级分布式流处理框架:以DAG为基础模型抽象一般流处理范式。在开发期间,用户只需要根据DSLAPI定义监控程序的流处理逻辑,然后在运行期间选择实际的物理执行环境,默认支持单流程和Storm,也支持其他执行环境的扩展,如SparkStreaming或Flink。实时流聚合引擎:提供简单易用的实时流聚合规则定义语法,元数据驱动,动态部署,实现线性扩展的实时监控数据流聚合。分布式Policy发动机:分布式实时预警规则执行发动机,提供SQL描述性规则定义语法和机器学习自动扩展,支持动态加载和分区预警规则。存储和查询框架:一般监控数据存储框架,可用于存储和查询日志、指标、报警、事件等类型的数据,默认支持HBase,并对HBase进行各种优化和扩展,如Coproceser、二次索引和分区,也支持RDBMS等其他存储类型的扩展,并提供一般ORM,RESTAPI和强大的SQL查询语法易于使用。可定制监控报表:提供类Notebook的交互式实时可视化分析,还支持部分图标的进一步选择,并将布局定义为dashboard进行共享或持续监控。除了监控日常集群指标外,Eagle还集成了Jobperformanceancealyzer(JPA),通过实时监控Hadoop平台上的运行现状和历史执行状态,提供不同粒度的多维性能分析,支持运行时间长、读写慢、数据倾斜、失败任务比例过高等各种异常预警和性能警告,在操作不能满足SLA之前,可以有效提供预警和性能建议。同时,结合机器学习模型,根据任务分布或指标变化等协同预测任务或服务器节点的潜在异常,集成Remediation系统自动修复系统。同时,EagleDAM是针对异常用户行为和危险操作开发的(DataActivitiesMonitoring)通过自定义策略和机器学习模型,对关键数据和操作进行监控和报警,防止安全监控应用处于萌芽状态。4.在线交互分析当数据规模随着用户群体的多样化扩展而增长时,我们的用户,如分析师和业务部门,希望继续使用他们熟悉的工具和方法来访问和分析超大规模数据集存储在Hadoop上,并希望在Hadoop集群上完成数据访问、处理、存储和分析,无需将数据从一个数据源转移到另一个数据源。EBay中国R&D中心在研究和评估了各种开源和商业产品后,于2013年中正式启动了OLAPonHadop项目,并于2014年10月开源,然后贡献给APache基金会,目前正处于孵化阶段。Apachekylin由建模者定义相关维度、测量等设置,通过映射Hive中星结构的表生成元数据。构建引擎自动生成基于元数据的相关Hive查询、一系列Mapreduce任务和HBase操作,从而从Hive中读取数据并提前计算,并将结果存储在HBase中。之后,同一数据模型的查询将直接读取已经计算好的存储在HBase中的数据,从而实现秒甚至亚秒的查询延迟。包括Impala在内的项目初始阶段进行了研究和评估,Stinger,PhoenixonHBase,Teradata,Microstrategy等多种开源和商业选项,最终发现没有一种能够满足ebay的实际业务需求,为超大规模数据集提供二级交互式查询能力。在研究了许多技术、论文和参考实现后,开发团队最终选择了MOLAP,即提前计算数据模型,为前端业务用户和分析师提供TB甚至PB级数据集上的交互查询能力。在上面的拓扑图中,下面的节点是实际数据,上面的每个节点代表一个维度组合。理论上,所有SQL查询都可以被拓扑图覆盖。因此,只要引擎能够正确分析查询句并访问正确的数据存储地址,就可以在很短的时间内获得结果。在实际开发过程中,Kylin系统有效地降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际开发过程中,Kylin系统有效降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际生产环境中,90%的ile查询延迟1.5秒,95%的ile小于5秒(最近30天)。虽然基于MOLAP的应用系统在大规模数据集上为相关业务用户提供了查询应用,但构建Cube需要大量的系统资源和时间,一方面是集群带

以上就是关于详细介绍eBay的Hadoop集群应用及大数据管理的相关介绍,更多详细介绍eBay的Hadoop集群应用及大数据管理相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对详细介绍eBay的Hadoop集群应用及大数据管理有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

家电知识产权现状 | 为争夺消费者,企业如何应对专利纠纷?

各行各业都在社会发展、互联网发展、消费升级中向前进,并随各阶段进行了价格战、营销战,到如今又开启了专利战。家电行业也是如此,为立足于市场之中,为了争夺消费者,家电知识产权中产品专利是第一利器。 图片来源于网络 …查看详情

自动翻译软件哪些好用?值得推荐的自动翻译软件

当我们需要对文字进行翻译的时候,那么选择一款好的软件也是非常重要的,如果找到一款自动翻译软件能够节省很多的时间,而且翻译功能也是比较强大的。那么自动翻译软件哪些好用?接下来就给大家介绍几款比较好用的自动翻译软件一…查看详情

网站备案和不备案的区别有哪些?

  我们知道现在的网络建设时代技术发展日新月异,各家公司企业都在追求互联网+时代,拥抱互联网,利用互联网为公司企业创造价值,网站建设当然是必不可少的环节,但是很多人都知道网站是需要备案的,很多人都不知道网站备案和不…查看详情

怎样定位网站的用户

无论是什么样的网站都是给用户看的,在规划网站的时候就需要定位网站的用户群体,只有定位好了用户群体网站才有清晰的目标,也才能对网站进行整体的规划和建设。网站的目标群体必须定位准确,如果定位太过宽泛,那么网站就无从下…查看详情

客户关系管理软件有哪些 客户管理软件crm排名

对于公司来讲每天都会积累许多客户,而客户所对应的项目是不相同的,那么,必须要把这些都梳理好,才可以有效的把每个客户的项目处理好,这样的话才能够顺利进行,那么,客户关系管理软件有什么?1、名易CRM是一款专门对客户,市场…查看详情

4款营销软件排行及其特点分析对比

在这个科技发展超前的时代,越来越多的企业随之上市。但并不是每一个企业都能够稳排于前位并且稳定发展。这取决于该企业的营销是否超前。本文正路了一份4款营销软件及其特点功能对比供大家参考。 第一名:商陆花。 是一款全…查看详情

不知道图片怎么去水印?下面这3种免费方法学到就是赚到

相信很多人都有遇到过这样的经历:因工作或生活需要千辛万苦找到一张觉得不错的照片,确由于照片上存在着水印,自己又不知道图片怎么去水印不得不放弃使用,可是再找到一张满意的不知道又要花多少时间,最怕的是时间花了也找不到…查看详情

拼车软件哪个好用又便宜 拼车顺风车app排行榜前十名

现在出行是非常的方便了,打车顺风车拼车都是人们出行的选择,下面万商云集*给大家来详细介绍一下拼车软件哪个好用又便宜  拼车顺风车app排行榜前十名这一块的内容。  1.滴滴出行  滴滴出行app是滴滴打车滴滴代驾的升级版...查看详情

零售门店基于微信的网上商城开发

零售门店网上商城开发集中表现为入驻外卖平台,除此之外,微商城也深受商家青睐。 通过微商城,零售门店改变了传统的、单一的面对面的销售方式,可以不受地域限制的通过微信连接更多用户,扩大客户群、增加活动促销影响力,创…查看详情

推荐几个较好的云计算系统,让科技带企业飞翔

对于任何一个想要在当今立足的企业而言,如果不能够掌握互联网技术、对于云计算系统无所了解,往往无法真正跻身优秀企业行列,甚至会因为对云计算的不熟悉而被其他同行远远甩在身后。云计算已经成为优秀企业的必修课之一。今日为…查看详情

备案域名有哪些好处?这几点是关键

如果想要建立网站的话,不仅仅要做好网页的设计,更要注意做好域名备案。因为这相当于给网站进行了实名的认证,同时也会得到相应的备案号。这样的网站,能够避免不良信息发布更加的安全,而在我国不进行域名备案的话,网站都是不…查看详情

企业网站内容营销文案怎么写?

现在是一个网络信息的时代,很多人在寻找产品的时候也都会选择在网上来寻找,因此很多企业为了能够达到更好的营销效果,也都会建立自己的网站。网站在进行建立的时候也是很讲究的,应该要找到比较好的网页构架,这样才能够带来更…查看详情

做网站租服务器一年多少钱

网站租用服务器的费用因多种因素而异,包括服务器类型、配置、所需带宽和运营商等。以下是一些常见的服务器租用模式和大致的价格范围:1. 共享主机(Shared Hosting):这是最常见的服务器租用方式之一。在共享主机中,...查看详情

高级用户运营必会,以老拉新技巧

无论是做产品运营、微信官方账号运营、社区运营还是app运营,运营小伙伴们都会进行新的引流,但是想做新的引流,都会从用户入手,因为这样更快,目标用户群更准确。下面*就跟大家讲讲以老拉新需要注意些什么?第一,老用户的定位为…查看详情

本年度单机游戏排行榜中你玩过哪些?

每个游戏都有它的特点,大家会根据自己的喜好去选择,那么,想要选择不同的游戏就要了解其中有着怎样的故事情节,有一部分游戏也不需要网就可以玩,但是,需要你们知道单机游戏排行榜有什么。1.《植物大战僵尸》《植物大战僵尸2》…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询