首页 >知识讲堂 >网站建设知识>详细介绍eBay的Hadoop集群应用及大数据管理

详细介绍eBay的Hadoop集群应用及大数据管理

2021-01-04 14:52:30 阅读(215 评论(0)

eBay,1995年劳动节周末,世界上最大的在线交易平台由程序员PierreOmidyar在美国成立。它最初被称为AuctionWeb,并于1997年7月正式更名为eBay。它将于今年9月庆祝其20周年。eBay的第一笔交易是一支损坏的激光笔,成交价格为14.83美元。pierre主动联系买家,以确保他们知道这是一支损坏的激光笔,买家回答说“我是一个损坏的激光笔收藏家”。从那时起,eBay20年的发展正式开始,引领了电子商务行业的快速增长。如今,eBay已成为世界上最大的在线交易网站。买家分布在世界190多个国家,活跃卖家2500多万,活跃买家1.57亿,活跃商品8亿,通过connectedcommerce连接世界各地的买家和买家,2014年GMV产量超过2550亿美元,其中来自移动终端的GMV超过280亿美元。据统计,美国每五秒钟卖一个手袋,澳大利亚每分钟通过移动终端卖一双鞋,德国每10分钟通过移动终端卖一辆车或卡车。据统计,在美国每五秒钟卖一个手袋,在澳大利亚每分钟通过移动终端卖一双鞋,在德国每10分钟通过移动终端卖一辆汽车或卡车。在如此大量的用户和交易下,数据已经成为ebay的首要任务,从点击流到搜索、商品查看、交易和愿望清单。在eBay数据平台中存储超过100个PB的数据。关键是如何获取、存储、处理和分析数据,并释放数据的价值,使其成为行动指南。然而,各大数据平台为成千上万的分析师和业务用户提供了坚实的保障和基础,并不断创新,以满足日新月异的变化和需求。EBAY目前的大数据平台分为三层,数据集成层:负责数据采集、处理和清洁,包括批处理和实时处理能力,包括相关商业产品和开源产品;数据平台层:主要由传统数据仓库组成(EDW),基于Teradata集群,总容量超过10PB;奇点(Singularity),存储半结构化和深层次结构化数据存储,总容量超过36PB;以及Hadoop集群,总容量超过100PB;数据访问层:业务用户和分析师通过各种工具访问和分析相关数据的能力,包括各种商业工具、开源产品和自主研发的各种平台。本文将重点介绍EBay在相关领域的发展、平台和未来发展趋势。本文将重点介绍ebay在相关领域的发展、平台和未来发展趋势。conectwithhadop1.EBay最早的Hadop应用是在EBay研究实验室(eBayResearchLab,eRL)为了提高日常日志处理速度,主要用于日志分析。最初的版本是0.18.2,4个节点,存储和处理约数百GB的日志,最大的处理能力是44个Map。随后,EBay搜索团队建立了10个节点的集群,开始了Hadoop在EBay搜索领域的发展,并于2012年推出了基于HBase的搜索平台:Cassini。2010年,EBay推出了基于CDH2的集群,节点532个,存储容量5PB以上,2012年推出了基于HDP的集群,节点3000多个,容量50PB以上。2014年,总节点数据超过1万,存储容量超过170PB,活跃用户超过2000。目前,相关规模仍在增长。随之而来的管理、监控、分析和存储挑战越来越严峻。基础设施的创新主导了Hadoop的演变,从基于HDFS和Mapreduce的批处理应用不断演变,第一代Hadoop提供了灵活可扩展的数据结构和处理能力,满足了公司在大数据兴起时的各种大小数据处理需求。然而,毕竟,这只是第一步,有各种各样的限制。如果将其与操作系统进行比较,第一代Hadoop,如操作系统和应用程序,如记事本,只有一个应用程序,即Mapreduce。然而,随之而来的大量任务导致了调度瓶颈,从而导致YARN(YetAnotherResourceNegotiator)项目的建立和发展解决了Jobtracker在超大规模集中中成为瓶颈的问题,并通过YARN支持各种应用程序进行资源调度和管理,从而将Hadoop带入下一个时代,从面向批处理到提供交互式处理能力,下一代Hadoop取得了巨大的进步。并提供了支持独立执行模式的战略决策,例如,Mapreduce可以作为YARN上的应用程序运行。例如,MapReduce可以作为YARN上的一个应用程序运行,提供支持独立执行模式的战略决策。此后,Hadoop通过YARN成为一个真正的数据操作系统。目前,交易数据库、文档数据库和图形数据库的数据可以存储在Hadoop上,可以访问基于YARN的数据,包括Mapreduce,而无需复制或移动不同应用程序的数据、Hive、各种应用,如HBase和Spark。从而提供了丰富的数据处理和创新能力。一个统一的数据存储,平台的使用将是一个确定的趋势。2.目前,分层存储的普遍认知是利用廉价*件形成Hadoop集群,存储超大容量数据并提供计算能力。例如,如果一个1000节点的集群具有20TB的存储能力,整个集群可以存储20PB的数据。为了实现Hadoop,所有机器都有足够的计算能力:“MovingComputationisCheaperthanMovingData”。不同类型的数据集通常存储在同一个集群中,并由不同的团队共享,以满足业务需求。随着时间的推移,数据的利用率会逐渐降低,越新的数据利用率越高,越旧的数据访问次数也会逐渐降低。第一次生成的数据利用率最高。我们将其定义为Hot。根据我们的分析,一周内访问量下降的数据称为Warm,而在接下来的三个月内只有少量访问的数据称为Cold。最后,访问率降低到每年只有几次甚至零的数据集,称为frozen,如下表所示:分析,在同一集群中存储不同热量的数据,使用相同的计算和存储资源变得越来越有问题,随着时间的增长,越来越多的冷数据,将占据宝贵的存储和计算资源,当需要进入更多的热数据或大量计算时,相应的存储成为瓶颈,许多其他公司甚至提到了删除低价值数据的做法。在管理和运维超大Hadop集群时,如何处理不同热度的数据已经成为一个迫切的需求和现实挑战。如何处理不同热量的数据已成为管理和运维超大型Hadoop集群的迫切需求和实际挑战。将低热量数据集和高热量数据集作为不同的存储策略是必不可少的。在Hadoop2.3中,HDFS支持分层存储,通过在集群中添加归档存储容量,为冷却数据提供深度存储容量,并保持上层应用程序的透明度。由于数据仍在同一集群中,当需要访问相应的冷数据时,仍然可以及时获取。例如,我们可以在上述示例中添加100个节点,每个节点都有200TB存储,但只使用有限的计算资源,因此整个集群的总量将变为40PB(20PB磁盘)+20PB归档)。通过相关的数据策略,将不同热度的数据分布到不同的存储中。例如,假设每个数据默认按Hadoop设置复制三份,Hot数据将三份数据全部存储在快速磁盘上,Warm类型数据只存储一份复制在快速磁盘上,其余两份存储在归档存储中,并存储所有Cold和Frozen数据。为了有效地分配不同的数据,如下图所示:分层存储已用于eBay最大的Hadoop集群,该集群有40PB存储,我们增加了额外的10PB存储,每个节点都有220TB容量,因此Warm、逐步迁移Cold和Frozen数据集。由于计算能力有限,这些节点的每GB成本是其他节点的4倍左右。EBay将继续在这方面进行研究和投资,如SSD存储。3.当集群数量达到成千上万的规模时,监控、报警和自动化操作和维护是确保高数据可用性和为上层应用程序提供持续服务的基础。在ebay的日常工作中,Hadoop集群的管理和维护任务相当繁重,现有的管理和监控工具无法满足多集群、大规模分布式收集日志和监控数据的需要。因此,ebay开发了一个名为eagle的集群监控报警平台。Eagle主要由不同应用领域的基本核心框架和许多应用组成。它专注于解决大数据时代大型分布式系统本身监控的复杂大数据问题。它具有高可扩展性、高实时性和高可用性的特点。同时,它支持机器学习的使用,为复杂情况提供预测和分析。轻量级分布式流处理框架:以DAG为基础模型抽象一般流处理范式。在开发期间,用户只需要根据DSLAPI定义监控程序的流处理逻辑,然后在运行期间选择实际的物理执行环境,默认支持单流程和Storm,也支持其他执行环境的扩展,如SparkStreaming或Flink。实时流聚合引擎:提供简单易用的实时流聚合规则定义语法,元数据驱动,动态部署,实现线性扩展的实时监控数据流聚合。分布式Policy发动机:分布式实时预警规则执行发动机,提供SQL描述性规则定义语法和机器学习自动扩展,支持动态加载和分区预警规则。存储和查询框架:一般监控数据存储框架,可用于存储和查询日志、指标、报警、事件等类型的数据,默认支持HBase,并对HBase进行各种优化和扩展,如Coproceser、二次索引和分区,也支持RDBMS等其他存储类型的扩展,并提供一般ORM,RESTAPI和强大的SQL查询语法易于使用。可定制监控报表:提供类Notebook的交互式实时可视化分析,还支持部分图标的进一步选择,并将布局定义为dashboard进行共享或持续监控。除了监控日常集群指标外,Eagle还集成了Jobperformanceancealyzer(JPA),通过实时监控Hadoop平台上的运行现状和历史执行状态,提供不同粒度的多维性能分析,支持运行时间长、读写慢、数据倾斜、失败任务比例过高等各种异常预警和性能警告,在操作不能满足SLA之前,可以有效提供预警和性能建议。同时,结合机器学习模型,根据任务分布或指标变化等协同预测任务或服务器节点的潜在异常,集成Remediation系统自动修复系统。同时,EagleDAM是针对异常用户行为和危险操作开发的(DataActivitiesMonitoring)通过自定义策略和机器学习模型,对关键数据和操作进行监控和报警,防止安全监控应用处于萌芽状态。4.在线交互分析当数据规模随着用户群体的多样化扩展而增长时,我们的用户,如分析师和业务部门,希望继续使用他们熟悉的工具和方法来访问和分析超大规模数据集存储在Hadoop上,并希望在Hadoop集群上完成数据访问、处理、存储和分析,无需将数据从一个数据源转移到另一个数据源。EBay中国R&D中心在研究和评估了各种开源和商业产品后,于2013年中正式启动了OLAPonHadop项目,并于2014年10月开源,然后贡献给APache基金会,目前正处于孵化阶段。Apachekylin由建模者定义相关维度、测量等设置,通过映射Hive中星结构的表生成元数据。构建引擎自动生成基于元数据的相关Hive查询、一系列Mapreduce任务和HBase操作,从而从Hive中读取数据并提前计算,并将结果存储在HBase中。之后,同一数据模型的查询将直接读取已经计算好的存储在HBase中的数据,从而实现秒甚至亚秒的查询延迟。包括Impala在内的项目初始阶段进行了研究和评估,Stinger,PhoenixonHBase,Teradata,Microstrategy等多种开源和商业选项,最终发现没有一种能够满足ebay的实际业务需求,为超大规模数据集提供二级交互式查询能力。在研究了许多技术、论文和参考实现后,开发团队最终选择了MOLAP,即提前计算数据模型,为前端业务用户和分析师提供TB甚至PB级数据集上的交互查询能力。在上面的拓扑图中,下面的节点是实际数据,上面的每个节点代表一个维度组合。理论上,所有SQL查询都可以被拓扑图覆盖。因此,只要引擎能够正确分析查询句并访问正确的数据存储地址,就可以在很短的时间内获得结果。在实际开发过程中,Kylin系统有效地降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际开发过程中,Kylin系统有效降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际生产环境中,90%的ile查询延迟1.5秒,95%的ile小于5秒(最近30天)。虽然基于MOLAP的应用系统在大规模数据集上为相关业务用户提供了查询应用,但构建Cube需要大量的系统资源和时间,一方面是集群带

以上就是关于详细介绍eBay的Hadoop集群应用及大数据管理的相关介绍,更多详细介绍eBay的Hadoop集群应用及大数据管理相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对详细介绍eBay的Hadoop集群应用及大数据管理有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

汽车定位app软件哪个好用?车辆定位app有哪些?

对于手机和汽车的定位,现在用的人越来越多,因为汽车是现在最普遍的代步工具,有些人没有车子,但是要出远门,所以会通过向朋友借车来满足自己,那么,gps定位软件有什么?1、九护精准定位是一款智能手机导航定位APP,这一app嵌入到…查看详情

2023年微信小程序开发一个多少钱?

  很多商家企业也是看到了这个机会,都想开发一个微信小程序来实现引流客人,其中小程序开发的价格也是大多数人比较关心的一个问题,下面*就给大家来详细介绍一下2023年微信小程序开发一个多少钱这一块的内容,希望能帮助到大家。…查看详情

xp系统是什么

XP系统是指Windows XP操作系统,它是由微软开发和发布的一款广泛使用的个人计算机操作系统。下面将介绍XP系统的特点、历史和影响。Windows XP于2001年10月25日正式发布,成为Windows ...查看详情

申报高新技术企业认定,要了解一类知识产权

如今越来越多的人重视知识产权,保护知识产权,但大家对于知识产权的了解却不够全面。除了大家都知道的知识产权主要包括著作权(版权)、商标、专利外,其实知识产权还分为一类知识产权和二类知识产权。接下来小万将为大家介绍一…查看详情

andon电子看板系统把控好企业的产品质量

在企业生产的过程中怎么都会出现产品的质量问题,企业的需求就是让生产出的每个产品都质量过关,但是以前传统的产品质量管控方式并不能及时发现问题,随着技术的发展,可以通过软件来实现对现场质量的高效率管控,andon就是这样一款…查看详情

2021年电脑端比较好用的输入法有哪些?这5款一定要试试!

输入法作为上网聊天工作必备的一种软件,在使用上一定要切合自己的日常需求,目前市面上的输入法软件也非常的多,他们都分别有什么差异和优势呢?小万整理了几款相对来说不算热门的输入法,但他们的使用体验也非常不错,希望能为…查看详情

咕咚——国内跑步软件排行榜第一名推荐

随着生活条件的提高很多人也都会健身,跑步也是很多人的选择,因此大部分人都会选择一款跑步软件来记录平时跑步的记录,从而养成一个良好的跑步习惯,下面是目前跑步软件第一名咕咚的介绍。全球最大的运动社交平台目前咕咚用户数…查看详情

2022年专利转让有哪些流程(新整理)

如今我国的专利发明越来越多,同时也有很大一部分专利会涉及到转让的问题,其实很多人对专利转让这一块都不是很熟悉,而且很多人不知道相关流程,下面*就给大家来详细介绍一下2022年专利转让有哪些流程这一块的相关内容,希望能帮助…查看详情

[公司申请注册商标要求] 以法人和组织进行注册的差别

公司申请注册商标要求根据申请主体的变化有所不同。具体来说,商标专用权主体可以是自然人、法人和其他组织,公司申请商标可以是以法人的名义提出申请,也可以是以公司组织的名义提出申请,而这两种不同主体提出商标注册的要求是…查看详情

空文件夹删不掉如何解决 空文件夹删不掉解决办法

  删除时弹出提示“文件访问被拒绝,您需要权限才能执行此操作”。点击重试也没有反应。还有什么文件名过长,无法删除,无法编辑,也无法移动。就像是一个钉子户一样,赖在磁盘里,赶都赶不走。接下来就和大家分享一下,空文件…查看详情

诺基亚是哪个国家的产品

谁知道诺基亚属于哪个国家?诺基亚是芬兰的手机品牌。总部位于芬兰埃斯波,公司主要从事生产移动通信产品。诺基亚成立于1865年。自1996年起,诺基亚连续14年占据市场份额第一。2011年2月11日,诺基亚与微软达成全球战略同盟并深度合作共…查看详情

中小企业微信营销:小程序引流,正确运营是关键

继微商城之后,小程序跳进微信平台再度成为很多企业的“标配”。“即用即走”是小程序区别于其他流量平台的最大特性,满足了用户的及时性需求,却也对企业运营者提出了更高要求。尤其是中小企业,在布局微信营销时,一定要正确打…查看详情

推荐几款学习韩语的app,好用又方便

因为韩剧的原因,很多年轻人对于韩国还是比较憧憬的,也希望可以前往韩国旅行,这样自然,也就涉及到了韩语的学习,这样才可以保障顺畅的沟通,让旅行也变得更加有趣,现在通过一些软件,就可以轻松的学习韩语了,那么下面就为大…查看详情

企业管理软件之软件介绍和功能要点

对于一个大型的公司,需要用到的软件是特别多的,不管是费用软件还是管理软件都必须要有,因为有了软件才可以使你的工作减轻一些,那么,企业管理软件的相关介绍都是什么?1、企业管理软件定义企业管理软件是面对公司的,可以帮助…查看详情

四款办公用品管理软件免费版排行

企业开始办公用品是随着目前社会发展而越来越常见的现象,实现办公用品的有效管理可以让办公更加方便快捷,可以简化企业办事流程,创造良好的办公氛围,提高企业工作效率。那么实现办公用品管理的系统到底有哪些呢?下面看*整理的…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询