首页 >知识讲堂 >网站建设知识>详细介绍eBay的Hadoop集群应用及大数据管理

详细介绍eBay的Hadoop集群应用及大数据管理

2021-01-04 14:52:30 阅读(210 评论(0)

eBay,1995年劳动节周末,世界上最大的在线交易平台由程序员PierreOmidyar在美国成立。它最初被称为AuctionWeb,并于1997年7月正式更名为eBay。它将于今年9月庆祝其20周年。eBay的第一笔交易是一支损坏的激光笔,成交价格为14.83美元。pierre主动联系买家,以确保他们知道这是一支损坏的激光笔,买家回答说“我是一个损坏的激光笔收藏家”。从那时起,eBay20年的发展正式开始,引领了电子商务行业的快速增长。如今,eBay已成为世界上最大的在线交易网站。买家分布在世界190多个国家,活跃卖家2500多万,活跃买家1.57亿,活跃商品8亿,通过connectedcommerce连接世界各地的买家和买家,2014年GMV产量超过2550亿美元,其中来自移动终端的GMV超过280亿美元。据统计,美国每五秒钟卖一个手袋,澳大利亚每分钟通过移动终端卖一双鞋,德国每10分钟通过移动终端卖一辆车或卡车。据统计,在美国每五秒钟卖一个手袋,在澳大利亚每分钟通过移动终端卖一双鞋,在德国每10分钟通过移动终端卖一辆汽车或卡车。在如此大量的用户和交易下,数据已经成为ebay的首要任务,从点击流到搜索、商品查看、交易和愿望清单。在eBay数据平台中存储超过100个PB的数据。关键是如何获取、存储、处理和分析数据,并释放数据的价值,使其成为行动指南。然而,各大数据平台为成千上万的分析师和业务用户提供了坚实的保障和基础,并不断创新,以满足日新月异的变化和需求。EBAY目前的大数据平台分为三层,数据集成层:负责数据采集、处理和清洁,包括批处理和实时处理能力,包括相关商业产品和开源产品;数据平台层:主要由传统数据仓库组成(EDW),基于Teradata集群,总容量超过10PB;奇点(Singularity),存储半结构化和深层次结构化数据存储,总容量超过36PB;以及Hadoop集群,总容量超过100PB;数据访问层:业务用户和分析师通过各种工具访问和分析相关数据的能力,包括各种商业工具、开源产品和自主研发的各种平台。本文将重点介绍EBay在相关领域的发展、平台和未来发展趋势。本文将重点介绍ebay在相关领域的发展、平台和未来发展趋势。conectwithhadop1.EBay最早的Hadop应用是在EBay研究实验室(eBayResearchLab,eRL)为了提高日常日志处理速度,主要用于日志分析。最初的版本是0.18.2,4个节点,存储和处理约数百GB的日志,最大的处理能力是44个Map。随后,EBay搜索团队建立了10个节点的集群,开始了Hadoop在EBay搜索领域的发展,并于2012年推出了基于HBase的搜索平台:Cassini。2010年,EBay推出了基于CDH2的集群,节点532个,存储容量5PB以上,2012年推出了基于HDP的集群,节点3000多个,容量50PB以上。2014年,总节点数据超过1万,存储容量超过170PB,活跃用户超过2000。目前,相关规模仍在增长。随之而来的管理、监控、分析和存储挑战越来越严峻。基础设施的创新主导了Hadoop的演变,从基于HDFS和Mapreduce的批处理应用不断演变,第一代Hadoop提供了灵活可扩展的数据结构和处理能力,满足了公司在大数据兴起时的各种大小数据处理需求。然而,毕竟,这只是第一步,有各种各样的限制。如果将其与操作系统进行比较,第一代Hadoop,如操作系统和应用程序,如记事本,只有一个应用程序,即Mapreduce。然而,随之而来的大量任务导致了调度瓶颈,从而导致YARN(YetAnotherResourceNegotiator)项目的建立和发展解决了Jobtracker在超大规模集中中成为瓶颈的问题,并通过YARN支持各种应用程序进行资源调度和管理,从而将Hadoop带入下一个时代,从面向批处理到提供交互式处理能力,下一代Hadoop取得了巨大的进步。并提供了支持独立执行模式的战略决策,例如,Mapreduce可以作为YARN上的应用程序运行。例如,MapReduce可以作为YARN上的一个应用程序运行,提供支持独立执行模式的战略决策。此后,Hadoop通过YARN成为一个真正的数据操作系统。目前,交易数据库、文档数据库和图形数据库的数据可以存储在Hadoop上,可以访问基于YARN的数据,包括Mapreduce,而无需复制或移动不同应用程序的数据、Hive、各种应用,如HBase和Spark。从而提供了丰富的数据处理和创新能力。一个统一的数据存储,平台的使用将是一个确定的趋势。2.目前,分层存储的普遍认知是利用廉价硬件形成Hadoop集群,存储超大容量数据并提供计算能力。例如,如果一个1000节点的集群具有20TB的存储能力,整个集群可以存储20PB的数据。为了实现Hadoop,所有机器都有足够的计算能力:“MovingComputationisCheaperthanMovingData”。不同类型的数据集通常存储在同一个集群中,并由不同的团队共享,以满足业务需求。随着时间的推移,数据的利用率会逐渐降低,越新的数据利用率越高,越旧的数据访问次数也会逐渐降低。第一次生成的数据利用率最高。我们将其定义为Hot。根据我们的分析,一周内访问量下降的数据称为Warm,而在接下来的三个月内只有少量访问的数据称为Cold。最后,访问率降低到每年只有几次甚至零的数据集,称为frozen,如下表所示:分析,在同一集群中存储不同热量的数据,使用相同的计算和存储资源变得越来越有问题,随着时间的增长,越来越多的冷数据,将占据宝贵的存储和计算资源,当需要进入更多的热数据或大量计算时,相应的存储成为瓶颈,许多其他公司甚至提到了删除低价值数据的做法。在管理和运维超大Hadop集群时,如何处理不同热度的数据已经成为一个迫切的需求和现实挑战。如何处理不同热量的数据已成为管理和运维超大型Hadoop集群的迫切需求和实际挑战。将低热量数据集和高热量数据集作为不同的存储策略是必不可少的。在Hadoop2.3中,HDFS支持分层存储,通过在集群中添加归档存储容量,为冷却数据提供深度存储容量,并保持上层应用程序的透明度。由于数据仍在同一集群中,当需要访问相应的冷数据时,仍然可以及时获取。例如,我们可以在上述示例中添加100个节点,每个节点都有200TB存储,但只使用有限的计算资源,因此整个集群的总量将变为40PB(20PB磁盘)+20PB归档)。通过相关的数据策略,将不同热度的数据分布到不同的存储中。例如,假设每个数据默认按Hadoop设置复制三份,Hot数据将三份数据全部存储在快速磁盘上,Warm类型数据只存储一份复制在快速磁盘上,其余两份存储在归档存储中,并存储所有Cold和Frozen数据。为了有效地分配不同的数据,如下图所示:分层存储已用于eBay最大的Hadoop集群,该集群有40PB存储,我们增加了额外的10PB存储,每个节点都有220TB容量,因此Warm、逐步迁移Cold和Frozen数据集。由于计算能力有限,这些节点的每GB成本是其他节点的4倍左右。EBay将继续在这方面进行研究和投资,如SSD存储。3.当集群数量达到成千上万的规模时,监控、报警和自动化操作和维护是确保高数据可用性和为上层应用程序提供持续服务的基础。在ebay的日常工作中,Hadoop集群的管理和维护任务相当繁重,现有的管理和监控工具无法满足多集群、大规模分布式收集日志和监控数据的需要。因此,ebay开发了一个名为eagle的集群监控报警平台。Eagle主要由不同应用领域的基本核心框架和许多应用组成。它专注于解决大数据时代大型分布式系统本身监控的复杂大数据问题。它具有高可扩展性、高实时性和高可用性的特点。同时,它支持机器学习的使用,为复杂情况提供预测和分析。轻量级分布式流处理框架:以DAG为基础模型抽象一般流处理范式。在开发期间,用户只需要根据DSLAPI定义监控程序的流处理逻辑,然后在运行期间选择实际的物理执行环境,默认支持单流程和Storm,也支持其他执行环境的扩展,如SparkStreaming或Flink。实时流聚合引擎:提供简单易用的实时流聚合规则定义语法,元数据驱动,动态部署,实现线性扩展的实时监控数据流聚合。分布式Policy发动机:分布式实时预警规则执行发动机,提供SQL描述性规则定义语法和机器学习自动扩展,支持动态加载和分区预警规则。存储和查询框架:一般监控数据存储框架,可用于存储和查询日志、指标、报警、事件等类型的数据,默认支持HBase,并对HBase进行各种优化和扩展,如Coproceser、二次索引和分区,也支持RDBMS等其他存储类型的扩展,并提供一般ORM,RESTAPI和强大的SQL查询语法易于使用。可定制监控报表:提供类Notebook的交互式实时可视化分析,还支持部分图标的进一步选择,并将布局定义为dashboard进行共享或持续监控。除了监控日常集群指标外,Eagle还集成了Jobperformanceancealyzer(JPA),通过实时监控Hadoop平台上的运行现状和历史执行状态,提供不同粒度的多维性能分析,支持运行时间长、读写慢、数据倾斜、失败任务比例过高等各种异常预警和性能警告,在操作不能满足SLA之前,可以有效提供预警和性能建议。同时,结合机器学习模型,根据任务分布或指标变化等协同预测任务或服务器节点的潜在异常,集成Remediation系统自动修复系统。同时,EagleDAM是针对异常用户行为和危险操作开发的(DataActivitiesMonitoring)通过自定义策略和机器学习模型,对关键数据和操作进行监控和报警,防止安全监控应用处于萌芽状态。4.在线交互分析当数据规模随着用户群体的多样化扩展而增长时,我们的用户,如分析师和业务部门,希望继续使用他们熟悉的工具和方法来访问和分析超大规模数据集存储在Hadoop上,并希望在Hadoop集群上完成数据访问、处理、存储和分析,无需将数据从一个数据源转移到另一个数据源。EBay中国R&D中心在研究和评估了各种开源和商业产品后,于2013年中正式启动了OLAPonHadop项目,并于2014年10月开源,然后贡献给APache基金会,目前正处于孵化阶段。Apachekylin由建模者定义相关维度、测量等设置,通过映射Hive中星结构的表生成元数据。构建引擎自动生成基于元数据的相关Hive查询、一系列Mapreduce任务和HBase操作,从而从Hive中读取数据并提前计算,并将结果存储在HBase中。之后,同一数据模型的查询将直接读取已经计算好的存储在HBase中的数据,从而实现秒甚至亚秒的查询延迟。包括Impala在内的项目初始阶段进行了研究和评估,Stinger,PhoenixonHBase,Teradata,Microstrategy等多种开源和商业选项,最终发现没有一种能够满足ebay的实际业务需求,为超大规模数据集提供二级交互式查询能力。在研究了许多技术、论文和参考实现后,开发团队最终选择了MOLAP,即提前计算数据模型,为前端业务用户和分析师提供TB甚至PB级数据集上的交互查询能力。在上面的拓扑图中,下面的节点是实际数据,上面的每个节点代表一个维度组合。理论上,所有SQL查询都可以被拓扑图覆盖。因此,只要引擎能够正确分析查询句并访问正确的数据存储地址,就可以在很短的时间内获得结果。在实际开发过程中,Kylin系统有效地降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际开发过程中,Kylin系统有效降低了维度,减少了不必要组合的计算,增加了Trie字典编码技术、PartialCube计算、分组聚合等多种压缩和编码算法。在实际生产环境中,90%的ile查询延迟1.5秒,95%的ile小于5秒(最近30天)。虽然基于MOLAP的应用系统在大规模数据集上为相关业务用户提供了查询应用,但构建Cube需要大量的系统资源和时间,一方面是集群带

以上就是关于详细介绍eBay的Hadoop集群应用及大数据管理的相关介绍,更多详细介绍eBay的Hadoop集群应用及大数据管理相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对详细介绍eBay的Hadoop集群应用及大数据管理有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

云会员管理软件 让消费更便捷更有价值

云软件的相关概念是基于云计算商业模式应用的软件和平台服务的总称,在云平台上,大量的计算资源用网络统一云管理和云整合,构成一个计算资源池向用户按需服务,从而提高效率和降低成本的一种软件工具,那么什么是云会员管理软件…查看详情

office软件是什么 office软件有哪些?

  相信很多的小伙伴在平时办公的时候都会用到office这款办公软件,但是很多的小伙伴并不知道office办公软件包括哪些,下面万商云集小编就给大家介绍一下office软件包括哪些。Office办公软件包括了Word、Excel、Power...查看详情

2021市场3款合格合同管理系统推荐

信息技术高速发展,人们与电子紧密相连,不可分割。但信息高速发展不仅仅是给人们带来了便利,也给许多企业公司带来了不少问题与挑战。完善、免费的合同管理系统成为公司健康运作的一个重要标志,且看下面这篇2021市场3款合格合同管…查看详情

国内外知名的十大crm系统有哪些

随着市场商品同质化、消费者的个性化需求,企业间的竞争愈发激烈。企业除了产品之外,提供优质服务也成了企业提升竞争力的手段之一,如今crm系统也几乎成为了销售型企业必然的选择。今天小万将带大家了解一下十大crm系统都有哪些。…查看详情

2022外国最火的直播app

  我们知道国内优秀的直播平台有很多,这其中包括大家都熟知的抖音、斗鱼、虎牙、快手bilibili等有着多种不一样领域的直播平台。那么今天万商云集小编带大家看一看2022外国最火的直播app。  1、Periscope  Periscope...查看详情

5款市面受欢迎的免费版仓库管理系统

每个公司和企业的业务销售量都会有所不同,仓库的管理就会越发越来的方便,如果没有一款好的仓库管理软件,是无法保证公司的仓库运营以及储备量的市面上有许多免费版仓库管理系统,但是各有各的好处和坏点,下面为大家整理了几款…查看详情

推荐比较好用的餐饮收银系统前十排名

餐饮行业的发展比较快,很多的餐饮行业在收银的时候也都会选择一些比较好的收银系统。有了餐饮收银系统能够更快的进行结算,而且能够保证安全性以及准确性。但是现在餐饮收银系统比较多,想要更好的选择也应该要了解排名。那么餐…查看详情

4款成熟供应商管理软件,使用起来省时省力

企业商业运作的连续性、稳定性不仅需要企业本身来维护,也需要企业经营者的上下游合作方来助力,例如在产品营销企业中找好供应商就是维护企业稳健发展的重要内容,对供应商资讯的管理、实力的评估、供货能力的考验、供货风险的预…查看详情

为什么要使用智能仓库管理系统?系统的主要功能是什么

随着社会的不断发展,经济的不断提高,人民的购买力不断上升,各个商家的仓库管理就显得尤为重要。仓库智能管理系统是每一家商家供货链的重中之重,一个规范的智能仓库管理系统就显得格外的重要。本文将详细介绍一下智能仓库管理系…查看详情

阿里巴巴认证证书在哪领取?

  优质答案(1)  问题有歧义,其一:问的是有个专利,怎样在阿里巴巴上申请专利认证。其二,想申请一个专利,在阿里巴巴上能不能申请。  中国受理专利的只有一个国家知识产权局,位于北京。可以自己申请,也可以委托专利代…查看详情

如何建立网站 企业网站建设方法

  现在很多的中小企业都感受到了行业竞争很大,很多行业竞争度都是比较大的,而且现在很多的企业都选在在互联网上挖掘精准流量,下面万商云集小编给大家来详细介绍一下如何建立网站 企业网站建设方法,希望下面的内容能帮助…查看详情

什么软件能把视频背景替换掉?我来为你解惑

随着物质生活水平的不断提高,人们对精神文化的需求越来越强烈,文化产业蓬勃发展。短视频软件层出不穷,随时随地都能在各种社交平台上看到剪辑精美的视频画面。那什么软件能把视频背景替换掉?我来为你解惑。1.剪映剪映app是抖音官…查看详情

录屏软件录制内部声音哪些软件好呢?这几款功能强大

虽然现在的录屏软件越来越多了,但是录屏软件在功能方面,还是存在一定差异性的,有一些软件可能只能录屏既然没有办法录进声音,这样就需要后期配音,非常麻烦,也很难实现音画同步的效果,那么录屏软件录制内部声音哪款软件好呢…查看详情

网站域名注册流程:说来说去,3个操作就能概括全部

很多企业都会有自己的官方网站来展示自己的公司形象,那么建立网站就需要用到域名,很多人会问怎么注册域名,下面小万就来给大家讲解一下网站域名注册流程。图片来源于网络 网站域名注册流程如下:1、选择一家域名注册平台域名…查看详情

常用物业管理系统软件有哪些呢?

许多房地产公司都需要一些物业管理系统软件哦,通过物业管理系统软件可以更好地对小区的居民进行管理,为大家提供好的服务,但是很多人就不是很了解这些系统,下面就是我给大家的介绍!1.思源物业通思源物业通是基于全新的体系架构…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询