首页 >知识讲堂 >网站建设知识>详细介绍云梯YARN集群的 技术实现与发展状况

详细介绍云梯YARN集群的 技术实现与发展状况

2020-12-31 11:52:21 阅读(176 评论(0)

阿里巴巴作为中国最早使用Hadop的公司之一,已经开启了ApacheHadop2.0时代。阿里巴巴的Hadoop集群,即梯形集群,分为存储和计算两个模块。计算模块包括MRV1和YARN集群,共享存储HDFS集群。云梯YARN集群不仅支持Mapreduce,还支持Spark、MPI、RHive、计算模型,如RHadoop。本文将详细介绍云梯YARN集群的技术实现和发展。MRV1和YARN集群共享HDFS存储技术以服务为起点,云梯集群将Hadoop分为存储(HDFS)服务与计算(MRV1和YARN)。这两个计算集群共享HDFS存储集群,这是怎么做到的?在引入YARN之前,基于ApacheHadoop0.19.1-dc版本的云梯Hadoop,并添加了许多新功能。此外,它还兼容了ApacheHadop0.19、0.20、客户端CDH3版。为了保持对客户端的友好,云梯服务端升级总是保持与原客户端的兼容性。此外,为了方便访问数据,阿里巴巴的存储集群是一个单一的大集群。YARN的引入不应迫使HDFS集群被拆分,但YARN是基于社区0.23系列版本,不能直接访问梯子HDFS集群。因此,实现YARN集群访问云梯的HDFS集群是引入YARN后需要解决的第一个技术问题。Hadoop代码主要分为Comon、HDFS、三包Mapred。Common包括公共类,如I/O、通信等类。HDFS部分包括HDFS相关类别,依赖Common包。Mapred部分包括Mapreduce相关代码,依靠Common包和HDFS包。开发人员主要做以下工作,以尽量减少对云梯HDFS的修改。用梯子的HDFS客户端代码代替0.23中的HDFS,形成新的HDFS包。对0.23新的HDFS包进行了少量修改,使其能够在0.23的Common包上运行。对0.23新的HDFS包进行了少量修改,使0.23的Mapred包能够在新的HDFS包中运行。hack用于云梯Common包的通信部分,使其与0.23Common兼容。图1Hadoop代码架构新的云梯代码结构如图1所示,如下所示。原HDFS用于服务端存储部分。在MRV1计算集群中提供原MRV1服务。YARN集群提供更丰富的应用服务。客户端云梯现有客户端不做任何修改,继续使用原有服务。使用YARN服务需要使用新的客户端。为YARN切换云梯MR服务,服务端只有MRV1,客户端只有老版本的客户端。MRV1与YARN共存(MRV1资源逐渐转移到YARN),如果客户端需要使用MRV1服务,则保持客户端不变;如果需要使用YARN服务,则需要使用新的客户端。YARN只留在服务端,客户端只有新版本的客户端。通过以上修改,云梯开发人员以较小的修改实现了YARN对云梯HDFS的访问。云梯版YARN集群实现了SparkonyARN、Hive、Spark、MPI、RHive、支持RHadoop等应用。云梯集群目前的结构如图2所示。Spark已成为YARN集群除Mapreduce应用外的另一个重要应用。Spark是一个分布式数据快速分析项目。其核心技术是弹性分布式数据集(ResilientDistributedDatasets),它提供了比Mapreduce更丰富的模型,可以在内存中快速迭代数据集,以支持复杂的数据挖掘算法和图形计算算法。Spark的计算调度模式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone的性能和稳定性有所提高,但毕竟自建集群资源少,需要从梯子集群复制数据,无法满足数据挖掘和计算团队的业务需求。SparkonyARN允许Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,充分享受云梯YARN集群丰富的计算资源。理论上,Sparkonyarn功能从Spark0.6.0版本开始支持,但实际上还远未成熟。经过长时间的数据挖掘和计算团队压力测试,修复了一些相对关键的bug,以确保Sparkonyarn的稳定性和正确性。SparkonYARN的操作执行机制显示在图3中。图3Sparkonyarn框架基于Yarn的Spark操作首先由客户端生成操作信息,并提交给resourcemanager。resourcemanager在nodemanager报告时将appmaster分配给nodemanager,nodemanager启动sparkappmaster,Sparkappmaster启动后的初始化作业,然后向Resourcemanager申请资源,Sparkappmaster通过RPC让Nodemanager启动相应的Sparkexecutor,Sparkexecutor向Sparkappmaster汇报并完成相应的任务。另外,SparkClient将通过AppMaster获得工作状态。此外,Sparkclient还将通过Appmaster获得操作状态。目前,数据挖掘和计算团队已经通过SparkonyARN实现了MLR、Pagerank和JMeans算法,其中MLR已作为生产操作运行。云梯YARN集群维护经验分享云梯YARN维护过程中遇到的问题很多,很有可能在YARN集群维护中遇到。这里有两个典型的问题及其解决方案。问题1问题描述:社区的CPU隔离和调度功能需要在每台NodeManager所在的机器上创建与用户帐户相对应的Linux帐户。但是阿里云梯集群有5000多个账户,是否需要在每台Nodemanager机器上创建这么多Linux账户;此外,每次创建或删除Hadop用户时,还应在每台Nodemanager机器上创建或删除相应的Linux账户,这将大大增加操作和维护的负担。问题分析:我们发现CPU的隔离并不依赖于Linux账户,这意味着即使同一账户创建了两个过程,Cgroup也可以隔离CPU,但为什么社区要在每台Nodemanager机器上创建账户呢?原来这是为了让每一个Container都以提交aplication的账户执行,防止Container的Linux账户权限过大,保证安全。然而,云梯集群很久以前就分为账户。启动container的Linux账户统一为普通账户。该账户权限小,用户为公司内部员工,安全性能满足需求。解决方案:修改container-executor.c文件,防止其修改container的启动账户,并使用统一的普通Linux账户(无sudo权限)运行container。这样既能保证安全,又能减少运维工作量。问题2问题描述:MRAplicationMaster初始化缓慢,部分作业MRAplicationMaster启动需要一分钟以上。问题分析:通过检查MRAplication-Master的日志,发现分析Rack上消耗了一分钟的初始化时间。从代码分析来看,MRAplicationMaster启动时需要初始化Taskatempt,然后需要分析split信息中的Host,生成相应的Rack信息。目前,云梯分析Host的方法是通过调用外部Python脚本进行分析,每次调用约需20ms。由于云梯HDFS集群非常大,有4500多台机器。如果输入数据分布在每个Datanode上,则需要4500台分析Host×20ms=90s;若作业输入数据较大,且文件备份数为3,那么输入数据很可能会分布在集群的大多数Datanode上。解决方案:开发人员通过在Node-Manager上添加配置文件,包括所有Datanode的Rack信息,MRApp-LicationMaster启动后,加载此文件,防止外部脚本分析频繁调用。解决方案:开发人员通过在Node-Manager上添加配置文件,包括所有Datanode的Rack信息,MRApp-LicationMaster启动后,加载此文件,防止外部脚本分析频繁调用。这大大加快了MRAplicationMaster的初始化。此外,云梯开发人员还解决了一些会让ResourceManager不工作的bug,并将其贡献给ApacheHadop社区。在云梯YARN集群的建设和维护中,云梯开发人员遇到并解决了许多问题。分析和解决这些问题首先需要熟悉代码,但代码量巨大。我们如何快速熟悉它们?这需要团队的合作。团队中的每个人都负责不同的模块,阅读后轮流分享,可以加快熟悉代码的速度。此外,Hadoop的优势在于它可以利用社区的力量。当你遇到问题时,你可以先去社区找到答案,因为社区已经解决了很多问题,充分利用社区可以大大提高工作效率。目前,云梯YARN集群已试运行,并拥有MRV2、Hive、Spark、RHive、RHadop等应用。云梯YARN集群的优点是支持更丰富的计算模型;共享云梯最大的存储集群,访问方便快捷;AppHistory信息存储在HDFS上,可以方便查看各种应用程序的操作历史;与MRV1集群相比,云梯YARN可以支持更大的集群; 与MRV1集群相比,云梯YARN集群支持内存和CPU调度,资源利用将更加合理。未来,云梯将把大部分业务转移到云梯YARN集群。未来,云梯将将大部分业务转移到云梯YARN集群。对于YARN版本,云梯将增加资源隔离和调度,增加Storm、支持Tez等计算模型,优化YARN性能。

以上就是关于详细介绍云梯YARN集群的 技术实现与发展状况的相关介绍,更多详细介绍云梯YARN集群的 技术实现与发展状况相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对详细介绍云梯YARN集群的 技术实现与发展状况有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

公司怎么申请商标?具体流程及费用是怎样规定的?

在生活中我们随处都可以见到一些商标,这些商标被印刷在各种商品上面,那么,商标是可以随便被印在商品上的吗?答案是否定的,印在商品上的商标必须符合法律规定,进行商标注册。但是商标的注册流程与商标注册所需要的费用才是大…查看详情

美剧排行榜 最近很火的美剧前五名推荐

随着新时代改革开放的力度不断加深,我国与各国之间的联系也不断加强,别国的优秀文化也不断地传入我国。下面是我给大家总结的受欢迎的美剧排行榜前五名的内容,剧荒的小伙伴可以看一看。1.破产姐妹它是一部美国情景喜剧,它已经录…查看详情

听歌用什么软件最好?这几款听歌软件比较好

平时很多人都特别喜欢听歌,尤其是在无聊的时候听听歌还能够治愈受伤的心情,在听歌的时候可以选择不同的软件,不同的软件里面的歌曲类型也是不同的。那么听歌用什么软件最好?接下来就给大家介绍几款比较好听的听歌软件吧。1、酷…查看详情

安踏宣布中止与NBA公司的续约谈判

在2019年10月8日晚上,安踏公司官方宣布停止与NBA的续约谈判,以下为安踏公司的原文声明:踏体育声明写到:“针对休斯敦火箭队以及NBA的高管近日发表的错误言论,我们与广大中国NBA球迷一样感到震惊和不满!安踏坚决反对并抵制一切损害…查看详情

企业如何管理人才?

  优质答案(1)  一个优秀的管理者想要做好团队的人才管理,可以从以下几个方面进行:第一,所带领的部门在公司承担的主要职责是什么,部门所设置的各个岗位的职责是什么,必须非常清晰。第二,人才招募环节,在招聘过程中,…查看详情

域名如何申请 域名申请的方法

  有的小伙伴也可能头一次注册域名,不知道域名具体的一个注册流程步骤,下面万商云集小编给大家来详细介绍一下域名注册的相关流程,希望能帮助到大家解决域名注册这一块的相关问题。     域名申请的方法    一…查看详情

好用的同城交友APP有哪些?免费交友软件推荐

随着网络社交的普及,越来越多的人会选择在网上聊天,结交一些新朋友,但是市面上有很多聊天软件,而且部分聊天还是需要收费的,有哪些是不收费的聊天软件呢,以下是我给大家的推荐哦。伴心这是圈子里口口相传的约会神器,约会效…查看详情

京东上的合约机划算吗?

  优质答案(1)  京东的合约机当然可以购买。  京东商城有很多的合约机能够购置,由于是合约机,所以价钱方面都十分的实惠。  购买须知:  1、业务/号卡激活、入网首月资费问题:  联通:大局部业务均已激活,插动手机…查看详情

2021年公司招聘管理系统排名

说起公司招聘管理系统,不少人都会觉得非常陌生。其实公司招聘管理系统就是公司招聘用的人力资源管理系统,能够极大的提高招聘效率。接下来就为大家介绍一下2021年公司招聘管理系统排名。 一、i人事招聘管理系统 一体化hrSaa...查看详情

小程序分享到朋友圈?新能力加持,获客和留存更给力!

背景:7月6日,微信低调发布了小程序测试功能:“小程序分享到朋友圈”, 这一新功能,被看作是“重磅利好”。自微信小程序发布以来,微信就不断为其开放流量,截止目前已有聊天主界面下拉、公众号自定义菜单、微信搜索、聊天框…查看详情

绘图软件哪些比较常用呢?几款比较常用的绘图软件分享

绘图相信在很多的人眼里认为这是一种高端的职业,只有设计师才能够进行绘图。其实并不是这样,只有找到一款比较好的绘图软件,即便是新手也能够快速的学会,可是现在的绘图软件也是比较多的,应该如何来选择?这个问题成了很多人…查看详情

公司名称变更,需要签订补充协议吗

  公司是一种法律实体,通过法定程序进行注册分立。当公司在经营过程中需要改变其名称时,通常需要遵循一定的法律程序。在完成名称变更后,公司需要考虑是否需要签订补充协议。本文将介绍名称变更的基本信息,以及需要签订补充…查看详情

了解 | 商标和注册商标的区别、权利是什么?

商标和注册商标,并非只是字少字多的区别。虽然我们在生活中能在各个地方看到各种商标,但我们对于它的了解却是少之甚少,譬如,你知道我们平时看到的商标都是注册商标吗?接下来,就让小万为大家详细介绍商标和注册商标的区别。…查看详情

好的网络运营方式四两拨千斤 撬开流量入口

网络运营也叫网络营销,互联网运营,是基于互联网平台和技术的新型线上营销模式。完善的网络运营方式可以在短期内就能带给企业巨大的流量,在这流量之中更是企业的重要获客线索来源之一。 图片来源于网络传统销售就是你追着用…查看详情

微商城系统如何满足用户需求?

微信是中国首屈一指的社交软件,有很多的功能和玩法,但在刚开始的那段日子,微信只有一个社交功能,大多数用户都只用它来和自己的朋友联系,随着网络技术的一步步完善,微信的功能开始逐渐多了起来,玩游戏、购物等都可以在微信…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询