首页 >知识讲堂 >网站建设知识>Hadoop和Apache Spark,它们究竟有什么异同?

Hadoop和Apache Spark,它们究竟有什么异同?

2020-12-29 16:32:14 阅读(150 评论(0)

说到大数据,相信大家对Hadoop和ApacheSpark这两个名字并不陌生。但我们对他们的理解往往只是字面上的,没有深入思考。让我们和我一起看看他们有什么不同。首先,Hadoop和ApacheSpark都是大数据框架,但它们的目的不同。本质上,Hadoop更像是一个分布式数据基础设施:它将巨大的数据集分配到一个由普通计算机组成的集群中的多个节点进行存储,这意味着您不需要购买和维护昂贵的服务器硬件。与此同时,Hadop还对这些数据进行索引和跟踪,使大数据处理和分析效率达到前所未有的高度。Spark,它是一种专门用于处理分布式存储大数据的工具,它不会存储分布式数据。除了提供共识的HDFS分布式数据存储功能外,还提供了称为Mapreduce的数据处理功能。所以在这里,我们可以抛开Spark,用Hadoop自己的Mapreduce完成数据处理。相反,Spark不必依附于Hadop才能生存。但是,毕竟它没有提供文件管理系统,所以它必须与其他分布式文件系统集成才能运行。我们可以选择HadopHDFS,也可以选择其他基于云的数据系统平台。但是Spark默认用在Hadoop上,毕竟大家都认为它们的结合是最好的。以下是从网上摘录的Mapreduce最简洁明了的分析:我们要数图书馆里所有的书。你数1号书架,我数2号书架。这就是“Map”。人越多,数书就越快。现在我们在一起,把大家的统计数加在一起。这就是“Reduce”。熟悉Hadoop的人应该知道,用户首先编写一个程序,我们称之为Mapreduce程序,Mapreduce程序是Job,Job中可以有一个或多个Task,Task可以分为Maptask和ReduceTask,如下图所示:Spark中也有Job概念,但这里的Job不同于Mapreduce中的Job。它不是操作的最高粒度,只有Application的概念。Application与Sparkcontext有关,每个Application中可以有一个或多个Job,可以并行或串行运行Job。Application与Sparkcontext有关,每个Application中可以有一个或多个Job,可以并行或串行运行Job。Spark中的Action可以触发Job的运行。Job包含多个Stage,Stage分为Shufle。多个Task包含在Stage中,多个Task构成Taskset。他们之间的关系如下图所示:Mapreduce中的每个Task都在自己的过程中运行,当Task完成时,过程就结束了。与Mapreduce不同的是,Spark中的多个Task可以在一个过程中运行,即使没有Job,这个过程的生命周期也与Application一样。这个模型有什么好处?Spark的运行速度可以加快!Tasks可以快速启动并处理内存中的数据。然而,该模型的一些缺点是粗粒度的资源管理。每个应用程序都有固定数量的executor和固定数量的内存。Spark会比Mapreduce快很多,因为它处理数据的方式不同。Mapreduce分步处理数据:“从集群中读取数据,进行一次处理,将结果写入集群,从集群中读取更新后的数据,进行下一次处理,将结果写入集群,等等...“BoozalenHamilton的数据科学家KirkBorne如此分析。另一方面,Spark将在内存中以接近“实时”的时间完成所有数据分析:“从集群中读取数据,完成所有必要的分析和处理,并将结果写回集群并完成,”博伦说。Spark的批处理速度比Mapreduce快近10倍,内存中的数据分析速度快近100倍。如果需要处理的数据和结果大多是静态的,你有耐心等待批处理,Mapreduce的处理方法是完全可以接受的。但是,如果您需要对流数据进行分析,比如工厂传感器收集的数据,或者您的应用程序需要多个数据处理,您可能应该使用Spark进行处理。大多数机器学习算法都需要多数据处理。此外,Spark的应用场景通常包括实时营销活动、在线产品推荐、网络安全分析、机器日记监控等。灾难恢复的方式各不相同,但都很好。因为Hadoop在磁盘上写下每次处理后的数据,所以它自然可以有弹性地处理系统错误。Spark存储在分布在数据集群中的数据对象称为弹性分布式数据集(RDD:ResilientDistributedDataset)中。Borne指出:“这些数据对象可以放在内存或磁盘上,因此RDD也可以提供完成的灾难恢复功能。”。

以上就是关于Hadoop和Apache Spark,它们究竟有什么异同?的相关介绍,更多Hadoop和Apache Spark,它们究竟有什么异同?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对Hadoop和Apache Spark,它们究竟有什么异同?有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

成都网站开发多少钱?

如何降低开发成本?电商销售小程序的定制开发费用受项目复杂程度、功能需求和开发团队成本等因素影响。与云仓合作是否能节省成本取决于具体情况。旺来旺趣集团是专业的app软件开发服务商,提供从设计开发到后期交付的一站式服务。…查看详情

玄幻小说排行榜,帮助你更快的找到经典玄幻小说

现在其实有很多人都很喜欢看小说,尤其是玄幻小说,属于大家必须要看的题材之一,而且有很多作品都比较经典。如果想要寻找到比较好看的玄幻小说,必须要查看以下的玄幻小说排行榜。 1、神墓神墓,属于作者的成名之作,这一本书…查看详情

互联网运营是什么?运营互联网需要哪些基础能力?

近几年随着互联网的崛起,越来越多企业老板开始重视互联网的运营,而运营的好坏也直接决定了企业的存亡,所以现在的市场依旧在大量招聘运营专员,薪资也是居高不下。所以想要去应聘互联网运营的人很多,但是现场一问,却有连互联…查看详情

免费小说下载(八大免费小说下载app排行榜)

现在当代的年轻人都喜欢看电子小说,而且很容易沉浸到小说的当中,去小说里体验各种各样的乐趣,那么该如何选择电子小说下载app呢,今天小编为大家带来的是免费小说下载app排行榜,大家快来看看吧!1.番茄免费小说番茄免费小说是一款…查看详情

如何安装windows10家庭版

  Windows10家庭版是一款普及率非常高的操作系统,安装可以使用U盘、DVD、网络升级等多种方式,本文以使用U盘安装方法为例,详细讲述Windows10的安装过程。具体步骤如下:  1.备份数据。在安装前,用户应该将需要保留的数据和文...查看详情

300m宽带用什么路由器

  对于300M以上的宽带接入,需要选择一台性能更高、信号覆盖更广、信号稳定的路由器。以下为您提供路由器的选择要点和建议。  一、选择路由器的重点  1.硬件配置:路由器的硬件配置表现在处理器、存储器和物理接口等方面。处…查看详情

php是干什么的

智能光电与纳米技术是干什么的?该技术是干成像和光源。其中成像技术有CRT、像管、像增强器、CCD、CMOS、3D成像、全息成像、液晶、等离子、PHP。光源技术有红外、紫外、可见光、激光。智能光电与纳米技术在近代发展的很快涉及面也逐渐扩…查看详情

CRM好吗?当然,只是销售人员讨厌它而已!

目前市面上绝大多数销售管理软件都是以销售漏斗为核心开发的,这就意味着销售漏斗对于销售管理的重要性。随着近几年我们对销售漏斗的研究发现,销售漏斗在发挥它的作用的同时也有他的局限性,造成了很多企业的CRM系统使用效果并不…查看详情

美术作品版权登记及作品授权范围须知

美术作品大体分为两类,一类是传美术作品,也就是油画、国画、水彩画等供人欣赏的艺术作品;另一类是实用美术作品,比如陶艺这类,将美术创作与具有实际使用价值的物体相结合的作品。美术作品版权登记范围主要在服装设计、陶艺图…查看详情

【国家版权局】我国对国际版权登记条约的规定实施

目前,各国版权登记保护内容都依该国相关条例实施。从登记方法、保护期限、权利人专有权益等各有不同。我国对国际版权登记部分条约的规定如下: 图片来源于网络 实施国际版权登记条约的规定(1992)第一条 为实施国际著...查看详情

有哪些好的大牌女装品牌店呢?

由于世界男女比例平衡女性的需求也越来越大,女性在选择女装时比较倾向于大牌女装品牌店,这叫影响了我们在购物时会踩很多雷会买到假货假衣服,为了给大家一个好的体验效果特此为大家整理出比较出名的大牌女装品牌店,供大家参考…查看详情

免费好看的动漫网站有哪些 动漫网站推荐几个

  相信很多的小伙伴都比较喜欢看动漫,其实看动漫也是一种非常不错的体验,下面万商云集小编就给大家来详细介绍一下免费好看的动漫网站有哪些 同时小编精选几个动漫网站推荐几个给大家,希望大家喜欢,  1.搜漫  搜漫是一…查看详情

查情侣头像的另一半软件有哪些?

平时热恋中的一对情侣,不仅会喜欢穿情侣装,而且在使用头像的时候也会选择情侣头像。这样才能够秀出两个人的恩爱,比如说一个人选择了头像之后,想要选择另一半的头像可能并不是很好找,如果选择了一款专门的软件,就相对来说比…查看详情

2022出租车软件排行榜前十名

最近几年随着网约车对出租车行业的冲击,现在很多的人都不知道怎么打出租车了,下面万商云集小编给大家来介绍一下2022年出租车软件排行榜前十名.  1.滴滴快车  实时叫车,百秒应答,出行必备的打车应用。预约用车,三天内全国已…查看详情

租用CRM和买断CRM有什么区别?

为了企业管理转型,很多企业会选择实施CRM企业关系管理系统软件来帮助企业快速转型,提升企业管理效率。市面上CRM系统的销售类型分为两种:一种是租用型,另一种是买断型。 图片来源于网络� 那么这两种销售模式对企业来说的…...查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询