首页 >知识讲堂 >网站建设知识>是否要在网站中采用Hadoop?

是否要在网站中采用Hadoop?

2020-12-31 09:24:59 阅读(224 评论(0)

1.什么是大数据引子?麦肯锡报告“大数据:创新、竞争和生产力下一个前沿领域”的大数据定义是:大数据是指超过现有数据库工具获取、存储、管理和分析能力的数据集,并强调不超过特定数量级的数据集是大数据。国际数据公司(IDC)大数据被定义为四个维度的特征,即数据集的规模(Volume)、数据流速(Velocity)、有多少类型的数据(Variety)以及数据价值的大小(Value)。亚马逊大数据科学家Johnrauser的定义相对直接:“超过单台计算机处理能力的数据量为大数据”。最后,让我们来看看维基百科全书上的大数据定义:“Bigdataisthetermforacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.“翻译成中文意味着大数据是指现有数据库管理工具或传统数据处理应用程序难以处理的数据集。“大”字无一例外地突出了上述大数据的概念。“大”字无一例外地突出了上述大数据的概念。从表面上看,数据规模的增长确实给处理数据带来了很大的问题。具体来说,在同一时间内获取与以前相同价值的数据是不可能的。换句话说,本质问题是数据的价值密度越来越低,数据交换速度越来越慢,因此催生了许多新的数据处理技术和工具,如谷歌GFS和Mapreduce、ApacheHadop生态系统、美国伯克利大学AMPLabSpark等;对时间有不同敏感性的计算模式,如批量计算模式、交互式计算模式、流量计算模式、实时计算模式等。计算模式的差异只是取决于上层业务需求的不同,取决于获取价值的技术差异。计算模式的差异只取决于获取价值的技术和上层业务需求的差异。事实上,所谓大数据问题的本质应该是数据的资产化和服务化,挖掘数据的内在价值是研究大数据的最终目标。2.大数据技术起源于谷歌谷歌在搜索引擎中的巨大成功,主要是由于采用先进的大数据管理和处理技术,针对搜索引擎面临的日益扩大的大量数据存储问题和大量数据处理问题。谷歌提出了一套基于分布式并行集群模式的基础设施技术,利用软件的能力来处理集群中经常出现的节点故障。谷歌使用的大数据平台主要包括分布式资源管理系统borg、谷歌文件系统五个独立紧密结合的系统(GFS),Mapreduce编程模式、分布式锁机制Chuby和大规模分布式数据库BigTable是根据Google应用程序的特点提出的。Borg是这五个系统中最神秘的一个,直到2015年Google才在Eurosys2015上发表题为“Large-scaleclustermanagementatGooglewithBorg”的论文。称Google内部不仅像计算应用,如Mapreduce、Pregel在borg上运行,GFS、Bigtable、Megastore等存储应用也在borg上运行,真正实现了批处理操作和长期服务的混合部署和资源动态调度。由于该技术,平均资源利用率可达30%~75%以上,远高于行业平均水平的6%~12%。GFS是一个大型分布式文件系统,为Google云计算提供大量存储,并与Chubby一起存储、Mapreduce与BigTable等技术紧密结合,处于系统底层。其设计受Google特殊应用负载和技术环境的影响。与传统的分布式文件系统相比,GFS从多个方面简化了成本、可靠性和性能的最佳平衡。Mapreduce是处理大规模数据集并行运算的并行编程模式。Mapreduce通过Map(映射)Reduce(简化)”这样两个简单的概念来参与操作。用户只需提供自己的Map函数和Reduce函数,就可以在集群上进行大规模的分布式数据处理。这种编程环境允许程序设计师在编写大规模并行应用程序时不考虑集群的可靠性和可扩展性。应用程序编写人员只需专注于应用程序本身,集群处理问题由平台完成。与传统的分布式程序设计相比,Mapreduce包装了并行处理、容错处理、本地化计算、负载平衡等细节,界面简单强大。正是由于Mapreduce具有函数编程语言和矢量编程语言的共性,这种编程模式特别适用于搜索、挖掘和分析非结构化和结构化的海量数据。基于松耦合分布式文件系统,Chubby是一种提供粗粒度锁服务的文件系统,解决了分布式系统的一致性问题。这种锁只是推荐锁而不是强制锁。用户可以通过使用Chuby的锁定服务来保证数据操作的一致性。GFS使用Chubby选择GFS主服务器,BigTable使用Chubby指定主服务器,并找到和控制与之相关的子表服务器。BigTable是一种基于GFS和Chuby开发的分布式存储系统。许多应用程序对数据组织非常有规律。一般来说,数据库处理格式化数据非常方便。但由于关系数据库需要很强的一致性,很难将其扩展到很大的规模。为了处理谷歌内部大量的格式化和半格式化数据,谷歌建立了一个弱一致性要求的大型数据库系统。BigTablede在很多方面与数据库相似,但它并不是真正的数据库。许多海量结构化和半结构化数据,包括Web索引和卫星图像数据,都存储在BigTable中。3.Hadoop开启了大数据时代的大门Gogle技术,虽然不开源。如果没有DougCuting和他的Hadoop开源软件,我们就看不到大数据技术和应用的快速发展。以DougCutting为主导的Apachenutch项目是Hadop软件的源头,始于2002年,是Apachelucene的子项目之一。当时的系统架构还没有扩展到存储和处理拥有数十亿网页的网络数据。Google于2003年在SOSP上公开了一篇关于其分布式文件系统的论文TheGoogleFileSystem",及时为Nutch提供帮助。2004年,Nutch的分布式文件系统(NDFS)开始开发。同年,Google在OSDI上发表了题为“MapReduce:SimplifiedDataProcessingonLargeClusters受启发的DougCutting等人开始实现Mapreduce计算框架,并与NDFS合作(NutchDistributedFileSystem)结合起来,共同支持Nutch的主要算法。到2006年,它逐渐成为一套完整而独立的软件,已经到了Yahoo!到2006年,它逐渐成为一套完整独立的软件,已经到了Yahoo!工作的DougCutting将这个大数据处理软件命名为Hadoop。除Yahoo外,Hadoop在2008年初成为Apache的顶级项目!此外,它还被应用于许多互联网企业。早期的Hadoop,包括Hadoopv1和更早的版本,主要由HDFS和HDFS两个核心组件组成MapReduce,HDFS是GoogleGFS的开源版,Mapreduce计算框架实现了Google工程师提出的Mapreduce编程模型。Hadoop周围还有一些开源项目,为改善大数据处理的整个生命周期提供了必要的支持和补充。Zookeeper常用于这些软件、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等等。2012年5月,Hadoopv2的Alpha版本发布,其中最重要的变化是将YARN添加到Hadoop的核心组件中。(YetAnotherResourceNegotiator)。YARN的出现是为了彻底分离计算框架和资源管理,解决Hadopv1可扩展性差、单点故障和不能同时支持多个计算框架的问题。YARN对标的恰好是Google的Borg系统。到目前为止,Hadop可以与Google的大数据平台相媲美。一个好的、充满活力的开源生态系统应该有一个核心。如果这个核心是差异化和非凡的,它也应该有广泛的应用和活跃的社区。Hadoop恰好有这三个特点,以Hadop为核心的大数据开源生态系统逐渐形成,Hadoop成为Linux以来最成功的开源软件之一。受人民大学信息学院院长杜小勇的委托,我在2015年CNCC组织了一个名为“大数据开源生态系统”的论坛。BBS邀请互联网公司、*件制造商、系统集成商和学术界的同行分享他们在大数据开源方面的工作和经验。在最后的Panel链接中,我们讨论了为什么要开源和如何开源。答案相对分散。开源是唯一的选择。有些人打开产业链,有些人认为开源是一种新的商业形式和商业模式,有些人认为开源促进技术进步。总之,机构在产业链不同环节开源的动机和目标自然不同,但只有这样,产业链中的不同角色才能在生态系统中找到自己的位置。这样的生态系统是强大而充满活力的,不是吗?4.互联网行业是Hadoop发展历史和应用之路大数据领域第一个吃螃蟹的人。这是因为大数据的概念和技术都来自互联网公司的老大哥谷歌。从Hadop的实际应用来看,从2006年到2008年是Hadop的诞生阶段。只有少数外国互联网巨头在尝试,国内互联网行业正在学习这项新技术。2006年,Yahoo!为Webmap业务构建100节点规模的Hadop机组。2007年,Yahoo!构建1000节点规模的Hadop机组。2008年,Yahoo!Hadoop机组扩展到2000节点,Facebook将Hive项目贡献到开源社区。从2008年到2010年是Hadoop的少年阶段。实际应用已经投入到互联网行业,应用集中在网页存储检索、日志处理和用户行为分析等方面。2009年,Yahoo!使用4000节点组运行Hadoop,支持广告系统和Web搜索研究;Facebook使用600节点组运行Hadoop,存储内部日志数据,支持数据分析和机器学习;百度使用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘。2010年,FacebookHadoop群扩展到1000节点;百度每天可以用Hadoop处理1PB数据;中国移动通信研究院基于Hadoop开发了“大云”(BigCloud)该系统不仅用于相关数据分析,还提供外部服务;淘宝Hadoop系统已达到1000个规模,用于存储和处理电子商务交易相关数据。Hadoop青年阶段从2010年到2015年。在互联网行业,Hadoop被视为大数据计算的标准配置,应用形式趋于多样化;企业计算领域开始实践基于Hadop的大数据应用;在追求大数据处理能力的同时,也开始思考系统适应性和效率。互联网行业出现了大量的数据分析应用,如支付宝的交易数据离线分析系统;与生态系统中的其他软件一起,Hadoop构成了一个更复杂的应用系统,如腾讯的广点通精准广告系统、基于用户肖像的电信运营商精准营销系统等。除互联网行业外,还有网络通信大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗卫生大数据、社会治理大数据、教育大数据等。大数据的概念和技术已经融入到各行各业。Hadoop起源于互联网行业,在应用于企业计算时需要适应,因为互联网应用与企业计算应用在需求、服务、研发、运维系统等方面存在本质差异。互联网应用业务逻辑简单,服务于大量用户、非固定用户、系统用户体验第一、连续交付、快速响应;企业计算应用业务逻辑复杂、用户数量有限、固定用户、系统强调稳定可靠、版本交付、层次技术支持。有一段时间,市场上出现了许多面向企业用户的Hadoop发行版本,以易于部署、配置良好、使用和管理方便为切入点,吸引了企业用户的注意。5.大数据技术发展趋势系统架构的专业化。从当今IT技术发展的角度来看,系统结构的解决方案是“应用驱动的大数据架构和技术”。也就是说,根据具体的类型应该

以上就是关于是否要在网站中采用Hadoop?的相关介绍,更多是否要在网站中采用Hadoop?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对是否要在网站中采用Hadoop?有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

强烈推荐5款效果非常好的整人软件

当你觉得无聊的时候,你可以使用整人软件整蛊一下你的朋友,当她们反应过来是假的时候,表情一定很有趣。下面我一定要给各位小伙伴强烈推荐的5款效果非常好的整人软件,希望可以帮到你。1.恶搞软件它是一款拥有很多游戏项目的整人…查看详情

版权登记作品使用范围有哪些?不构成侵权,不会赔偿的那种

对作品进行版权登记,是为了不被他人随意使用侵犯自己的权益。但其实,版权登记作品在特定条件下,是允许被他人自由使用的。那么不构成侵权、不会赔偿的版权登记作品使用范围有哪些? 图片来源于网络 根据《著作权法》规定…查看详情

手机必装的良心浏览器,超级好用

现在很多人都会在手机或者电脑上用浏览器去搜索一些东西哦,但是市面上也有很多的浏览器,不过有些浏览器还是有很多的广告或者不是很实用,以下是我给大家推荐的好用的浏览器哦。1、谷歌浏览器谷歌浏览器是我用过最好用的浏览器。…查看详情

盘点分享 | 电商平台建设哪家好?

由于电商平台建设的需求越来越多,市场上也出现越来越多的电商平台建设公司。他们的出现,让企业有了众多选择,同时也让企业不知如何选择。企业想知道电商平台建设哪家好,不妨跟随小万往下看。 图片来源于网络 ● &nbs...查看详情

windows10用什么杀毒软件好

  Windows10是目前最新的操作系统,拥有更好的安全性能。然而,为了保障计算机的安全,杀毒软件仍然是必不可少的。而且,如果你经常在互联网上冲浪,那么杀毒软件就更加重要了。下文将介绍几款适用于Windows10的杀毒软件。  1.Win...查看详情

为加快知识产权布局谋篇,多个城市开始创建国家知识产权强市

2020年,是全面建成小康社会和“十三五”规划的收官之年,也是知识产权战略纲要收官之年。为加快知识产权布局谋篇,多个城市成为国家知识产权强市创建市。 图片来源于网络 知识就是财富,创新驱动发展。自国家知识产权强市创…查看详情

007工作制是什么?

  优质答案(1)  1、网络用语工作制007意思是:从0点到0点,一周7天不休息,俗称24小时。  2、007工作制是一种违反《中华人民共和国劳动法》第三十六条延长法定工作时间的工作制度,指的是一种比996更狠的弹性工作制。从0点到0点…...查看详情

贵州方笋6小时可以到达全国各地

贵州方笋,现在的网红农产品,曝光度非常高,购买率也非常高,贵州方笋在今年秋季创下了出省的销售记录,借助新零售之力成了网红产品。在今年9月份,贵州省的方竹笋首先在盒马的全国门店登场,一直延续到国庆节后,这个每年只卖一…查看详情

第三方微信小程序平台怎么选?可依靠这些方面来判断

因为微信本身就是一个用户非常多的大平台,所以微信小程序,也能够依靠微信所带来的优势更好的推广产品,也有更多的商家开始投入到小程序的创作中。为了适应时代的需求和发展,在市面上也有不少第三方的开发平台,可帮大家创作出…查看详情

常用的办公软件有哪些 常用的办公软件排行榜

相信大家现在办公都会使用到很多的办公软件,这些办公软件都是十分强大的,而且是经常使用的,下面*就给大家来详细介绍一下啊常用的办公软件有哪些  常用的办公软件排行榜这一块的相关内容,希望能帮助到大家。 常用的办…...查看详情

好用的投屏软件有哪些 投屏软件排行榜

  相信大家在很多的工作场合,特别是开会的时候都会使用到投屏软件,包括在家里的时候也会经常投屏看电影等等,下面*就来介绍一下好用的投屏软件有哪些  投屏软件排行榜这一块的相关内容,希望能帮助到大家。  投屏软件…查看详情

全球手机销量排行榜,值得一看

手机现在是不可缺少的电子设备,不仅可以打电话,也同时具备了很多的功能,还能够帮助大家完成学习和工作,甚至也具有很多的*功能,手机更是日常生活中所不可或缺的,在下面就针对销量比较好的手机为大家介绍,哪款手机受欢迎可以…查看详情

网站设计的基本流程有哪些

网站设计的基本流程通常包括以下几个关键步骤:需求分析、信息架构设计、界面设计、内容创作、开发与测试、上线和维护。下面将对每个步骤进行简要介绍。1. 需求分析:这是网站设计的起点,通过与客户或项目团队的沟通,明确网站…查看详情

真的有电脑挂机赚钱软件吗?都有哪几种呢?

每一天的生活都离不开钱,所以怎样赚钱也是大家最为*的一个话题了,而对于经常玩游戏的人们来说,可以通过游戏来赚钱,但是却需要大量的精力和时间,如果能有一款电脑挂机赚钱的软件,则要省心不少,那么真的有电脑挂机赚钱软件吗…查看详情

SAP系统是什么?一套多少钱?

近期很多朋友在咨询小万sap系统是什么?其实SAP系统是属于erp系统的一种,同时sap也是一家德国erp公司的名称,该公司在erp市场的销售份额也非常高,常年占据第一的位置。而部署一套SAP系统需要多少钱呢?小万也整理了相关的资料供各位参...查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询