首页 >知识讲堂 >网站建设知识>是否要在网站中采用Hadoop?

是否要在网站中采用Hadoop?

2020-12-31 09:24:59 阅读(222 评论(0)

1.什么是大数据引子?麦肯锡报告“大数据:创新、竞争和生产力下一个前沿领域”的大数据定义是:大数据是指超过现有数据库工具获取、存储、管理和分析能力的数据集,并强调不超过特定数量级的数据集是大数据。国际数据公司(IDC)大数据被定义为四个维度的特征,即数据集的规模(Volume)、数据流速(Velocity)、有多少类型的数据(Variety)以及数据价值的大小(Value)。亚马逊大数据科学家Johnrauser的定义相对直接:“超过单台计算机处理能力的数据量为大数据”。最后,让我们来看看维基百科全书上的大数据定义:“Bigdataisthetermforacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.“翻译成中文意味着大数据是指现有数据库管理工具或传统数据处理应用程序难以处理的数据集。“大”字无一例外地突出了上述大数据的概念。“大”字无一例外地突出了上述大数据的概念。从表面上看,数据规模的增长确实给处理数据带来了很大的问题。具体来说,在同一时间内获取与以前相同价值的数据是不可能的。换句话说,本质问题是数据的价值密度越来越低,数据交换速度越来越慢,因此催生了许多新的数据处理技术和工具,如谷歌GFS和Mapreduce、ApacheHadop生态系统、美国伯克利大学AMPLabSpark等;对时间有不同敏感性的计算模式,如批量计算模式、交互式计算模式、流量计算模式、实时计算模式等。计算模式的差异只是取决于上层业务需求的不同,取决于获取价值的技术差异。计算模式的差异只取决于获取价值的技术和上层业务需求的差异。事实上,所谓大数据问题的本质应该是数据的资产化和服务化,挖掘数据的内在价值是研究大数据的最终目标。2.大数据技术起源于谷歌谷歌在搜索引擎中的巨大成功,主要是由于采用先进的大数据管理和处理技术,针对搜索引擎面临的日益扩大的大量数据存储问题和大量数据处理问题。谷歌提出了一套基于分布式并行集群模式的基础设施技术,利用软件的能力来处理集群中经常出现的节点故障。谷歌使用的大数据平台主要包括分布式资源管理系统borg、谷歌文件系统五个独立紧密结合的系统(GFS),Mapreduce编程模式、分布式锁机制Chuby和大规模分布式数据库BigTable是根据Google应用程序的特点提出的。Borg是这五个系统中最神秘的一个,直到2015年Google才在Eurosys2015上发表题为“Large-scaleclustermanagementatGooglewithBorg”的论文。称Google内部不仅像计算应用,如Mapreduce、Pregel在borg上运行,GFS、Bigtable、Megastore等存储应用也在borg上运行,真正实现了批处理操作和长期服务的混合部署和资源动态调度。由于该技术,平均资源利用率可达30%~75%以上,远高于行业平均水平的6%~12%。GFS是一个大型分布式文件系统,为Google云计算提供大量存储,并与Chubby一起存储、Mapreduce与BigTable等技术紧密结合,处于系统底层。其设计受Google特殊应用负载和技术环境的影响。与传统的分布式文件系统相比,GFS从多个方面简化了成本、可靠性和性能的最佳平衡。Mapreduce是处理大规模数据集并行运算的并行编程模式。Mapreduce通过Map(映射)Reduce(简化)”这样两个简单的概念来参与操作。用户只需提供自己的Map函数和Reduce函数,就可以在集群上进行大规模的分布式数据处理。这种编程环境允许程序设计师在编写大规模并行应用程序时不考虑集群的可靠性和可扩展性。应用程序编写人员只需专注于应用程序本身,集群处理问题由平台完成。与传统的分布式程序设计相比,Mapreduce包装了并行处理、容错处理、本地化计算、负载平衡等细节,界面简单强大。正是由于Mapreduce具有函数编程语言和矢量编程语言的共性,这种编程模式特别适用于搜索、挖掘和分析非结构化和结构化的海量数据。基于松耦合分布式文件系统,Chubby是一种提供粗粒度锁服务的文件系统,解决了分布式系统的一致性问题。这种锁只是推荐锁而不是强制锁。用户可以通过使用Chuby的锁定服务来保证数据操作的一致性。GFS使用Chubby选择GFS主服务器,BigTable使用Chubby指定主服务器,并找到和控制与之相关的子表服务器。BigTable是一种基于GFS和Chuby开发的分布式存储系统。许多应用程序对数据组织非常有规律。一般来说,数据库处理格式化数据非常方便。但由于关系数据库需要很强的一致性,很难将其扩展到很大的规模。为了处理谷歌内部大量的格式化和半格式化数据,谷歌建立了一个弱一致性要求的大型数据库系统。BigTablede在很多方面与数据库相似,但它并不是真正的数据库。许多海量结构化和半结构化数据,包括Web索引和卫星图像数据,都存储在BigTable中。3.Hadoop开启了大数据时代的大门Gogle技术,虽然不开源。如果没有DougCuting和他的Hadoop开源软件,我们就看不到大数据技术和应用的快速发展。以DougCutting为主导的Apachenutch项目是Hadop软件的源头,始于2002年,是Apachelucene的子项目之一。当时的系统架构还没有扩展到存储和处理拥有数十亿网页的网络数据。Google于2003年在SOSP上公开了一篇关于其分布式文件系统的论文TheGoogleFileSystem",及时为Nutch提供帮助。2004年,Nutch的分布式文件系统(NDFS)开始开发。同年,Google在OSDI上发表了题为“MapReduce:SimplifiedDataProcessingonLargeClusters受启发的DougCutting等人开始实现Mapreduce计算框架,并与NDFS合作(NutchDistributedFileSystem)结合起来,共同支持Nutch的主要算法。到2006年,它逐渐成为一套完整而独立的软件,已经到了Yahoo!到2006年,它逐渐成为一套完整独立的软件,已经到了Yahoo!工作的DougCutting将这个大数据处理软件命名为Hadoop。除Yahoo外,Hadoop在2008年初成为Apache的顶级项目!此外,它还被应用于许多互联网企业。早期的Hadoop,包括Hadoopv1和更早的版本,主要由HDFS和HDFS两个核心组件组成MapReduce,HDFS是GoogleGFS的开源版,Mapreduce计算框架实现了Google工程师提出的Mapreduce编程模型。Hadoop周围还有一些开源项目,为改善大数据处理的整个生命周期提供了必要的支持和补充。Zookeeper常用于这些软件、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等等。2012年5月,Hadoopv2的Alpha版本发布,其中最重要的变化是将YARN添加到Hadoop的核心组件中。(YetAnotherResourceNegotiator)。YARN的出现是为了彻底分离计算框架和资源管理,解决Hadopv1可扩展性差、单点故障和不能同时支持多个计算框架的问题。YARN对标的恰好是Google的Borg系统。到目前为止,Hadop可以与Google的大数据平台相媲美。一个好的、充满活力的开源生态系统应该有一个核心。如果这个核心是差异化和非凡的,它也应该有广泛的应用和活跃的社区。Hadoop恰好有这三个特点,以Hadop为核心的大数据开源生态系统逐渐形成,Hadoop成为Linux以来最成功的开源软件之一。受人民大学信息学院院长杜小勇的委托,我在2015年CNCC组织了一个名为“大数据开源生态系统”的论坛。BBS邀请互联网公司、硬件制造商、系统集成商和学术界的同行分享他们在大数据开源方面的工作和经验。在最后的Panel链接中,我们讨论了为什么要开源和如何开源。答案相对分散。开源是唯一的选择。有些人打开产业链,有些人认为开源是一种新的商业形式和商业模式,有些人认为开源促进技术进步。总之,机构在产业链不同环节开源的动机和目标自然不同,但只有这样,产业链中的不同角色才能在生态系统中找到自己的位置。这样的生态系统是强大而充满活力的,不是吗?4.互联网行业是Hadoop发展历史和应用之路大数据领域第一个吃螃蟹的人。这是因为大数据的概念和技术都来自互联网公司的老大哥谷歌。从Hadop的实际应用来看,从2006年到2008年是Hadop的诞生阶段。只有少数外国互联网巨头在尝试,国内互联网行业正在学习这项新技术。2006年,Yahoo!为Webmap业务构建100节点规模的Hadop机组。2007年,Yahoo!构建1000节点规模的Hadop机组。2008年,Yahoo!Hadoop机组扩展到2000节点,Facebook将Hive项目贡献到开源社区。从2008年到2010年是Hadoop的少年阶段。实际应用已经投入到互联网行业,应用集中在网页存储检索、日志处理和用户行为分析等方面。2009年,Yahoo!使用4000节点组运行Hadoop,支持广告系统和Web搜索研究;Facebook使用600节点组运行Hadoop,存储内部日志数据,支持数据分析和机器学习;百度使用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘。2010年,FacebookHadoop群扩展到1000节点;百度每天可以用Hadoop处理1PB数据;中国移动通信研究院基于Hadoop开发了“大云”(BigCloud)该系统不仅用于相关数据分析,还提供外部服务;淘宝Hadoop系统已达到1000个规模,用于存储和处理电子商务交易相关数据。Hadoop青年阶段从2010年到2015年。在互联网行业,Hadoop被视为大数据计算的标准配置,应用形式趋于多样化;企业计算领域开始实践基于Hadop的大数据应用;在追求大数据处理能力的同时,也开始思考系统适应性和效率。互联网行业出现了大量的数据分析应用,如支付宝的交易数据离线分析系统;与生态系统中的其他软件一起,Hadoop构成了一个更复杂的应用系统,如腾讯的广点通精准广告系统、基于用户肖像的电信运营商精准营销系统等。除互联网行业外,还有网络通信大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗卫生大数据、社会治理大数据、教育大数据等。大数据的概念和技术已经融入到各行各业。Hadoop起源于互联网行业,在应用于企业计算时需要适应,因为互联网应用与企业计算应用在需求、服务、研发、运维系统等方面存在本质差异。互联网应用业务逻辑简单,服务于大量用户、非固定用户、系统用户体验第一、连续交付、快速响应;企业计算应用业务逻辑复杂、用户数量有限、固定用户、系统强调稳定可靠、版本交付、层次技术支持。有一段时间,市场上出现了许多面向企业用户的Hadoop发行版本,以易于部署、配置良好、使用和管理方便为切入点,吸引了企业用户的注意。5.大数据技术发展趋势系统架构的专业化。从当今IT技术发展的角度来看,系统结构的解决方案是“应用驱动的大数据架构和技术”。也就是说,根据具体的类型应该

以上就是关于是否要在网站中采用Hadoop?的相关介绍,更多是否要在网站中采用Hadoop?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对是否要在网站中采用Hadoop?有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

在线音乐下载软件哪个好?这6款高音质高速下载

相信很多喜欢音乐的朋友都有这样一个烦恼,哪里能下载高品质的无损音乐?市面上这么多软件品牌,到底在线音乐下载软件哪个好?小万今天为大家整理了以下6款能够实现无损音乐下载的软件供大家参考。 1.酷听音乐 酷听是一款很…查看详情

网络口碑营销策略有哪些?

三种市场营销策略的内容?在企业确定市场营销后,市场营销策略就必须为市场营销战略服务,全力支持市场营销战略目标的实现。企业的市场营销策略制定过程,是同企业的市场营销战略制定过程相交叉的。市场定位强调的是企业在满足市场…查看详情

淘金币全额兑换在哪里?作用是什么?

淘宝中的淘金币怎么用?1、淘金币抵钱:点击淘金币抵钱,弹出来的页面产品全部都是可以用淘金币抵扣的产品,随意点击一件产品,可以看见淘金币抵扣钱的百分比,之后,就像用抵扣红包一样,购买产品就可以了;2、淘金币抽奖:点击淘…查看详情

国外购物网站大全,这些有高知名度

虽然现在的人们越来越倾向于国产的各种产品了,但是国外的产品也有很多优秀的值得选择的,不过因为属于国外生产的,所以说在购买起来可能会存在不方便,那么不妨就选择国外的购物网站吧,下面就关于这些网站为大家介绍。1、亚马逊…查看详情

陕西自主申报怎么填?

陕西自主申报怎么填?在陕西一码通首页有个来返陕预填报填写即可。预填报里面需要填写:个人信息,防疫信息,来陕目的,及交通信息。很简单都算是基本信息。说白了就是从哪里来,坐什么车,什么时候到,要呆多久,来了住在哪,时候…查看详情

三级分销系统有哪些 分销系统哪个平台比较好?

说道三级分销就不得不说当年的微商了,当年更随着微商时代的脚步,通过快速吸粉引流进行多级分销,销售的花样百变,其中最为瞩目的就是直播卖货了,丰富的营销工具,精准的会员体系,详细的数据分析,那么今天我们就来盘点一下三…查看详情

女士手表品牌排行榜前十名

以下是女士手表品牌排行榜前十名的介绍:1. 爱彼(Audemars Piguet):爱彼是世界上最顶级的手表品牌之一,以制作高档机械腕表而闻名。其独特设计和卓越工艺使其成为时尚女士钟爱的品牌之一。2. 百达翡丽...查看详情

【了解国外知识产权登记内容】德国版权登记、专利申请流程

现今对作品申请版权登记、专利等以获得法律保护,已不仅限于国内了。我国创作者可在国外进行申请,外国人也可在我国进行申请。下面小万将为大家介绍关于德国版权登记、专利申请流程。 图片来源于网络 ▲  德国版...查看详情

有哪些简单易上手的服装软件推荐

作为一个服装商家,如果没有一个系统的服装软件供平日里经营使用的话,其实是非常不方便的,为了能够快速的分析账目,进货出货,最好是在日常的经营过程中,推荐使用以下的服装软件。1、Esale服装软件此款软件能够帮助商家更好的进…查看详情

同屏观影软件有哪些 同屏观影软件排行榜

  相信大家在平时都喜欢看电影,但是很多人都没有见过异地同屏看电影的,下面小编就给大家来详细介绍一下同屏观影软件有哪些 同屏观影软件排行榜这一块的内容,希望能帮助到大家。  同屏观影软件有哪些  1、《微光》  …查看详情

iis是什么

iss服务器是什么?IIS是InternetInformationServer的简称。IIS作为当今流行的Web服务器之一,提供了强大的Internet和Intranet服务功能。IIS通过超文本传输协议(HTTP)传输信息,还可配置IIS...查看详情

经典手机连接电脑软件,万物互联更省力

智能手机的普及给大众的生活带来了极大的改变,过去人们通常需要利用数据线来完成电脑与手机的连接,将更多的网络内容下载至手机端。如今想要进行手机和电脑连接,除可运用蓝牙功能之外,也可以借助专业的软件,实现万物皆可互联…查看详情

流行又好用的电脑截屏软件有哪些?

我们在使用电脑的过程当中如果遇到了自己想要截屏的重要图片、视频段落或是重要文字段落等,往往希望能够通过简便的操作来完成截屏,那么当前有哪些流行又好用的电脑截屏软件值得大家选择呢?1、傲软专业截屏王这是一款以简单好用…查看详情

如何出售网店?在网店交易平台出售网店安全吗?

电商横行,相信大家对于淘宝店铺肯定不会陌生,出售网店既可以为自己增加一份额外的收入,又可以提高店铺资源的利用率,那么对店铺卖家来说,如何出售网店?在被大家所提及的网点交易平台出售网店是否安全? 在出售店铺之前应…查看详情

怎样在网上做生意赚钱

网上怎样才能挣钱?网上挣钱的门路很多,就像我们平常做买卖一样,有的能挣钱有的挣不到钱,同行没同利,就是这个理,我们要想在网上挣到钱,可以开直播,卖货,卖些季节性的衣服,水果一类的东西,少便宜点,大众化,需求量自然不…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询