2020-12-31 09:24:59 阅读(210)
1.什么是大数据引子?麦肯锡报告“大数据:创新、竞争和生产力下一个前沿领域”的大数据定义是:大数据是指超过现有数据库工具获取、存储、管理和分析能力的数据集,并强调不超过特定数量级的数据集是大数据。国际数据公司(IDC)大数据被定义为四个维度的特征,即数据集的规模(Volume)、数据流速(Velocity)、有多少类型的数据(Variety)以及数据价值的大小(Value)。亚马逊大数据科学家Johnrauser的定义相对直接:“超过单台计算机处理能力的数据量为大数据”。最后,让我们来看看维基百科全书上的大数据定义:“Bigdataisthetermforacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.“翻译成中文意味着大数据是指现有数据库管理工具或传统数据处理应用程序难以处理的数据集。“大”字无一例外地突出了上述大数据的概念。“大”字无一例外地突出了上述大数据的概念。从表面上看,数据规模的增长确实给处理数据带来了很大的问题。具体来说,在同一时间内获取与以前相同价值的数据是不可能的。换句话说,本质问题是数据的价值密度越来越低,数据交换速度越来越慢,因此催生了许多新的数据处理技术和工具,如谷歌GFS和Mapreduce、ApacheHadop生态系统、美国伯克利大学AMPLabSpark等;对时间有不同敏感性的计算模式,如批量计算模式、交互式计算模式、流量计算模式、实时计算模式等。计算模式的差异只是取决于上层业务需求的不同,取决于获取价值的技术差异。计算模式的差异只取决于获取价值的技术和上层业务需求的差异。事实上,所谓大数据问题的本质应该是数据的资产化和服务化,挖掘数据的内在价值是研究大数据的最终目标。2.大数据技术起源于谷歌谷歌在搜索引擎中的巨大成功,主要是由于采用先进的大数据管理和处理技术,针对搜索引擎面临的日益扩大的大量数据存储问题和大量数据处理问题。谷歌提出了一套基于分布式并行集群模式的基础设施技术,利用软件的能力来处理集群中经常出现的节点故障。谷歌使用的大数据平台主要包括分布式资源管理系统borg、谷歌文件系统五个独立紧密结合的系统(GFS),Mapreduce编程模式、分布式锁机制Chuby和大规模分布式数据库BigTable是根据Google应用程序的特点提出的。Borg是这五个系统中最神秘的一个,直到2015年Google才在Eurosys2015上发表题为“Large-scaleclustermanagementatGooglewithBorg”的论文。称Google内部不仅像计算应用,如Mapreduce、Pregel在borg上运行,GFS、Bigtable、Megastore等存储应用也在borg上运行,真正实现了批处理操作和长期服务的混合部署和资源动态调度。由于该技术,平均资源利用率可达30%~75%以上,远高于行业平均水平的6%~12%。GFS是一个大型分布式文件系统,为Google云计算提供大量存储,并与Chubby一起存储、Mapreduce与BigTable等技术紧密结合,处于系统底层。其设计受Google特殊应用负载和技术环境的影响。与传统的分布式文件系统相比,GFS从多个方面简化了成本、可靠性和性能的最佳平衡。Mapreduce是处理大规模数据集并行运算的并行编程模式。Mapreduce通过Map(映射)Reduce(简化)”这样两个简单的概念来参与操作。用户只需提供自己的Map函数和Reduce函数,就可以在集群上进行大规模的分布式数据处理。这种编程环境允许程序设计师在编写大规模并行应用程序时不考虑集群的可靠性和可扩展性。应用程序编写人员只需专注于应用程序本身,集群处理问题由平台完成。与传统的分布式程序设计相比,Mapreduce包装了并行处理、容错处理、本地化计算、负载平衡等细节,界面简单强大。正是由于Mapreduce具有函数编程语言和矢量编程语言的共性,这种编程模式特别适用于搜索、挖掘和分析非结构化和结构化的海量数据。基于松耦合分布式文件系统,Chubby是一种提供粗粒度锁服务的文件系统,解决了分布式系统的一致性问题。这种锁只是推荐锁而不是强制锁。用户可以通过使用Chuby的锁定服务来保证数据操作的一致性。GFS使用Chubby选择GFS主服务器,BigTable使用Chubby指定主服务器,并找到和控制与之相关的子表服务器。BigTable是一种基于GFS和Chuby开发的分布式存储系统。许多应用程序对数据组织非常有规律。一般来说,数据库处理格式化数据非常方便。但由于关系数据库需要很强的一致性,很难将其扩展到很大的规模。为了处理谷歌内部大量的格式化和半格式化数据,谷歌建立了一个弱一致性要求的大型数据库系统。BigTablede在很多方面与数据库相似,但它并不是真正的数据库。许多海量结构化和半结构化数据,包括Web索引和卫星图像数据,都存储在BigTable中。3.Hadoop开启了大数据时代的大门Gogle技术,虽然不开源。如果没有DougCuting和他的Hadoop开源软件,我们就看不到大数据技术和应用的快速发展。以DougCutting为主导的Apachenutch项目是Hadop软件的源头,始于2002年,是Apachelucene的子项目之一。当时的系统架构还没有扩展到存储和处理拥有数十亿网页的网络数据。Google于2003年在SOSP上公开了一篇关于其分布式文件系统的论文TheGoogleFileSystem",及时为Nutch提供帮助。2004年,Nutch的分布式文件系统(NDFS)开始开发。同年,Google在OSDI上发表了题为“MapReduce:SimplifiedDataProcessingonLargeClusters受启发的DougCutting等人开始实现Mapreduce计算框架,并与NDFS合作(NutchDistributedFileSystem)结合起来,共同支持Nutch的主要算法。到2006年,它逐渐成为一套完整而独立的软件,已经到了Yahoo!到2006年,它逐渐成为一套完整独立的软件,已经到了Yahoo!工作的DougCutting将这个大数据处理软件命名为Hadoop。除Yahoo外,Hadoop在2008年初成为Apache的顶级项目!此外,它还被应用于许多互联网企业。早期的Hadoop,包括Hadoopv1和更早的版本,主要由HDFS和HDFS两个核心组件组成MapReduce,HDFS是GoogleGFS的开源版,Mapreduce计算框架实现了Google工程师提出的Mapreduce编程模型。Hadoop周围还有一些开源项目,为改善大数据处理的整个生命周期提供了必要的支持和补充。Zookeeper常用于这些软件、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等等。2012年5月,Hadoopv2的Alpha版本发布,其中最重要的变化是将YARN添加到Hadoop的核心组件中。(YetAnotherResourceNegotiator)。YARN的出现是为了彻底分离计算框架和资源管理,解决Hadopv1可扩展性差、单点故障和不能同时支持多个计算框架的问题。YARN对标的恰好是Google的Borg系统。到目前为止,Hadop可以与Google的大数据平台相媲美。一个好的、充满活力的开源生态系统应该有一个核心。如果这个核心是差异化和非凡的,它也应该有广泛的应用和活跃的社区。Hadoop恰好有这三个特点,以Hadop为核心的大数据开源生态系统逐渐形成,Hadoop成为Linux以来最成功的开源软件之一。受人民大学信息学院院长杜小勇的委托,我在2015年CNCC组织了一个名为“大数据开源生态系统”的论坛。BBS邀请互联网公司、硬件制造商、系统集成商和学术界的同行分享他们在大数据开源方面的工作和经验。在最后的Panel链接中,我们讨论了为什么要开源和如何开源。答案相对分散。开源是唯一的选择。有些人打开产业链,有些人认为开源是一种新的商业形式和商业模式,有些人认为开源促进技术进步。总之,机构在产业链不同环节开源的动机和目标自然不同,但只有这样,产业链中的不同角色才能在生态系统中找到自己的位置。这样的生态系统是强大而充满活力的,不是吗?4.互联网行业是Hadoop发展历史和应用之路大数据领域第一个吃螃蟹的人。这是因为大数据的概念和技术都来自互联网公司的老大哥谷歌。从Hadop的实际应用来看,从2006年到2008年是Hadop的诞生阶段。只有少数外国互联网巨头在尝试,国内互联网行业正在学习这项新技术。2006年,Yahoo!为Webmap业务构建100节点规模的Hadop机组。2007年,Yahoo!构建1000节点规模的Hadop机组。2008年,Yahoo!Hadoop机组扩展到2000节点,Facebook将Hive项目贡献到开源社区。从2008年到2010年是Hadoop的少年阶段。实际应用已经投入到互联网行业,应用集中在网页存储检索、日志处理和用户行为分析等方面。2009年,Yahoo!使用4000节点组运行Hadoop,支持广告系统和Web搜索研究;Facebook使用600节点组运行Hadoop,存储内部日志数据,支持数据分析和机器学习;百度使用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘。2010年,FacebookHadoop群扩展到1000节点;百度每天可以用Hadoop处理1PB数据;中国移动通信研究院基于Hadoop开发了“大云”(BigCloud)该系统不仅用于相关数据分析,还提供外部服务;淘宝Hadoop系统已达到1000个规模,用于存储和处理电子商务交易相关数据。Hadoop青年阶段从2010年到2015年。在互联网行业,Hadoop被视为大数据计算的标准配置,应用形式趋于多样化;企业计算领域开始实践基于Hadop的大数据应用;在追求大数据处理能力的同时,也开始思考系统适应性和效率。互联网行业出现了大量的数据分析应用,如支付宝的交易数据离线分析系统;与生态系统中的其他软件一起,Hadoop构成了一个更复杂的应用系统,如腾讯的广点通精准广告系统、基于用户肖像的电信运营商精准营销系统等。除互联网行业外,还有网络通信大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗卫生大数据、社会治理大数据、教育大数据等。大数据的概念和技术已经融入到各行各业。Hadoop起源于互联网行业,在应用于企业计算时需要适应,因为互联网应用与企业计算应用在需求、服务、研发、运维系统等方面存在本质差异。互联网应用业务逻辑简单,服务于大量用户、非固定用户、系统用户体验第一、连续交付、快速响应;企业计算应用业务逻辑复杂、用户数量有限、固定用户、系统强调稳定可靠、版本交付、层次技术支持。有一段时间,市场上出现了许多面向企业用户的Hadoop发行版本,以易于部署、配置良好、使用和管理方便为切入点,吸引了企业用户的注意。5.大数据技术发展趋势系统架构的专业化。从当今IT技术发展的角度来看,系统结构的解决方案是“应用驱动的大数据架构和技术”。也就是说,根据具体的类型应该
以上就是关于是否要在网站中采用Hadoop?的相关介绍,更多是否要在网站中采用Hadoop?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对是否要在网站中采用Hadoop?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一