首页 >知识讲堂 >网站建设知识>解析Facebook的大数据处理架构及应用的软件

解析Facebook的大数据处理架构及应用的软件

2020-12-31 13:56:39 阅读(205 评论(0)

Facebook大数据技术架构的演进路线 Facebook一直是大数据技术中最活跃的应用程序,因为它拥有巨大的数据量。数据显示,2011年压缩数据为25PB,未压缩数据为150PB,每天产生的未压缩新数据为400TB。大数据技术广泛应用于广告、新闻源、新闻/聊天、搜索、网站安全、具体分析、报告等领域。Facebook也是Apache大数据开源项目的最大贡献者之一。Facebook于2007年左右正式转向Hadoop计算框架,随后向Apache基金会贡献了著名的Hive、ZooKeeper、Scribe、目前,Facebook的开源过程仍在积极推进,如cassandra。Facebook大数据技术架构经历了三个演变阶段。   基于Hadoop的Facebook早期大数据技术架构、HBase、Hive、基于Scribe等开源工具。日志数据流由HTTP服务器生成,通过日志收集系统Scribe传输到共享和存储NFS文件系统,然后通过小时Copier/Loader(即Mapreduce作业)将数据文件上传到Hadop。数据摘要是基于HiveSQL语言的日常流水操作,结果将定期更新到前端Mysql服务器,以便通过OLTP工具生成报告。Hadoop集群节点有3000个,可以很好地解决可扩展性和容错性问题,但早期系统的主要问题是整体处理延迟较大,从日志生成开始~2天后才能得到最终报告。   Facebook目前的大数据技术架构在早期架构的基础上优化了数据传输通道和数据处理系统,如图所示,主要分为分布式日志系统Scribe、HDFS和HBase分布式存储系统、分布式计算和分析系统(MapReduce、Puma和Hive)等。Scribe日志系统用于收集大量HTTP服务器的日志数据。Thrift是Facebook提供的跨语言服务开发的软件框架、Java、PHP、在Python和Ruby之间实现无缝支持。使用ThriftRPC调用Scribe日志收集服务进行日志数据汇总。ScribePolicy是将元数据传输给Scribe客户端和ScribeHDFS的日志流量和模型管理节点,收集的日志数据存储在ScribeHDFS中。Facebook将早期系统优化的数据通道称为DataFreway,可以处理峰值9GB/s的数据,端到端延迟在10s以内,支持2500多种日志类型。DataFreeway主要包括四个组件,Scribe、Calligraphus、ContinuscopierPTail。Scribe用于客户端,负责通过ThriftRPC发送数据;Calligraphus在中间层整理数据并写入HDFS。它提供日志类型的管理,辅助Zookeper;ContinusCopier将文件从一个HDFS复制到另一个HDFS;多个HDFS上的PTail并行tail目录,并将文件数据写入标准输出。在目前的体系结构中,一些数据处理仍然通过MapReduce批量处理,存储在中央的HDFS每天通过Hive进行分析和处理。在目前的架构中,一些数据处理仍然通过Mapreduce进行小时处理,存储在中央HDFS中,每天通过Hive进行分析和处理。另一部分接近实时的数据流通过Puma进行分钟处理。Facebook为特殊分析提供Peregrine(Hipal)分析提供Nocron工具的工具和周期性分析。   Facebook未来大数据技术架构的雏形已经出来。首先开源的是Corona,Corona可以取代Hadoop系统中的Mapreduce,类似于Yahoo提出的YARN。Corona最大的进步之一是它的集群管理器是基于CPU的、内存和其他操作处理所需资源的管理可以使Corona不仅可以处理Mapreduce操作,还可以处理非Mapreduce操作,使Hadoop集群的应用领域更加广泛。第二个是Facebook最新的交互式大数据查询系统Presto,类似于Cloudera的Impala和Hortonworks的Stinger,解决了Facebook快速膨胀的海量数据仓库快速查询需求。Facebook表示,使用Presto进行简单的查询只需几百毫秒,即使是非常复杂的查询,也只需几分钟就可以完成,它在内存中运行,不会写入磁盘。三是Wormhole流计算系统,类似于Twiitter的Storm和Yahoo的Storm。-YARN。第四个重要项目是Prism,它可以运行一个超大的Hadoop集群,可以连接全球数据中心,并在数据中心停止时立即重新分布数据,这类似于谷歌的Spanner。   Facebook的大数据技术架构演变路径代表了大数据技术的发展路线。值得称道的是,开源是Facebook的一贯路线,与Yahoo等公司一起为大数据技术的发展做出了巨大贡献。Facebook使用的软件在某些方面仍然是LAMP网站,但Facebook已经做出了必要的改变、扩展和修改,以配合大量其他组件和服务。例如,Facebook仍然使用PHP,但Facebook已经重建了一个新的编译器,以满足在其Web服务器上加载本地代码的需要,从而提高性能;Facebook使用Linux系统,但为了自己的目的,也进行了必要的优化。(尤其是网络吞吐量);Facebook使用MySQL,但也优化了。还有定制的系统,比如,Haystack—存储高度可扩展的对象,用于处理Facebook的巨大图片;Scribe—Facebook日志系统。以下是Facebook在世界上最大的社交网站上使用的软件。MemcachedMemcached是一款相当有名的软件。它是一种分布式内存缓存系统。Facebook作为Web服务器和MySQL服务器之间的缓存层,也有大量的网站。多年来,Facebook在Memcached及其相关软件(如网络栈)上做了大量的优化工作。Facebook运行成千上万的Memcached服务器,借用并及时处理TB级缓存数据。Facebook拥有世界上最大的Memcached设备。与本地服务器上的代码相比,HiphopforPHP的运行速度相对较慢。PHPHop将PHP代码转换为CHP代码 编译时代码,提高性能。由于Facebook非常依赖PHP来处理信息,有了HipHop,Facebook在Web服务器方面更是如虎添翼。HipHop诞生过程:在Facebook中,一组工程师(最初是3位)花了18个月的时间研发而成。HaystackHaystack是Facebook高性能图像存储/检索系统。(严格来说,Haystack是一个对象存储,所以它不需要存储图片。)Haystack的工作量超大。Facebook上有200多亿张图片,每张图片保存在四种不同的分辨率,因此Facebook上有800多亿张图片。Haystack的作用不仅仅是处理大量图片,它的性能也是亮点。正如我们前面提到的,Facebook每秒处理大约120万张图片,不包括其CDN处理的图片数量。这是一个惊人的数据!!!BigPipeBigPipe是Facebook开发的动态网页处理系统。Facebook为了达到最佳,用它来处理每个网页的块(也称为“”Pagelets”)。例如,聊天窗口是独立检索的,新闻源也是独立检索的。这些Pagelets可以并发检索,性能也可以提高。这样,即使网站的某一部分停用或崩溃,用户仍然可以使用。CassandraCassandra是一种无单点故障的分布式存储系统。它是前NoSQL运动的成员之一,现已开源(已加入Apache工程)。Facebook用于邮箱搜索。除Facebook外,Cassandra还适用于许多其他服务,如Digg。ScribeScribe是一个灵活的日志系统,Facebook用于各种内部用途。Scribe用途:处理Facebook级别日志,一旦生成新的日志分类,Scribe将自动处理。(Facebook有上百个日志分类)。HadoopandHiveHadop是一个开源Map/Reduce框架,可以轻松处理大量数据。Facebook用于数据分析。(前面说过,Facebook的数据量是超海量的。)Hive起源于Facebook,Hive可以使用SQL查询,使非程序员更容易使用Hadoop。(注1:Hive是一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为Mapreduce任务。)VarnishVarnish是一种负载均衡的HTTP加速器,也用于缓存内容的快速处理。Facebook用Varnish处理图片和用户照片,每天处理10亿级请求。和Facebook的其他应用一样,Varnish也是开源的。Facebook可以顺利运行,这也有利于其他方面。虽然上面提到了一些构成Facebook系统的软件,但处理如此庞大的系统本身就是一项复杂的任务。因此,下面还将列出一些能够使Facebook顺利运行的东西。虽然这里不能深入*件,但*件绝对是Facebook达到前所未有规模的重要因素。例如,像其他大型网站一样,Facebook也使用CDN来处理静态内容。Facebook还在美国西部的俄勒冈州建立了一个大型数据中心,可以随时添加服务器。当然,除了前面提到的,还有很多其他的软件没有提到。但是,希望能突出其中非常有特色的。

以上就是关于解析Facebook的大数据处理架构及应用的软件的相关介绍,更多解析Facebook的大数据处理架构及应用的软件相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对解析Facebook的大数据处理架构及应用的软件有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

好看的娱乐类小说有哪些 娱乐类小说排行榜

不知道你们有没有发现,其实看小说也是一种乐趣,因为小说除了一些爱情家庭的小说之外,还有一些搞笑娱乐的小说,而这些搞笑娱乐的小说可以逗你开心,那么娱乐类小说排行榜有什么?1、《重生之影后再临》是1部原创现代言情小说,作…查看详情

有没有免费看动漫的软件呢?这几款软件值得推荐

相信在生活中,有很多人闲暇之余都比较喜欢看动漫,能够体验到动漫世界的乐趣,但是不少动漫或者是漫画都存在版权问题,也让大家追漫之路越来越难走。在这里为大家推荐几款免费看动漫的软件,看动漫的期间不会收取任何的费用,更…查看详情

没有注册的商标有风险,企业无法被法律保护还会损失利益

由于商标注册时间过长(至少一年半起),再加之商标注册通过率低,所以很多企业就使用起了没有注册的商标。虽说我国商标实行自愿登记,除强制注册商标的商品外,都可使用没有注册的商标,但这样对企业来说有极大的风险。图片来源…查看详情

什么是电商平台?应该怎么去扩大它的核心竞争力?

电商经济也叫互联网经济,近年来随着互联网的发展而迅速崛起。很多创业者都希望进入电商领域分得一份蛋糕,但是对于电商本身的了解并不充分,不明确什么是电商平台,不知道该怎么去扩大它的核心竞争力。图片来源网络什么是电商平…查看详情

韩寒小说出名的有哪些 韩寒小说排行榜

  “有时候挺可悲的,他们不在意这个人喜欢什么,就觉得你应该怎样。”  这是两年前,韩寒在被问及“怎么看待大家觉得你再也不是从前那个愤怒的韩寒了”时做出的回答。从一位叛逆、敢讥讽的写作者变成深谙世事的中年文青,韩…查看详情

企业网站应该怎么做才能达到营销的目的

随着电子商务和互联网的普及,越来越多的企业开始建设网站,期望通过网站给自己带来更多的业务,正是在这样的背景下营销型网站越来越受到企业的重视,都想通过营销型网站扩大自己的销售网络,带给企业更大的市场。但是并不是所有…查看详情

进口报关代理费收费标准

货物出口报关费用一般是多少?1、港口码头费:约RMB200—600元左右2、检验检疫费:约RMB150—400元左右(或约为货值的0.5%-0.3%)3、报关费:约RMB300—600元左右4、单证录入费:约RMB90—180元左右5、海关...查看详情

世界500强企业都在用的电子合同,为什么是大势所趋?

依托于互联网、云计算、大数据的发展,绝大部分的民事行为均可以在网络上完成,电子合同也随之兴起,很多人不仅听过,也用过,例如在P2P平台投资理财,在淘宝、京东消费购物,在美团、携程订机票、订酒店都要签电子合同。不仅仅是…查看详情

电商小程序运营“六大模式”

小程序对于中小品牌来说,是最适合不过的平台。单独的依靠微信庞大的流量,通过社交裂变,从而产生相应的品牌拓展效应。1、小程序+APP+公众号+社群小程序:超级APP全域生态用户流量累计20亿+,流量聚集的差异化生态平台悄然出现,成为…查看详情

手机p图软件有哪些? 手机十大p图软件排行榜

  康德说:美就是一种无利害的自由的愉悦,所以追求美的事物就是追求愉悦。  这种对于“美”的追求在当下这个互联网社会上展现得尤其明显,晒娃晒自己也好、晒风景美食也好,谁不想美美地出现在朋友圈里呢?  虽然大家都是…查看详情

php网站如何开发?

新手如何用php建站?您好,现在比较流行的建站语言有asp、php、asp.net等等,php因为是免费的东西,所以有很多企业开始都选择用php来建立自己的网站,同时php的更新速度比较快,有一定的发展潜力,我们想用php快速建站可以通过以...查看详情

服务器*件防火墙是什么?

  优质答案(1)  不一样,首先要看自己的财力,安装高级别防火墙,需要大资金,一般的容易被攻开,每道防火墙都有自己的定律,没有千篇一样的  优质答案(2)  防火墙是不一样的,不通用。防火墙可以采取多种形式,从专用设备,到…查看详情

盘点6款比较安全的手机系统修复软件

随着科学技术的不断进步,电脑和手机也普及,一些系统漏洞、故障也随之而来。系统修复软件对于手机是不可缺少的。下面是我给各位小伙伴们盘点的6款比较安全的手机系统修复软件,内容如下:1.金星系统恢复大师它是一款方便、快捷、…查看详情

盘点Win7yi键重装系统app

很多人用电脑时,很多时候可能会遇到一些系统上的问题,问题比较严重的时候可能就需要对电脑进行系统的重装哦,市面上有很多可以重装系统的软件,以下是我给大家的推荐。希望可以给大家提一些建议。1、魔法猪yi键重装1、很多用户可…查看详情

免费观看视频的app有哪些?有推荐的吗?

现在的人们在闲暇的时候,都比较喜欢看各种有趣的短视频,或者是一些影视剧,但是面对各个收费的APP,也十分的苦恼,其实只要大家有耐心,也能够找到一些可以免费观看视频的APP,这些APP不仅不收费,其中的资源也很齐全,那么免费观…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询