分析百度开放云分布式计算平台对大数据的处理

2020-12-31 10:12:21 阅读（194） 评论（0）

百度开放云总经理刘洋认为，当今世界正面临着技术突破带来的全行业升级。在这场商业剧变中，背后有三个重要的问题「重新定义」：首先，重新定义云计算「IT」。它改变了企业所需的IT资源的所有权和供应模式。基于互联网资源管理平台，传统企业的IT模式完全改变，为新的商业创新提供了可能性；第二，大数据被重新定义「资产」，与以往的重资产相比，企业在经营中不断生成的数据将成为企业未来继续生存和保持竞争力的砝码；第三，人工智能被重新定义「效率」，传统计算机通过语音、图像、视频、自然语言识别和智能处理等技术，具有更强的能力，大大提高了工作效率。基于以上三个重新定义，百度开放云的重新堆栈也分为云计算层、大数据应用层和人工智能层三层。基于以上三个重新定义，百度开放云的重新堆栈也分为三层：云计算层、大数据应用层和人工智能层。处理大数据只有四个步骤：收集：原始数据类型、格式、位置、存储、及时性等。从异构数据源中收集数据，并将数据转换为相应的格式，便于处理。存储：根据成本、格式、查询、业务逻辑等需要，收集到的数据需要存储在适当的存储中，以便进一步分析。变形：原始数据需要变形和增强才能适合分析，如网页日志用省市取代IP地址、传感器数据纠错、用户行为统计等。分析:whathapened通过整理的数据分析、whyithappened、whatishapeningwhatwillhappen，帮助企业做出决策。事实上，如果涉及到“大数据”，我们必须提到百度最大的业务搜索。百度搜索已经收录了世界上一万多亿的网页，每天响应中国网民几十亿次的要求。此外，百度还有20多个用户超过1亿的产品线，每个产品底部的大规模数据处理都需要使用百度团队维护的大数据处理平台。百度分布式计算平台：Mapreduce首先介绍了离线引擎优化的主要离线计算模型——MapReduce，自2007年以来，百度引进了Hadoop0.15.1，随后发展迅速，2011年百度MR单集群达到5000台，到2013年已达到1.3万台，这也是迄今为止世界上最大的单集群。Hadoop全集群规模为10万量级，运营量达到100万量级，日均CPU利用率超过80%，远远超过行业同行。百度开云(http://cloud.baidu.com)世界领先的大规模集群调度、资源隔离等技术能力。百度在Hadoop性能分析方面除了不断扩大规模外，还进行了大量优化。根据2013年的测试结果，百度内部MR的性能比开源Hadop提高了30%。典型的优化，如Hadoop中的Shufle，百度将其制作成统一的Shufle服务，不再占用Map或Reduce槽。例如，SSE向量化用于关键热点函数。2014年，百度继续对计算引擎进行大幅优化，NativeC DAG引擎正式上线。下图是4轮MRJob实现的典型业务流示例。DAG引擎上线后，可以优化为DAG操作，避免磁盘IO和网络IO引入三个Reduce写多个副本，避免两个Map读HDFSIO和处理成本。下图是SQL计算表示层翻译的真实业务。基于MR引擎，SQL将翻译成25个MRJOB。如果百度优化为DAG，可以避免多次磁盘IO操作。优化后，运行时间直接缩短到1小时，优化前后的差异非常明显。2014年，百度对Shuffle进行了重大重构。实习生完成的Demo以Baidusort的名义参加了2014年SortBenchmark大数据排名国际大赛，并获得冠军(百度2015年不再参加，其他国内公司通过同样的技术通过更大的集群刷新记录)。新的Shuffle技术于2015年全面推出。基于磁盘Pull模式的Hadoop默认Shufle实现了计算过程显式、Shuffle、Reduce过程；Baidu开发的新Shufle采用内存流Push模式，Map端完成部分记录处理后，直接将计算结果从内存推到下游。例如，Map处理256MB输入数据，在内存流Shufle模式下，处理100条记录后，通过内存直接推到下游，形成流水线处理。不再有显式的Shufle阶段。目前，Shuffle组件是通用组件，正在逐步推广到其他分布式计算平台。百度分布式计算平台：在系统架构演变之前，我们重点介绍了百度开放云BMR服务中涉及的规模和性能优化思路和效果。接下来，让我们与您分享百度在整体架构中遇到的挑战和优化思路。在2012年的系统架构中，主要有两个离线计算平台，主要是Mapreduce模型BMR，主要是MPI/BSP模型BML。从下面可以看出，Mapreduce和MPI模型的底层*件差别很大。Hadoop分布式文件系统的多副本和强大的故障处理机制使Raid卡完全不必要。非常适合使用多个超大容量SATA*盘。MPI差别很大，MPI是一个消息传输框架，在设计之初就没有考虑过多的异常处理，所以对底层系统的可靠性要求很高。百度采用了非常高配置的服务器，如带Raid卡的Sas*盘、超大内存、万兆互联等。BMRHadoop由大量SATA*盘服务器组成，存储系统为HDFS，百度在资源调度层面有自主研发的ARK调度器(类似于社区Yarn)。在BML大规模机器学习平台上，支持的业务样本超过数百亿计量级，特征规模远超过100亿。在操作机器学习时，百度需要先启动Mapreduce，然后将数据从HDFS分发到每个MPI节点，这对网络带宽有很高的要求。虽然系统部门的同事不断改进内网带宽，但BML平台层面也在思考如何解决跨MR和MPI集群之间日益严重的网络带宽问题。另一个需求是：MPI是一个事务调度模型。例如，一个业务需要200台机器。如果此时平台只有199台机器是免费的，实际上很难使用（除非修改提交参数，但输入数据重新分块处理更为复杂）。此外，MPI计算通常分为计算、传输、计算等阶段（即BSP模型），因此资源利用波动较大，如CPU计算阶段、网络空闲、网络传输或全球同步阶段、CPU空闲。为了解决这个问题，百度将IDLE计算引入MPI集群，IDLE业务资源占用完全可控。Mapreduce等典型IDLE任务将进一步加剧MR集群和MPI集群之间的网络带宽问题。基于以上考虑，百度正式用高配置存储服务器替换MPI底层*件，*盘同构，文件系统采用HDFS，BML算法通过HDFS输入输出，不再是本地文件系统。BML机器学习执行发动机水平，百度基于MPI包装DVCE（DistributedVectorComputingEngine）分布式向量计算引擎屏蔽了MPI过低的编程接口，并通过高层抽象自动将其翻译成MPI任务。这是百度第二代专门为“并行计算”开发的系统框架。2014年，BML机器学习执行引擎迁移到ELF第三代并行计算框架。ELF采用Parameterserver架构，大大降低了机器学习算法的开发成本。与百度第二代框架DVCE相比，开发效率大大提高。在离线计算方面，NativeC已经完成 DAG引擎上线，百度内部叫DCE。（DistributedComputingEngine）。2014年，BMR和BML底层采用Matrix完成资源分配和隔离。基于业务需求的特殊性，其他平台，如小批量计算系统Taskmanager和毫秒计算延迟Dstream系统，采用独立的资源隔离和调度系统。2015年的架构改进主要是将所有计算模型迁移到Matrix Normandy架构。Normandy与社区Yarn调度接口兼容，开源社区新兴计算平台可以轻松访问百度的计算生态。百度已经介绍了百度大数据分析和挖掘平台的主要底层引擎和架构。接下来，让我们谈谈最新的想法。系统底层是IDC*件，然后是Matrix，然后是Normandy，然后是几个主要引擎。介绍了*件、调度、存储等底层结构的统一。事实上，每个系统的外部结果都有自己的界面。如果你想使用MR，许多人写MR程序是直接调用Hadoop本地界面，并配置多个参数。一些业务还需要流动系统来完成日志清洁，在Mapreduce模型批预处理后，然后通过ELF完成机器学习模型培训，最后通过Mapreduce模型完成模型评估，可以看出业务需要跨越多个模型，需要业务线学生熟悉许多模型和平台，每个模型都有自己的特点和接口。只有充分了解模型的细节和接口，才能真正充分利用模型。于是百度正式立项BigFlow项目(原项目名DataFlow，图片未来及修改)，屏蔽了模型的细节。平台自动决定选择合适的并发度，甚至智能选择该翻译成哪个计算模型。BigFlow可以支持多个不同的计算引擎(每个引擎在其合适的领域达到极致)，充分发挥每个引擎的性能和功能。因此，用户可以使用相同的接口对应不同的任务。由于采用高层抽象，业务开发效率大大提高，代码量大大降低，维护成本大大降低。BigFlow集成是一种常见的优化方法，因此平台的有效资源占用将大大提高。百度开放云-大数据智能最后，简要介绍百度开放云。2014年，百度正式决定正式提供服务内部业务多年的云计算技术，即百度开放云，对应官方网站http://cloud.baidu.com。在百度开放云大数据方面，BMR已经对外开放，而更多的大数据分析和服务尚未对外开放。BMR集群可以按需部署，用户专属。更重要的是，Hadop/Spark平台与开源完全兼容，基于Hadoop开放云客户、Spark、Hbase等已实现的大数据业务几乎可以顺利迁移到云上，无需修改。Palo，多维分析服务，与MySQL网络协议完全兼容，因此，客户朋友熟悉的MysqlClient工具都可以使用。同时，Palo支持JDBC、如果现有程序使用JDBC的ODBC编程接口、ODBC，那么迁移成本几乎为零。最后，我们可以看到它与行业主流BI工具商业分析工具对接，如Tableau、Saiku、BIEE、R。最终介绍了机器学习云服务BML，BML中提供的深度学习技术，曾获得2014年百度最高奖项。BML提供端到端解决方案，其算法多年来一直为百度内部业务服务，如网页搜索、百度推广（凤凰巢、网络联盟CTR估计等）、百度地图、百度翻译等。使用开放云BMR和BML、Palo等，可立即、直接享受与百度搜索同等质量的大数据分析与挖掘服务！

以上就是关于分析百度开放云分布式计算平台对大数据的处理的相关介绍，更多分析百度开放云分布式计算平台对大数据的处理相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分析百度开放云分布式计算平台对大数据的处理有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：针对京东的商品搜索系统架构设计，进行详细探讨。下一条：教程：使用Git或SVN方式上传代码文件到SAE