2021-01-04 09:21:34 阅读(152)
为了更好地实现个性化视频推荐,优酷土豆于2009年开始使用Hadoop大数据平台进行数据分析和挖掘。一开始整个平台只有十几个节点,到2012年集群节点已经达到150个,2013年甚至达到300个。然而,随着数据量的快速增长和业务的快速发展,优酷每天处理的数据量已经超过200TB。优酷土豆的技术人员发现,有些场景不适合Mapreduce处理。 优酷土豆大数据平台已使用多年,核心业务数据量的增长和数据处理速度的不平衡已成为优酷土豆大数据平台的主要瓶颈。这个问题主要表现在三个方面:首先,在BI方面,分析师在提交任务后需要等待很长时间才能得到结果。其次,在进行一些模拟广告时,优化和筛选的计算量非常大,对计算效率的要求也很高。Hadoop消耗资源过多,响应缓慢。同时,Mapreduce不仅在机器学习和图计算的迭代运算上消耗了大量资源,而且处理速度也不尽如人意。 优酷土豆集团大数据团队大数据平台架构师傅杰说:“虽然很多互联网企业都在用Mapreduce来处理自己的业务,但由于优酷的视频量在2亿左右,目前视频关系量在10亿左右,这个级别的数据量用Mapreduce来计算CPU的资源消耗,而计算效率相对较低。单纯依靠Mapreduce框架已经不能满足视频推荐、广告效果预测等场景对实时性和准确性的要求。” 如何打造优酷土豆Hadoop平台? 目前,傅杰先生主要负责优酷土豆集团大数据基础平台的建设,支持集团其他业务团队的存储和计算需求,包括Hadoop平台、日志采集系统、实时计算系统、新闻系统和天机镜系统。据了解,优酷Hadop平台的发展主要有以下几个阶段: 平台建设期:本阶段主要解决安全问题、总体规划、制定相关流程等技术问题; 平台开发期:这一阶段主要是在集团内部进行推广,伴随着各种需求,解决各种问题,修改相关流程,使平台进入稳定、高可用的水平; 平台稳定期:本阶段主要从优化资源、内部培训调整、统计资源消耗合理性、构建自动优化流程等方面入手。 “现阶段,我们主要研究Hadoop1.X到Hadoop2.0升级计划,预计明年初将升级Hadoop。 “现阶段,我们主要研究Hadoop1.X到Hadoop2.0升级计划预计将在明年年初升级Hadoop。今年,我们还建立了基于Storm的实时计算平台和kafka消息系统,并将其推广到集团的在线业务中,并逐步进行流程运营。傅杰老师说。 新手如何入门Hadoop? 据傅杰先生介绍,目前国内Hadoop发展趋势良好,各大企业对Hadoop的需求也比较旺盛。与此同时,越来越多的行业应用Hadop。但目前存在的问题是,Hadoop的优秀技术人才短缺。那么,对于想踏入Hadop领域的新手来说,应该如何入门呢? 傅杰老师的建议是: 1.经常关注Hadop官方网站; 2.深入了解Hadoop原理,如HDFS、MapReduce。并考虑用Hadoop解决当前企业的哪些应用; 3.阅读Hadop相关书籍。据悉,傅杰先生翻译的《Hadoop实战手册》目前将于年底出版,这本书也非常适合新手阅读; 4.建立环境实战,比如试着跑wordcount。Spark/英特尔Shark 为此,在英特尔的帮助下,优酷土豆率先尝试了Spark/Shark内存计算框架,以解决多次迭代和复杂算法。英特尔以其计算实力而闻名,在软件优化、方案设计、Scala语言培训等方面为优酷土豆提供了各种帮助,其优秀的软实力和对整个行业的深入洞察力与优酷土豆的需求一致。 优酷土豆大数据平台作为一家典型的互联网公司,主要用于广告、日报、推荐系统等核心业务。随着低延迟、高实时要求的应用场景的增加,Spark/Shark在快速报表、交互式查询、Ad-hoc查询、机器学习和迭代算法等方面的优势吸引了优酷土豆。Spark/Shark可以每次弹性分布式数据集(RDD)操作后的结果存储在内存中,下一个操作可以直接从内存中读取,节省了大量的磁盘IO,大大提高了效率。 在瞬息万变的互联网市场上,用户的个性化需求越来越大。将Spark/Shark集成到优酷土豆原有的大数据平台后,用户偏好分析Top-N列表计算等方面看到了喜人的变化。“与前几年不同的是,为了更准确地为用户推荐视频,我们不再简单地匹配视频的元信息。我们用图来计算视频和视频之间的相似关系。利用图片计算,我们将收集到的视频图谱进行聚类,然后向用户推荐。优酷土豆集团大数据团队技术总监陆学宇表示:“通过测试和比较,我们发现计算相同规模的数据量过去需要80多分钟,而四个节点的Spark集群的计算时间缩短到5.6分钟。” Hadoop和Spark/Shark结合的结构不仅使计算资源得到更协调的利用,而且改善了优酷土豆的大数据分析,而且减少了重复视频推荐和浏览量的影响列表。优酷土豆作为国内视频行业第一家部署Spark/Shark解决方案的公司,在Spark/Shark方面的经验对整个视频行业具有突出的价值。未来,双方将继续深入合作,进一步优化整体计划,与更多的行业合作伙伴分享,帮助他们更好地解决业务中的大数据挑战。
以上就是关于Hadoop集群技术在大数据和推荐系统中为优酷所起到的关键作用的相关介绍,更多Hadoop集群技术在大数据和推荐系统中为优酷所起到的关键作用相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对Hadoop集群技术在大数据和推荐系统中为优酷所起到的关键作用有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一