首页 >知识讲堂 >网站建设知识>TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点

TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点

2020-12-31 13:50:33 阅读(157 评论(0)

TA(TencentAnalytics,腾讯分析)是第三方站长的免费网站分析系统,在数据稳定性和及时性方面受到站长的广泛好评,其第二次实时数据更新频率也得到了业界的认可。本文将从实时数据处理、数据存储等方面带您深入探索TA的系统架构和实现原理。网站分析(WebAnalytics)主要是指根据网站的用户浏览行为,分析网站的点击流数据和运营数据,监控网站的运营状况,为网站的优化提供决策依据。网站分析系统已成为网站管理员日常运营中不可缺少的工具。业内流行的网站分析系统主要包括谷歌Analytics、CNZZ、百度统计等产品。TA作为网站分析产品的新星,在社区分析、用户肖像、网站工具等方面形成了自己的特点,其第二次实时数据更新频率是行业领导者。TA在数据稳定性、准确性和及时性方面也享有良好的声誉。随着接入业务量的不断发展,TA每天需要处理和计算的数据量达到TB级。要实现如此庞大的数据量,并确保系统的高可用性并不容易。TA的实时计算框架借鉴了业内流行的一些流式计算系统的思路。虽然在系统建设中遇到了一些问题,但由于大量数据的实时处理和实时存储具有一定的典型性和通用性,我分享了TA的解决方案,希望能给你一些启示。TA的基本原理和系统架构的基本原理是通过嵌入站长网站的JavaScript脚本收集用户访问行为数据,并发送TA收集群。收集群收到数据后,将其过滤、编码和格式化,然后继续向后分发。数据处理集群负责按照业务逻辑计算数据,并将计算结果“写入”到数据存储集群,最后向站长显示结果数据。TA的基本原理如图所示。TA背景是一个完整的数据流处理系统:JavaScript收集的用户行为数据像河流一样流入TA背景,清洗计算后流出TA存储集群,供用户浏览和查询。TA的具体结构和核心部件如图所示。TA的背景分为离线和实时两部分:实时部分负责系统的主要功能计算,数据更新频率为秒;离线部分负责复杂的关联分析和跨天计算,数据更新频率为天。HttpAccess:主要负责HTTP协议的分析、数据的清理和格式化。ESC:EventStreamingCoder,它主要负责将系统中不可枚举的数据类型编码成*,并将相应的关系持久化。ESP:EventStreamingProcessor,主要负责根据站点和UID重新组织数据并计算PV、UV、网站分析指标,如停留时间和跳失率。ESA:EventStreamingAggregator,根据网站总结ESP计算的数据,并将其写入Redis。Center:负责系统配置、数据路由管理、容灾切换功能的系统中心节点。Logserver:负责将Access收集到的数据以字符串的形式写入文件,并上传到TDCP。TDCP:腾讯分布式计算平台负责离线数据的计算,结果数据由脚本写入MySQL。在实时解决方案之前,TA每天需要处理数十万个网站的TB级数据。处理后的URL数量仍然是数亿,系统存储的Key数量超过10亿。TA实时系统面临的主要挑战是如何高效、低延迟地处理如此多的业务数据。TA解决方案的主要思路可以概括为数据全二进制化、全内存计算和NoSQL存储。以下是实时计算和实时存储两个子系统的深入讨论。对于计算子系统,我们参考了Hadoopp、S4和Storm等开源项目试图设计为一个更通用、更可扩展的全内存实时Event处理系统(或流行术语称为流实时Event处理系统)。对此类系统,我们设计支持的典型输入输出过程大致如图所示。实时计算系统的设计要点是数据组织、协议和增量计算模型。数据组织。考虑到内存和计算过程的性能要求,我们将所有非int数据类型转换为int。可列举的数据类型将其配置映射成唯一的int;不可枚举的数据类型,使用MD5算法近似得到唯一的int。例如,如果页面URL属于无数类型,则通过MD5算法近似预处理获得唯一的int;UserAgent中的浏览器类型字符串属于可枚举数据,则预先将映射配置为int。该方法节省了更多的内存,提高了整个系统的计算性能。协议。在协议层面,我们首先设计实现了一种可扩展的Event结构,支持半自动序列化/反序列化机制(参考msgpack设计)和紧凑的二进制编码(基于Zigzag编码,参考Protobuf的实现)。这种Event结构在流式高性能I/O(网络传输和持久化)表现相当好。实时计算子系统设计为Event实现,可以扩展任何支持。增量计算模型。增量计算模型是指定义为以下三个部分的基本计算过程(如图所示)Processor:负责计算和处理具体的业务逻辑。DataHolder:负责保存增量结果数据和计算所依赖的中间状态数据。Emitter:负责定期输出清空增量计算结果。在流程方面,分为以下三个步骤(如图所示)。接收Event,计算处理—Processor。保存计算结果,计算依赖于中间数据—DataHolder。定期触发输出时间片中的计算结果,清空计算结果—Emitter。增量计算模型削弱了分布式系统中单台机器的交易状态,简化了分布式计算系统的实现,提高了整个系统的性能。实时存储在TA系统中,实时存储的数据是需要通过Web显示层读取的统计数据。这类数据有两个典型特征。频繁更新写作。更新频率取决于系统的实时性,每个统计结果的更新频率最快可达1秒。少量读取。与上述更新相比,“少量”。统计数据可根据业务逻辑分为两类。固定数据:主要是URL、搜索关键词等数据。理论上,这部分数据不断增加,不会修改旧数据。动态数据:主要是经常更新的结果统计数据。这部分数据需要不断更新。例如,www.qq.PV和UV在com域名下的统计结果。考虑到TA实时统计数据的特点,我们选择NoSQL实现我们的存储系统;同时,LevelDB和Redis分别用于存储两种不同的数据类型。实时存储Redista的主要部件。考虑到TA系统本身是一个相对完善的分布式集群系统,我们需要的存储部件是“notclustering,butsharding”。也就是说,像HBase和MongoDB这样的“重武器”并不适合TA,NoSQL数据库中的“瑞士军刀”Redis以其出色的性能进入了我们的视野。同时,TA的结果数据类型也比较丰富,就像站点PV一样、UV、VV、IP等Hash类型的数据也有用户访问轨迹等set类型的“动态数据”,而Redis丰富的数据结构很好地完成了这项任务。选择Redis的另一个原因是它足够简单,容易扩展。扩展Redis命令可以解决我们在实际应用中发现的所有问题。例如,TA中有一个应用程序场景:存储在Redis中的数据通常不是最终结果数据,而是需要进一步计算的中间数据,以消除ESA模块的状态。bouncerate这个指标(bouncerate=bouncesession数/totalsession数),需要前台查询两次,再做一次操作,最后显示给用户。在高并发的情况下,无疑会影响系统的响应速度。本着“移动计算而不是移动数据”的原则,我们对Redissort、hmget命令扩展,使其支持四个操作,并成功地将原来的两个查询优化为一个。扩展四个计算的另一个目的是“通过计算交换存储”。例如,需要将两种类型添加到组件总和的类型数据中,只能存储两种类型,并添加“通过计算交换”的总数据。除数据读取外,数据写入还可以优化类似的合并数据。例如,TA在写入URL的PV中、UV、VV、IP、当停留时间和bouncerate这六个指标时,需要调用6个Redis命令。事实上,这六个指标存储在同一个Hash中。通过扩展hmincrby命令,支持一次更改Hash的所有field,可以将调用次数优化到一次。上线后也取得了不错的效果,CPU在峰值时的利用率几乎下降了一半,同时上层模块ESA的吞吐量也大大提高。LevelDB是Redis的有效补充。考虑到Redis是一个内存数据库,使用内存的成本高于硬盘,因此选择引入基于磁盘存储的LevelDB作为补充。我们选择LevelDB存储“固定数据”,因为LevelDB的写作性能足够好,阅读性能远远超过了目前“在线少量阅读”的需求。在数据存储的架构设计中,由于实时数据服务和在线系统的可靠性要求较高,我们主要采用双写复制 Sharding的设计方法。双写复制。为了提高在线系统服务的可用性,所有数据存储将至少同步写两份。数据分片(Sharding)。基于域名:所有数据以域名为单位组织分片;任何域名都可以调整到任何分片;原则上,单个域名数据存储在一个分片中。动态调整(如图所示):只调整分片策略,不移动数据;根据数据量计算分片负载。另外,对于分片集群数据的查询,我们主要做了三项工作(如图所示)。Redisprotocolstack是一个相对完整的Redis协议栈,是上层应用的基础。直接使用Redis协议作为外部查询的通用协议,使外部用户可以通过当前的RedisClient直接查询访问数据。QueryRulengine是一个灵活的查询引擎。能够根据规则智能地在多个Redis中工作、查询LevelDB数据源,执行类join操作;还简单扩展其他异构数据源,如MySQL、HBase等。QueryComputeengine是一种实时查询计算引擎,可根据基本查询结果实时计算。本部分的主要目的是减少Redis数据空间的占用。展望未来,虽然TA已经在后台更新了数据秒,但显示模式仍然是传统的静态模式。后续TA会尝试更多的数据动态刷新,让站长第一时间了解网站的营销效果,时刻感受网站的心跳。

以上就是关于TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点的相关介绍,更多TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

刷机软件到底哪一个比较好?这5款值得考虑

因为大家每个人对刷机软件的需求都不一样,我们对手机的技能就掌握的不一样,但是呢?有的人使用的是苹果手机,有的人使用的是安卓手机,但我们应该如何操作呢?刷机软件到底哪一个比较好?我们必须得尝试一些不同的电脑刷机软件…查看详情

六款实用的PPT制作软件

无论是大学生还是办公室职员,大家对PPT制作软件一定不陌生,在平时的学习或工作过程中,我们都会使用PPT制作软件。在这里,我将分享一些实用的PPT制作软件。一、officePlusOfficePlus是微软Office的官方在线模板网站。包...查看详情

阿里店铺如何运营?这2点是关键!

近年来,网购成为人们生活中不可或缺的一部分。随着互联网不断发展,许多人也学会在网上开店,从而缩小成本,扩大市场范围,获得更多收益。很多人也靠网店发家致富,那么网店究竟应该怎么运营才能获益最大化呢?那我们就谈谈最具…查看详情

推荐几款功能强大的无线网络管理软件,功能好用到飞起

无线网络管理软件可以很好的帮助我们更好的管理无线网络,以及保护无线网络的网络安全。那么,wifi管理用什么软件?我今天为大家整理出来了几款好用的无线网络管理软件推荐给大家!1.共享精灵这款软件是一款完美的精品软件,解决没…查看详情

值得用的3款优质智能数据分析软件推荐

在这个科技发达的时代,越来越多企业家为满足人们的日常生活需求而随之上市。但不是每一个企业都能够稳步发展,为了能够更加便利客户的需求以及公司的发展,*在这里里为大家整理了3款优质智能数据分析软件推荐,有兴趣可了解。 …查看详情

云邮箱是什么?

  云邮箱是一种基于云计算技术的电子邮件服务,其主要特点是用户的邮件数据存储在云端服务器上,而非传统的个人计算机本地存储。通过云邮箱服务,用户可以在任何网络连接的设备上随时随地访问和管理自己的邮件,无需受到地域、…查看详情

市面上常见的拍照相对优秀的几款手机,苹果仅排第三

在如今的日常生活中手机不再仅仅是一种通话工具。它的功能越来越有趣。手机摄影功能日渐强大到已经足以取代相机,照相手机是很多人选购手机时的重要考量。其轻巧便携的特点能让使用者随时随地拍下一张又一张精美的照片。*精选了一…查看详情

互联网产品运营方法涉及到的主要内容和最终目的

互联网产品运营可以解释为用运营技巧辅助产品在互联网渠道进行销售,一般来说都是产品为主,运营为辅。互联网产品运营方法所涉及到的主要内容包括市场运营、用户运营、内容运营、社区运营及商务运营等。图片来源于网络市场运营:…查看详情

企业网站代运营可以为企业带来四大好处

随着互联网的发展,线下企业转型线上搭建网站,于是出现了企业网站代运营服务。刚转型线上的企业,要组建一个专业的运营团队需要美工、文案人员、运营人员等会有大量的时间成本和人力成本,但企业网站代运营可直接解决此问题,帮…查看详情

黄仁勋:9岁闯荡美国,现被称为“硅谷最好斗的男人”

在硅谷,他被称为最好斗的男人。在牛人遍地的硅谷,黄仁勋是唯一一个被誉为,可以比肩亚马逊的贝佐斯和特斯拉的马斯克的华人。这位1963年出生的科技大佬,不爱格子衫,也不爱白衬衣黑西裤,一件标志性的皮衣像极了中年摇滚歌手。尽…查看详情

windows10怎么进dos然后格式化

  Windows10进入MS-DOS命令行  MS-DOS命令行是一种字符界面控制台,它可以让我们通过输入命令来操控系统,很多高级用户和程序员经常使用它进行各种操作,比如格式化*盘、修复系统文件、安装驱动程序等,本节将介绍如何在Windo...查看详情

企业应该如何选择代运营公司

电商行业发展这么多年,如今的电商行业已经非常成熟,很多人都选择通过网络创业,有人买就有人卖,各行各业就像蝴蝶效应一样,随机伴随而来的相关产业也应运而生,比如说网店代运营公司,在近几年网店代运营公司就像雨后春笋一样…查看详情

编程自学书籍有哪些?

自学编程书籍?1、《实战Java程序设计》这是一本既注重实战,同时也注重底层“内功”训练的书,非常适合初学者阅读!2、《程序员修炼之道——从小工到专家》这本是指导程序员从低等级向高等级转变的必要圣经。每一篇幅都需要仔细阅读…查看详情

淘江湖入口在哪里?淘江湖有什么用?

聚划算怎么没有分类了?有啊,淘宝聚划算的入口已经换位置了,由淘宝首页的左角处移到了正上方,就是“首页”过来依次“淘宝商城”然后就是“聚划算”了,还有首页的“网站导航”那里,你把鼠标停在那里,就可以在“淘江湖”下面看…查看详情

好玩的网页游戏有哪些 十大网页游戏排行榜

    玩游戏我们可以先看一下别人玩什么游戏,然后如果感兴趣的话,你也可以根据别人玩的游戏去玩耍,当然我们也可以先了解一下十大网页游戏排行榜有什么,了解了排行榜从排行榜中做选择的话,会节省很多的时间,能在短时间之…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询