首页 >知识讲堂 >网站建设知识>TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点

TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点

2020-12-31 13:50:33 阅读(146 评论(0)

TA(TencentAnalytics,腾讯分析)是第三方站长的免费网站分析系统,在数据稳定性和及时性方面受到站长的广泛好评,其第二次实时数据更新频率也得到了业界的认可。本文将从实时数据处理、数据存储等方面带您深入探索TA的系统架构和实现原理。网站分析(WebAnalytics)主要是指根据网站的用户浏览行为,分析网站的点击流数据和运营数据,监控网站的运营状况,为网站的优化提供决策依据。网站分析系统已成为网站管理员日常运营中不可缺少的工具。业内流行的网站分析系统主要包括谷歌Analytics、CNZZ、百度统计等产品。TA作为网站分析产品的新星,在社区分析、用户肖像、网站工具等方面形成了自己的特点,其第二次实时数据更新频率是行业领导者。TA在数据稳定性、准确性和及时性方面也享有良好的声誉。随着接入业务量的不断发展,TA每天需要处理和计算的数据量达到TB级。要实现如此庞大的数据量,并确保系统的高可用性并不容易。TA的实时计算框架借鉴了业内流行的一些流式计算系统的思路。虽然在系统建设中遇到了一些问题,但由于大量数据的实时处理和实时存储具有一定的典型性和通用性,我分享了TA的解决方案,希望能给你一些启示。TA的基本原理和系统架构的基本原理是通过嵌入站长网站的JavaScript脚本收集用户访问行为数据,并发送TA收集群。收集群收到数据后,将其过滤、编码和格式化,然后继续向后分发。数据处理集群负责按照业务逻辑计算数据,并将计算结果“写入”到数据存储集群,最后向站长显示结果数据。TA的基本原理如图所示。TA背景是一个完整的数据流处理系统:JavaScript收集的用户行为数据像河流一样流入TA背景,清洗计算后流出TA存储集群,供用户浏览和查询。TA的具体结构和核心部件如图所示。TA的背景分为离线和实时两部分:实时部分负责系统的主要功能计算,数据更新频率为秒;离线部分负责复杂的关联分析和跨天计算,数据更新频率为天。HttpAccess:主要负责HTTP协议的分析、数据的清理和格式化。ESC:EventStreamingCoder,它主要负责将系统中不可枚举的数据类型编码成整形,并将相应的关系持久化。ESP:EventStreamingProcessor,主要负责根据站点和UID重新组织数据并计算PV、UV、网站分析指标,如停留时间和跳失率。ESA:EventStreamingAggregator,根据网站总结ESP计算的数据,并将其写入Redis。Center:负责系统配置、数据路由管理、容灾切换功能的系统中心节点。Logserver:负责将Access收集到的数据以字符串的形式写入文件,并上传到TDCP。TDCP:腾讯分布式计算平台负责离线数据的计算,结果数据由脚本写入MySQL。在实时解决方案之前,TA每天需要处理数十万个网站的TB级数据。处理后的URL数量仍然是数亿,系统存储的Key数量超过10亿。TA实时系统面临的主要挑战是如何高效、低延迟地处理如此多的业务数据。TA解决方案的主要思路可以概括为数据全二进制化、全内存计算和NoSQL存储。以下是实时计算和实时存储两个子系统的深入讨论。对于计算子系统,我们参考了Hadoopp、S4和Storm等开源项目试图设计为一个更通用、更可扩展的全内存实时Event处理系统(或流行术语称为流实时Event处理系统)。对此类系统,我们设计支持的典型输入输出过程大致如图所示。实时计算系统的设计要点是数据组织、协议和增量计算模型。数据组织。考虑到内存和计算过程的性能要求,我们将所有非int数据类型转换为int。可列举的数据类型将其配置映射成唯一的int;不可枚举的数据类型,使用MD5算法近似得到唯一的int。例如,如果页面URL属于无数类型,则通过MD5算法近似预处理获得唯一的int;UserAgent中的浏览器类型字符串属于可枚举数据,则预先将映射配置为int。该方法节省了更多的内存,提高了整个系统的计算性能。协议。在协议层面,我们首先设计实现了一种可扩展的Event结构,支持半自动序列化/反序列化机制(参考msgpack设计)和紧凑的二进制编码(基于Zigzag编码,参考Protobuf的实现)。这种Event结构在流式高性能I/O(网络传输和持久化)表现相当好。实时计算子系统设计为Event实现,可以扩展任何支持。增量计算模型。增量计算模型是指定义为以下三个部分的基本计算过程(如图所示)Processor:负责计算和处理具体的业务逻辑。DataHolder:负责保存增量结果数据和计算所依赖的中间状态数据。Emitter:负责定期输出清空增量计算结果。在流程方面,分为以下三个步骤(如图所示)。接收Event,计算处理—Processor。保存计算结果,计算依赖于中间数据—DataHolder。定期触发输出时间片中的计算结果,清空计算结果—Emitter。增量计算模型削弱了分布式系统中单台机器的交易状态,简化了分布式计算系统的实现,提高了整个系统的性能。实时存储在TA系统中,实时存储的数据是需要通过Web显示层读取的统计数据。这类数据有两个典型特征。频繁更新写作。更新频率取决于系统的实时性,每个统计结果的更新频率最快可达1秒。少量读取。与上述更新相比,“少量”。统计数据可根据业务逻辑分为两类。固定数据:主要是URL、搜索关键词等数据。理论上,这部分数据不断增加,不会修改旧数据。动态数据:主要是经常更新的结果统计数据。这部分数据需要不断更新。例如,www.qq.PV和UV在com域名下的统计结果。考虑到TA实时统计数据的特点,我们选择NoSQL实现我们的存储系统;同时,LevelDB和Redis分别用于存储两种不同的数据类型。实时存储Redista的主要部件。考虑到TA系统本身是一个相对完善的分布式集群系统,我们需要的存储部件是“notclustering,butsharding”。也就是说,像HBase和MongoDB这样的“重武器”并不适合TA,NoSQL数据库中的“瑞士军刀”Redis以其出色的性能进入了我们的视野。同时,TA的结果数据类型也比较丰富,就像站点PV一样、UV、VV、IP等Hash类型的数据也有用户访问轨迹等set类型的“动态数据”,而Redis丰富的数据结构很好地完成了这项任务。选择Redis的另一个原因是它足够简单,容易扩展。扩展Redis命令可以解决我们在实际应用中发现的所有问题。例如,TA中有一个应用程序场景:存储在Redis中的数据通常不是最终结果数据,而是需要进一步计算的中间数据,以消除ESA模块的状态。bouncerate这个指标(bouncerate=bouncesession数/totalsession数),需要前台查询两次,再做一次操作,最后显示给用户。在高并发的情况下,无疑会影响系统的响应速度。本着“移动计算而不是移动数据”的原则,我们对Redissort、hmget命令扩展,使其支持四个操作,并成功地将原来的两个查询优化为一个。扩展四个计算的另一个目的是“通过计算交换存储”。例如,需要将两种类型添加到组件总和的类型数据中,只能存储两种类型,并添加“通过计算交换”的总数据。除数据读取外,数据写入还可以优化类似的合并数据。例如,TA在写入URL的PV中、UV、VV、IP、当停留时间和bouncerate这六个指标时,需要调用6个Redis命令。事实上,这六个指标存储在同一个Hash中。通过扩展hmincrby命令,支持一次更改Hash的所有field,可以将调用次数优化到一次。上线后也取得了不错的效果,CPU在峰值时的利用率几乎下降了一半,同时上层模块ESA的吞吐量也大大提高。LevelDB是Redis的有效补充。考虑到Redis是一个内存数据库,使用内存的成本高于硬盘,因此选择引入基于磁盘存储的LevelDB作为补充。我们选择LevelDB存储“固定数据”,因为LevelDB的写作性能足够好,阅读性能远远超过了目前“在线少量阅读”的需求。在数据存储的架构设计中,由于实时数据服务和在线系统的可靠性要求较高,我们主要采用双写复制 Sharding的设计方法。双写复制。为了提高在线系统服务的可用性,所有数据存储将至少同步写两份。数据分片(Sharding)。基于域名:所有数据以域名为单位组织分片;任何域名都可以调整到任何分片;原则上,单个域名数据存储在一个分片中。动态调整(如图所示):只调整分片策略,不移动数据;根据数据量计算分片负载。另外,对于分片集群数据的查询,我们主要做了三项工作(如图所示)。Redisprotocolstack是一个相对完整的Redis协议栈,是上层应用的基础。直接使用Redis协议作为外部查询的通用协议,使外部用户可以通过当前的RedisClient直接查询访问数据。QueryRulengine是一个灵活的查询引擎。能够根据规则智能地在多个Redis中工作、查询LevelDB数据源,执行类join操作;还简单扩展其他异构数据源,如MySQL、HBase等。QueryComputeengine是一种实时查询计算引擎,可根据基本查询结果实时计算。本部分的主要目的是减少Redis数据空间的占用。展望未来,虽然TA已经在后台更新了数据秒,但显示模式仍然是传统的静态模式。后续TA会尝试更多的数据动态刷新,让站长第一时间了解网站的营销效果,时刻感受网站的心跳。

以上就是关于TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点的相关介绍,更多TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

输入法哪个好用呢?为大家推荐几款口碑不错的输入法

输入法是手机、电脑上必不可少的软件,无论是文档录入、表格编辑、打字聊天,都离不开输入法的支持。不过目前市面上的输入法琳琅满目,怎样选择一款好用的输入法便成为了许多人头疼的问题。那么,输入法哪个好用呢?下面就为大家…查看详情

美国奶粉品牌有哪些

  优质答案(1)  美国儿童权利优先,所以穷人家孩子总能得到政府提供的优质配方奶粉或者直接送来配方奶,喝完了就打电话再要。所以婴儿奶粉确实是有免费的。  曾有亲友在美国居然把喝不完的奶粉送来大陆给亲戚,一看原来就…查看详情

电脑录像软件哪个好用?怎么用电脑给自己录像?

随着科学技术的不断发展,很多工作都在电脑上操作。当我们遇到难题时,可以利用录像软件,进行电脑画面与语音结合,向别人请教。所以我给大家推荐6款好用的电脑录像软件,需要的朋友可以看看。1.超级录像大师它是一款支持录音录像…查看详情

如何做网站推广?网站运营推广方法是什么

现在只要是公司,不管大小企业都有属于自己的网站,因为有了网站之后,就等于在网站上有了自己的门面,能够更好的推广自己的产品,还能够找到更多意向客户,所以说网站建设非常重要,其实建好了网站之后,重要的还是后期的网站推…查看详情

2021年门店收银机系统选择哪些比较好,大致费用价格是多少?

许多小伙伴们都期待用收银机系统来控制自己的店面,应对层出不穷的手机软件,价钱相距又相对比较大,不知道如何选择,下面我就以服装行业(包含时装店、品牌鞋店、内衣专卖店、皮具箱包、家居家纺、母婴用品店等)店面为例子(别的…查看详情

关于2016年国庆节的放假 及2016年冬令制作息时间的通知

根据国务院办公厅通知精神,并结合公司目前的工作安排现状,现将公司2016年国庆节放假安排通知如下:2016年10月1日(星期六)至2016年10月7日(星期五)休息,共7天,10月8日(星期六)至10月9日(星期日)正常上班,(各分公司可根...查看详情

怎么在百度上推广自己的店铺

  在互联网时代,对于很多企业来说,推广宣传在很大程度上是决定一个企业发展的关键性因素。百度是国内使用最广泛的搜索引擎之一,它已经成为了首选搜索引擎,并在搜索结果页面中占据着绝对的主导地位,因此百度推广的方式成为…查看详情

民间推荐丨知识产权公司排名,仅供参考!

目前国家对知识产权公司的要求比较高,尤其是涉及专利业务的代理公司,需要根据国家的标准进行工商登记,过审之后才有资质进行专利业务。知识产权公司分为商标版权代理公司和知识产权代理公司,前者主要是做商标版权的业务,重在…查看详情

注册申请商标条件有两个,注意有八类商标不可进行注册

商标权所有人能够享有的权利大家都是十分了解的,但是要想成为商标权所有人并不是一件容易的事情,首先商标注册申请就必须要符合法律规定。下面就由小万为你介绍“注册申请商标条件”相关内容。图片来源于网络 ◆  两个…查看详情

人力资源管理软件有哪些?人力资源管理软件推荐

人事部门如果想要对一个公司等员工进行更好的管理,那么就应该要选择合适的软件,一般情况下都会选择比较好的人力资源管理软件,可以使用的软件是比较多的,不管是选择哪一款软件,只要找到了自己使用起来比较顺手的,就能够带来…查看详情

盒马鲜生首家购物中心将在深圳莲塘开业

我们得到最新消息盒马鲜生的全国首家购物中心“盒马里”将于11月23号开始试营业,11月30号正式营业。此次盒马鲜生的首家购物中心选择在深圳莲塘开业。盒马里将带给我们一种怎样的美食体验,让我们拭目以待。现在我们叫外卖已经非常方…查看详情

版权登记维权 | 先收集证据,之后有三种解决办法

由于可版权登记的作品类型众多,加之互联网的广泛传播,如今侵权现象屡屡不停。那么著作权人应该如何维护自己的专有权益?如何才能让侵权人停止侵权?版权登记维权,是一个令著作权人头疼的问题。 图片来源于网络 版权登记…查看详情

英语词典哪个好 2022英语电子词典排行榜

  在线学习风靡的时代,很多家长在带娃学英语时都倾向于使用app学习,但作为英语学习者,手头上有一本权威的英语词典还是非常必要的,下面万商云集小编给大家介绍下2022英语电子词典排行榜,希望能帮助到大家,  1、牛津儿童英英…查看详情

漫画制作软件有哪些 漫画制作软件排行榜

  最近几年很多的漫画出现在大家面前,也有很多的漫画爱好者自己制作漫画,下面小编就给大家来详细介绍一下漫画制作软件有哪些  漫画制作软件排行榜这一块的相关内容,希望能帮助到大家!  漫画制作软件排行榜  1、《…查看详情

疫情过后,生鲜电商服务该何去何从

疫情期间为了响应政府“少出门,少聚会”的号召,越来越多人开始使用生鲜电商服务,效果也是显而易见。随着疫情的过去,生鲜电商服务是否能持续保持低成本高流量呢?前期获得的新流量,是否能成功留存?接下来我们来聊聊疫情过后…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询