盘点：数据分析常用的术语解释

2020-12-28 11:36:52 阅读（187） 评论（0）

今天我们来盘点一下数据分析中常用的术语解释。建议大家收集起来，方便查看。汇总按以下三类进行。1、互联网常用名词解释2、统计学名词解释3、数据分析名词解释1，互联网常用名词解释1、PV（PageView）页面浏览量是指在一段时间内访问网站或页面的用户总数，通常用于衡量文章或活动带来的流量效果，也是评估网站日常流量数据的重要指标。PV可以重复累积，以用户访问网站为统计依据，用户每刷新一次就重新计算一次。2、UV（UniqueVisitor）独立访问者是指来到网站或页面的用户总数。该用户是独立的。同一用户在不同时间访问该网站只是一个独立的访问者，不会重复累积。通常以PC端的数量作为统计依据。3、Visit访问是指用户通过外部链接到网站，从用户到网站到用户在浏览器中关闭页面的过程。Visit可以重复积累，比如我打开一个网站，关闭它，然后重新打开它，这被认为是两次访问。4、HomePage主页是指网站起主目录功能的页面，也是网站起点。通常是网站首页。5、LandingPage登陆页面是指用户从外部链接到网站直接跳转到的第一页。比如朋友给我发了一个淘宝链接介绍爆款t恤。我点击会议直接跳转到介绍t恤的页面，而不是淘宝上其他很多页面之一。这个介绍t恤的页面可以算是登陆页面。6、bouncerate跳出率是指用户通过链接来到网站，在当前页面上没有任何互动就离开网站的行为。即使这个页面增加了一个“跳出”，跳出率通常是针对网站的某个页面。跳出率=跳出本页的用户数/PV7、一般来说，退出率是针对某个页面的。指用户访问某个网站的某个页面后，从浏览器中关闭与该网站相关的所有页面，即使该页面增加了“退出”。退出率=本页退出的用户数/PV8、Click点击一般针对付费广告，指用户点击链接、页面、banner的次数，可重复累积。比如我在PC端看到一个新闻链接点进去看了一会就关了，过了一会就点进去看了一遍，即使我为这个新闻贡献了两次点击。9、avr.time的平均停留时间是指用户访问某个页面并在页面上停留时间的平均值，通常用于衡量一个页面内容的质量。avr.time=访客数量/用户总停留时间100、CTR点击率是指广告，Banner、URL被点击次数与被浏览总次数之比。一般用于评估广告的排水效果。CTR=点击数（click）/用户看到的次数为11、Conversionrate转换率是指用户完成设定转换环节的次数和总会话人数的百分比，通常用于评估转换环节的质量。如果转换率较低，则迫切需要优化转换环节。转化率=转化会话数/总会话数12、漏斗通常是指目标转换前的明确过程，如在淘宝购物，从点击商品链接到查看详细信息页面，然后查看客户评估，收到商户优惠券，然后填写地址，付款，每个链接都可能失去用户，这要求商家必须做好每个转换环节，漏斗是评价转换环节的指标。13、投资回报率（ROI：ReturnOnInvestment）反映投入产出之间的关系，衡量我的投资是否值得，能给我多少价值（不仅仅是利润），这是从投资或长期业务的角度来看的。计算公式为：投资回报率（ROI）=年利润或年均利润/总投资总额×100%通常用于评估企业对某项活动的价值。ROI高意味着项目价值高。14、重复购买率是指消费者在网站上的重复购买次数。15、Referrer引荐流量通常是指将用户引导到目标页面的URL(超链接)。在百度统计中，推荐流量被称为“外部链接”。16、流失分析（ChurnAnalysis/AttritionAnalysis）描述哪些客户可能停止使用公司的产品/业务，并确定哪些客户的损失将带来最大损失。损失分析的结果是为可能丢失的客户准备新的折扣。17、顾客细分&画像（CustomerSegmentation&Profiling）根据现有客户数据，对具有相似特征和行为的客户进行分类和分组。对每组进行描述和比较。18、客户生命周期价值(LifetimeValue,LTV)客户在他/她的一生中为一家公司产生的预期转换利润。19、购物篮分析（MarketBasketAnalysis）识别交易中经常同时出现的商品组合或服务组合，如经常一起购买的产品。这类分析的结果用于推荐附加商品，为展示商品的决策提供依据。20、实时决策（RealTimeDecisioning,RTD）帮助企业做出实时(几乎没有延迟)的最佳销售/营销决策。例如，实时决策系统(评分系统)可以在客户与公司互动的瞬间，通过各种商业规则或模型对客户进行评分和排名。21、保留/客户保留（Retention/CustomerRetention)指建立后能长期维持的客户关系的百分比。22、社交网络分析（SocialNetworkAnalysis,SNA）描述和测量人与人、组与组、机构与机构、计算机与计算机、URL与URL、以及其他类型的信息/知识实体之间的关系和流动。这些人或组是网络中的节点，它们之间的连接表示关系或流动。SNA为数学和视觉分析人际关系提供了一种方法。23、生存分析（SurvivalAnalysis）估计客户继续使用某项业务的时间，或在后续时间内丢失的可能性。这些信息可以让企业判断预测期的客户保留情况，并引入适当的忠诚度政策。二、统计学名词解释1、绝对数和相对数绝对数：是反映客观现象在一定时间和地点的总规模和总水平的综合指标，也是数据分析中常用的指标。如年GDP、总人口等。相对数：指由两个相关指标计算而成的值，是反映客观现象之间数量紧密性的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式:相对数=比较值(比数)/基础值(基数)2、百分比和百分点百分比：是相对数之一，他说一个数是另一个数的百分之几，也成为百分比或百分比。百分比分母为100，即以1%为测量单位，便于比较。百分点：指不同时期以百分点的形式表示的相对指标的变化幅度，1%等于1个百分点。3、频率和频率：数据在整体中的次数。频率：事件发生的次数与事件总数的比率。频率通常以比例或百分比表示。4、比例与比例：指每个数据在整体中所占的比例，通常反映整体构成与比例，即部分与整体的关系。比率:是样本(或整体)中不同类别数据之间的比率。因为比率不是部分和整体之间的比较关系，所以比率可能大于1。5、倍数和倍数倍数：通过一个数据除以另一个数据获得，倍数通常用于表示上升和增长，而不是减少。番数：指原数2的n次方。6、同比和环比同比:指与历史同时期数据相比获得的比值，反映事物发展的相对性。环比:指与上一个统计时期的值进行比较获得的值，主要反映事物的逐步发展。7、变量变量来自数学，是计算机语言中可以存储计算结果或表示值的抽象概念。可通过变量名访问变量。8、在统计学中，根据变量值，变量可分为连续变量和离散变量。可以在一定范围内任意取值的变量称为连续变量，其值是连续的，相邻的两个值可以无限分割，可以取无限的值。例如：年龄、体重等变量。9、离散变量离散变量的变量值以整数断开，如人数、工厂数、机器台数等，只能按整数计算。只能通过计数法获得离散变量的值。10、定性变量，又称分类变量：当观测个体只能属于几个不相容的类别之一时，通常用非数字来表达其类别。这些观测数据称为定性变量。可理解为可分类的变量，如学历、性别、婚姻等。11、平均值是平均值，平均值是指一组数据集中趋势的数量，是指一组数据中所有数据之和除以这组数据的数量。12、对于有限的数集，中位数可以通过对所有观察值进行排序来找出中位数。若观察值有偶数，通常以中间两个值的平均值作为中位数。13、缺失值是指现有数据集中某个或某个属性的值不完全。14、缺失率某属性的缺失率=数据集中某属性的缺失值数/数据集总行数。15、异常值是指一组测定值与平均值偏差超过两倍标准差的测定值，与平均值偏差超过三倍标准差的测定值，称为高异常值。16、当概率论和统计方差测量随机变量或一组数据时，方差测量离散程度。中方差用于测量随机变量及其数学期望(即均值)之间的偏差程度。统计中的方差(样本方差)是每个样本值与整个样本值平均值之差的平均值。在许多实际问题中，研究方差是偏差程度具有重要意义。方差是衡量源数据与预期值之间差异的测量值。17、在标准差的中文环境中，又称平方差，是离平均差平方的算术平均数的平方根σ表示。标准差是算术平方根的方差。标准差可以反映数据集的离散程度。两组平均数相同的数据，标准差不一定相同。18、皮尔森相关系数皮尔森相关系数是用来反映两个变量线性相关性的统计量。相关系数用r表示，n是样本量，分别是两个变量的观测值和平均值。r描述了两个变量间线性相关强度的程度。r的绝对值越大，相关性越强。19、相关系数相关系数是统计学家卡尔·皮尔逊最早设计的统计指标。它是研究变量之间线性相关性的数量，通常用字母r表示。由于研究对象的不同，定义相关系数的方法有很多，皮尔森相关系数更为常用。20、特征值是线性代数中的一个重要概念。广泛应用于数学、物理、化学、计算机等领域。A是向量空间的线性变换。如果空间中的一个非零向量通过A变换获得的向量与X只有一个常数因素，即AX=kX，它被称为a的特征值，X被称为a的特征值k的特征向量或特征矢量。三、数据分析术语解释A聚合(Aggregation)：搜索、合并和显示数据的过程。算法(Algorithms)：数据分析的数学公式可以完成。分析法(Analytics)：用来发现数据的内在含义。异常检测(Anomalydetection)：在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies用来表示异常的词有以下几种:outliers,exceptions,surprises,contaminants.它们通常可以提供关键的可执行信息。匿名化(Anonymization)：匿名数据，即删除所有与个人隐私相关的数据。分析客户关系管理（AnalyticalCRM/aCRM）：支持决策，改善公司与客户的互动或提高互动的价值。收集、分析和应用有关客户的知识以及如何有效接触客户的知识。B行为分析法(BehaviouralAnalytics)：这种分析方法是根据用户的行为得出结论，如“怎么做”、“为什么这样做”和“你做了什么”，而不仅仅是一门针对角色和时间的分析学科。它专注于数据中的人性化模式。批量处理（Batchprocessing）：虽然批量处理已经出现在大型计算机时代。由于大数据集的处理，批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集大量数据的有效途径。商业智能（BusinessIntelligence）:分析数据和显示信息，帮助应用、设施、工具和过程，企业的执行者、管理层和其他人员做出更有根据的商业决策。C分类分析(Classificationanalysis)：从数据中获取重要相关信息的系统化过程；这些数据也被称为元数据(metadata),是描述数据的数据。云计算(Cloudcomputing)：构建在网络上的分布式计算系统，数据存储在机房外(即云)。集群计算（Clustercomputing）：这是一个使用多个服务器收集资源的“集群”计算术语。节点、集群管理层、负载平衡和并行处理的概念将涉及到更技术性的词汇。聚类分析(Clusteringanalysis)：它是将相似的对象聚合在一起，将每个相似的对象组合成一个聚类(也称为簇)的过程。这种分析方法的目的是分析数据之间的差异和相似性。冷数据存储(Colddatastorage)：将那些几乎不用的旧数据存储在低功耗服务器上。但是检索这些数据需要很多时间。对比分析(Comparativeanalysis)：在非常大的数据集中

以上就是关于盘点：数据分析常用的术语解释的相关介绍，更多盘点：数据分析常用的术语解释相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对盘点：数据分析常用的术语解释有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：数据分析岗位可很宽泛杂乱，该如何学习？下一条：用人单位较为看重的数据分析能力是什么？