2021-01-11 10:28:23 阅读(282)
一、异常值是什么意思?请列出一种识别连续变量异常值的方法?异常值(Outlier)是指样本中的个别值,其值明显偏离所属样本的其他观测值。在数学统计中,一般是指一组观测值与平均值偏差超过两倍的标准差的测定值。Grubbs’test(Franke.Grubbs命名),又称maximumnormedresidualtest,是单变量数据集异常值识别的统计检测,假设数据集来自正态分布的整体。未知总体标准差σ,在五种检验方法中,优缺点是:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评:调查的内容是统计学的基本技能。二、什么是聚类分析?什么样的聚类算法?请选择详细描述其计算原理和步骤。聚类分析(clusteranalysis)将研究对象分为相对同质的组(clusters)统计分析技术。分类分析又称分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的区别在于,聚类所要求的分类是未知的。聚类分析计算方法主要有:层次分析方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。前两种算法是用统计定义的距离来衡量的。k-means算法的工作流程描述如下:首先,从n个数据对象中选择k个对象作为初始聚类中心;其他对象根据其与这些聚类中心的相似性(距离),分别分配给最相似的聚类(以聚类中心为代表);然后计算每个新聚类的聚类中心(聚类中所有对象的平均值);在标准测量函数开始收敛之前,不断重复这个过程。均方差一般作为标准测量函数.k聚类具有以下特点:每个聚类本身尽可能紧凑,而每个聚类之间尽可能分离。流程如下:(1)从n个数据对象中选择k个对象作为初始聚类中心;(2)根据每个聚类对象的平均值(中心对象),计算每个对象与这些中心对象之间的距离;并根据最小距离重新划分相应对象;(3)重新计算每个(变化)聚类的平均值(中心对象);(4)循环(2)、(3)直到每个聚类不再改变(标准测量函数收敛)。优点:本算法确定的K划分达到平方误差最小。优点:本算法确定的K划分达到平方误差最小。当聚类密集,且类与类之间存在明显差异时,效果较好。对于处理大数据集,该算法相对可伸缩和高效,计算的复杂性为O(NKt),N是数据对象的数量,T是迭代的次数。一般来说,K<<N,t<<N。缺点:1.K是提前给定的,但是很难选择;2.初始聚类中心的选择对聚类结果影响很大。评论:调查的内容是常用的数据分析方法,做数据分析必须了解数据分析算法、应用场景、使用过程、优缺点。三、按要求写SQL表A结构如下:Member_ID(用户ID,字符型)Log_time(用户访问页面时间、日期类型(只有一天的数据)URL(访问页面地址,字符类型)要求:提取每个用户访问的第一个URL(按时间最早),形成新表(新表为B,表结构与表A一致)createtableBasselectMember_ID,min(Log_time),URLfromAgroupbyMember_ID;点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。此外,这个答案实际上是错误的,有很多方法可以实现,让每个人都玩。此外,答案实际上是错误的。实现它的方法有很多。让我们玩。4、销售数据分析如下:B2C电子商务网站的每周销售数据。该网站的主要用户群是办公室女性,销售主要集中在五种产品上。如果你是这家公司的分析师,a)你从数据中看到了什么问题?你认为背后的原因是什么?b)如果你的老板要求你提出一个运营改进计划,你会怎么做?从本周的数据可以看出,周末的销售额明显偏低。原因可以从两个角度来看:从消费者的角度来看,周末可能不需要工作,所以没有购买产品的欲望;从产品的角度来看,产品不能在周末吸引足够的注意。b)鉴于这个问题背后的两个原因,我的运营改进计划也分为两个方面:一是指导和提醒消费者在周末准备产品;第二,通过一些类似于折扣促销的活动来提高产品在周末的知名度和购买力。点评:数据解读能力,获取数据是基本技能,只有数据获取能力是不够的,其次是数据解读能力。五、用户调查公司针对A、B、C三类客户提出了统一的改进计划,以提高客户的每周消费次数。您需要制定预测计划来支持决策。请考虑以下问题:a)测试需要为决策提供什么样的信息?c)根据上述目的,请写下您的数据抽样方法、需要收集的数据指标项和您选择的统计方法。a)测试可以证明改进计划可以显著提高A、B、C三类客户每周消费次数。b)根据三类客户的数量,采用分层比例抽样;需要收集的数据指标包括:客户类别、计划前周消费次数和计划后周消费次数;统计方法为:A、B、C三类客户,改进前后每周消费次数,两个独立样本T-检验(two-samplet-test)。点评:数据分析的核心竞争力是业务理解能力和数据分析思路。
以上就是关于阿里数据分析师的岗位面试题及要求的相关介绍,更多阿里数据分析师的岗位面试题及要求相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对阿里数据分析师的岗位面试题及要求有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一