2021-01-06 14:18:03 阅读(154)
摘要:百度“数据分析之道主要内容是什么?数据分析(道)–什么是数据分析?–做好数据分析的关键是什么?–分析要考虑业务,尤其是脚踏实地的气体–摘要:1)数据分析是什么?有效的数据分析方法(术语)常见的统计陷阱内容是什么?字面拆解:数据 分析骨肉方成一个人–骨架(主)分析–血肉(附)常见错误数据–只有数据:机器报表不好吗?–只有分析:你是瞎猜吗?2)做好数据分析的关键是什么?数据分析的核心:思维>方法–思路:业务研究 逻辑思考 创新灵感 可行建议–方法:总结统计,MakeitSimple数据分析的价值和定位(切忌喧兵夺主)–百度T序列不注重数据分析(数据分析能力难以评价)–麦肯锡的一份分析报告卖了几千万(只有简单的统计)–数据分析对企业有很大的价值,作用于业务发展前(探索)期或阶段性改进期(颠覆性创新),在确定业务模型之前进行数据分析,然后进行建模优化(机器学习)数据分析人才–同样的数据,仁者见仁智者见智,分析人才的不可复制性–做好数据分析的人可能不是老板,但至少能做军师数据分析的方法是什么?字面分解:数据 分析骨肉方成一个人–骨架(主)分析–血肉(附)常见错误数据–只有数据:机器报表不好吗?字面拆解:数据 分析骨肉方成一个人–骨架(主)分析–血肉(附)常见错误数据–只有数据:机器报表不好吗?–只有分析:你是瞎猜吗?做好数据分析的关键是什么?数据分析的核心:思维>方法–思路:业务研究 逻辑思考 创新灵感 可行建议–方法:总结统计,MakeitSimple数据分析的价值和定位(切忌喧兵夺主)–百度T序列不注重数据分析(数据分析能力难以评价)–麦肯锡的一份分析报告卖了几千万(只有简单的统计)–数据分析对企业有很大的价值,作用于业务发展前(探索)期或阶段性改进期(颠覆性创新),在确定业务模型之前进行数据分析,然后进行建模优化(机器学习)数据分析人才–同样的数据,仁者见仁智者见智,分析人才的不可复制性–做好数据分析的人可能不是老板,但至少当军师分析的时候,要考虑业务,尤其是脚踏实地的数据分析,重新调查–方法上,基本统计就够了–在调查中,亲临一线询问,了解实际情况,接近“数据幻想”–只有熟悉业务,才能提供有价值的分析和建议。客户流失仅仅是推广效果不理想吗?我们真的只是想分析一下,分析要言之有物,行之有效的数据分析吗?价值–分析报告的及格线是“言之有物”-事实–优秀的线条是“震耳欲聋”或“启蒙”-分析–满分线是一个切实有效的行动计划——建议分析实例:我们处于市场领先地位,分析次要竞争对手近期发展的数据–及格线:竞争对手发展势头强劲,市场份额如何变化?–优秀线:尽管竞争对手最近发展迅速,但事实上,他的突出优势是X,缺点是Y,未来可能会采取什么行动,市场上的其他竞争对手也不容忽视–满分线:对于竞争对手的可能行为,我们需要改进以下几个方面:加强A的优势、B、C,与X达成进一步的战略合作关系,并收购Y等汇总统计来源:用单个数或数的小集合捕获可能是大值集的各种特征–频率测量:众数–位置测量:平均和中位数–散度量:极差和方差–数据分布:频率表、直方图–多元汇总统计:相关矩阵、协方差矩阵汇总数据指标的设计,源于非常简单的思维标准差:想要设计一个指标,可以用来衡量数据集的发散性,经过以下思考–可以测量每个样本的偏差累积(realnum–mean)加和–偏差较大的值应具有较大的权重(realnum–mean)^2–集合数越多,方差越大,应该与集合大小无关。((realnum–mean)^2)–量纲不同于原始数据,无法与Sqrt相比(Mean((realnum–mean)^2))–最终结果,RMSE汇总统计——在美国总统选举的各种民意测试中,支持率的一个常用标准是信心度为95%(误差在于 -2.5%以内,置信区间宽度为5%),那么需要多少人才能达到这样的标准呢?计算N=1067至少需要1000个样本才能满足需求–Z0.025=1.96,通过R语句qnorm(0.025,low=F)得到–n是样本的数量,n越大,信心范围越小–p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大汇总统计-详细拆除与汇总之间的权衡,当数据量充足时,添加一些维度,更详细地拆除,使每个小格里的样本更加相似,结论更加准确,但数据不足或分拆不会导致结论变化,因此结果不会失去统计意义。OLAP概念-总结统计的终极工具机器学习-为什么work有一个例子“毛泽东吸烟比林彪活得更久”,并建议人们不要吸烟?–概率分布问题,“人”和“命运”–虽然我们选择了一种健康的生活方式(尽我们最大的努力),但我们必须听命运(我们是正态曲线的好尾巴还是坏尾巴),但命运的整体分布可以变得更好(如果没有额外的吸烟信息,如何从一组寿命数据中预测?–目标:MSE作为评价指标,MSE越小越好–方法:如果数据正常分布,中位数(即峰值)作为预测值,使MSE通过以上两点最小化,证明吸烟信息对预测有效。如果一个人吸烟,我们预测他会活到70岁,否则如果75岁有更多的饮酒信息呢?精心挑选的平均实例:当数据分布呈现正态分布特征(钟形曲线)时,社区业主申请减税vs出售房屋,平均值、中位数和众数都落在同一点。精心挑选的平均实例:当数据分布呈现正态分布特征(钟形曲线)时,社区业主申请减税vs出售房屋,平均值、中位数和众数都落在同一点上。当数据分布成偏差特征(类似滑梯)时,平均值、众数和中位数相差甚远。以书思今,学以致用–分布和平均分布一样重要–两个特例往往会使数据的统计结果发生很大的变化。同样的数据,在2010年的前六个月,使用产品的客户数量从最初的2w增加到每月100个。缺失或不匹配的比较实例1(缺失的比较)–临床上,这种药能在10分钟内杀死5w感冒病毒–没有意义的例子2(不匹配的比较),因为数据缺失了比较对象–与此同时,纽约市民的死亡率为0.9%,而纽约市民的死亡率为1.6%,得出结论,参军是安全的。–比较对象不清楚,或者根本无法比拟,也是以书思今,学以致用的常见情况–为何评价策略效果要有对照组?抽样实例偏差–10枚硬币扔1000次,总会有10个正面或9个正面。–全国人民喜欢看到油价上涨,水价听证会反馈价格上涨影响不大–采用偏差样本可以产生任何人需要的结果。在抽样统计中,我们应该充分考虑抽样过程对样本的偏差,以及这种偏差对我们的结论的影响,学以致用–分层抽样挂羊头卖狗肉的推理实例–公司与工会发生摩擦,因此公司进行了“调查”,统计有多少员工对工会不满。“大多数(78%)员工反对工会,因此有必要取消工会,”该公司公布了这一结论。该公司宣布,“大多数(78%)员工反对工会,因此有必要取消工会。”–360打官司老败诉,腾讯打官司总胜诉,周鸿祎:“真是东方不败!与腾讯强大的法律事务相比,我们实力不强,自愧不如!“最常见的表现是把两件看起来非常相似的事情混淆在一起,得出似是而非的推理。笑一下–小品《卖拐》中“脚麻”的桥段
以上就是关于什么是做好数据分析的关键?的相关介绍,更多什么是做好数据分析的关键?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对什么是做好数据分析的关键?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一