2021-01-08 11:55:41 阅读(188)
我刚和一个老朋友恢复了联系。她一直对数据科学感兴趣,但直到10个月前她才参与到这个领域——作为一名数据科学家,她加入了一个组织。我明显感觉到她在新岗位上学到了很多东西。然而,当我们聊天时,她提到了一个事实或问题,它仍然萦绕在我的脑海里。她说,无论她表现如何,每个项目或分析任务都应该在让经理满意之前多次完成。她还提到,事后经常发现不需要花那么多时间!听起来像你的经历吗?在得到像样的答案之前,你会反复分析很多次吗?或者一遍又一遍地为类似的活动写代码?如果是这样的话,这篇文章正好适合你。我将分享一些提高效率和减少不必要的重复工作的方法。注:请不要误会。并不是说迭代不好。本文的重点是如何识别哪些迭代是必要的,哪些是不必要的,需要避免的。数据分析中重复工作的原因是什么?我认为没有必要重复分析,没有添加新信息(后面提到的例外)。以下重复工作可以避免:1、对客户问题的诊断存在偏差,不能满足需求,因此需要重做。2、重复分析的目的是收集更多的变量,而你以前认为它们不需要。3、我以前没有考虑过影响你分析活动的偏差或假设,但后来我考虑过,所以我必须重做。哪些迭代是必要的?以下是两个例子。首先,你在6个月后建立了一个模型,然后有了新的信息,迭代是健康的。第二,你有意从简单的模型开始,逐渐深入理解和构建复杂的模型。这些例子并没有涵盖所有可能的情况,但我相信这些例子足以帮助你判断你的分析迭代是否健康。这些生产力杀手的影响?我们很清楚,分析中没有人想要不健康的迭代和生产力杀手。并非每一位数据科学家都愿意一边做一边增加变量,一边反复操作整个分析过程。由于不健康的迭代和失效,分析师和数据科学家会感到沮丧,缺乏成就感。所以让我们尽一切努力避免它们。提示:如何避免不健康迭代,提高效率?:只关注重大问题。每个组织都有许多小问题可以用数据来解决!但雇佣数据科学家的主要目的不是为了解决这些小问题。要在刀刃上使用好钢,应选择对整个组织影响最大的3-4个数据问题给数据科学家解决。这些问题通常是具有挑战性的,它们会给你的分析活动带来最大的杠杆(或收获充足或没有收获,想象一下借钱炒股)。当更大的问题没有解决时,你不应该解决小问题。听起来没什么,但实际上很多组织都没有做好!我看到很多银行没有用数据分析来提高风险评分,而是做营销。一些保险公司试图为代理机构建立奖励计划,而不是通过数据分析来提高客户留存率。技巧2:从一开始就创建了数据分析演示稿(可能的布局和结构),我一直在这样做,并从中受益匪浅。在项目启动后,构建分析演示稿的框架应该是第一件事。这听起来可能违背了常识,但一旦你养成了这个习惯,你就可以节省时间。如何构建框架?您可以使用ppt、word、或者用一段话来搭建框架,形式无关紧要。一开始就列出所有可能的情况很重要。例如,如果你试图降低坏账冲销率,你可以像下面一样布局你的演示:接下来,你可以考虑每个因素如何影响坏账冲销率?例如,由于向客户增加信用额度,银行坏账冲销率增加,您可以:首先,确定信用额度未增加的客户不会导致坏账冲销率增加。下一步,用一个数学公式来测量这种影响。一旦你考虑到了分析中的每一个分支,你就为自己创造了一个良好的起点。技巧3:提前定义数据需求数据需求直接来自最终分析结果。假如你已经对要做的分析和结果进行了全面的规划,那么你就会知道什么是数据需求。这里有几个提示可以帮助你:试着给数据需求一个结构:不仅要写下变量列表,还要分类思考分析活动需要哪些表格。以上提高坏账冲销率为例,您将需要客户人口统计表、过去营销活动统计表、客户过去12个月的交易记录、银行信贷政策变更文件等信息。收集你可能需要的所有数据:即使你不需要100%的所有变量,你也应该在这个阶段收集所有数据。这样做工作量比较大,但是比以后增加变量收集数据更有效率。定义您感兴趣的数据的时间间隔。技巧4:确保你的分析可以重现这个提示听起来很简单——但初学者和高级分析师很难掌握这一点。初学者将使用Excel执行每一步活动,包括复制和粘贴数据。对于高级用户来说,任何通过命令行界面完成的工作都可能无法重现。同样,使用记事本(notebook)需要格外小心。你应该克制自己修改以前的步骤,特别是当前面的数据已经被后面的步骤使用时。记事本在维护涉及前后数据勾稽关系的数据流方面表现非常强大。但是如果这种数据流在记事本中没有得到维护,它将是非常无用的。技巧5:没有必要一次又一次地重写标准代码库的简单操作。它不仅浪费时间,还会导致语法错误。另一个诀窍是在整个团队中创建一个常见的标准代码库并共享。这不仅保证了整个团队使用相同的代码,而且使它们更有效率。技巧6:很多时候,你会反复需要相同的信息来建立中间数据市场。例如,您将在多个分析和报告中使用所有客户信用卡消费记录。虽然每次都可以从交易记录表中提取,但创建包含这些表的中间数据市场可以有效节省时间和精力。同样,市场营销活动汇总表也不需要每次查询提取一次。技巧7:许多初学者低估了保留样本和交叉验证的强度,使用保留样本和交叉验证来防止过度拟合。许多人倾向于认为,只要训练集足够大,几乎没有拟合,所以没有必要交叉验证或保留样本。有了这个想法,最后往往会出错。我不仅这么说——你可以看看Kagle上任何比赛的公开或非公开排名。你会发现,当前十名中的一些人不再拟合时,他们的排名就不会下降。你可以想象这些都是高级数据科学家。技巧8:对我来说,最好的工作状态是集中2-3小时解决一个问题或项目。作为一名数据科学家,你很难同时完成多项任务。你需要以你最好的状态处理一个单独的问题。对我来说,2-3小时的时间窗口是最有效的,你可以根据个人情况自己设置。
以上就是关于什么原因导致了数据分析中的重复工作?的相关介绍,更多什么原因导致了数据分析中的重复工作?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对什么原因导致了数据分析中的重复工作?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一