2021-01-06 10:01:25 阅读(168)
数据科学是从数据中提取信息的能力。一般认为,三大技能将有助于提高数据科学能力。它们是:行业知识背景(商业头脑)、技术/编程、数学/统计技能。在这项数据科学研究中,我们测试了数据科学家对25项不同数据科学技能的熟练程度(见图1)。我们将这25项技能分为行业、技术、编程、数学、统计和建模五个领域。图1:数据科学研究中测试的25项技能通过因素分析减少了维度。虽然我们可能会人为地将25项数据技能划分为这五个领域,但我们也可以看到数据能告诉我们什么。因此,我使用了因子分析法。当你的数据集中有很多变量时,因子分析是一种数据简化技术,希望适当减少变量数量。通常,因子分析检查多个变量之间的统计关系(如相关性),并尝试用较少的变量(因子)来呈现和解释这些相关性。这些简化的因素(变量)被用来解释你所研究的现象。矩阵表中显示了因子分析的结果。因子矩阵是N×M表格(N=原始变量数,M=潜在因素数)。各变量和潜在因素之间的回归系数(如相关系数)代表因子矩阵的元素。这些元素(或因子载荷)代表了变量与潜在因素之间的关系强度。因素分析结果将告诉我们两件事:1。因素的数量2。结论因素分析的使用本质上是一种探索性的分析,即不提前定义数据的结构。25种技能之间的实际关系模式促进了模型的结果。尽管为了最好地描述数据,需要人为地决定因子数,但因子数的选择也应该基于这个模型的结果。目前的因素分析目标是用尽可能少的因素来解释这25种技能之间的关系。因此,我有几个经验法则来决定因子数量(因子分析的输出结果)。特征值代表每个因素计算的公共方差所占的百分比。第一个经验规则是基于特征值大于整体(1.0)的数量,另一种方法是绘制标记(称为散点图)25个特征值来确定明显的断裂点。图2:从散点图2中可以看出,第三和第四个特征值之间有明显的断裂点,分析了25个数据科学技能熟练程度评级因素的特征值。因此,我选择使用三个因素来解释这25种技能之间的关系。三个因素可以解释25个数据技能熟练程度公共方差的62%。基于三因子分析方法,因子模型矩阵容易理解,25个数据技能熟练程度评级的因子分析模型矩阵见表1。表1:数据科学技能水平评级和因素关系矩阵表1用不同的颜色标记每行的最大值。这三个因素名的命名是基于这些更大的值。例如,许多数学和统计技能在因子1中具有很高的列值,因此我将其标记为数学/统计。技术/编程和行业分别用同样的方法标记。通过可视化的方法揭示数据科学的结构,你可以将这三个因素想象成三维空间中的坐标轴(x,y,z)。将25个数据技能通过使用值分布在空间中,您可以将这三个因素视觉化,如图3所示。图中的每一点都代表着一种特定的数据科学技能。每种技能都用不同的颜色代表与它相关的领域。数学/统计由绿色表示,商业由黄色表示,技术/编程由蓝色表示。另外,为了让读者能够从三维角度看到这张图,我将点与面连接起来,平面上的点代表空间点的z值。图3:用因子表达25项数据科学技能,可以看出这25项数据科学技能是如何聚集成三个不同的群体的,每个群体代表一个技能领域。少数技能在多个因素中具有较高的输入值,通过多种颜色表示,包括产品设计(商业技术/编程的输入值较高)、数据管理(技术/编程和数学/统计的输入值较高)、自然语言处理和文本挖掘(技术/编程和数学/统计的输入值较高)。综上所述,虽然数据科学由许多不同领域的技能组成,但数据科学技能可分为三个主要领域:学科相关专业知识(本文特别指商业知识)、技术/编程和数学/统计。通过分析和排序25种不同的数据科学技能,可以揭示一种三维解决方案。这一结果对数据人才和招聘人员都有帮助。如果你是一个数据人才,你有什么样的数据技能?结果表明,在三个技能领域,在一个领域拥有专业知识的数据人才往往在这个领域拥有其他相关技能。所以,我建议你先了解自己的才能。如果你有很强的数学/统计背景,你可以考虑在技能领域学习课程。如果你有很强的统计技能和统计思维能力,学习相关技能(如机器学习)比学习其他技能(如前端编程)更容易。这样,就可以顺藤摸瓜提高自己的竞争力。如果你是招聘人员,你的公司能否成功取决于你能否将候选人的技能与工作要求相匹配。数学/统计和技术/编程领域有许多不同的技能。你必须确保你理解候选人的特定技能。您可以使用表2中列出的技能作为评估候选人技能的起点。
以上就是关于25项不同的数据科学技能的相关介绍,更多25项不同的数据科学技能相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对25项不同的数据科学技能有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一