2020-12-29 14:28:32 阅读(161)
你为成为数据科学家做好了充分的准备。你参加了Kagle比赛,看了很多Coursera课程。你觉得你已经准备好了,但数据科学家的实际工作将与你的期望大不相同。本文探讨了数据科学家新手的五个常见误解。这是我在Sé在bastienfoucaud博士的帮助下,他有20多年的学术和行业指导年轻数据科学家的经验。本文旨在帮助您更好地走向数据科学家的进步之路。误区1热衷于参加Kaggle比赛,您通过参加Kaggle比赛来练习数据科学技能。最好掌握决策树和神经网络。但事实上,作为一名数据科学家,你不需要完成这么多模型集成。通常,你会花80美元%数据预处理的时间,剩下的20个%构建模型的时间。参加Kagle比赛的好处是给出的数据非常干净,所以你有更多的时间来调整模型。然而,这种情况在实际工作中很少发生。您需要使用不同的格式和命名来总结不同来源的数据。你需要做的是掌握你大部分时间要做的事情,即数据预处理。比如抓取图像或者从API收集图像;从Genius收集歌词数据等。准备好解决特定问题所需的数据,然后将其输入计算机,开始机器学习的生命周期。掌握数据预处理无疑将极大地帮助你成为一名优秀的数据科学家,从而使你在公司的决策中发挥重要作用。神经网络可以解决计算机视觉和自然语言处理领域的所有深度学习模型,但也有明显的缺点。神经网络需要大量的数据。如果样本较少,最好使用决策树或逻辑回归模型。众所周知,神经网络很难解释和解释,所以也被称为“黑匣子”。当产品负责人或主管质疑模型输出时,您需要解释,而传统模型更容易解释。有许多优秀的统计学习模型,您需要了解其优缺点,并根据具体任务应用相关模型。传统机器学习算法的成功率会更高,除非用于计算机视觉或自然语音识别等专业领域。你很快就会发现,简单的模型,如逻辑回归,是最好的模型。误解3机器学习是一种产品,在过去的十年里,机器学习一直受到高度赞扬,许多初创企业认为机器学习可以解决任何存在的问题。来源:谷歌机器学习指数趋势机器学习在过去五年中永远不应该是一种产品。机器学习是生产满足客户需求的产品的强大工具。机器学习可用于准确识别图像中的对象,帮助企业向用户展示有价值的广告。作为一名数据科学家,为了充分利用机器学习,你必须制定一个满足客户需求的计划。误解4混淆因果关系约90%这些数据是在过去几年中产生的。随着大数据的出现,机器学习从业者可以获得大量的数据。学习模型更容易发现随机的相关性,因为有大量的数据需要分析和评估。上图显示了美国小姐的年龄和蒸汽、热蒸汽和发热物体造成的谋杀总数。根据这些数据,算法会发现美国小姐的年龄和某些物体导致谋杀之间的模式。然而,这些数据点实际上是无关的,这两个变量对其他变量没有预测作用。在数据中发现模式时,应用您的专业知识。是相关性还是因果关系?回答这些问题是从数据中得出分析和见解的关键。错误5优化错误指标开发机器学习模型遵循敏捷的生命周期。首先,定义概念和关键指标。然后,将结果原型化。然后,不断改进,直到指标让你满意为止。记得在构建机器学习模型时进行手动错误分析。虽然这个过程繁琐费时费力,但它可以帮助你在迭代中有效地改进模型。年轻的数据科学家可以为公司提供巨大的价值。他们通常自学成才,因为很少有大学有数据科学学位。与此同时,他们也有强烈的好奇心,对自己选择的领域充满热情,渴望了解更多的知识。对于刚进入这个行业的数据科学家,我们必须注意上述误解。注意以下几点:练习数据管理,研究不同模型的优缺点,使模型尽可能简单,检查结论中的因果关系和相关性,优化最有希望的指标
以上就是关于数据分析初期常见的5个误区的相关介绍,更多数据分析初期常见的5个误区相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据分析初期常见的5个误区有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一