2020-12-28 13:52:23 阅读(127)
当我读到这篇文章时,我非常感动。我踩过大部分坑。许多学生刚毕业参加工作,或者刚转行进入大数据领域。对于学生来说,他们可能更关注模型的优化和算法的改进,而数据通常是固定的,因为这样,我们就可以评估不同算法的优缺点,但来到公司后,一切都反过来了。算法和模型可能是一样的,数据是决定最终结果的关键。这篇文章给了你几个数据科学家刚开始工作时很容易踩到的坑。让我们看看他们是否被抓住了。这篇文章给了你几个数据科学家刚开始工作时很容易踩到的坑。让我们看看他们是否被抓住了。你终于成为了一名数据科学家,你参加了Kagle的比赛,你疯狂地看了Coursera的课程。你觉得你已经准备好了,但数据科学家的现实生活可能与你所期望的不同。这篇文章列出了早期数据科学家容易犯的五个错误。这个列表是Dr.Sé与bastienFoucaud一起整理,Dr.Sébastienfoucaud在学术界和工业界指导年轻数据科学家已有20多年的经验。这个博客主要是为了帮助你准备成为一名数据科学家。我们开始1。进入“Kagle一代”,你参加了Kagle比赛,练习你的数据科学技术。你可以建立决策树和神经网络,这很好。但说实话,你做的不像真正的数据科学家。记住一个常用的规则,把80%的时间花在处理数据上,剩下的20%的时间来构建模型。在很多方面,成为“Kagle一代”是有帮助的,数据通常清理得很好,你可以花很多时间来调整你的模型。然而,事实并非如此。你需要从不同的地方收集数据。这些数据有不同的格式和命名方法。做这些困难的工作,完善你的技术,花80%的时间在数据预处理上,从API上捕捉图片,从Genius上收集歌词,为特定的问题准备数据,然后开始机器学习的生命周期。毫无疑问,成为数据预处理的专家会让你成为你公司最重要的数据科学家。2.神经网络是所有解药深度学习模型,在计算机视觉和自然语言处理方面超过其他机器学习方法,但也有明显的缺点。神经网络非常吃数据。对于少量样本,你会发现决策树或逻辑回归模型往往更好。神经网络基本上是一个黑盒子,在可解释性方面很有名。如果产品经理闻到这个模型的输出,你需要解释这个模型,传统模型就容易多了。这个博客上有很多优秀的统计学习模型。你可以自学,了解这些模型的优缺点,并根据你的使用场景使用不同的模型。除非你的工作领域是计算机视觉或自然语言处理,否则使用传统机器学习的可能性仍然很大。在许多情况下,你会发现简单的模型,比如逻辑回归,是最好的模型。3.机器学习是指在过去的几十年里,产品机器学习受到了高度赞扬和大量宣传的痛苦。许多初学者认为机器学习可以解决所有的问题。机器学习本身不是一种产品,机器学习是创造满足用户需求的强大工具。如果用户需要准确的项目推荐,可以进行机器学习。如果用户需要准确识别图像中的物体,可以进行机器学习。如果公司需要向用户推送有价值的广告,可以进行机器学习。作为一名数据科学家,你需要计划一个项目,把用户的目标作为你的首要任务,然后评估机器学习是否能做到。4.混淆了过去几年的因果关系,产生了90%的数据。随着大数据的出现,机器学习实践者获取数据要容易得多。如此多的数据需要评估,学习模型随机相关性的机会也随之增加。上图显示了美国小姐的年龄和所有死于蒸汽、热量和热量的物体的总数。给出这个数据,学习算法会学到美国小姐年龄对死于特定物体的人数的影响,反之亦然。但事实上,这两个数据并不相关。在探索数据中的模式时,使用你的专业知识可能是一个原因或关系吗?回答这个问题是从数据中获取行为的关键。5.优化和部署错误的测量。机器学习模型符合敏捷的生命周期。首先,您定义了一个思想和关键测量指标。第二,您通过构建原型给出结果。第三,您继续优化以满足您的关键测量指标。在构建机器学习模型时,记住手动做错误分析。这个过程非常困难和费力,但它将帮助你在下一个迭代中有效地改进你的模型。看看这篇文章,里面还有一些其他的提升模型的技巧,吴恩达的DeeplearningSpecialization.年轻的数据科学家花了很多时间在公司身上。他们很年轻,可以通过在线课程立即创造价值。他们经常自学。一些大学为数据科学家提供学位,这可以提供保证。他们对这个领域充满热情,渴望学到更多。记住上面提到的陷阱,成功开始数据科学家的第一份工作。关键点:练习数据管理,学习不同模型的优缺点。模型越简单越好。最有价值的指标是通过原因vs的相关性来检查你的结论,优化
以上就是关于数据科学的这5个坑,你踩过吗?的相关介绍,更多数据科学的这5个坑,你踩过吗?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据科学的这5个坑,你踩过吗?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一