2020-12-29 14:13:13 阅读(143)
写这篇文章的时候,是我在Quantuminventions数据科学家实习结束前的最后一天。现在,我坐在笔记本屏幕前,回顾过去几个月的学习之旅,感慨万千。请原谅我,作为一名物理学家,所有从事物理学的人都相信这一点:提出正确的问题,通过正确的推理寻求真理。事实上,提出正确的问题无疑是重要的数据科学家(稍后解释)。为了让您对本文有一个概念,本文主要分为三个步骤:实习前、实习期间和实习后,让您了解我的学习过程。根据你目前的学习阶段,你可以跳到本文的任何部分,让我们现在开始。在实习开始之前,我仍然清楚地记得,我在2017年11月期末考试后的第二天开始阅读教科书:统计导论:基于R应用程序(AnIntroductiontoStatisticalLearning — withApplicationsinR),这是我第一次在非常基本的统计层面接触机器学习。在我掌握了这些概念之后,我开始学习Andrewng在Coursrea上教授的机器学习课程。这门课很受欢迎。事情并不像一开始看起来那么容易,但安迪总能吸引人们的注意力。虽然他教的概念很复杂,但他简化了这些概念,其他人都能消化。我认为这就是让我真正痴迷于机器学习的方式。试试看,你会发现这个流行词“机器学习”并不像它听起来那么复杂。我敢打赌!同时,我还学习了人工智能的另一个关键领域——深度学习。为了让你知道看似奇怪的术语,请看神经网络的解释,以及如何使用神经网络来计算任何函数。如果你需要像我一样的可视化来了解神经网络在阅读我建议的文章后是如何工作的,请访问此网站[1](见文章末尾)。在此网页中,您点击“Play按钮可以观察神经网络是如何分类和回归的。不是很酷吗?在2017年12月开始实习之前,我已经为阅读、工作和学习做好了充分的准备。实习期间,Quantuminventions专注于利用其集成的移动应用套件为消费者、企业和政府提供移动智能。它们还提供了企业物流和分析平台。我是公司第一个加入R&D和分析团队的数据科学家实习生。在最初的几天里,我被介绍给公司的优秀同事,看到了行业中的各种通信术语和令人兴奋的项目。我最喜欢的实习之一是,作为一名实习生,公司给了我信任和自由,我可以选择我感兴趣的项目,并全力以赴!令我惊讶的是,我意识到我是这个项目的先驱,因为以前没有人做过这个项目。虽然这项研究存在不确定性和困难,但当没有人做某事时,就会有人去研究,这就是我所感激的。为什么这么说?这很简单,因为我有机会从零开始体验真正的数据科学工作流程(如果不是全部)。因为这些都是我在数据科学领域建立的基础,所以请允许我在这篇文章中简要列出我所经历的工作流程。我希望这些能给你一些帮助。1.了解业务问题所选项目是对公路短期旅行时间的预测。然而,正如我所说,数据科学家提出正确的问题是非常重要的。无论是可用的数据源,还是项目的最终目标(即使我离开项目后),都要在项目完成前提出很多问题,才能真正理解真正的业务问题。本质上,我们的目标是使新加坡高速公路的行驶时间预测比目前的基线估计更准确。2.收集数据源接管新项目后,我非常兴奋,开始从数据库和同事那里收集数据源(基本上是在办公室四处走动,询问数据源问题)。收集正确的数据源,就像你从不同的网站获取数据进行数据预处理一样。这项工作很重要,因为它可能会影响你在后期建立的模型的准确性。3.数据预处理要知道,现实世界的数据很脏。我们不能寄希望于Kagle提供格式好、清洗过的数据。因此,数据预处理非常重要(其他人可能称之为数据整理或数据清理),因此我不能再强调它的重要性。数据预处理是最重要的阶段,因为它可以占整个工作过程的40%~70%,只是为了清理将为您提供模型的数据。我喜欢数据科学的一点是,你必须对自己诚实。当你不知道你在哪里无知,你认为预处理的数据足够干净,并准备为你的模型提供数据时,就有风险:用错误的数据构建正确的模型。换句话说,如果数据在技术上符合你所拥有的领域知识,你应该始终试图质疑自己,严格审查数据,检查整个数据集中是否有其他异常值、缺失或不一致的数据。在我错误地将错误的数据输入到模型中后,我非常小心,只是因为预处理步骤中有一个简单的缺陷。4.经过一些研究,我为项目提出了支持向量回归的四个模型。(SupportVectorRegression,SVR)、多层感知器(MultilayerPerceptron,MLP)、长短期记忆网络(LongShortTermMemory,LSTM)和状态空间神经网络(StateSpaceNeuralNetworks,SSNN)。为了简洁起见,您可以在网络上找到上述模型的详细说明。为了简单起见,您可以在互联网上找到上述模型的详细描述。对我来说,从零开始构建不同的模型是一条陡峭的学习曲线,因为我仍然在MOOC和教科书中学习。幸运的是,Scikit-learn和Keras(带TensorFlow后端)帮我解决了这个问题,因为在Python中很容易获得快速的模型原型和实现。此外,我还学会了如何优化模型,并使用几种技术来微调每个模型的超参数。5.为了评估每个模型的性能,我主要使用以下指标:平均绝对误差(MeanAbsoluteError,MAE);均方误差(MeanSquaredError,MSE);可决系数(CoefficientofDetermination(R2))。在此阶段,重复步骤3~5次(可交换),直到确定最佳模型,足以超过基线估计值。实习结束后,实习肯定再次激发了我对数据科学的热情。我非常感谢我的工作能给我未来的工作留下一些吸引力。研发阶段、与不同利益相关者沟通所需的技能、用数据解决业务问题的好奇心和热情(这里只举几个例子)都有助于我对这个领域感兴趣。数据科学行业还很年轻。对于像我们这样的求职者来说,对这个行业的职位描述似乎有点模糊和模糊。如果你没有所有你需要的技能,这是正常的,因为大多数职位描述都是理想化的,以满足雇主的最佳期望。如果你有问题,你只需要从MOOC开始、在书籍和文章中学习基础知识(我现在还在做),并将你学到的东西应用到你的个人项目或实习中。耐心点,因为学习需要时间。享受你的学习过程,因为...当你有问题时,从MOOCs开始、在书籍和文章(我现在还在做的)中学习基本原则,并将你所学到的应用到你的个人项目或实习中。要有耐心。学习之旅确实需要时间。津津有味地学习你的旅程。因为..最后,旅程结束后,问题依然存在:你学到了什么?那是你想要的吗?感谢您的阅读。我希望这篇文章能为您提供一些简单的(非详细的)数据科学工作流程和我的学习过程文档。
以上就是关于到数据科学实习是什么体验?真实经历告诉你的相关介绍,更多到数据科学实习是什么体验?真实经历告诉你相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对到数据科学实习是什么体验?真实经历告诉你有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一