2020-12-28 17:34:05 阅读(147)
今天,我将结合我在数据科学中探索的经验,与大家谈谈数据科学的话题。共享的对象是工程师、产品经理、运营商和所有对数据科学感兴趣的读者。数据科学家需要哪些素质?数据科学家是目前硅谷和中国稀缺而热门的职业,优秀的数据科学家很少。数据科学家这个职位,对专业和综合素质都有很高的要求,需要“一专多能”数据科学家应该有能力指导业务和基于数据的分析和预测。具体来说,需要具备的质量包括:大数据平台的实践经验,了解企业业务,了解数学软件和编程,掌握分析理念,熟悉算法和编程。因此,数据科学是一个对业务思维能力、数学建模能力和工程开发能力要求较高的行业。然而,成为一名好的数据科学家并不局限于教育背景或领域。我一起工作过的优秀数据科学家来自不同的领域。在成为数据科学家之前,他们中的一些人在金融行业进行证券分析,一些人研究流行病的传播,一些人搜索宇宙中超新星的爆发,一些人从事脑神经科学的研究。正是来自不同专业领域的经验给数据科学行业带来了不同的风景。流行病传播模型采用twitter、facebook等社交网络来研究流行内容的传播。脑神经科学理论广泛应用于人工智能领域。我的stitchfix前同事有一些物理Ph.D.来自普林斯顿的高等研究所(即爱因斯坦、冯·诺伊曼、奥本海默等大神工作过的地方)。他们以前从宇宙射线的数据中搜索超新星,但现在他们正在研究女装的动态库存。然而,业内顶尖的数据科学家都有扎实的商业思维、建模和动手能力。要成为一名优秀的数据科学家,首先需要系统的量化科学培训,在今天的网络发展中,我们可以找到丰富的免费学习材料。二是培养“大胆假设、数据验证”的思维框架,刻意用这个思维框架来解释生活和工作中的问题。数据科学家可以分为什么类型?数据科学家可以分为两类:Analytics和Machinelearning,但也有很多人兼顾两个角色,在工作中相互转换,就是戴两顶帽子(wearingtwohats)。前者通过AB测试、深度分析等方式指导产品决策,而后者则构建智能决策产品,提高效率。Analytics大多是以问题为导向的,比如用户在购物平台上的工作时间和下班后消费习惯的差异。一开始可以对用户进行整体分析,然后在结果的基础上进行更详细的分析。可根据城市、地理位置、用户使用的客户端对用户进行分类细化。整个过程是互动的,即不断提出新问题,通过分析解决问题,然后提出新问题,最终目的是做决策辅助。Machinelearning主要由指标驱动,如提高广告平台上用户的转化率。转换率是从用户点击广告到生成转换(如用户访问广告商网站并下载APP)的比率。最终生成智能产品,通过应用预测模型或调参当前系统来提高指标。数据科学的一般工作流程是什么?下图是基本的数据科学过程:首先收集原始数据(企业的客户关系管理数据、交易记录等),以及网站点击或用户应用程序中行为的埋藏日志。之后,预处理原始数据,也称为数据清理。原始数据会有很多冗余、变量缺失和错误。基于清洗过的数据,可以进行探索性分析和机器学习建模。尿片和啤酒是探索性分析的经典案例。很多分析师会对商品信息进行分类,监督商品的相关性。一般来说,大多数商品的相关性都很低,约为0.1,啤酒与尿布的相关性约为0.3。针对这一奇怪的现象,分析师们分析了一下,发现很多父亲晚上去超市给宝宝买尿布,自己喝啤酒。这样,超市在放置商品时,可以将相关性高的商品放在一起,方便顾客选择。因此,对于数据科学来说,通过数据分析和建模,可以获得一些令人信服的信息,便于做决策辅助。此外,数据产品分为分析产品和智能产品。分析数据产品。如果您了解北京目前的实时交通状况,您可以爬取在线数据,并对这些数据进行一些可视化和交互式分析。这样,数据产品就可以显示数据并定期更新数据内容,这是一个分析数据产品。智能数据产品。例如,基于机器学习的搜索引擎、广告推荐系统等,基于数据决策的系统自动收集数据。工作中有趣的故事?以下是以前在stitchfix工作中的一些例子。stitchfix是哈佛商学院毕业生Katrinalake于2011年成立的服装电子商务公司,旨在解决城市白领女性购物的痛点。中国有很多stitchfix的模仿者,甚至唯品会也推出了类似stitchfix的唯您产品。在stitchfix注册时,用户需要填写详细的个人风格问卷。问卷包括款式、颜色、价格、尺寸、版本等。StitchFix收到用户风格问卷后,结合算法和造型师的建议,按月向用户发送五件搭配的衣服。用户选择留下自己喜欢的,不喜欢免费退货。我们在stitchfix上做了一些有趣的数据案例。其中之一是算法应该向造型师推荐多少候选集:我们在A/B测试的不同桶中向造型师展示250件、200件、150件、100件和50件衣服。结果是转化率随着候选集的减少而提高!这一结果大大提高了我们对算法的信心,并从侧面验证了算法从数据中获得的规律价值,而造型师偏离算法排序结果可能会导致结果恶化。二是为什么周一周二推荐转化率最高,然后逐渐下降?这个问题一直困扰着我们。我们通常从库存质量、造型师水平和用户层面来分析转化率的波动。一个有趣的结果是,大量的衣服在周末返回仓库,库存的深度和广度增加,平台选择增加,算法和人工组合可以产生更好的建议。结论今天与大家分享了数据科学家的“技术”,包括数据科学家的素质、工作流程和内容。
以上就是关于数据科学家需要进行系统的量化科学训练的相关介绍,更多数据科学家需要进行系统的量化科学训练相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据科学家需要进行系统的量化科学训练有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一

