2021-01-11 10:44:02 阅读(191)
在当今的互联网行业,越来越多的企业渴望数据科学家。尽管数据科学家的需求一直在快速增长,但事实上,数据科学家在业内还没有准确定义。有人开玩笑说,「数据科学家是住在硅谷的数据分析师」,有些人甚至画了这样的漫画:是的,找到一个优秀的数据科学家和找到一个理解数据科学家做什么的人一样困难。要理解数据科学家在做什么,首先要理解大数据,大数据不是大数据,而是复杂的数据。《大数据时代》联合作者KenethCukier在Ted上的热门演讲:《Bigdataisbetterdata》,告诉你大数据驱动技术和设计的未来,以及大数据「好」与「坏」。(视频持续时间16”,建议在WiFi环境下观看。解决复杂数据带来的问题的人,比如Bigdataisbeterdata,都是数据科学家。那么,数据科学家如何解决工作中的问题呢?分享两个共享经济模式:Airbnb和Uber——使用大数据的经验。1、Airbnb在Airbnb,工程师应该解决这样一个问题:如何让用户知道一个他们从未去过的地方,如何知道哪个地方最适合他们的旅行Airbnb拥有大量独特的数据,包括旅游目的地、用户评论、住房描述、社区信息等,Airbnb还有一个团队与当地人交流,收集所有相关的历史数据。Airbnb数据科学家就是这样使用数据的:(Airbnbaccommodations(red)andtraditionalaccommodations(blue)inSanFrancisco)当用户在寻找住宿场所时,Airbnb「locationrelevancemodel」Airbnb社区将告诉未来的客人哪里是更好的住宿场所。当用户在寻找他们想要体验的新地方时,「AirbnbNeighborhoods」将向用户提供必要的信息和专业照片,由当地内容编辑自行整理。当用户在寻找他们想要体验的新地方时,「AirbnbNeighborhoods」本地内容编辑将向用户提供必要的信息和专业照片。Airbnb「discoveryteam」通过自然语言处理和机器学习,为用户搜索关键词提供更准确的推荐。Airbnb甚至创造了一个叫做「AT-AT」复杂的工具可以帮助用户更深入地了解某个地方,包括地理信息无法描述的文化或宗教区别。2、Uber的车主和乘客的共同需求是缩短开空车去接下一个乘客的时间和等待时间。他们希望时间越短越好。为此,Uber的数据科学家建立了「Location-baseddemandmodels」。(UberheatmapinSanFrancisco)热点地图每天实时更新(Heatmaps)它可以有效地帮助车主缩短空载时间,减少乘客的等待时间。下一步,这张照片甚至可以预测,这样车主就会知道提前去哪里等更多的乘客。尽管数据科学家的起源和定义是在30年前诞生的,但数据科学家是几年前刚刚出现的一个新词。在《数据之美》一书中,我们可以看到Facebook数据科学家的起源:在Facebook中,我们发现商业分析师、统计学家、工程师和研究科学家等传统头衔无法准确定义我们团队的角色。这个角色的工作是多样化的:在任何给定的一天,团队成员可以使用Python处理管道流、设计假设测试、工具R在数据样本上进行回归测试、在Hadoop上设计和实现数据密集型产品或服务算法,或以清晰简洁的方式向企业其他成员展示我们的分析结果。为了掌握完成这些任务所需的技术,我们创造了「数据科学家」这种角色。因此,用一句话总结「数据科学家」定义:利用统计分析、机器学习、分布式处理等技术,从大量数据中提取对业务有意义的信息,以易于理解的形式传达给决策者,创造新的数据应用服务人才。为了更好地解释数据科学家,我们将数据科学家分为三类:理论数据科学家致力于数据科学的理论研究,为其他数据科学家创造框架和工具。本质上,将统计数据、数据存储和计算机科学应用于大数据的学者应用数据科学家对如何使用大数据有更好的理解。科学需要严谨,我认为数据应用植根于学术严谨,但在应用层面工作。应用数据科学家的工作是先架设,再用大数据验证。每个人都会受益于他们的研究发现和工具。行业数据科学家用应用数据科学地解决特定的市场问题、行业和业务,实现利益最大化的单一目的。行业数据科学家必须善于沟通,使他们的发现应用于商业。在商业领域应用工商、经济和会计经验是他的价值。类似于商业分析师和商业顾问的角色。要成为一名数据科学家,你需要掌握哪些核心技能?作为一名数据科学家,你通常需要编程和数据库&统计、交流和可视化、领导力和软技能:技能的四个方面。1、一般来说,数据科学家大多需要编程和计算机科学的专业背景,掌握处理大数据所需的Hadoop、与机器学习相关的大规模并行处理技术,如Mahout。一般可以使用python熟练地获取数据,整理数据,并使用matplotlib显示数据。2、除了数学和统计的素养外,数学、统计和数据挖掘还需要使用SPSS、主流统计分析软件如SAS技能。其中,统计分析的开源编程语言及其运行环境「R」最近备受关注。R的优点不仅在于它包含了丰富的统计分析数据库,还具有可视化结果的高质量图表生成功能,可以通过简单的命令运行。此外,它还被称为CRANN(TheComprehensiveRArchiveNetwork)通过导入扩展包,可以使用标准状态下不支持的函数和数据集。3、数据可视化信息的质量在很大程度上取决于其表达方式。分析由数字列表组成的数据的意义,开发网络原型,使用外部API统一图表、地图、Dashboard等服务,使分析结果可视化,这是数据科学家非常重要的技能之一。4、领导和软技能数据科学家不仅要有黑客的头脑,对数据好奇,还要对商业热情。他们是有影响力、有创造力、能解决问题的人。简而言之,数据科学家被称为「科学家」,而区别于「数据工程师」和「数据分析师」,它的根源在于对数据有极其敏锐的直觉和本质的认知,对问题和业务有深刻的洞察和理解,从而解决复杂数据带来的问题。
以上就是关于数据科学家是怎样解决工作问题的?的相关介绍,更多数据科学家是怎样解决工作问题的?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据科学家是怎样解决工作问题的?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一