“数据科学”的演化及应用

2021-01-06 13:50:31 阅读（174） 评论（0）

数据科学家如何变得性感的故事，大致就是统计学作为一门成熟学科如何与新兴学科的计算机科学发生关系的故事。“数据科学”这个术语出现较晚，用来指代一个需要解释大量数据的职业。但数据的解读历史悠久，多年来一直被科学家、统计学家、图书馆员、计算机科学家和其他人讨论。以下时间线可以追溯到“数据科学”一词的演变，以及它的应用、定义它的尝试和一些相关术语。1962年Johnw.Tukey在数据分析的未来(”TheFutureofDataAnalysis)写道:“长期以来，我以为自己是统计学家，对从特例中得到关于整体的推断感兴趣。但当我目睹了数学统计学的发展时，我产生了猜测和怀疑。。。我开始觉得我的基本兴趣在于数据分析。。。数据分析和一些相关的统计学必须承担更多的科学特征，而不是数学特征。。。数据分析本质上是一门经验科学。。。预设程序的电子计算机。。它有多重要？在许多情况下，答案令人惊讶：重要但不重要，计算机在其他情况下无疑是至关重要的。1947年，Tukey创造了“比特”（bit）“这个术语在1948年被Claudeshanonused用于“传播数学理论”(”AMathematicalTheoryofCommunications)一文中。Tukey于1977年出版了《探索性数据分析》（ExploratoryDataAnalysis），他在书中提出，我们应该更加*使用数据来提出哪些假设需要测试的建议，以及探索性数据分析和论证性数据分析“能够并驾齐驱”。1974年，Peternaur在瑞典和美国出版了《计算机方法简要调查》（ConciseSurveyofComputerMethods）。这是一项关于当时使用的数据处理方法的调查，包括许多应用程序。本书遵循国际信息处理联合会的数据处理概念和术语指南（IFIPGuidetoConceptsandTermsinDataProcessing）“数据”的定义:“(数据是)必须能够以某种形式传播或操作事实或想法的标准化表现。根据这本书的前言，国际信息处理联合会于1968年展示了一份题为“数据学：数据处理的科学及其在教育中的地位”的课程计划。Naur为数据科学提供了以下定义：“数据形成后，处理数据的科学。数据与它所代表的东西之间的关系属于其他领域和科学范畴。1977年，国际统计联合会（TheInternationalAssociationforStatisticalComputing(IASC)）作为国际统计研究院（ISI）成立了一个分支。“国际统计联合会的任务是将传统的统计方法、现代计算机技术与各领域专家的知识联系起来，将数据转化为信息和知识。“GregoryPiatetsky-Shapiro于1989年组织并主持了第一次数据库知识发现（KnowledgeDiscoveryinDatabases(KDD)）研讨会。1995年成为国际计算机年会知识发现和数据挖掘的SIGKDD会议。1994年9月，《商业周刊》发表了一篇关于“数据库营销”的商业报道：“企业收集了大量关于你的信息，并将这些知识提炼成营销信息，准确地瞄准你。。。20世纪80年代扫描码器的繁荣在广泛的失望中结束：许多公司被总数据淹没，但无法获得有用的信息。。。然而，许多公司认为，他们别无选择，只能勇敢地站在数据库营销的前线。1996年国际分类协会联盟（InternationalFederationofClassificationSocieties(IFCS)）双年会在日本神户举行。“数据科学”一词首次包含在会议标题中(“数据科学、分类等相关方法”)。联盟由六个国家/语言分类组织于1985年成立，其中一个是“分类协会”（TheClassificationSociety）成立于1964年。这些分类协会在其出版物中大量使用数据分析、数据挖掘、数据科学等术语。UsamaFayy1996年、GregoryPiatetsky-Shapiro、Padhraicsmyth出版了《从数据挖掘到数据库的知识发现》(FromDataMiningtoKnowledgeDiscoveryinDatabases”）。他们写道：“在过去，从数据中寻找有用的模式被赋予了许多名称，包括数据挖掘、知识提取、信息发现、信息收获、数据考古学和数据模式处理。KDD(数据库中的知识发现)是指从数据中获取有用知识的整个过程，而数据挖掘是指具体的环节之一。数据挖掘是利用特定算法从数据中提取的模式...KDD过程中的其他步骤，如数据准备、数据选择、数据清洗、与合适的已知识相结合、对挖掘结果的正确解读，对于确保从数据中获得有用的知识非常重要。数据挖掘方法的盲目应用(统计文献中被批评为“数据挖泥”(datadredging)）可能是危险的，会得到无用的发现和无效的模式。”1997年C.F.密歇根大学统计系HeffWu教授(现在在乔治亚理工大学工作).C.在就职典礼上，Carver主席提出统计学应重命名为数据科学，统计学家应重命名为数据科学家。1997年《数据挖掘与知识发现》（DataMiningandKnowledgeDiscovery）期刊发行。这两个术语的顺序意味着“数据挖掘”地位的上升，并成为描述“从大数据库中提取信息”的一种更流行的方式。1999年12月，沃顿商学院Knowledge@Wharton的《从数据中挖掘知识的金块》引用了JacobZahavi的说法:“传统的统计方法在小数据集上工作得很好。但今天的数据库有数百万行和大量列……可扩展性已经成为数据挖掘的一个大问题。另一个技术挑战是开发一个模型，可以更好地分析数据，发现非线性关系和元素之间的联系……网站决策可能需要特殊的数据挖掘工具。WilliamS2001年.Cleveland出版了《数据科学:扩展统计技术领域的行动计划》(“DataScience:AnActionPlanforExpandingtheTechnicalAreasoftheFieldofStatistics”）。该计划“扩大统计领域技术工作的主要领域。雄心勃勃的计划包含了本质的变化。变化后的领域被称为“数据科学”。“Cleveland在计算机科学和当代数据挖掘工作中定位了这一新领域：“……数据分析师的收入有限。由于计算机科学家思考和分析数据的方法有限，统计学家对计算环境的知识有限。知识的融合将带来巨大的生产力创新。这意味着统计学家应该更加*知识的计算，就像过去数据科学*数学一样。数据科学系应该由致力于改进数据计算的成员和与计算机科学家合作的成员组成。2001年，LeoBreiman出版了《统计建模:两种文化》(“StatisticalModeling:TheTwoCultures”）：在使用统计模型从数据中提取结论的过程中，有两种文化。假设数据是由特定的分布模型生成的。另一种是使用算法模型，并将数据结构视为未知。统计学界普遍致力于只使用数据模型。这种投资产生了毫无意义的理论和可疑的结论，使统计学家无法触及许多实际问题。在理论和实践中，算法模型在统计学之外发展迅速。它不仅可以应用于庞大而复杂的数据集，还可以在小数据集上建立大量准确信息的模型。如果我们的目标是使用数据来解决问题，那么我们需要摆脱对纯基于数据模型的依赖，并使用更多样化的工具。”

以上就是关于“数据科学”的演化及应用的相关介绍，更多“数据科学”的演化及应用相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对“数据科学”的演化及应用有更深的了解和认识。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：如何做好数据埋点？下一条：淘宝卖家该如何做好数据分析运营工作？