首页 >知识讲堂 >数据分析知识>正确的使用数据,“正确”到底是什么意思?

正确的使用数据,“正确”到底是什么意思?

2020-12-28 11:31:33 阅读(171 评论(0)

不知道大家有没有听说过,数据科学现在特别疯狂,到处都是课程、博客、培训机构。每次看到这些东西,我发现很多都集中在几个特定的算法上。当然,理解逻辑回归和深度学习是很酷的,但一旦你开始真正使用实际数据来做一些事情,你会发现还有其他重要的事情,甚至更重要。我不会说这些课程不好。我在大学里教了很多年机器学习。这些课程总是专注于几种特定的算法。您学习了支持向量机,高斯混合模型,k-means聚类,等等,但是在做研究所论文的时候,你学会了如何正确使用数据吗?那么,“正确”到底是什么意思呢?不是用结果来评价吗?不是只要我预测准确率高就完成了吗?当然,这是对的,但关键是要确保你在特征数据方面取得了良好的表现。就像我在别处写的,当你看到训练数据的结果时,你很容易被愚弄,认为你的方法非常有效。因此,这里有几个主要的想法,你在书中很难找到。1、评估是关键数据分析/机器学习/数据科学(或你想叫什么)的主要目的是构建一个能在未来数据中表现良好的系统。由于监督学习和非监督学习的区别,很难理解这意味着什么。但在任何情况下,你都会收集一个基于这个数据集的数据集来设计你的方法。但最终,您需要将您的方法应用到未来的数据中,您希望该方法给出的结果与您使用原始数据集的结果相似。初学者经常犯错误,只看可用数据的表现,假设未来数据也可以work。不幸的是,这只是少数情况。现在,我们只讨论监督学习,任务是基于你的输入来预测一些输出,比如分类垃圾邮件。假如你只考虑训练数据,机器只要记住一切,就能得到完美的预测,这很容易。其实对人来说也比较常见。当你学习外语并记住单词时,你会在测试时打乱所有单词的顺序。否则,你的大脑只记住基于顺序的单词。机器有大量的存储能力,很容易记住大量的数据。这将导致过拟合,缺乏泛化。因此,正确的方法是划分你的数据集,模拟你已经有了未来的数据,在一部分训练,在另一部分预测。通常训练集比较大,这个过程会重复几次,得到几个结果,看看我们的方法是否稳定。这一过程称为交叉验证。图1。模拟未来数据。在分割了数据集之后,仍然会有问题,特别是数据是非静态的,也就是说,数据的潜在分布随时会发生变化,这在实际场景中经常发生,销售数据在1月和6月会有很大的不同。或者,数据点之间会有很大的相关性,这意味着如果你知道一个数据点,你也知道很多其他的数据点。例如,如果你使用股票的价格,你通常在相邻的两天内不会跳得很厉害,所以在随机分割训练集和测试集时,可能会导致训练数据集与测试数据集的高度相关。但当这些发生时,你会得到一个过于优化的数字,你的方法在未来的数据中不会工作得很好。在最糟糕的情况下,你终于说服人们试试你的东西,结果不工作,所以学习如何正确评估是关键!2、学习一种新的特征提取方法是非常令人兴奋的,但事实是,大多数复杂的方法实际上都是相似的,真正的区别在于原始数据是如何转化为特征来学习的。现在的学习方法很强,很容易处理成千上万的特征,成千上万的数据,但最终,这些方法都是愚蠢的。尤其是线性模型(如逻辑回归、线性支持向量机),基本上就像你的计算器。这些方法非常适合处理具有明确信息和使用足够数据的特征,但如果没有足够的信息或输入特征的线性组合,这些方法将无能为力。你可以大大减少数据量,你需要找到正确的特征,假设,如果你删除了所有的特征,就没有什么可学的了,对吧?这就是特征提取有多强大!这意味着两件事:首先,你应该确保你精通类似的方法之一,但你可以一直使用它。所以,你不需要逻辑回归和线性SVMS,你可以选择一个。这也包括了解哪些方法是相似的,这些模型的关键点在哪里。深度学习有点不同,但线性模型大致相同,但训练时间、方案稀疏等可能不同,但对于大多数案例,应该能够得到相同的预测。第二,你需要学习所有的特色工程。不幸的是,这是艺术,书基本上不会说,因为没有理论上的东西。归一化很有用。有时,特征需要对数。有时你可以排除一些自由,也就是说,一种去除数据可以改变的方式,这与预测任务无关,你可以显著减少训练中的数据量。有时很容易发现这些变化。比如你在做手写字符识别,很明显颜色没有鸟用,你已经有了前景和背景。我知道书中描述方法的时候经常会说得很厉害。只要你把数据扔进去,剩下的就给你做。从理论上讲,使用无限数据是可以的,但实际情况是数据和时间是有限的。显然,找到信息量的特征是本质。3、在大数据时代,选择模型需要最多的时间,而不是数据集的大小。没有必要过分强调这些事情。大多数数据集可以完全存储在系统内存中。你的方法不会花太多时间运行数据。但您将花费大量时间进行特征提取、交叉验证、比较不同的特征提取方案和参数。对于模型选择,您经历了许多参数组合,复制相同的数据,同时运行,并评估结果。这个问题是组合的探索。例如,您只有两个参数,训练模型只需1分钟,然后在保留的数据集中评估性能。如果你对每个参数有5个候选值,你可以做50%的折扣交叉验证,这意味着你需要跑125次才能找到哪组参数最好,你需要等1个小时,而不是1分钟。好消息是并行化,因为训练完全不相关,可以同时跑。有一个坏消息主要针对大数据的学生。因为所有这些都意味着对实现可扩展性的复杂需求很少,在大多数情况下,内存中并行运行非分布式算法也很有帮助。最后,大量的数据并不意味着需要这么多的数据,而是背后学习问题的复杂性。如果你能用一个简单的模型来完成它,你就不需要那么多的数据。在这种情况下,可以随机选择数据子集。正如我上面所说,有时,正确的特征表明它可以极大地帮助减少所需的数据数量。综上所述,知道如何正确评估是很有帮助的,可以降低未来无法使用数据的风险。提取正确的特征可能是最有效的。最后,并非所有时候都需要大数据,尽管分布式计算可以帮助我们减少训练时间。

以上就是关于正确的使用数据,“正确”到底是什么意思?的相关介绍,更多正确的使用数据,“正确”到底是什么意思?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对正确的使用数据,“正确”到底是什么意思?有更深的了解和认识。

内容来源:AI公园,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

2023年入驻天猫商城的条件和费用

  天猫开店流程及费用2022?  2022天猫开店费用:  1、天猫店铺保证金。如果是天猫旗舰店和天猫专卖店,持注册商标的天猫店铺保证金为人民币5万元,持商标注册受理通知书的天猫店铺保证金为人民币10万元;如果是专营店,持注册商…查看详情

为啥注册商标?商标这五点好处你不能不了解

为啥注册商标?从广义上讲,商标通过对商标注册人加以奖励,使其获得承认和经济效益,而对全世界的积极和进取精神起到促进作用。商标保护还可阻止诸如假冒者之类的不正当竞争者用相似的区别性标记来推销低劣或不同产品或服务的行…查看详情

疫情后,医疗行业数字化持续爆发!

在过去的2020年,数字健康行业发展突飞猛进,互联网医院在全国加速落地开花。数据显示,截至2020年10月底,中国互联网医院的建设数量已接近900家,在2019年同期仅有269家。2015年12月,中国第一家互联网医院——乌镇互联网医院创立...查看详情

轰炸电话软件,看见这些名字一定要小心!

你的手机遭遇过“短信轰炸”吗?你知道市面上骗子最常用的轰炸电话软件都是哪些吗,看见这些名字一定要小心! 1.Skype 一款即时通讯软件,其具备IM所需的功能,比如视频聊天、多人语音会议、多人聊天、传送文件、文字聊天等功...查看详情

北京、上海、四川等多地软件著作权登记申请流程汇总

在明确软件著作登记权申请流程前,我们首先要明确软件著作权登记申请的途径,因为途径不同,流程不同。一般而言,软件著作权登记申请有以下途径: 图片来源于网络一、软件著作权登记申请方式 1、自行到中国版权保护中心申请…查看详情

版权登记收费标准是什么样的

版权登记是指将作品的权利信息和创作事实记录在相关机构进行认证和保护的过程。不同国家和地区的版权登记机构可能有不同的收费标准,以下是一般情况下的版权登记收费标准的一些概述:1. 美国版权局(United States&nb...查看详情

破壁机品牌有哪些 破壁机排行榜

破壁机可以打豆浆,可以弄牛奶,可以弄鱼汤等等,它的用处是非常多的,所以有一些家庭就会买破壁机来使用,这样的话,早上在做牛奶或者是豆浆的时候就会特别的方便,那么破壁机排行榜都有哪些呢?1、九阳二十余载来,秉持健康、革…查看详情

美容院99元拓客方案

  美容院是一个以美容护肤为主的综合性服务业,为了吸引更多的客人、提高客流量并增加收益,美容院需要进行有效的拓客。针对美容院中普遍存在的客流量不足的问题,我们提出了99元拓客方案。  1、方案目标:  1.1提高美容院的…查看详情

ps是什么意思 ps是干什么的

  相信很多的小伙伴都在生活中遇到了PS这个词,但是很多的人都不知道PS是什么意思,PS是干什么的,下面万商云集小编就给大家来详细介绍一下。    一、“PS”备注的意思:  PS是英文单词posts...查看详情

去水印用什么软件?去水印好用的软件推荐

很多人平时的时候都特别喜欢制作照片,或者是在网上找一些素材图片来一起制作。当我们从网上找图片的时候,发现很多好看的图片都有水印,这个时候就应该要选择合适的软件来去除。那么去水印用什么软件呢?下面就给大家分享几款比…查看详情

2021国内物流软件app前十名排行榜

众所周知,近几年来控制着企业物流信息管理的物流软件已经逐渐开始走向集约精细管理,企业选择物流管理软件的困难和痛点也是一直备受关注的焦点,本期我们来看看2021国内物流软件app前十名排行榜名单都有哪些? 1. 乐盟物流软...查看详情

javascript是什么意思

js是什么?脚本语言Javascript是一种由Netscape的LiveScript发展而来的原型化继承的面向对象的动态类型的区分大小写的客户端脚本语言,主要目的是为了解决服务器端语言,比如Perl,遗留的速度问题,为客户提供更流畅的浏览...查看详情

电商平台软件有哪些 电商平台软件排行榜前十名

  现在网购是越来越流行了,很多的电商平台都是十分的方便的,下面万商云集小编给大家介绍下电商平台软件有哪些  电商平台软件排行榜前十名,希望大家能喜欢、数据来源:百度指数每日均值  从热度排行榜可以发现,淘宝…查看详情

如何设置关键词密度?

  关键词密度是指在文章中出现的关键词占文章总词数的比例,是影响搜索引擎优化(SEO)的重要因素之一。正确设置关键词密度可以提高文章的排名和流量,但过度堆砌关键词可能导致搜索引擎惩罚。下面详细介绍如何设置合理的关键词…查看详情

什么是erp系统的提前期?

Erp系统提前期是一个什么概念?指某一工作的工作时间周期,即从工作开始到工作结束的时间。那么什么是erp系统的提前期?erp系统的提前主要是针对企业或客户的“需求”而提出的。Erp系统提前期的作用是生成MPS、MRP和采购计划的重要数据…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询