首页 >知识讲堂 >数据分析知识>数据处理时可能遇到的问题及解决方案

数据处理时可能遇到的问题及解决方案

2020-12-29 15:13:11 阅读(202 评论(0)

应该从数据源中解决的问题 缺少注意数据集中的空值或“null除非你知道它们的确切含义。如果数据是年度数据,有没有收集到哪一年的数据?假如是问卷调查,是否有受访者拒绝回答问题?当你处理缺失的数据时,你应该问自己:“我知道缺失这个值是什么意思吗?“如果答案是否定的,你应该检查你的数据源。 用零代替缺失值代替缺失值比缺失值本身更糟糕。这可能是人类无意义思维的结果,也可能是不知道如何处理空值的自动化。无论如何,如果你看到一长串零,你应该问问自己,这些值真的是零,或者说“不”(有时使用-1)。如果您不确定,请检查您的数据源。 如果同一行数据不止一次出现在数据集中,你应该找出原因,有时它可能不是整个行。一些活动财务数据包含一些修订数据,使用与原始交易相同的唯一标识符。如果你不知道这一点,你对数据所做的任何计算都是错误的。假如有些东西看起来应该是唯一的,那就验证吧。如果您发现不是,请检查您的数据源。 拼写不一致的拼写检查是判断数据是否手动输入最明显的方法之一。不要只看人们的名字——这些往往是最难检测到拼写错误的地方——你应该找到城市名称或州名称不一致的地方。如果你发现了这些问题,你可以确保数据是手动编辑的。手工编辑的数据最有可能出错。这并不意味着你不应该使用它们,但你可能需要手动纠正它们,或者在报告中解释它们。 如果第一个是欧洲人写的,第二个是美国人,那么两个日期都意味着9月:10/9/159/10/15。如果你不知道数据的来源,你就不能确定。所以确定你的数据来自哪里,并确保它是由来自同一大洲的人生成的。 没有指定单位的weight和cost就无法传达任何关于计量单位的信息。不要认为美国生产的数据必须是磅和美元。国外价格可能在本地货币中提及。如果数据没有指定单位,请检查您的数据源。 来源未记录的数据通常由包括企业、政府、非营利组织在内的各种个人和组织创建。我们以问卷调查、传感器和卫星等多种不同的方式收集数据。了解你的数据来自哪里,可以让你深入了解它的局限性。例如,问卷调查数据通常不是很详细。传感器的精度不同。政府往往不愿意给你无偏见的信息。由于穿越战线的危险,来自战区的数据可能具有较强的地域偏见。更糟糕的是,这些不同的来源经常混在一起。政策分析师经常打乱政府收集的数据。护士可以输入医生指定的数据。每一种情况都有可能出现错误,所以检查你的数据源是必要的。 你有州的数据太粗糙了,但你需要的是县的数据。您拥有雇主的数据,但您需要的是雇员的数据。他们给了你几年的数据,但你想要几个月的数据。在很多情况下,我们收集的数据对我们的使用目的来说太多了。一旦数据合并在一起,通常很难将其分开。若您提供的数据过于粗糙,则需要向数据源索要更具体的内容。也许他们没有。即使有,你也可能无法或不愿意把它们给你。许多联邦数据集无法在本地访问,以保护个人隐私。永远不应该做的一件事就是将年度数据除以12,并称之为“月平均值”。如果不知道数值的具体分布,那么数字就没有意义了。这是错误的,所以不要这样做。 老式Excel电子表允许65536行数据的最大行数为65536。如果您收到具有该行数的数据集,您收到的数据几乎可以被切断。Excel支持1、048、576行的新版本,因此数据行不太可能达到极限。 Numbers应用程序拥有255列数据,只能处理包含255列的电子表格,应用程序将在不警告用户的情况下切断更多列的文件。如果您收到的数据集只有255列,请确认该文件是否在Numbers中打开或转换。 并非所有的数字都是数字,文本都被转换成数字。例如,美国人口普查局使用“FIPS代码”代表美国的每一个地方。这些代码有不同的长度,它们都是由数字组成的,但它们实际上并不是数字。037是洛杉矶县的FIPS代码,不是指数字37。37是北卡罗来纳州的FIPS代码。Excel和其它电子表格通常认为它们是数字,所以它们去掉了前导零。 使用电子表格时,数字可以以文本的形式保存。例如,单元格可以使用字符串“1000,000”、“一万”或“USD1,一万,一万”来表示一百万美元,而不是直接使用一万美元。Excel可以使用内置函数来处理一些简单的情况,但通常需要使用公式去除字符,直到单元格的内容被识别为数字。最好的方法是不使用格式来保存数字,并在列名或元数据中包含相关信息。你应该自己解决的问题 在大多数情况下,你的文本编辑器或电子表应用程序会找到正确的编码,但你可能会发现有些人的名字中有奇怪的字符。你的数据源应该能够告诉你数据使用了什么编码。如果他们不能提供这些信息,你可以通过一些可靠的方式猜测或询问程序员。 所有文本和“文本数据”文件(如CSV)都使用不可见的字符来代表换行符。Windows、Mac和Linux一直没有就换行符应该使用什么字符达成协议。试图在一个操作系统上打开保存在另一个操作系统上的文件,有时会导致Excel或其他应用程序无法正确识别换行符。通常,这个问题只需要在通用文本编辑器中打开文件并重新保存即可轻松解决。如果文件特别大,你可能需要考虑使用命令行工具或向程序员寻求帮助。 PDF中的大量数据,特别是政府数据,只能以PDF格式提供。如果您在PDF中有真实的文本数据,可以通过几种方式提取它们。Tabula是一款优秀的免费工具。如果订阅AdobeCreativeCloud,可以使用AcrobatPro,提供将PDF表格导出到Excel的功能。 数据太细,这与数据太粗糙恰恰相反。在这种情况下,你有县数据,但你想要州或几个月的数据。幸运的是,这通常很简单。Excel或谷歌文档的数据透视表可以使用(PivotTable)总结数据的功能。透视表是每个记者都应该学习的神奇工具,但它们也有其局限性。对于非常大的数据集,你应该向程序员寻求帮助,他们可以制定一个更容易验证和重用的解决方案。 手动输入数据手动输入是一个常见的问题,至少在这里描述的其他问题中有10个与之相关。没有比让一个人输入数据而不验证数据更糟糕的方法来搞砸数据了。例如,我曾获得伊利诺伊州库克县完整的养狗许可数据库。系统创建者要求狗主人通过文本框输入狗的质量,而不是提供狗的质量列表供他们选择。因此,该数据库中至少有250个不同的吉娃娃品种。 HTML和XML复杂的数据表示与格式和注释混合在一起,在数据和格式之间有清晰的分离,但电子表格的数据表示并非如此。电子表数据的一个常见问题是,前几行数据实际上是对数据的描述或评论,而不是列出标题或数据本身。数据字典也将放置在电子表格中,标题线可以重复,或包含多个表(可能有不同的列标题),而不是存储在不同的表格中。显然,试图分析有这些问题的电子表格是失败的。因此,在第一次查看新数据时,请确保数据中不包含额外的标题线或其他格式化字符。 一个基于缺失值的数据集有100行数据,其中一列称为cost。cost列在其中50行中是空白的。那么该列的平均值是多少呢?是sum_of_cost/50还是sum__of_cost/100?没有明确的答案。一般情况下,如果要聚合在缺失值的列上,可以先安全过滤掉有缺失值的行。在某些情况下,缺失的值也可以设置为0。如果您不确定,请咨询专家,或者不要做聚合计算。 如果误差幅度太大,没有什么比使用误差幅度较大的数据得到的报告更多的错误了。非反应性使用数字,而不是有很大的错误余量。问卷调查数据通常与误差幅度有关。美国人口普查局的投票数据或美国社区调查数据最有可能出现误差。误差范围通常用于测量真实值。它可以说是一个数字(4000) /-80)或百分比(400) /-20%)。相关人口越少,误差越大。例如,根据2014年5年ACS的估计,住在纽约的亚洲人数为1、106、989 /-3,526(0.3%)。菲律宾人的数量是71,969 /-3,088(4.3%)。203年萨摩亚人数为203 /-144(71%)。前两个数字是安全可信的,但第三个数字不应用于已发布的报告。没有关于什么样的数字不能使用的规则,但经验告诉我们,我们应该小心使用超过10个误差%的数字。 有时候误差幅度不明,问题不在于误差幅度太大,而在于没有人想过要弄清楚它到底是什么。这是一个不科学的民意调查问题。如果不计算误差幅度,就不可能知道结果的准确性。作为一般规则,只要你有问卷调查数据,你就应该询问误差范围。如果数据源不能提供这些信息,那么这些数据可能不值得分析。 有偏见和偏见的数据样本是由粗心的抽样造成的,或者有人故意扭曲。样本可能包含偏见,因为它是从互联网上收集的,而穷人不像富人那样经常使用互联网。必须仔细权衡问卷调查,以确保它们覆盖所有人口比例,避免扭曲。几乎不可能完美地做到这一点,所以人们经常犯错误。 手动编辑数据的问题几乎与人类输入数据的问题相同,但它只发生在后面。实际上,手动编辑数据通常是为了修复人类最初输入的数据。当编辑不完全理解原始数据时,就会出现问题。我曾经看到有人自发地“修正”,将数据集中的Smit改为Smith。那个人的名字真的是Smith吗?我不知道,我只知道现在值有问题。 通货膨胀扭曲了数据通货膨胀,表明货币的价值随着时间的推移而变化。通过观察数字,我们无法判断数字是否出现了“膨胀调整”。如果您在获取数据后不知道它们是否已被调整,请检查您的数据源。如果他们没有调整,你可能想自己调整,你可以使用这个工具http://inflation-adjust.herokuapp.数据调整的com。 由于某些潜在原因,自然/季节变化扭曲了数据,许多类型的数据会自然波动。最著名的例子是随季节而变化的就业形式。经济学家开发了各种方法来补偿这种变化。这些方法的细节并不重要,重要的是要知道你使用的数据是否已经“季节性调整”。如果他们没有,你想比较每月的就业情况,你可能需要调整数据源(他们比膨胀调整困难得多)。第三方专家需要帮助您解决的问题 有时候,你拥有的唯一数据就是你不想依赖的来源。在某些情况下,这很好。只有枪械制造商知道他们生产了多少枪。但是,如果您的数据来自可疑制造商,请务必与其他专家核对,最好与两三位专家核对。除非你有确凿的证据,否则不要发布包含偏见来源的数据。 在数据收集过程中,很容易引入不真实的假设、错误或纯粹的谬误。因此,收集数据的方法必须是透明的,这一点非常重要。很少有人知道如何收集数据集,但问题可以从一些表象中看出,比如不切实际的断言精度和结果要好得多的数据。 除了*科学之外,很少有不切实际的精确度能用超过两位小数的精确度来测量。假如某个数据集打算在小数点后面显示工厂的排放量第七位,那么它们可能是从其它值估算出来的。它们常常是错误的。 我最近创建了一个数据集,表明通过互联网到达不同目的地需要多长时间。除其中三个超过5000秒外,所有时间都在0.05到0.8秒之间。这意味着数据生成过程中存在问题。我写的代码有一个错误,导致在发送和接收其他信息时无法计算某些信息的时间。这些异常值可能会极大地影响你的统计数据——

以上就是关于数据处理时可能遇到的问题及解决方案的相关介绍,更多数据处理时可能遇到的问题及解决方案相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据处理时可能遇到的问题及解决方案有更深的了解和认识。

内容来源:AI前线,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

数据库管理软件 2022好用免费的数据库管理软件

  在日常开发工作中,肯定是离不开数据库的,Java开发的话,一般用Mysql较多一些,当然,有很多强大的客户端工具,可惜它们都要收费,比如NavicatPremium,它可以连接多种流行的数据库,但是我就喜欢开源免费的东西,所以,这里就列...查看详情

日语输入法是什么 日语输入法的工作原理

我们都知道在聊天打字的时候用的都是输入法,输入法有很多,每一款输入法吸引人的地方都不相同,那么,对于出国留学的人来说,就要用到国外的输入法了,但是,大家都还不知道日语输入法有什么。1.日语输入法的介绍日语输入法就是指…查看详情

2022有声小说排行榜

现在有声小说深受大家的欢迎,下面万商云集小编给大家整理了2022年有声小说排行榜,看看有没有你喜欢的小说。  猫主子您好》  作者:萤尘  演播主播:夜风静悄悄  类型:古风言情悬疑志怪  简介:青渊为求真悟道而入世历…查看详情

电商运营托管可靠吗?花钱买教训还是赢商机只在一念之间

说电商运营托管不靠谱,都在找;说电商运营托管有效果,都不信。电商运营托管市场鱼龙混杂确实是真实的市场情况,但是电商运营托管可靠吗,并不是市场情况能够体现出来的。运营讲究实践和技巧,贪便宜找错人只能是买教训,而找到…查看详情

b2c是什么意思 什么是B2C

  b2c是什么意思?其实很多人都不知道b2c是什么意思,下面万商云集*给大家详细介绍一下b2c的真实意思、。  B2C电子商务的主要模式类型有哪些?  门户网站  门户网站是在一个网站上向用户提供强大的Web搜索工具,是通过向某类综…查看详情

网站建设费用明细告诉你,建一个网站要多少钱

网站建设需要多少钱?这是很多客户都会率先提出这样的问题,尽管建设网站可以更多的用户了解到自己的产品和服务。但是在建设网站时,只要有关于成本问题,客户都会决策不断。因为有一些不良建站平台或团队,看对方对网站建设费用…查看详情

堪比开挂的教人聊天软件,拯救直男的福音

当前社交比较热络的情况下,语言话术以及情商都是需要培养的,很多人却无奈于没有人教聊天而总是处处碰壁,这就需要教人聊天的软件啦,以下就是我给大家推荐的教人聊天的软件。蜜小助app这是一个可以帮你脱单的*妹的话术app,软件里…查看详情

美国版权登记 | 与其它国家不同,它在实践中有独特且重要的作用

美国版权登记,在世界上是最完善的版权登记制度,距今已有200多年历史,支撑着世界第一大的版权产业。在美国,只有唯一一个版权登记机构,就是美国版权局。 图片来源于网络 美国版权登记与其它国家不同,其它国家版权登记仅…查看详情

扫描软件哪个好用又免费 不需要付费的扫描软件

现在想要在网站找一款免费好用的扫描软件还是很难的,主要是有的扫描软件需要付费,下面万商云集*给大家来详细介绍下扫描软件哪个好用又免费 不需要付费的扫描软件这方面的内容。  1.小记  小记app是一款非常方便的手机日志…查看详情

中文域名网站的意义与作用是什么?中文域名网站对企业很重要

很多的企业都是有自己企业网站的,因为企业网站能够更好的将自己的企业信息和产品展现给用户。其实一个不错的网站也是要有中文域名的,很多的企业都会选择中文域名网站,其实这是非常不错的,不仅能够更容易让客户记住自己,也能…查看详情

oa系统和erp系统区别详解

何为ERP系统?ERP系统是针对制造业,以材料资源、资金资源、信息资源整合为一体的企业信息管理系统。主要建立在信息技术之上,重在对企业内部业务流程进行系统管理,内部信息实现共享,是一个以管理为核心,能够提供跨部门、跨公司…查看详情

好看的国产动漫排行榜前十名,这些都是重点推荐

很多人都比较喜欢日本的动漫,其实国产也有很多的好看动漫可以选择。毕竟现在我国的动漫制作技术提升了不少,在故事的情节打造上,也更符合国情,那么好看的国产动漫排行榜前十名都有哪些呢?这些都是重点推荐的,一起来看看吧。1…查看详情

翻译软件哪些好用?好用的翻译软件推荐

在平时的时候很多人需要对文件进行翻译,但是又不懂得语言,那么这个时候找到一款比较不错的翻译软件就尤为重要。现在的翻译软件就比较多,找到一款免费的而且好使用的软件才能够带来更好的体验,那么翻译软件哪些好用呢?下面就…查看详情

404 not found什么意思 404问题如何解决

  在平时生活工作中相信很多人都很少遇到404notfound这个问题,但是对于计算机的小伙伴来说还是经常遇到的,下面万商云集*给大家来详细介绍一下404notfound什么意思 404问题如何解决这方面的内容,希望能帮助到大家。...查看详情

2021年6款性价比高的游戏本选购指南

对游戏本有一定了解的朋友,应该知道它的别名也叫做高性能办公笔记本电脑,其拥有的超高性能CPU和显卡等配置,完全足够支撑一些较吃性能的应用场景,游戏本究竟选哪些比较火?本文整理了一份2021年6款性价比高的游戏本选购指南供大家…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询