首页 >知识讲堂 >数据分析知识>数据挖掘或机器学习最重要的是什么?

数据挖掘或机器学习最重要的是什么?

2021-01-06 13:43:33 阅读(173 评论(0)

我是数据挖掘和机器学习的新手。我从去年7月开始接触Amazon,我以前从未接触过,因为我的工作需要被动接触。我所做的是预测与机器学习相关的需求。后来到了淘宝,主动做了几个月的用户地址相关数据挖掘工作,有了一些浅薄的经验。下面的文章主要是我作为一个新人不到10个月的数据技术经验,可能对你有用,也可能很愚蠢,无论如何,欢迎指导和讨论。另外,注意这篇文章的标题模仿了一部美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了许多强大而有趣的案例。然而,数据就像一个王座,就像征服一种权力和征服,但在路上却同样令人震惊。当Amazon从事机器学习时,我注意到Amazon玩数据的三个角色。DataAnalyzer:数据分析师。这类人主要分析数据,从数据中找到一些规则,为数据模型找到不同场景的TrainingData。此外,这些人也是清洗一些脏数据的人。ResearchScientist:研究科学家。该角色主要根据不同的需要建立数据模型。就像《生命大爆炸》中的Sheldon一样,他们把自己戏称为不接近人间烟火的奇异物种。这些人基本上玩的是数据上的科学Softwaredeveloper:软件开发工程师。主要是实现Scientist建立的数据模型,交给Dataanalyzer玩。这些人通常更了解各种机器学习算法。我相信这三种工作是其他公司从事数据挖掘或机器学习的,或者这三种人。对我来说,最具技术性的是scientist,因为这些人决定了数据建模和提取最有意义的向量,以及选择不同的方法。我觉得这种人在国内是找不到的。最苦最累,但最重要的是Datanalyzer,他们的工作也是这三个角色中最重要的(注:我用了三个最重要的)。因为,不管你的模型和算法有多好,你只能在一堆烂数据上做一堆垃圾。正所谓:GarbageIn,GarbageOut!但这是最脏最累的工作,也是最容易退缩的工作。SoftwareDeveloper是技术含量最低的。现在国内很多玩数据的人都认为算法是最重要的,很多技术人员都在研究机器学习算法。错了,最重要的是上面两个人,一个是Datanalyzer洗数据,另一个是真正懂数据建模的Scientist!而像什么k-means,KNearestNeighbor,或者贝叶斯、回归、决策树、随机森林等其他游戏都非常成熟,而不是人工智能。说白了,这些算法在机器学习和数据挖掘中基本没有技术含量,比如QuickSort。目前流行的BuzzWord-大数据质量是相当误导性的。在我眼里,数据不分大小,只分好坏。在处理数据的过程中,我首先感受到的是数据质量。下面我分几个案例来说明:案例一:数据标准在Amazon,所有商品都有唯一的ID,叫ASIN——AmazonSingleIdentifyNumber,该ID用于识别商品的独特性(来自条形码)。也就是说,无论你把商品描述成什么,只要ASIN是一样的,这就是完全一样的商品。这样,就不像淘宝了。当你搜索iPhone时,你会有一堆各种各样的iPhone,有的叫“超值iPhone”,有的叫“苹果iPhone”,有的叫“智能手机iPhone”,有的叫“iPhone白/黑”...这些同一产品的不同描述是商家为了吸引用户。但有两个问题:1)用户体验差。对于消费者来说,以商品为中心的商业模式明显优于以商家为中心的商业模式。2)只要你不能正确阅读(识别)数据,你背后的算法和模型都是无用的。所以,只要你玩数据,你就会发现如果没有建立数据标准,什么都没用。数据标准是数据质量的第一关。没有这个东西,你什么都不玩。所谓的数据标准,唯一的数据识别只是最基本的一步,数据标准只是这样,更重要的是,数据标准抽象成数学向量,没有数学向量,以后不能挖掘。因此,您可以看到,洗涤数据的大量工作是合并和聚合混乱的数据,即建立数据标准。人肉的工作是绝对不可或缺的。无非是:聪明人在数据生成前定义标准,并在数据生成时进行数据清理。一般人只有在数据产生并大量积累之后才会这样做。此外,让我们谈谈Amazon的ASIN。这件事从十多年前开始。我在Amazon内部网站上看到的信息并没有说为什么我有这样一个ID。我认为这不是因为Amazon需要推荐一个商品ID,因为玩数据,也许是因为Amazon的商业模式被设计成“商品为中心”。如今,ASIN仍然存在许多问题。ASIN不能完全保证商品是一样的。不同的ASIN并不意味着商品是不同的,但超过90%的商品是有保证的。Amazon有专门的团队CategoryTeam,每天都有很多业务人员拼命纠正ASIN的数据。案例二:数据的准确用户地址是我从事过数据分析的另一件事。我还记得看到数亿用户地址数据的兴奋。但后来我就不能兴奋了。因为地址是用户自己填写的,里面有很多坑,不容易做。第一个是假/错地址,因为有些商家作弊或者用户测试。所以地址是错误的,比如直接输入“地址不存在”、“13243234asdfasdi”等等。我的程序可以识别出这样的地址。我的程序也能识别出来。例如:“宇宙路地球社区”等等。但是这种地址是可以识别的。甚至连人都认不出来,比如“北京市东四环路23号南航大厦5楼540室”,这个地址根本不存在。二是真实地址,但由于用户写作不规范,很难处理,如:缩写:“建国门外街”、“建国门外街”、“中国工商银行”、“工行”。。。错别字:“潮阳门”、“通惠河”。。。逆转:“东四环中路朝阳公园”和“朝阳公园(东四环)”。。。别名:有些人写开发商的社区名称“东恒国际”,有的写行政地名“八里庄东里”...这样的例子太多了。如果数据不准确,会增加你处理的难度。可见,如果数据不准确,会增加你处理的难度。有个比喻很好。玩数据就像挖金矿。如果含金量高,挖掘难度小,容易产生效果。如果含金量低,挖掘难度大,效果差。以上,我给出了两个案例,旨在解释-1)数据没有大小,只有含金量大的数据和垃圾量大的数据。2)数据清洗是一项多么重要的工作,也是一项人肉工作量很大的工作。因此,最好在数据生成时一点一点地完成这项工作。有一种观点:如果数据的准确性是60%,你所做的事情肯定会被用户骂!假如数据准确度在80%左右,那么用户会说,还不错!只有当数据准确度达到90%时,用户才会感觉到真正的牛B。但从80%到90%的数据准确性要比60%到80%的成本要大得多。大部分数据挖掘团队都会在70%的地方停下来。因为,以后,这是一项相当累的工作。我不知道有多少数据挖掘团队真正意识到业务场景和数据挖掘之间的重要关系?我们需要知道,数据挖掘和分析模型是不可能满足所有业务的。推荐音乐视频与电子商务中推荐商品的场景完全不同。在电子商务中,只要你买东西不退货,那么,我可以相信你喜欢它,然后,对于音乐和视频,你不能通过用户听歌曲或看视频武断地认为用户喜欢歌曲和视频,所以,我们可以看到不同业务场景下推荐算法的难度完全不同。说到推荐算法,你是不是和我一样,有时候对推荐有一种感觉——推荐是按不同维度排序的算法。就我个人而言,我认为在某些商业场景下,推荐有两种(不是根据用户关系和项目关系),一种是普遍推荐,结果是推荐流行的东西,这可能很好,但这可能是用户已知的,例如,在北京,我想找一家餐馆,你总是推荐烤鸭,我想去一个地方,你总是向我推荐天安门故宫的天坛(因为大多数人来北京吃烤鸭或去天安门广场)。我不知道所有这些。你想推荐吗?此外,水军通常可以刷普通的东西。此外,常见的东西通常可以被水军刷掉。另一种是个性化推荐,需要分析用户的个人喜好。好的总是给我我喜欢的。坏的是,也许我的口味会随着我的年龄和环境而变化。此外,我总是推荐符合用户口味的,这不能帮助用户探索新的点。例如,我喜欢辛辣的食物。你总是向我推荐川菜和湘菜。过了很长一段时间,我会感到无聊。有时候推荐不是民主投票,而是专业用户或者资深玩家的建议;有时候推荐不是流行的,而是新鲜的,我不知道。你可以看到,不同的商业场景和不同的产品形式可能会有完全不同的游戏玩法。此外,即使对于同一个电子商务,书籍、手机和服装的商业形式也完全不同。我之前在Amazon做过DemandForecasting(用户需求预测)——通过历史数据预测用户未来的需求。对于书籍、手机、家用电器等产品,你可以认为它们是“标准产品”(但不一定),预测更准确,甚至可以预测相关产品属性的需求。然而,Amazon已经工作了十多年,无法很好地预测服装等叫做Softline的产品,因为这些东西受到太多的干扰因素,比如用户对颜色和风格的偏好,是否合适,爱人和朋友是否喜欢。。。这种东西太容易改变了。如果你买得太多,你就卖不好,所以你根本无法预测,更不用说Stock/VenderManager提出的“预测某个品牌某种颜色的衣服或鞋子”了。对于需求的预测,我发现长期在这个行业努力工作的人的预测是最准确的,任何机器学习都是浮云。对于需求的预测,我发现长期在这个行业努力工作的人的预测是最准确的,任何机器学习都是浮云。机器学习只有在你必须面对成千上万种不同的商品和类别时才有意义。数据挖掘不是人工智能,而是太远了。不要认为数据挖掘可以做任何事情。找到合适的业务场景和产品形式比什么都重要。数据分析结果我看到很多玩大数据的人,基本上做数据统计,从多个不同维度统计数据的表现。最简单最常见的统计就是网站统计。比如:PV是多少,UV是多少,来源在哪里,浏览器,操作系统,地理,搜索引擎分布等等。唠叨,不要以为你一天有十几个T的日志就是数据,也不要以为你会用Hadop/Mapreduce分析日志。这就是数据挖掘。说得好听点,你在做的只是一份统计工作。那些T的RawData基本没有意义,只能叫日志,连数据都不算。只有你统计的数据才有意义,才能叫数据。当用户面对自己网店的数据时,比如每千人下单5人,65%的访客是男的,30%的18-24岁的访客等等。你甚至给出了这样的数据,你打败了同类型商家的40%。身为商人,面对这些数据,大多数人的表现都是完全不知道自己能做什么?是把网站改成更男性化,还是让年轻人更喜欢?我完全不知道该怎么办。只要你看一看,你会发现很多数据分析的结果看起来不错,但你不知道下一步该怎么办?所以,在我看来,数据分析的结果不仅仅是呈现数据,更重要的是,这些数据背后能做什么?如果你不知道看了数据分析的结果后能做什么,那么数据分析就失败了。综上所述,以下是我认为数据挖掘或机器学习最重要的事情:1)数据质量。分为数据标准和数据准确性。尽量消除数据中的杂音。为了数据的质量,大量的人肉工作是必不可少的。2)数据的业务场景。在所有的场景下,我们都做不到,所以,商业场景和产品形式都很重要,我个人觉得商业场景越窄越好。3)数据分析结果,让人们能够理解,知道下一步该做什么,而不是数据。有很多人从事数据挖掘,但成功的案例并不多(与大量的尝试相比)。目前,我似乎认为当前的数据挖掘技术是一种过渡技术,仍处于探索阶段。此外,许多数据挖掘团队使业务不是业务,技术不是技术,对技术人员感到遗憾。对不起,我只给了一个问题,没有建议,这也表明数据分析有很多机会。最后,我想提到的是“数据中的个人”

以上就是关于数据挖掘或机器学习最重要的是什么?的相关介绍,更多数据挖掘或机器学习最重要的是什么?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据挖掘或机器学习最重要的是什么?有更深的了解和认识。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

6款市场受欢迎积分系统排名推荐

随着企业的不断发展,许多企业开启了积分系统服务,为顾客提供了一个便利的服务平台,也为企业提高了积分管理效率。下面我将介绍什么是积分系统,以及好用的积分系统推荐排行榜供大家分析参考。 一、什么是积分系统 积分系…查看详情

网页制作软件有哪些?好用的网页制作软件介绍

网页的建设其实是非常关键的,尤其是针对企业的发展能够带来很好的效果,所以说大部分的企业也都会拥有自己的网站,其实在网页进行设计的时候也是非常简单的,只要找到一些比较好的制作软件,就能够提供很多的帮助。那么网页制作…查看详情

恋爱电视剧排行榜 2021年最火的爱情电视剧

最近几年社会经济不断发展,众多影视公司崛起,影视文化的发展也较为迅速。当你结束了一天的工作之后,可以观看甜甜的恋爱剧情放松一下。所以我给大家整理了恋爱电视剧排行榜前六名,大家可以往下浏览::1.亲爱的,热爱的它是李现…查看详情

好用的编程软件有哪些 编程有哪些软件排行榜

最近几年计算机编程是非常的火爆的,现在计算机编程的话也是需要一些编程软件的,下面*就给大家来详细介绍一下好用的编程软件有哪些 编程有哪些软件排行榜这一块的内容,希望能帮助到大家。  好用的编程软件有哪些  C语言:…查看详情

跨境电商平台怎么选?先看看跨境电商平台排名

随着互联网的发展,经济趋势的增长,跨境电商受到越来越多企业的青睐。要做跨境电商,除了自建平台、搭建境外业务外,很多创业者会选择先在第三方平台试水。那么选择什么样的跨境电商平台好呢?我们不妨先来看看跨境电商平台排名…查看详情

专利工作的地域性规定内容 专利工作的地域性规定是什么

   在平时很多的小伙伴都不知道专利工作的地域性规定是什么的基本情况,而且对专利工作的地域性规定是什么都不是很熟悉,下面万商云集*就为大家整理了专利工作的地域性规定是什么这方面的相关内容,希望下面的内容能帮助…...查看详情

商标注册可以个人注册吗?只要有一个东西就可以

商标注册可以个人注册吗?很多人会误以为商标只有公司才能注册,但其实个人也可以进行注册。要想成功注册商标,首先商标必须符合相关法律规定,其次个人注册商标还需要拥有一个东西。 图片来源于网络 商标注册可以个人注册…查看详情

曾国藩:成大器的企业家必须“六戒”

曾国藩是晚清重臣,也被奉为千古唯一完人,古人有三不朽”:立功、立德、立言,曾国藩三个都做到了。*和蒋介石也极为推崇,*曾对其高度评价:予于近人,独服曾文正,观其收拾洪杨一役,完满无缺。同时,曾国藩也被马云、柳传志等企…查看详情

专利权的权的意思及解释

  在平时很多的小伙伴都不知道专利权的权是什么意思的基本情况,而且对专利权的权是什么意思都不是很熟悉,下面万商云集*就为大家整理了专利权的权是什么意思这方面的相关内容,希望下面的内容能帮助到各位。    一、专利权…查看详情

如何申请网站域名,有哪些步骤可以参考

如何申请网站域名?申请网站域名作为建设网站的第一步,是打开公司或个人网站的入口。就像是一个门牌地址,也像是是一个坐标地址,只要知道了坐标地址,我们就可以在地图上标示出来。可是在做网站之前,我们应该如何申请网站域名…查看详情

7z是什么格式的文件

7z解压后是什么格式?7z文件是一种格式,代表此文件经过了压缩,采用多种压缩算法对数据进行压缩,该格式最初被7-Zip实现并采用,而且这种格式还是共用的,其本身在GNU宽通用公共许可证(GNULGPL)协议下开放了所有的源代码,7-Zip对...查看详情

压缩软件哪些比较好用?好用的压缩软件介绍

当我们接收文件的时候或者是文件比较多要传送的时候都要对文件进行压缩,在文件压缩的时候有很多不同的软件,不同的软件打开速度以及使用效果体验都是不同的。那么压缩软件哪些比较好用?下面就来给大家分享几款比较好用的压缩软…查看详情

图书管理系统怎么批量录入

图书管理系统是用于管理图书馆或其他机构藏书的软件系统。批量录入是指将大量图书信息快速有效地导入到系统中。以下是一些常用的方法和步骤,可用于批量录入图书信息。1. 数据准备:首先,准备一个包含待录入图书信息的电子表格…查看详情

做好电子商务网站优化的四条建议

当前我们处在一个被网络包裹的年代,一个商家是否拥有网站对经营至关重要,其销售渠道和销售量都能得到很大程度上的扩充。当我们拥有了属于自己的电子商务网站后,应该怎样去优化调整,才能让网站发挥出最大的作用呢?下面四天建…查看详情

查看小说排行榜,不要错过这几款软件

在生活中通过看小说,不仅可以转换心情,同时也可以很好的打发无聊的时间,所以看小说已经成为了很多人的日常喜好了,而现在的众多看小说软件,也可以让大家真正的做到看小说自由,那么想要看小说排行榜的话,就不要错过下面介绍…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询