数据挖掘或机器学习最重要的是什么？

2021-01-06 13:43:33 阅读（176） 评论（0）

我是数据挖掘和机器学习的新手。我从去年7月开始接触Amazon，我以前从未接触过，因为我的工作需要被动接触。我所做的是预测与机器学习相关的需求。后来到了淘宝，主动做了几个月的用户地址相关数据挖掘工作，有了一些浅薄的经验。下面的文章主要是我作为一个新人不到10个月的数据技术经验，可能对你有用，也可能很愚蠢，无论如何，欢迎指导和讨论。另外，注意这篇文章的标题模仿了一部美剧《权力的游戏:冰与火之歌》。在数据的世界里，我们看到了许多强大而有趣的案例。然而，数据就像一个王座，就像征服一种权力和征服，但在路上却同样令人震惊。当Amazon从事机器学习时，我注意到Amazon玩数据的三个角色。DataAnalyzer：数据分析师。这类人主要分析数据，从数据中找到一些规则，为数据模型找到不同场景的TrainingData。此外，这些人也是清洗一些脏数据的人。ResearchScientist：研究科学家。该角色主要根据不同的需要建立数据模型。就像《生命大爆炸》中的Sheldon一样，他们把自己戏称为不接近人间烟火的奇异物种。这些人基本上玩的是数据上的科学Softwaredeveloper：软件开发工程师。主要是实现Scientist建立的数据模型，交给Dataanalyzer玩。这些人通常更了解各种机器学习算法。我相信这三种工作是其他公司从事数据挖掘或机器学习的，或者这三种人。对我来说，最具技术性的是scientist，因为这些人决定了数据建模和提取最有意义的向量，以及选择不同的方法。我觉得这种人在国内是找不到的。最苦最累，但最重要的是Datanalyzer，他们的工作也是这三个角色中最重要的(注:我用了三个最重要的)。因为，不管你的模型和算法有多好，你只能在一堆烂数据上做一堆垃圾。正所谓：GarbageIn,GarbageOut！但这是最脏最累的工作，也是最容易退缩的工作。SoftwareDeveloper是技术含量最低的。现在国内很多玩数据的人都认为算法是最重要的，很多技术人员都在研究机器学习算法。错了，最重要的是上面两个人，一个是Datanalyzer洗数据，另一个是真正懂数据建模的Scientist！而像什么k-means，KNearestNeighbor，或者贝叶斯、回归、决策树、随机森林等其他游戏都非常成熟，而不是人工智能。说白了，这些算法在机器学习和数据挖掘中基本没有技术含量，比如QuickSort。目前流行的BuzzWord-大数据质量是相当误导性的。在我眼里，数据不分大小，只分好坏。在处理数据的过程中，我首先感受到的是数据质量。下面我分几个案例来说明:案例一:数据标准在Amazon，所有商品都有唯一的ID，叫ASIN——AmazonSingleIdentifyNumber，该ID用于识别商品的独特性（来自条形码）。也就是说，无论你把商品描述成什么，只要ASIN是一样的，这就是完全一样的商品。这样，就不像淘宝了。当你搜索iPhone时，你会有一堆各种各样的iPhone，有的叫“超值iPhone”，有的叫“苹果iPhone”，有的叫“智能手机iPhone”，有的叫“iPhone白/黑”...这些同一产品的不同描述是商家为了吸引用户。但有两个问题：1）用户体验差。对于消费者来说，以商品为中心的商业模式明显优于以商家为中心的商业模式。2)只要你不能正确阅读(识别)数据，你背后的算法和模型都是无用的。所以，只要你玩数据，你就会发现如果没有建立数据标准，什么都没用。数据标准是数据质量的第一关。没有这个东西，你什么都不玩。所谓的数据标准，唯一的数据识别只是最基本的一步，数据标准只是这样，更重要的是，数据标准抽象成数学向量，没有数学向量，以后不能挖掘。因此，您可以看到，洗涤数据的大量工作是合并和聚合混乱的数据，即建立数据标准。人肉的工作是绝对不可或缺的。无非是：聪明人在数据生成前定义标准，并在数据生成时进行数据清理。一般人只有在数据产生并大量积累之后才会这样做。此外，让我们谈谈Amazon的ASIN。这件事从十多年前开始。我在Amazon内部网站上看到的信息并没有说为什么我有这样一个ID。我认为这不是因为Amazon需要推荐一个商品ID，因为玩数据，也许是因为Amazon的商业模式被设计成“商品为中心”。如今，ASIN仍然存在许多问题。ASIN不能完全保证商品是一样的。不同的ASIN并不意味着商品是不同的，但超过90%的商品是有保证的。Amazon有专门的团队CategoryTeam，每天都有很多业务人员拼命纠正ASIN的数据。案例二:数据的准确用户地址是我从事过数据分析的另一件事。我还记得看到数亿用户地址数据的兴奋。但后来我就不能兴奋了。因为地址是用户自己填写的，里面有很多坑，不容易做。第一个是假/错地址，因为有些商家作弊或者用户测试。所以地址是错误的，比如直接输入“地址不存在”、“13243234asdfasdi”等等。我的程序可以识别出这样的地址。我的程序也能识别出来。例如：“宇宙路地球社区”等等。但是这种地址是可以识别的。甚至连人都认不出来，比如“北京市东四环路23号南航大厦5楼540室”，这个地址根本不存在。二是真实地址，但由于用户写作不规范，很难处理，如：缩写：“建国门外街”、“建国门外街”、“中国工商银行”、“工行”。。。错别字：“潮阳门”、“通惠河”。。。逆转：“东四环中路朝阳公园”和“朝阳公园（东四环）”。。。别名：有些人写开发商的社区名称“东恒国际”，有的写行政地名“八里庄东里”...这样的例子太多了。如果数据不准确，会增加你处理的难度。可见，如果数据不准确，会增加你处理的难度。有个比喻很好。玩数据就像挖金矿。如果含金量高，挖掘难度小，容易产生效果。如果含金量低，挖掘难度大，效果差。以上，我给出了两个案例，旨在解释-1)数据没有大小，只有含金量大的数据和垃圾量大的数据。2)数据清洗是一项多么重要的工作，也是一项人肉工作量很大的工作。因此，最好在数据生成时一点一点地完成这项工作。有一种观点:如果数据的准确性是60%，你所做的事情肯定会被用户骂！假如数据准确度在80%左右，那么用户会说，还不错！只有当数据准确度达到90%时，用户才会感觉到真正的牛B。但从80%到90%的数据准确性要比60%到80%的成本要大得多。大部分数据挖掘团队都会在70%的地方停下来。因为，以后，这是一项相当累的工作。我不知道有多少数据挖掘团队真正意识到业务场景和数据挖掘之间的重要关系？我们需要知道，数据挖掘和分析模型是不可能满足所有业务的。推荐音乐视频与电子商务中推荐商品的场景完全不同。在电子商务中，只要你买东西不退货，那么，我可以相信你喜欢它，然后，对于音乐和视频，你不能通过用户听歌曲或看视频武断地认为用户喜欢歌曲和视频，所以，我们可以看到不同业务场景下推荐算法的难度完全不同。说到推荐算法，你是不是和我一样，有时候对推荐有一种感觉——推荐是按不同维度排序的算法。就我个人而言，我认为在某些商业场景下，推荐有两种（不是根据用户关系和项目关系），一种是普遍推荐，结果是推荐流行的东西，这可能很好，但这可能是用户已知的，例如，在北京，我想找一家餐馆，你总是推荐烤鸭，我想去一个地方，你总是向我推荐天安门故宫的天坛（因为大多数人来北京吃烤鸭或去天安门广场）。我不知道所有这些。你想推荐吗？此外，水军通常可以刷普通的东西。此外，常见的东西通常可以被水军刷掉。另一种是个性化推荐，需要分析用户的个人喜好。好的总是给我我喜欢的。坏的是，也许我的口味会随着我的年龄和环境而变化。此外，我总是推荐符合用户口味的，这不能帮助用户探索新的点。例如，我喜欢辛辣的食物。你总是向我推荐川菜和湘菜。过了很长一段时间，我会感到无聊。有时候推荐不是民主投票，而是专业用户或者资深玩家的建议；有时候推荐不是流行的，而是新鲜的，我不知道。你可以看到，不同的商业场景和不同的产品形式可能会有完全不同的游戏玩法。此外，即使对于同一个电子商务，书籍、手机和服装的商业形式也完全不同。我之前在Amazon做过DemandForecasting(用户需求预测)——通过历史数据预测用户未来的需求。对于书籍、手机、家用电器等产品，你可以认为它们是“标准产品”（但不一定），预测更准确，甚至可以预测相关产品属性的需求。然而，Amazon已经工作了十多年，无法很好地预测服装等叫做Softline的产品，因为这些东西受到太多的干扰因素，比如用户对颜色和风格的偏好，是否合适，爱人和朋友是否喜欢。。。这种东西太容易改变了。如果你买得太多，你就卖不好，所以你根本无法预测，更不用说Stock/VenderManager提出的“预测某个品牌某种颜色的衣服或鞋子”了。对于需求的预测，我发现长期在这个行业努力工作的人的预测是最准确的，任何机器学习都是浮云。对于需求的预测，我发现长期在这个行业努力工作的人的预测是最准确的，任何机器学习都是浮云。机器学习只有在你必须面对成千上万种不同的商品和类别时才有意义。数据挖掘不是人工智能，而是太远了。不要认为数据挖掘可以做任何事情。找到合适的业务场景和产品形式比什么都重要。数据分析结果我看到很多玩大数据的人，基本上做数据统计，从多个不同维度统计数据的表现。最简单最常见的统计就是网站统计。比如:PV是多少，UV是多少，来源在哪里，浏览器，操作系统，地理，搜索引擎分布等等。唠叨，不要以为你一天有十几个T的日志就是数据，也不要以为你会用Hadop/Mapreduce分析日志。这就是数据挖掘。说得好听点，你在做的只是一份统计工作。那些T的RawData基本没有意义，只能叫日志，连数据都不算。只有你统计的数据才有意义，才能叫数据。当用户面对自己网店的数据时，比如每千人下单5人，65%的访客是男的，30%的18-24岁的访客等等。你甚至给出了这样的数据，你打败了同类型商家的40%。身为商人，面对这些数据，大多数人的表现都是完全不知道自己能做什么？是把网站改成更男性化，还是让年轻人更喜欢？我完全不知道该怎么办。只要你看一看，你会发现很多数据分析的结果看起来不错，但你不知道下一步该怎么办？所以，在我看来，数据分析的结果不仅仅是呈现数据，更重要的是，这些数据背后能做什么？如果你不知道看了数据分析的结果后能做什么，那么数据分析就失败了。综上所述，以下是我认为数据挖掘或机器学习最重要的事情:1)数据质量。分为数据标准和数据准确性。尽量消除数据中的杂音。为了数据的质量，大量的人肉工作是必不可少的。2)数据的业务场景。在所有的场景下，我们都做不到，所以，商业场景和产品形式都很重要，我个人觉得商业场景越窄越好。3)数据分析结果，让人们能够理解，知道下一步该做什么，而不是数据。有很多人从事数据挖掘，但成功的案例并不多（与大量的尝试相比）。目前，我似乎认为当前的数据挖掘技术是一种过渡技术，仍处于探索阶段。此外，许多数据挖掘团队使业务不是业务，技术不是技术，对技术人员感到遗憾。对不起，我只给了一个问题，没有建议，这也表明数据分析有很多机会。最后，我想提到的是“数据中的个人”

以上就是关于数据挖掘或机器学习最重要的是什么？的相关介绍，更多数据挖掘或机器学习最重要的是什么？相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对数据挖掘或机器学习最重要的是什么？有更深的了解和认识。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：【2005-2012年】数据科学发展简史下一条：如何做好数据埋点？