首页 >知识讲堂 >数据分析知识>督导式机器学习的使用现状分析

督导式机器学习的使用现状分析

2020-12-28 15:39:11 阅读(167 评论(0)

随着我们进入2017年下半年,是时候看看使用数据科学和机器学习的公司面临的共同挑战了。假设你的公司已经大规模收集数据,需要使用分析工具,你已经意识到数据科学可以发挥重要作用(包括改善决策或企业管理、增加收入等),并优先考虑。对收集数据和识别感兴趣的问题并非小事,但假设你在这些方面取得了良好的开端,那么还有哪些挑战呢?数据科学是一个广泛的话题,所以我想解释一下:本文主要讨论了监督机器学习的使用情况。假设你有一个处理数据摄取和集成的团队,以及一个维护数据平台(“真相来源”)的团队,新的数据来源不断出现,领域专家负责找到这些数据来源。此外,由于我们主要讨论监督学习,缺乏培训数据仍然是机器学习项目的主要瓶颈,这并不奇怪。有一些很好的研究项目和工具可以快速创建庞大的训练数据集(或加强现有的训练数据集)。斯坦福大学的研究人员已经证明,弱监督和数据编程可以用于训练模型,而无需使用大量手工标记的训练数据。深度学习研究人员对生成模型的初步研究在计算机视觉等无监督学习领域取得了令人满意的成果。在机器学习的背景下,评估数据的另一种有用方法是“思考特性而不是算法”。友情提示:数据扩展可以改善你现有的模型,在某些情况下,甚至可以帮助缓解冷启动问题。大多数数据科学家可能使用开源数据或通过第三方数据提供商扩展他们的现有数据集,但我发现数据扩展有时会被忽略。人们认为获取外部数据、标准化和使用这些数据进行实验没有开发模型和算法那么有吸引力。许多用例的目标是从原型到产品,使数据科学项目产品化。为使这一过程更加高效,最近出现了一个新的工作角色——机器学习工程师。还有一套新工具可以促进从原型到产品的转变,帮助跟踪和分析与产品相关的背景和元数据。机器学习在产品中的应用还处于早期阶段,最佳实践才刚刚开始。随着先进分析模型的普及,有几点需要考虑,包括:部署环境:您可能需要与现有的日志或A/B测试基础设施集成。除了在服务器上部署稳定、高性能的模型外,部署环境还包括如何以及何将模型部署到边缘(移动设备是一个常见的例子)。在边缘设备上部署模型的新工具和策略已经出现。大小,延迟,新鲜度:训练模型需要多少数据?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率是多少?后者表明你有可重复的数据管道。偏差:如果你的训练数据不具有代表性,你会得到不理想(甚至不公平)的结果。在某些情况下,您可以使用倾向得分或其他方法来相应地调整数据集。监控模型:我认为人们低估了监控模型的重要性。学过统计学的人在这方面具有竞争优势。可能很难知道模型何时退化,退化了多少。概念漂移可能是一个因素。就分类器而言,一种策略是将模型预测的类别分布与预测类别的观测分布进行比较。您还可以设定不同于机器学习模型评估指标的商业目标。例如,推荐系统的任务可能是帮助发现“隐藏或长尾”的内容。关键应用程序:在关键环境下部署的模型必须比普通消费者应用程序更稳定。此外,这种环境下的机器学习应用程序必须能够“连续”运行几个月(无内存泄漏等故障)。隐私和安全:一般来说,如果你能让用户和企业相信他们的数据是安全的,他们可能更愿意共享数据。如上所述,以额外特征扩展的数据往往会带来更好的结果。对于在欧盟经商的企业来说,一个迫在眉睫的问题是《一般数据保护条例》(GDPR)将于2018年5月生效。对抗性机器学习和安全性机器学习(包括能够处理加密数据)的实践研究开始出现在其他领域。模型开发媒体对模型和算法开发的报道越来越多,但如果你与数据科学家交谈,他们中的大多数人会告诉你,缺乏培训数据和数据科学的产品化是一个更紧迫的问题。一般来说,市场上有足够简单明了的用例来开发你喜欢的算法(基本或先进),并在未来进行调整或替换。由于工具使算法的应用更容易,因此有必要回顾如何评估机器学习模型的结果。尽管如此,不要忽视你的业务指标和目标,因为它们可能与调试最好或性能最好的模型不完全一致。研究人员和企业正在开始检查和解决与公平透明相关的问题。对隐私的担忧,加上设备的激增,催生了不依赖集中数据集的技术。深度学习正逐渐成为数据科学家必须理解的算法。深度学习最初用于计算机视觉和语音识别,但现在它涉及到数据科学家可以想到的各种数据类型和问题。挑战包括选择适当的网络结构(结构工程是一个新的特征工程)、过度参数调整、描述问题和转换数据,以适应深度学习。巧合的是,我今年见过的最有趣的大型数据产品之一不是基于深度学习。)很多时候,用户更喜欢可解释的模型(黑盒模型在某些情况下是不被接受的)。考虑到基本机制易于理解,可解释的模型也更容易改进。随着深度学习的兴起,企业开始使用能够解释模型预测原理的工具和能够解释模型来自哪里的工具(跟踪学习算法和培训数据)。我不想列出一个工具清单,因为有太多的工具可以列出。帮助我们摄取、整合、处理、准备和存储数据以及部署模型的工具是非常重要的。Python和R是机器学习编程最流行的语言。对于那些想要使用深度学习技术的人来说,Keras是最受欢迎的入门级语言。虽然笔记本电脑似乎是一个很好的模型开发工具,但集成开发环境(IDE)在R用户中很受欢迎。有许多通用机器学习和深度学习的数据库,其中一些更擅长促进从原型到产品的转变。促进从单机到集群的扩张是一个重要的考虑因素。ApacheSpark在这方面应用广泛。经过一系列的数据整理,您的数据集通常适合在稳定的单个服务器上部署。供应商开始支持合作和版本控制。最后,您可能需要数据科学工具来无缝整合现有的生态系统和数据平台。如果企业想评估哪些问题,哪些用例适合使用机器学习,现在是一个很好的时机。我总结了一些最近的趋势和尚未解决的瓶颈。你的主要结论应该是:你现在可以用机器学习了。从已经有一部分数据的问题开始,然后建立一个优秀的模型。

以上就是关于督导式机器学习的使用现状分析的相关介绍,更多督导式机器学习的使用现状分析相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对督导式机器学习的使用现状分析有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

服务器是什么(建站该如何选择香港服务器)

伴随着搜索引擎算法规则的不断更新与完善,对SEO的要求日益严格,网站SEO已成为SEO优化网站的重要手段。在众多的站群服务器中,香港站群服务器离国内较近,性能配置良好。通过性快.稳定性好,是国内站长首选的选择。所以对新手站长来…查看详情

穿越重生小说有哪些 十大经典穿越重生小说

很多的书友特别喜欢看穿越的重生小说,而且这些小说都是非常经典的,下面*就给大家推荐一下穿越重生小说有哪些 十大经典穿越重生小说这一块的相关内容,希望能帮助到大家。十大经典穿越重生小说  1、《皇恩》作者:笑佳人  …查看详情

荣耀手机怎么关闭自动更新

  荣耀手机是华为公司旗下的一款智能手机品牌,其操作系统为基于Android系统的EMUI系统。默认情况下,荣耀手机会开启自动更新功能,以保证用户在使用手机时能够获得最新的软件版本和安全补丁。但是,一些用户可能会不喜欢自动更新,…查看详情

置换补贴是什么意思 置换补贴多久可以领取

  置换补贴是指政府为鼓励节能减排和更新换代,针对老旧高耗能设备、车辆等进行淘汰更新,并给予一定的财政补贴。这种政策旨在促进经济可持续发展和环保事业,减少对资源的浪费和对环境的污染。  置换补贴的领取时间会根据不…查看详情

EFI系统分区是干嘛的

请问现在新买的笔记本里EFI系统分区是干什么用的?EFI是可以替代主板bios的东西。EFI在概念上非常类似于一个低阶的操作系统,并且具有操控所有*件资源的能力。EFI驱动程序还可以放置在某个磁盘的EFI专用分区中,只要这些驱动不是用于加载...查看详情

接入internet的方法有哪些

internet的连接方式主要有几种?连接方式主要有三种:拨号接入方式、ISDN方式和DDN方式。1、电话拨号直接进入这种方式主机通过调制解调器和电话线路与ISP(Internet服务商)网络服务器的调制解调器相连,实现主机与Interne...查看详情

微博打不开了怎么回事 微博打不开淘宝链接怎么回事

  微博是中国最大的社交媒体平台之一,淘宝则是中国最大的电商平台之一。这两个平台都是中国互联网的重要组成部分,每天都有数以百万计的用户在上面进行交流和购物。但是,有时候这些平台可能会出现一些问题,例如微博打不开,…查看详情

第25类商标注册适用于服装行业,且要注意相似类的选择

衣食住行是生活的基础,随着物质条件的被满足,人们已逐渐从吃得饱、穿得暖开始追求更好吃、更好看。淘宝每年销量遥遥领先的类目之一,就是服装。各行各业人员也都出于兴趣、利润等投入到服装行业,于是也越来越多的商家涉及到第25…查看详情

密控管理系统哪些比较好?这5款提高企业盈利率的不容错过

选择一个好的密控系统能够在各方面都提高企业的工作效率,提高企业的盈利率,利用比较先进的技术从而对企业进行管理,有那么多的密控管理系统哪些比较好呢,以下是我给大家的推荐。1.密码信息管理app通过网页交流的电脑页面版,大家…查看详情

feof函数是什么

c语言feof函数怎么用?c语言feof函数是用来判断读到了文件的外面,而不是判断文件指针是否到达文件尾部(指向文件最后一个字符的后面)。feof函数在stdio.h中的宏定义:#define_IOEOF0x0010#definefeof(...查看详情

无损音乐播放器 十大无损音乐播放器软件App

  大家在手机和电脑上听歌用的是哪些播放器?QQ酷狗?还是到点就emo(伤感)网易云?或者是其他的网络音乐播放器。不可否认的是网络音乐播放器确实不错,偶尔听上几首放松一下也很惬意,但真正喜欢音乐的朋友们,还是会自己备用一…查看详情

2020开展网店运营需要做哪些准备

随着2019双十一落下帷幕,淘宝、天猫等电商平台创下新的销售记录,越来越多的商家开始加入开网店的行业,竞争也愈演愈烈。有人想通过电商运营的方式来大干一场,却不知道如何做网店运营。今天,让我们一起来看看,开展网店运营工作…查看详情

集团网站建设的注意事项

集团网站是企业最直接和权威的信息发布平台,对于企业来说是不可或缺的存在。现在很多网建公司都是以相同的方法进行网站建设的,但是这种方式并不适用于集团网站建设。所有大型网站在建设前都需要系统的规划,不然很难达到预期的…查看详情

个人怎么报考二建

  二级建造师是在我国工程建设行业中的重要人才之一,其职责是负责工程建筑中的技术指导和工程质量把控。如果你对这个职业充满热情,并打算申请二建考试,下面我将详细描述个人如何报考二建。  一、报名条件  在申请二建考…查看详情

微商城系统开发需要注意的问题

在电子商务体系中,微商城成为新的热门销售地,进而微商城系统开发成为广大企业商家的重要*点。微商城系统开发看起来是个技术活儿,实体企业商家对此毫无经验,只能靠朋友推荐或自己上网搜索寻找微商城系统开发企业。为了让企业商…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询