首页 >知识讲堂 >数据分析知识>模型上线该如何评估以及选择最终的预测结果?

模型上线该如何评估以及选择最终的预测结果?

2020-12-28 11:13:36 阅读(240 评论(0)

在最后一篇文章中,我们介绍了正式的数据源。通过pandas提供的一些dataframe函数,我们对数据进行了初步观察。然后,基于matplotlib提供的scatter散点图函数,我们逐一观察了可能发挥预测作用的部分特征的最原始分布关系,然后用多种分类模型算法逐一完成了从训练到预测再到模型评估的过程。一般来说,基本过程已经过去了。至少让每个人都知道最简单的过程是什么。事实上,这并不神秘。但这确实是最简单的过程,我们不知道有更深层次的惯例。因此,接下来,我们应该尝试看看如何使用文本类的特征,是否有更合理的特征选择方法,如何调整模型的参数,并仅仅依靠train_test当然,无论是否有更合理的方法来分割数据,然后进行训练和验证,是否有其他更合理的方法来观察效果,以及如何评估和选择最终的预测结果。然后补充这些,我们将从零开始梳理完整的机器学习过程,基于这些CASE,基于这个CASE也可以完成一个完整的过程。在02文本分类的最后一篇文章中,我们几乎使用了可能影响性别的数值和LABEL特征,只有少数文本特征不敢开始。包括随机选择的推文text、账户描述信息description和账户昵称。文本特征不同于传统的数值特征,数值特征是一个非常标准的模型输入格式,类型特征只需要做字典编码,也可以转换为有限的数字特征,只有一段文本特征,以及账户昵称。文本特征不同于传统的数值特征,数值特征是一个非常规的模型输入格式,而类型特征是一个非常标准的特征,类型特征也只需要做字典编码,也可以模仿为有限的数字类型特征。the”“a”“are“等等。一般来说,这些词对类别的判断没有多大帮助,但它们会影响标记的性能。毕竟,最终拆卸的标记维度会更多,并形成干扰。因此,鉴于文本的特征,首先是单词分割,然后是停止单词的过滤。此外,由于句子中单词的重用性,同一标记将不可避免地出现多次,特别是一些长文本,这是一个非常常见的情况。仅仅依靠是否出现来进行特征是不够的。我们可以尝试量化特征在特征阶段的重要性,并给出不同的权重,这必然会在实际预测中带来积极的影响。对于单词的权重,标记sklearn.feature_extraction.text提供了两种常规方法,一种是词频统计,很容易理解,即以词频的数量为权重,另一种是tfidf。tfidf是从全球思维的角度量化单词权重的一种方式。其中,tf即词频=单词出现在文档中的次数/文档的总数。你可以认为这里有多少文本记录,比如有多少text。这里量化的是单个文档中单词的权重。idf是反向文档的频率=log(文档总数/(包含该词的文档数) 1),idf从整体角度加权分布特征独特的单词,变相减权通用性强的单词。两者结合后,一方面考虑单个记录中单个单词特征的权重,另一方面也考虑单词的整体权重,最终获得tfidf的综合权重。更具体的可以从其他渠道理解,简而言之,这并不是很困难。##由于特征包含了文本属性、文本特征和更高的信息区分,因此优先考虑fromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.naive_bayesimportMultinomialNBc_vec_s=CountVectorizer(analyzer='word',stop_words='english')df_text=pd.concat([df['description_norm'],df['name_norm'],df['text_norm']],axis=1)# 类型转换x_text_count=c_vec_s.fit_transform((df['text'] df['description']).tolist())x_train,x_test,y_train,y_test=train_test_split(x_text_count,y,test_size=0.35#贝叶斯nb=MultinomialNB()nb.fit(x_train, y_train)y_predict=nb.predict(x_test)text_confusion=confusion_matrix(y_test,y_predict,labels=[0,1,2])print(f'confusion_matrix: \n{text_confusion}')print_score(y_test,y_predict,text_confusion)这里使用了简单贝叶斯的分类模型,并使用了多项分布NB,我们将借此机会补充一些理论知识。简单贝叶斯分类的核心是通过现有样本的特征构建先验概率,然后通过先验概率计算未知分类的概率。结合这个例子,可以计算已知单词特征和结果之间的可能概率,类似于先验概率。在预测阶段,可以计算测试数据或实际数据的单词的权利特征。通过结合培训计算获得先验概率,可以计算或预测每个类别的概率,从而达到预测的目的。其中,P(A |B)是指事件B发生时事件A发生的概率(条件概率)。在传统的简单贝叶斯分类中,先验概率的计算与特征的分布有关,分为三种分布:高斯分布,即正态分布。此时,计算先验概率将认为特征是根据正态分布的,例如,常见的身高分布是正态分布。在这个例子中,词分布显然很难形成标准正态。当然,你也可以画出分布图。多项分布-有点难解释,或者结合文本分类,对于特征矩阵有N维,N维分布是离散的,所以对于每个类别有N个抽样概率计算,当然,每个维度的单词特征仍然是权力,最终得到一个整体概率。一个更流行的描述是,许多分布有点像扔N*币的总概率(当然,有时你没有*币——没有这个词,所以这次不需要扔,自然这个词的相应概率不需要计算),但实际上可能不是每个扔*币的重心是绝对中间的,所以最终结果自然不是0.5。伯努利分布-结合这个例子,对于一个样本,其特征是整体特征,即不同于多项分布,虽然最终可能是N维字矩阵,但实际上每个样本参与概率计算字特征远低于N,正如上面所说,有时你不能得到*币,自然不需要扔。然而,与伯努利不同,他相当于从全局的角度观察样本的概率,这对于没有出现的单词特征也是有意义的,即“未出现”也是一种特征表征,也需要参与概率计算,最终是一个真正的ND概率。所以对于文本分类,经常使用简单的贝叶斯分类很容易理解,先验概率计算逻辑使稀疏和分散的场景最大化每个细微特征的概率影响,使机制非常稳定,稳定到简单的贝叶斯很难做模型水平的优化,本身没有几个参数,所以从模型水平尝试优化,count特征化和tfidf特征化是上述两种思路。这是MultinomialNB中使用count特征化的结果:confusion_matrix:[[1593 507 236][8631052 283][305 3481406]]0-precision:0.57696486780152120-recall:0.68193493150684941-precision:0.5516518091242791-recall:0.47861692447679712-precision:0.73038961038961042-recall:0.6828557552209811avg-precison:0.6196687624384702avg-recall:0.614920373477:0.61439571060215这是MultinomialNBTfidf特征化的结果:confusion_matrix:[[1875 352 130][1072 922 242][460 2761264]]0-precision:0.55033754035808620-recall:0.79550275774289351-precision:0.59483870967741941-recall:0.412343470483005352-precision:0.77261613691931542-recall:0.632avg-precison:0.6392641289849403avg-recall:61320760752996accuracy:0.61596306239以下使用伯努利分布(BernoulliNB)简单的贝叶斯,并采用tfidf特征结果:confusion_matrix:[[2001 253 123][1148 779 196][526 2361331]]0-precision:0.54448979591836730-recall:0.8418174169120741-precision:0.61435331230283911-recall:0.366933584550164842-precision:0.80666666666666662-recall:0.6359292881032012avg-precison:0.6551699249626243avg-recall:0.61493429556:accuracy最好的结果是0.623,0.623,0.623,183072956,真的不好,但是和之前最大的不超过0.55比,简直好多了,感动得哭了。然而,仍然非常痛苦的是,1-male类别仍然是最糟糕的类别,这真的有可能是male的特征没有相对的显著性。这里再次解释,文本类的特征信息量仍然相对较大。虽然特征维度相对较高(),看起来非常复杂,但正因为如此,一些东西越能反映在侧面。对于文本特征,样本数量越多,分类就越容易更准确:x_train.shape(12243,66195)#前面是行数,即样本数,后面是列数,也就是说,在最后一篇文章中,我们首先使用经验来判断最终特征维度03更合理的特征选择 通过肉眼观察相关分布来选择数值型特征,实际上还有更合理的判断方法。第一种,判断特征变化与Y的相关系数(Pearsonr相关系数):from scipy.stats import pearsonrprint(f"tweet_count-y(pearsonr):{pearsonr(df_x['tweet_count'],y)}")print(f"retweet_c

以上就是关于模型上线该如何评估以及选择最终的预测结果?的相关介绍,更多模型上线该如何评估以及选择最终的预测结果?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对模型上线该如何评估以及选择最终的预测结果?有更深的了解和认识。

内容来源:数据虫巢,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

怎么样做一个自己的网站?

在以前人们往往都是通过其他人建立的网站,去了解信息或者是购买东西,而日常生活中常见的网站也很多,比如说淘宝网或者是京东网,以及腾讯新闻或者是头条新闻等等,都有着较高的知名度。其实想要推广自己的产品也完全可以建立一…查看详情

互联网运营的分类有哪些?

互联网运营是让一个互联网产品从1到n的角色,他让用户了解产品,让产品发挥价值,互联网运营是一个持续的过程,没有运营,产品就没有生命。随着互联网技术发展革新,移动支付等应用完全融入了人们日常生活,大部分行业都可以通过线…查看详情

2021那些好用的公司办公oa软件排名

随着互联网和大数据的不断发展,网上作业成为很多企业办公的重要选择。既具有时效性又具有协同性,可以让员工不在同一个空间就能一起办公,帮助企业减少众多不必要的失误,创造更多的实际利益,所以大批的oa软件也开始迎风出现。选…查看详情

讲故事的app有哪些 2022故事软件app排行榜

现在的孩子睡觉前都有听故事的习惯,但是有些家长平时比较忙,没有时间天天给孩子讲故事,所以,有些人就特别的烦恼不知道该怎么办,那么,我们可以下载讲故事的app来给孩子讲故事。1、凯叔讲故事里面包含大量的幼儿故事,特别的适…查看详情

微信小程序用什么语言开发

  微信小程序是一种轻量级的应用程序,它可以在微信内部运行,不需要用户下载和安装,具有开发简单、快速上线、便携性强的优势,成为越来越多企业和个人喜爱的开发方式。微信小程序支持多种语言开发,包括JavaScript、微信小程序专…查看详情

十大靠谱找工作APP,这几款十分靠谱

现在人们找工作除了去人才市场之外,多数都会选择线上找工作的一些平台,毕竟这样会更加的简单方便,也可以通过这些平台投交简历,或者是受到面试的邀请,不出门就能够了解所在城市的一些招聘信息,那么下面就为大家推荐几款靠谱…查看详情

第5类商标直接关系适用群体的健康,注册要规避以下限制!

病患和婴儿都是社会关注度极高的群体,而这两种群体涉及到的药品、医用营养食物、婴儿食品、尿不湿等常用商品的商标类别都包含在第5类,导致进行第5类商标注册的关注度和敏感度受到适用群体和社会大众的广泛关注。因为该类别直接关…查看详情

小程序能做什么?它是否能给创业者带来新的机会?

其实我们可以很明显地感受到,随着市场趋于饱和,如今公众号想要单纯靠内容获取大量用户已经越来越艰难,APP的用户留存率也越来越难以提升。所以,很多人开始做起了小程序。但是小程序能给创业者们带来新的机会吗?不妨先来看看小…查看详情

自动抢红包外挂神器,不漏过任何一个红包

大家都喜欢在微信上面抢红包,包括过年的时候,快手和抖音也会发一亿的红包雨让大家抢,那么,怎么能保证不错过这些红包呢,就需要借助外挂才可以,抢红包开挂软件都有什么呢?1、红包猎手红包猎手自动抢红包,通常又名红包猎手。…查看详情

最热完本小说排行榜,‘剑来’高居榜首

看小说可以转移注意力,缓解心理压力。当你躁动不安时,不妨坐下静静品读一本你比较感兴趣的小说,陶冶情操,修身养性。所以我整理了一些已经完结的小说,完本小说排行榜前六名,我来给大家揭晓!1.《剑来》《剑来》是众多小说网站…查看详情

5款找房子靠谱的租房管理软件推荐给大家

当我们要去外地上班的时候,需要自己寻找房子居住,因为,有很多公司是不管住的,所以,需要自己找房子居住,那么,大家可以看一下租房管理软件有哪些,从中可以找到房源信息。1.贝壳找房这一款APP是以前有朋友给我介绍过的,本人感…查看详情

店铺如何运营

  店铺运营是指经营一个店铺,让顾客在其中购买所需要的商品或服务,同时实现盈利的一种商业活动。要想成功运营一个店铺,需要考虑很多方面,从店铺的定位、产品的选择、销售策略、客户服务等多个环节来进行管理。本文将从以上…查看详情

新公司注册流程及需要的材料(必要材料收集)

  现在很多人对于公司注册的相关流程和相关的所需材料都不是很清楚,可能每一个地方的政策也有点不一样,下面*就给大家来详细介绍一下新公司注册流程及需要的材料这一块的内容,希望能帮助到大家。  新公司注册流程  1、提前…查看详情

2021最新出炉北京呼叫中心系统推荐

不同的企业适合不同的呼叫中心系统,例如一般中小型企业需要的是一套轻量级的呼叫中心解决方案,而大型企业则更需要功能齐全一套呼叫方案,北京企业如何选择一套合适的呼叫中心系统呢?小万整理了一份2021最新出炉北京呼叫中心系统…查看详情

charger是什么充电器

CHARGER是什么牌子的充电器电瓶车的?charger是SHOI品牌充电器,名字叫概率充电器。著名的电子产品品牌SHOI刚刚发布了引领世界潮流的下一代电子产品——概率充电器(charger)。SHOI概率充电器由n-1条导线连通了n个充电...查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询