首页 >知识讲堂 >网站建设知识>分析美团点评是如何通过机器学习,来获得有价值的数据推荐。

分析美团点评是如何通过机器学习,来获得有价值的数据推荐。

2020-12-30 14:02:55 阅读(173 评论(0)

在美团商家数据中心(MDC),POI数据已经校准和审核超过100w(我们通常将业务标记为POI,POI基本信息包括:商店名称、类别、电话、地址、坐标等)。如何使用这些校准的POI数据来挖掘有价值的信息,本文进行了一些尝试:使用机器学习方法自动标记缺失类别的POI数据。例如,商店名称为“好牛肉拉面店”的POI将自动标记“零食”类别。机器学习解决问题的一般过程:本文将按:1)特征表示;2)特征选择;3)基于NaiveBayes分类模型;4)分类预测,四部分顺序。特征表明,我们需要首先将实际问题转换为计算机可识别的形式。对于POI来说,反映POI类别的一个重要特征是POI商店名称,因此问题转换为根据POI商店名称来判断POI类别。POI字段属于文本特征,传统的文本表示方法是基于向量空间模型(VSM模型)[1]:空间向量模型需要一个样本或外部导入的“字典”。上图中的字典是[好,酒店,海底,拉面,冰雪,.......,博物馆]。对于已校准的POI,我们首先使用Lucene的中文分词工具SmartCn[2]对POI名称进行预分词处理,并提取特征词作为原始粗糙字典集合。有了字典,你可以定量地表示一个文本。首先定义与字典长度相同的向量,向量中的每个位置对应字典中相应位置的单词。然后通过文本,在向量中的相应位置填写“一定值”(即特征词的权重,包括BOOL权重、词频权重、TFIDF权重)。考虑到一般的POI名称属于短文本,本文使用BOOL权重。在产生粗糙的字典集合时,我们还统计了校准POI中的每个类别(type_id),以及特征词(term)在品类(type_id)出现次数(文档频率)。分别写入表category_frequency和term_category_frequency,表的部分结果如下:category_frequency表:term_category_frequency表:分别记:   A(i,j)=特征词term(i)类别为type_id(j)count出现的次数   T(j)=类别为type_id(j)样本集出现的次数      N=校准POI数据集的数量将在后续计算中发挥作用。现在,我们得到了一个“预输入字典”:包括校准POI名称字段的所有特征词,如“88”、“11”,“3”、“auyi”、“中心”、“中国”、“酒店”、“自助餐”、“拉面”等。直觉,“88”、“11”,“3”、“auyi”、“中国”这个词对判断类别没有多大帮助,但“酒店”、“自助餐”、“拉面”在判断POI类别方面可能起着非常重要的作用。那么问题是,如何选择有利于模型预测的特征呢?这涉及到特征选择。特征选择方法可分为基于领域知识的规则方法和基于统计学习方法。本文采用统计机器学习方法和辅助规则方法的特征选择算法,选择有利于判断POI类别的特征词。基于统计学习的特征选择算法一般可分为两种:1。基于相关性测量(信息理论相关性)2。基于信息增益方法的特征空间表示(典型的PCA)(IG)特征选择方法[3]。特征信息增益是指在已知特征条件下,整个系统信息量的前后变化。如果前后信息量变化越大,特征的作用就越大。那么,如何定义信息量呢?一般来说,熵的概念用于衡量系统的信息量:当我们已知该特征时,从数学的角度来看,我们已知该特征的分布。系统的信息量可以用条件熵来描述:该特征的信息增益定义为:信息增益得分衡量该特征的重要性。假设我们有四个样本,样本的特征词包括“火锅”、“米粉”、“博物馆”,我们利用信息增益来判断不同特征对决策的影响:整个系统的最原始信息熵为:分别计算每个特征的条件熵:利用整个系统的信息熵减去条件熵,获得每个特征的信息增益分数排名(“火锅”(1)>“米粉”(0.31)>“博物馆”(0))根据得分由高到低选择所需的特征词。本文采用IG特征选择方法,选择排名靠前的N个特征词(前30%)。我们选择了前20个特征词:[酒店、酒店、火锅、摄影、眼镜、美容、咖啡,ktv,造型、汽车、餐厅、蛋糕、儿童、美发、商务、旅行社、婚纱、俱乐部、工作室、烧烤]。这些特征词显然与类别属性有很强的相关性,我们称之为类别词。基于领域知识的特征选择方法基于规则的特征选择算法,利用领域知识选择特征。目前,基于规则的特征选择算法很少单独使用,通常结合统计学习的特征选择算法,辅助选择特征。本文需要解决POI名称字段短文本的自动分类问题。POI名称字段一般符合此规则,POI名称=名称核心词 类别词。名称核心词对实际类别预测影响不大,有时“过度学习”起到负面作用。例如,“好利来牛肉拉面店”和“好利来”是它的名称核心词。在使用学习算法时,很可能会学习“蛋糕”类别(“好利来”和“蛋糕”类别之间有很强的相关性,并得出错误的预测结论)。本文利用该规则在选择特征时制定了提示:利用特征选择获得的特征词(大部分是类别词),将POI名称的字段分割成单词,丢弃前一部分(主要是名称核心单词),并保留剩余部分。从目前的评估结果来看,大约5%的精度会提高,缺点是算法覆盖率会降低#分类模型##建模完成特征表示和特征选择后,下一步是培训分类模型。机器学习分类模型可分为两类:1)生成模型;2)识别模型。可以简单地认为,两者之间的区别生成模型直接建模样本的联合概率分布:生成模型的困难在于如何估计类概率密度分布p(x |y)。本文采用了简单的贝叶斯模型"Naive"在简化对类概率密度函数时,假设条件是独立的:根据对p(x|y)不同的建模形式,NaiveBayes模型主要分为:Muti-variateBernoulliModel(多项伯努利模型)和Multinomialeventmodel(多项事件模型)[4]。伯努利事件相当于*币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。伯努利事件相当于*币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。我们结合传统的文本分类来解释这两种模型:在多个伯努利模型已知类别的情况下,多个伯努利对应于样本生X的过程:字典中的每个单词(t1和t2...判断这个词是否出现在样本中。每次遍历都是伯努利实验,|V|次遍历:其中1(condition)作为条件函数,该函数表示当条件成立时等于1,不成立时等于0;|V|代表字典的长度。在多个事件模型已知类别的情况下,多个事件模型假设样本的生成过程:从字典中选择文本中第k位置的单词,每个位置k生成的单词对应于多个事件。样本X=(w1,w2...ws)类概率密度:当样本用向量空间模型表示时,上部转换为:N(ti,X)在样本X中表示特征词i的次数。##经过大量无聊公式的折磨,我们终于看到了胜利的曙光:模型参数的估计。一般的方法包括最大的似然估计、最大的后验概率估计等。本文采用多个伯努利模型,我们直接给出了多个伯努利模型参数的估计结论:记住特征表示一节中统计的term_category_frequency和category_frequency两张表?这时,就要发挥它的作用了!我们只需要查询这两张表,就可以完成参数的估计。很开心吗?虽然过程有点曲折,但结果是美丽的~具体参数的意义可以参考特征来表示一个部分。下一个coding可能需要注意的两点:计算类概率密度p(X|Cj)如果类Cj下没有特征ti,p(ti|Cj)=0.类概率密度的连续乘以也将等于0。数量,如果在某种情况下没有出现样本的特征,则认为其产生的可能性等于零。这个结论太武断了,解决办法是加1平滑:其中,|C|表示样本的类别数据。在计算类概率密度时,小数溢出具有超过计算机可以表示的最小数的可能性。为了避免小数溢出的问题,类概率密度的计算通常被转换为对数累和的形式。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于某个阈值(如1E-6)时,用该阈值代替。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于一个阈值(如1E-6)时,用该阈值代替。算法预测本节将结合前三节给出算法的具体计算预测过程。为了简化这个问题,我们假设字典是:[拉面,七天,牛肉,博物馆],只有火锅和快餐,两种样品的数量都是8个。以“好利来牛肉拉面馆”为例:对测试样本进行中文分词,判断“牛肉”属于类别词,丢弃类别词“牛肉”前部,提取样本特征词集:[牛肉拉面店]根据字典建立向量空间模型:x=使用NaiveBayes模型分类预测[1,0,1,1]我们给火锅和快餐两种样本的term_category_frequency统计:样本属于快餐的概率是火锅的概率的4倍,预测样本属于快餐的可信度明显高于火锅的概率。该算法随机抽取2000个未校准的POI数据进行评估,该算法有两个评估指标:覆盖率和准确性。算法随机抽取2000个未校准的POI数据进行评估。算法有两个评估指标:覆盖率和准确性。覆盖率是指算法中可预测样本数量在整个测试样本集中的比例。由于采用特征选择后,一些POI名称无法预测,因为它们不包含特征词集,算法评估的覆盖率为84%。算法的准确性是指在整个测试样本集中预测正确样本的比例,算法评估的准确性为91%。#总结机器学习解决问题最关键的一步是找出问题:这个问题能用机器学习算法解决吗?还有其他更简单的方法吗?简单如字符串匹配,使用正则可以简单解决,只是机器学习方法非常麻烦,收益大于损失。如果能学习机器算法,如何表达这个机器学习问题,如何提取特征?也有可能对机器模式(分类、聚类、回归)进行分类)找出问题后,先尝试一些开源机器学习工具,验证算法的有效性。如有必要,自己实现一些机器算法,也可以借鉴一些开源机器学习算法。

以上就是关于分析美团点评是如何通过机器学习,来获得有价值的数据推荐。的相关介绍,更多分析美团点评是如何通过机器学习,来获得有价值的数据推荐。相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分析美团点评是如何通过机器学习,来获得有价值的数据推荐。有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

伴唱软件有哪些 2022伴唱软件排行榜

  很多人在唱歌软件上唱歌的时候都喜欢打开伴唱,这样子大家才能跟上节奏,下面*就给大家来详细介绍一下伴唱软件有哪些 伴唱软件排行榜这一块的相关内容,希望能帮助到大家。  伴唱软件排行榜  1、《猫爪K歌》  猫爪K歌…查看详情

这些知识你不能不知道 中国注册商标流程详解

商标是企业的无形资产,是企业品牌发展的基石,所以企业必须要重视商标布局。中国注册商标一旦核准,商标就会受到法律的保护。而且商标还可以通过许可他人使用来获得一定的报酬,也能通过商标质押来获得商标贷款,使其企业有足够…查看详情

行业网站建设需要考虑哪些因素

行业网站建设可以有效地对行业信息及资源进行整理,以此满足众多企业的行业的需求,行业越多,资源越丰富,为企业提供的信息也越多。通过行业网站建设可以快速的对行业资源进行整合,解决企业发展问题。那么行业网站建设需要考虑…查看详情

英语口语软件有哪些 能练英语口语的app软件

如果要出国留学,最基本的英语必须要会,因为在国外留学每天肯定要用英语交流,如果你对英语一窍不通,那么,就没办法与别人沟通,在国外生活是很困难的,英语口语软件有什么?1、掌中英语以简单有效学英语宗旨、设计合乎在手机上…查看详情

6款懒人必备的免费的听书软件

相信有很多小伙伴都喜欢使用听书软件,在晚上入睡之前点开听书软件,闭眼听几章小说章节,可以减轻眼睛的压力,也可以更好的入睡。所以我给大家整理了6款懒人必备的免费的听书软件,软件介绍如下:1.番茄畅听番茄畅听app是抖音全新…查看详情

互联网运营是什么?运营互联网需要哪些基础能力?

近几年随着互联网的崛起,越来越多企业老板开始重视互联网的运营,而运营的好坏也直接决定了企业的存亡,所以现在的市场依旧在大量招聘运营专员,薪资也是居高不下。所以想要去应聘互联网运营的人很多,但是现场一问,却有连互联…查看详情

有人指出阿里双十一数据造假,我们来看看是怎么回事儿

每年阿里都是双十一最耀眼的明星,今年也不例外,阿里双十一的成交额高达2684亿元,比京东累计11天的销售额还多,如此庞大的交易数据,如此快的增长速度让国外的人都傻眼了,可是正当所有人都觉得阿里特别牛的时候,一条关于阿里双…查看详情

好用的压缩解压软件有哪些 好用的压缩解压软件排行榜

  现在大家用到压缩软件的时候都是非常的多的,现在市面上也有很多的压缩解压软件,下面*就给大家来详细介绍一下好用的压缩解压软件有哪些 好用的压缩解压软件排行榜这一块的内容,希望能帮助到大家。  好用的压缩解压软件…查看详情

建网站的流程

怎么创建网站?建网站的基本流程为:域名注册-域名备案-购买网站空间-购买网站源文件上传空间-域名解析到空间域名购买到域名注册服务商购买域名,选择.com.cn等主流后缀的域名为最好,买好后,记得要上传证件认证通过了才能使用。域名…查看详情

网易考拉海购是正品吗

  我们需要了解网易考拉海购的背景信息。网易考拉海购成立于2015年,是中国领先的跨境电商平台之一,主要经营跨境进口商品。目前,网易考拉海购拥有超过8000个海外品牌和5000多个国际合作伙伴,销售的商品涵盖护肤品、母婴用品、食…查看详情

太原网站建设你要做好这些初期准备工作

随着互联网的发展,网站现在已成为个人企业的标配,太原网站建设应该如何做呢?很多人对网站建设不是很了解!如果你想建立一个网站,或者你正在建设一个网站,那么你是在正确的地方。小万将为您介绍怎样制作网站整个过程。 图…查看详情

windows10怎么连接打印机

  Windows10是目前最受欢迎的操作系统之一,大量的用户在日常生活中需要将电脑连接到打印机和无线网络中。本篇文章将向您详细介绍如何在Windows10系统中连接打印机和无线网络,其中包括有线和无线连接。本文提供每一步的详细说明,以…查看详情

经验之谈:我的网站运营工作总结

网站运营是指一切为了提升网站服务于用户的效率,而从事与网站后期运作、经营有关的行为工作。通常包括网站内容更新维护、网站服务器维护、网站流程优化、数据挖掘分析、用户研究管理、网站营销策划等等。作为一个网站站长,今天…查看详情

制作图片的软件都有哪些?好用的图片软件制作推荐

不少的人喜欢拍照片,拍完照片之后对于照片的制作也是非常关键的,只有通过对图片进行编辑才能够打造出更好的效果,也会让图片变得更加美观精致。如果想要让图片呈现出不一样的效果,那么就应该要选择比较好的软件。那么制作图片…查看详情

苏宁现场狠心销毁不良品

双十一还没有到来,各大电商应景开始在仓库上大作文章了,继天猫发布智能仓后,苏宁也在仓库上来搞事,就在前几天苏宁方面开始现场销毁仓库中的不良品,这是在消费者吃产品质量定心丸。日前。苏宁在现场销毁快消不良品的场面首次…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询