首页 >知识讲堂 >网站建设知识>分析美团点评是如何通过机器学习,来获得有价值的数据推荐。

分析美团点评是如何通过机器学习,来获得有价值的数据推荐。

2020-12-30 14:02:55 阅读(166 评论(0)

在美团商家数据中心(MDC),POI数据已经校准和审核超过100w(我们通常将业务标记为POI,POI基本信息包括:商店名称、类别、电话、地址、坐标等)。如何使用这些校准的POI数据来挖掘有价值的信息,本文进行了一些尝试:使用机器学习方法自动标记缺失类别的POI数据。例如,商店名称为“好牛肉拉面店”的POI将自动标记“零食”类别。机器学习解决问题的一般过程:本文将按:1)特征表示;2)特征选择;3)基于NaiveBayes分类模型;4)分类预测,四部分顺序。特征表明,我们需要首先将实际问题转换为计算机可识别的形式。对于POI来说,反映POI类别的一个重要特征是POI商店名称,因此问题转换为根据POI商店名称来判断POI类别。POI字段属于文本特征,传统的文本表示方法是基于向量空间模型(VSM模型)[1]:空间向量模型需要一个样本或外部导入的“字典”。上图中的字典是[好,酒店,海底,拉面,冰雪,.......,博物馆]。对于已校准的POI,我们首先使用Lucene的中文分词工具SmartCn[2]对POI名称进行预分词处理,并提取特征词作为原始粗糙字典集合。有了字典,你可以定量地表示一个文本。首先定义与字典长度相同的向量,向量中的每个位置对应字典中相应位置的单词。然后通过文本,在向量中的相应位置填写“一定值”(即特征词的权重,包括BOOL权重、词频权重、TFIDF权重)。考虑到一般的POI名称属于短文本,本文使用BOOL权重。在产生粗糙的字典集合时,我们还统计了校准POI中的每个类别(type_id),以及特征词(term)在品类(type_id)出现次数(文档频率)。分别写入表category_frequency和term_category_frequency,表的部分结果如下:category_frequency表:term_category_frequency表:分别记:   A(i,j)=特征词term(i)类别为type_id(j)count出现的次数   T(j)=类别为type_id(j)样本集出现的次数      N=校准POI数据集的数量将在后续计算中发挥作用。现在,我们得到了一个“预输入字典”:包括校准POI名称字段的所有特征词,如“88”、“11”,“3”、“auyi”、“中心”、“中国”、“酒店”、“自助餐”、“拉面”等。直觉,“88”、“11”,“3”、“auyi”、“中国”这个词对判断类别没有多大帮助,但“酒店”、“自助餐”、“拉面”在判断POI类别方面可能起着非常重要的作用。那么问题是,如何选择有利于模型预测的特征呢?这涉及到特征选择。特征选择方法可分为基于领域知识的规则方法和基于统计学习方法。本文采用统计机器学习方法和辅助规则方法的特征选择算法,选择有利于判断POI类别的特征词。基于统计学习的特征选择算法一般可分为两种:1。基于相关性测量(信息理论相关性)2。基于信息增益方法的特征空间表示(典型的PCA)(IG)特征选择方法[3]。特征信息增益是指在已知特征条件下,整个系统信息量的前后变化。如果前后信息量变化越大,特征的作用就越大。那么,如何定义信息量呢?一般来说,熵的概念用于衡量系统的信息量:当我们已知该特征时,从数学的角度来看,我们已知该特征的分布。系统的信息量可以用条件熵来描述:该特征的信息增益定义为:信息增益得分衡量该特征的重要性。假设我们有四个样本,样本的特征词包括“火锅”、“米粉”、“博物馆”,我们利用信息增益来判断不同特征对决策的影响:整个系统的最原始信息熵为:分别计算每个特征的条件熵:利用整个系统的信息熵减去条件熵,获得每个特征的信息增益分数排名(“火锅”(1)>“米粉”(0.31)>“博物馆”(0))根据得分由高到低选择所需的特征词。本文采用IG特征选择方法,选择排名靠前的N个特征词(前30%)。我们选择了前20个特征词:[酒店、酒店、火锅、摄影、眼镜、美容、咖啡,ktv,造型、汽车、餐厅、蛋糕、儿童、美发、商务、旅行社、婚纱、俱乐部、工作室、烧烤]。这些特征词显然与类别属性有很强的相关性,我们称之为类别词。基于领域知识的特征选择方法基于规则的特征选择算法,利用领域知识选择特征。目前,基于规则的特征选择算法很少单独使用,通常结合统计学习的特征选择算法,辅助选择特征。本文需要解决POI名称字段短文本的自动分类问题。POI名称字段一般符合此规则,POI名称=名称核心词 类别词。名称核心词对实际类别预测影响不大,有时“过度学习”起到负面作用。例如,“好利来牛肉拉面店”和“好利来”是它的名称核心词。在使用学习算法时,很可能会学习“蛋糕”类别(“好利来”和“蛋糕”类别之间有很强的相关性,并得出错误的预测结论)。本文利用该规则在选择特征时制定了提示:利用特征选择获得的特征词(大部分是类别词),将POI名称的字段分割成单词,丢弃前一部分(主要是名称核心单词),并保留剩余部分。从目前的评估结果来看,大约5%的精度会提高,缺点是算法覆盖率会降低#分类模型##建模完成特征表示和特征选择后,下一步是培训分类模型。机器学习分类模型可分为两类:1)生成模型;2)识别模型。可以简单地认为,两者之间的区别生成模型直接建模样本的联合概率分布:生成模型的困难在于如何估计类概率密度分布p(x |y)。本文采用了简单的贝叶斯模型"Naive"在简化对类概率密度函数时,假设条件是独立的:根据对p(x|y)不同的建模形式,NaiveBayes模型主要分为:Muti-variateBernoulliModel(多项伯努利模型)和Multinomialeventmodel(多项事件模型)[4]。伯努利事件相当于*币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。伯努利事件相当于*币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。我们结合传统的文本分类来解释这两种模型:在多个伯努利模型已知类别的情况下,多个伯努利对应于样本生X的过程:字典中的每个单词(t1和t2...判断这个词是否出现在样本中。每次遍历都是伯努利实验,|V|次遍历:其中1(condition)作为条件函数,该函数表示当条件成立时等于1,不成立时等于0;|V|代表字典的长度。在多个事件模型已知类别的情况下,多个事件模型假设样本的生成过程:从字典中选择文本中第k位置的单词,每个位置k生成的单词对应于多个事件。样本X=(w1,w2...ws)类概率密度:当样本用向量空间模型表示时,上部转换为:N(ti,X)在样本X中表示特征词i的次数。##经过大量无聊公式的折磨,我们终于看到了胜利的曙光:模型参数的估计。一般的方法包括最大的似然估计、最大的后验概率估计等。本文采用多个伯努利模型,我们直接给出了多个伯努利模型参数的估计结论:记住特征表示一节中统计的term_category_frequency和category_frequency两张表?这时,就要发挥它的作用了!我们只需要查询这两张表,就可以完成参数的估计。很开心吗?虽然过程有点曲折,但结果是美丽的~具体参数的意义可以参考特征来表示一个部分。下一个coding可能需要注意的两点:计算类概率密度p(X|Cj)如果类Cj下没有特征ti,p(ti|Cj)=0.类概率密度的连续乘以也将等于0。数量,如果在某种情况下没有出现样本的特征,则认为其产生的可能性等于零。这个结论太武断了,解决办法是加1平滑:其中,|C|表示样本的类别数据。在计算类概率密度时,小数溢出具有超过计算机可以表示的最小数的可能性。为了避免小数溢出的问题,类概率密度的计算通常被转换为对数累和的形式。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于某个阈值(如1E-6)时,用该阈值代替。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于一个阈值(如1E-6)时,用该阈值代替。算法预测本节将结合前三节给出算法的具体计算预测过程。为了简化这个问题,我们假设字典是:[拉面,七天,牛肉,博物馆],只有火锅和快餐,两种样品的数量都是8个。以“好利来牛肉拉面馆”为例:对测试样本进行中文分词,判断“牛肉”属于类别词,丢弃类别词“牛肉”前部,提取样本特征词集:[牛肉拉面店]根据字典建立向量空间模型:x=使用NaiveBayes模型分类预测[1,0,1,1]我们给火锅和快餐两种样本的term_category_frequency统计:样本属于快餐的概率是火锅的概率的4倍,预测样本属于快餐的可信度明显高于火锅的概率。该算法随机抽取2000个未校准的POI数据进行评估,该算法有两个评估指标:覆盖率和准确性。算法随机抽取2000个未校准的POI数据进行评估。算法有两个评估指标:覆盖率和准确性。覆盖率是指算法中可预测样本数量在整个测试样本集中的比例。由于采用特征选择后,一些POI名称无法预测,因为它们不包含特征词集,算法评估的覆盖率为84%。算法的准确性是指在整个测试样本集中预测正确样本的比例,算法评估的准确性为91%。#总结机器学习解决问题最关键的一步是找出问题:这个问题能用机器学习算法解决吗?还有其他更简单的方法吗?简单如字符串匹配,使用正则可以简单解决,只是机器学习方法非常麻烦,收益大于损失。如果能学习机器算法,如何表达这个机器学习问题,如何提取特征?也有可能对机器模式(分类、聚类、回归)进行分类)找出问题后,先尝试一些开源机器学习工具,验证算法的有效性。如有必要,自己实现一些机器算法,也可以借鉴一些开源机器学习算法。

以上就是关于分析美团点评是如何通过机器学习,来获得有价值的数据推荐。的相关介绍,更多分析美团点评是如何通过机器学习,来获得有价值的数据推荐。相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分析美团点评是如何通过机器学习,来获得有价值的数据推荐。有更深的了解和认识。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

关系数据库管理系统

什么是关系数据库管理系统的基本单位?数据表是关系数据库中最重要、最基本地数据对象,也是数据存储的基本单位。若没有表,数据库中其他的数据对象则没有意义。数据表被定义为字段的集合,数据在表中是按照行和列的格式来存储的,…查看详情

【商标注册流程及资料】注册有条件,不是所有商标都能注册

商标注册是根据法定的条件和流程,由企业或代理机构向国家知识产权局提交注册申请和注册材料,经过核准注册的商标成为“注册商标”,受到法律保护。近几年,企业/商家的知识产权保护意识有明显提升,对商标注册的重视程度也比较高…查看详情

商业计划书怎么写

  商业计划书是一个企业或创业公司撰写的重要文件,用于将商业想法转化为实际可行的商业计划。在写商业计划书之前,需要初步确定商业想法的可行性和市场前景,市场分析是非常重要的一步。以下是商业计划书的常见结构和要点: …查看详情

版权保护登记号丨作品所属关系证明文件的编号 具有唯一性

版权保护登记号是著作权登记证书上的编号,是可以证明和查询该著作权基础信息编号。著作权登记证书是作品所属关系的证明文件和该作品出版权、发表权、转让权等权利的证明文件。图片来源于网络◆ 首先来了解一下,在版权登记过…查看详情

设计图制作软件哪些功能强大呢?试试这几款吧。

对于美工设计师来说,想要设计出一款好的图片,需要有强大的基础功底,同时也要拥有一个好用的软件工具,这样才可以增加工作的效率。而好的设计图制作软件,需要拥有强大的功能和更强的专业性,帮助设计师快速制作出图片,那么设…查看详情

穿越电视剧排行榜前十名,部部都是经典

穿越题材的电视剧总会引人遐想,虽然说这些电视剧的题材已经由来已久,但是依然受到了不少人的追捧,并将不管是穿越未来还是过去,都会给人很大的想象空间,那么穿越电视剧排行榜前十名有哪些呢?这些都是经典,一起来看看吧。1、…查看详情

美术作品版权查询代理机构有哪些

美术作品版权查询代理机构是指专门提供美术作品版权查询服务的机构或公司。这些机构通常拥有丰富的版权查询经验和资源,并能够帮助艺术家、创作者或版权持有者确认其作品的版权状况。以下是一些常见的美术作品版权查询代理机构:&n…查看详情

一款科研管理系统有哪些功能

科技管理系统集中在政府所属科研机构和大学学校等,许多高校和机构也有自己独立的科研管理系统。那么科研管理系统都有些什么功能呢,让我们来一起看看科研管理系统的功能吧。1.科研工作日常管理医生、助理、科研人员:个人可在系统…查看详情

如何进行企业知识产权发展规划与保护?

随着经济全球化的步伐加快,很多以前看起来不可能发生的商业故事正在一个个发生。市场经济的多样化、消费者认知的不断升级,给企业带来了新的机遇,也面临着新的挑战。越来越多的企业更加注业知识产权发展规划与保护,尤其是对商…查看详情

pdf转word免费的软件都有哪些?这些软件值得推荐

当我们在看文件的时候,格式是不一样的,不同的格式打开的软件也不同。比如说我们接收到的文件可能是PDF格式的,这个时候很多人都想要把文件转换成为word格式。那么pdf转word免费的软件都有哪些呢?现在这个问题是很多在平时办公的人想…查看详情

网站建设需要什么人?五个人各司其职,可保证网站建设和后期维护

网站建设需要什么人?预算少的中小企业不需要了解这个问题。因为自己组建团队建设网站的成本会比找网站建设公司更高。此问题最适合有一定规模、有一定预算,又有将网站长期运营打算的企业。 图片来源于网络 网站建设需要什…查看详情

商标注册在哪里办理?这里给你答案

随着国民对知识产权意识的加强,注册商标的企业也是逐年增加。我们知道想要打造自己的品牌,首先需要解决的就是商标问题,否则就算你的产品已经可以生产经营了,也很容易陷入侵权或者商标被抢注的风险之中,甚至很多大公司都在此…查看详情

杀毒软件排名,这些可以放心用

现在的工作和生活中都会使用电脑,其中的信息也是比较多的,除了公司内部的信息之外,还有个人的一些隐私,如果不小心受到病毒的*,那么危害不可小视,甚至还会导致信息泄露影响严重,所以杀毒软件的选择很重要,下面就针对于杀毒…查看详情

如何制作一个小程序?商用的话,最好还是找专业的人来完成

微信小程序运用越来越广泛,朋友们想要自己也做一个小程序,却一定经验没有,专业IT知识更是一窍不通,那么如何制作一个小程序呢?图片来源于网络 如何制作一个小程序?第一步,注册小程序根据提示填写邮箱密码等信息,激活邮箱…查看详情

手机php文件用什么软件打开

forum.php手机怎么打开?需要使用编辑器打开1、比较轻便的编辑器有notepad++和subline2、教学常用的编辑器是dreamweaver3、如果以上编辑器都没有,可以右键打开方式,选择txt记事本打开手机如何打开php文件?1...查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询