首页 >知识讲堂 >数据分析知识>如何预测未知性别?

如何预测未知性别?

2020-12-28 11:23:42 阅读(177 评论(0)

“ 带你手撕代码。 我不知道读这篇文章需要多长时间。不管怎样,这有点长。这取决于你的理解能力。“接下来是“数据与广告系列10:打开机器学习之路”。我们打开了数据与广告系列机器学习相关的章节。我们了解到,在整个广告系统过程中,如果你愿意,几乎每个环节都可以完美地嵌入机器学习。然而,在最后一篇文章中,我们没有触及任何关于算法实践和代码着陆的事情,总是停留在场景和少量理论的维度上,甚至可以说任何非技术人员都能理解。我的微信签名是“Talkischeap,showmethedata标准翻译是“不要拉那么多鸡蛋,用数据说话”。今天我们不showdata,我们来撕代码,也许撕了,那些看似困难的东西我们就明白了。01、在最后一篇文章中,我们提到了机器学习的应用场景,即定向标签的挖掘,而性别标签是所有广告平台中最基本、最常用的定向标签。如下图所示,这是腾讯广点通平台上创建广告、设置定向条件时可以看到的界面。对于性别标签,这是所有广告平台的标准,因为它是标准的,这意味着它是一种常见的能力,所以有必要确保完整的覆盖,标签是准确的。然而,并不是所有的平台都有准确的原始性别数据。我目前能想到的唯一平台是银行系统。毕竟,没有身份证你什么也做不了。既然你有身份证,你就有性别标签。就像腾讯这么大,但并不是所有的商业场景都需要用户授权身份证号码,毕竟,这是一个非常私人的信息,非常规的场景不能使用。因此,同样也面临着如何用性别标签覆盖所有用户的问题,更不用说其它平台了。对于所有的广告平台,显性增加可靠性别覆盖,一方面是创建一些合理的业务场景,以确保获得最准确的身份证信息,如成瘾,你总是证明你是成年人,做信用评估,总是有官方认可的真实身份,等等。另外,合法的第三方数据来源,这个就不深入展开了。但无论如何,还是那句话,除了银行,这个问题都要解决。因此,必然会面临如何预测未知性别的问题。在每个平台系统中,您总是可以通过上述方式获得部分或大部分明确性别的数据,即已知标记的样本。通过对未知的已知预测,对学习问题进行非常标准的监督,或者对分类模型的机器学习问题进行典型的归属。02、手工撕裂数据源。我们的第一个场景是预测性别,获取标记的性别数据,然后获取用户对应的各个维度的数据作为特征,最终预测可靠的结果。对于各大平台来说,如果体积足够大,方式正确,总能找到很多性别差异明显(差异大,预测可行性增加)的行为特征。对我们来说,为了更好地撕开代码,我们需要找到尽可能合理和看似真实的数据。我从kagle上找到了两个与性别预测有关的脱敏数据,*的人数超过数百。一个是talkingdata之前提供的数据,包括用户性别标志、各种用户起卸停APP的行为数据、相关APP类别数据等。如果你想搜索,直接搜索“TalkingDataMobileUserDemographics”即可。但是我没有使用这些数据,尽管下意识地认为这些数据会非常可靠,but,大达5GB,我的小阿里云机,绝壁跑不动,还有跑模型训练。所以我选择了另一个数据,kagle搜索“twitter-user-gender-classification由参赛者提供的脱敏twitter性别分类数据,看名字就可靠了。然而,在实际使用和阅读评论后,它似乎真的不可靠,质量有点令人担忧。总共有2万多个数据和26个维度特征(大多数不可用)。机器资源有限,能源有限,重点是了解这样的机器学习场景,以及实际的机器学习过程,我们不关心这些细节。03、在提前准备编写代码之前,我希望你对python有一个基本的了解,因为整个过程将由python完成,所以请学习python的基础,请安装anaconda3集成环境,请提前熟悉python编译集成环境jupyternotebook,以上,不知道如何邀请谷歌,教程很多。numpy将用于所有数据的预处理和清洗,pandas,可以用matplotlib等python工具库绘制一些图片。虽然我们可能会在文章的过程中稍微学习一下,但毕竟是有限的。请提前学习。大多数机器学习实践将使用sklearn2.X,文章涉及的部分会讲解,但毕竟时间有限,请先了解。为何使用sklearn?因为python的整个过程都有足够的支持,阅读、清洁、观察和各种数学库都不太方便。更重要的是,你认为每月数百元的阿里云功能可以运行深度学习吗?我必须权衡使用数据集。04、在数据探索任何机器学习的开始时,都无法避免对持有数据的观察。你甚至不知道数据是什么样子的。你可以玩锤子算法。jupyternotebook的环境大概是这样的,可以随意创建文件夹或python文件。下面的ipynb后缀是编译执行文件。如果不深入,请自己去谷歌。引入几个必须使用的包:import pandas as pd #importtpython知名数据处理包 numpy as np  #和上面一样有名,更古老的importt也更古老 matplotlib.pyplot as plt  #同上著名,用于绘图,易于观察读入数据:data=pd.read_csv('./data/gender-classifier-DFE-791531.csv'         ,header=0         ,error_bad_lines=False         ,encoding='latin1'                   ,skip_blank_lines=True)#header=0.不需要指定自己的表头,自带#error_bad_lines=False,错误行自动删除多余行,喜欢pd的各种聪明骚操作#encoding,编码,不多说#skip_blank_lines,跳过空行看具体数据的样子:真的有点多,显示不全,在26个维度中,gender标记列被圈起来,这是我们通常预测模型中的Y值。整体特征维度如下(中文是我自己翻译的,凑合着看,应该能看懂,不懂翻译工具):#_unit_id(唯一ID):auniqueidforuser#_golden(黄金标准,2值):whethertheuserwasincludedinthegoldstandardforthemodel;TRUEorFALSE#_unit_state(检测状态,2值):stateoftheobservation;oneoffinalized(forcontributor-judged)orgolden(forgoldstandardobservations)#_trusted_judgments(可信评论的数量,连续值):numberoftrustedjudgments(int);always3fornon-golden,andwhatmaybeauniqueidforgoldstandardobservations#_last_judgment_at(最终评论时间):dateandtimeoflastcontributorjudgment;blankforgoldstandardobservations#gender(性别):oneofmale,female,orbrand(fornon-humanprofiles)#gender:confidence(性别可信度,信心范围):afloatrepresentingconfidenceintheprovidedgender#profile_yn(No代表数据收集,非预测):"no"hereseemstomeanthattheprofilewasmeanttobepartofthedatasetbutwasnotavailablewhencontributorswenttojudgeit#profile_yn:confidence(profile_yn置信间):confidenceintheexistence/non-existenceoftheprofile#created(用户创建时间):dateandtimewhentheprofilewascreated#description(用户描述):theuser'sprofiledescription#fav_number(*人数):numberoftweetstheuserhasfavorited#gender_gold(性别黄金?):iftheprofileisgolden,whatisthegender?#link_color(十六进制,link颜色):thelinkcolorontheprofile,asahexvalue#name(名称):theuser'sname#profile_yn_gold(二值):whethertheprofiley/nvalueisgolden#profileimage(头像):alinktotheprofileimage#retweet_count(*次数):numberoftimestheuserhasretweeted(orpossibly,beenretweeted)#sidebar_color(边框颜色):coloroftheprofilesidebar,asahexvalue#text(tweets文本随机抽取):textofarandomoneoftheuser'stweets#tweet_coord(如果用户打开定位,则显示经纬度):iftheuserhaslocationturnedon,thecoordinatesasastringwiththeformat"[latitude,longitude]"#tweet_count(发布的tweet数):numberoftweetsthattheuserhasposted#tweet_created(tweet创建时间随机抽取):whentherandomtweet(inthetextcolumn)wascreated#tweet_id(tweetid随机抽取):thetweetidoftherandomtweet#tweet_location(tweeet定位,没有标准化处理):locationofthetweet;seemstonotbeparticularlynormalized#user_timezone(用户时区):thetimezoneoftheuser看起来不错吗?再看一个数据:dataframe.info()函数,可以看到数据集的整体情况,是否发现各种空值,数量不足20050,能否用20050。再看一个数据:dataframe.info()函数,可以看到数据集的整体情况,是否发现各种空值,数量不足20050,能否用20050。05、从基本数据初步探索的特征选择中,我们可能知道数据的范围,但我们需要先判断是否可以使用,不能将所有数据丢失到模型中。我们的目标是预测gender。性别分为三类,而非常规的两类男女。我们应该有一些商业思维。在推特上不难理解许多机构类型的账户,这与微博上的许多机构账户是一样的。从直观的角度来看,我们筛选出可能与性别有关的一个

以上就是关于如何预测未知性别?的相关介绍,更多如何预测未知性别?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对如何预测未知性别?有更深的了解和认识。

内容来源:数据虫巢,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

好看的国产动漫排行榜前十名,这些都是重点推荐

很多人都比较喜欢日本的动漫,其实国产也有很多的好看动漫可以选择。毕竟现在我国的动漫制作技术提升了不少,在故事的情节打造上,也更符合国情,那么好看的国产动漫排行榜前十名都有哪些呢?这些都是重点推荐的,一起来看看吧。1…查看详情

什么软件赚钱最快最靠谱?这几款支持微信提现

最近,有越来越多的朋友们在问什么软件赚钱最快?哪个软件赚钱最可靠?确实,如果我们利用玩手机刷抖音的时间用来赚钱,岂不美哉!下面跟着*一起来看看什么软件赚钱最快吧。1、投票软件通过投票软件是可以赚钱的。许多人是通过微信…查看详情

声纳系统技术运用在哪些方面?

声纳系统是一种在水下作业的系统技术,它可以帮助我们进行水下探测、通信等操作,大大提高了水下作业的效率。餐桌上的鱼有些也是运用声纳系统捕的。声纳系统技术作用在哪些方面?让我来告诉你吧。1.军事水声技术它是一款利用声纳系…查看详情

十大财务软件分享,总有一款适合你

随着时代的变迁,如今的财务早已经不同于以往的“账房先生”,仅凭算盘和纸笔就能指导“天下”。现在的企业拥有庞大的数据需要分析处理,以及各项数据申报,而这些都是离不开财务软件的辅助。但是对于选购财务软件,我们不仅要擦…查看详情

出去旅游订酒店用哪个APP好? 酒店预订哪个软件便宜?

大家现在的经济条件都变得比较好了,所以都会想要四处去转转,到处旅旅游。如果大家想要去旅游的话,这也就意味着大家需要远离自己的家乡,而大家在家乡之外是没有一个住所的。如果大家没有住所的话,那么就需要去预定酒店让自己…查看详情

sqlserver2008安装步骤

Win7系统已安装SQLServer2008怎么重装系统?首先处理SQLServer2008数据库系统,一种办法就是对数据库做完整备份,一般是通过命令行方式(SQLPLUS),对数据库进行全备份,包括特定的数据库以及能够恢复这些数据相关的日...查看详情

2021国内最好用的5款解压软件,支持7Z、RAR、ZIP格式!

一款好用的解压软件能够帮助我们在日常工作中极大的提高工作效率,而2021年国内有哪些好用的解压软件呢?最好还要能够支持一些比较难解压的格式,比如7Z、RAR、ZIP等,小万整理了目前国内市场上最好用的5款解压软件,供各位做参考。&nbs…查看详情

oa系统有哪些品牌?市面上oa系统分这三类

企业管理中的五要素:人、财、物、信息、时间,而在市场上总计3类的OA系统对于一个新生企业来说,能够起到全面执行力的变革作用,你知道oa系统有哪些品牌吗? 1. 通达oa系统 通过简单的可视化拖拽方式快速搭建各类...查看详情

什么是2级分销系统?2级分销系统的主要优势

随着商品经济的不断发展,销售行为也出现出了多种形式,而2级分销系统是一种销售体系,拓宽了商品销售的渠道,因此得到了许多商家的青睐。但是对于刚刚接触二级分销的商家而言,对它还不是很了解。本篇文章将为大家讲解一下什么是2…查看详情

电动自行车品牌有哪些 5大电动自行车品牌

在平时的出行中很多人其实也会选择电动自行车,不同的电动自行车也有不同的功能,下面万商云集*给大家来详细介绍一下电动自行车品牌有哪些 5大电动自行车品牌这一块的详细内容,希望帮助到大家。  品牌:永久Forever  型号:TD…查看详情

编程是学些什么东西

猿辅导编程讲的什么?猿编程课程主要面向4-12岁的学生,走的是Python语言的程序设计路线。主要是帮助孩子掌握编程语言和编程思维,来到达开发设计程序的目。智能制造专业学什么课程?主干课程:机床电气控制与PLC、工业机器人技术、数控…查看详情

代驾app排行榜 十大代驾app排行榜

代驾app的出现给大家的生活带来了不少便利,让大家出门在外有了安全的保障,不用再担心喝酒后不能驾车的问题,可以和朋友放心喝大胆玩了,今天就带大家一起盘点一下有哪些好用的代驾app。1.滴滴代驾滴滴代驾是滴滴旗下的一款代驾app,…查看详情

视频剪辑用什么软件最好?这些软件不容错过

很多人都特别喜欢拍摄视频,其实现在很多人也都喜欢*一些小视频,那么想要带来不一样的视觉体验,就应该要学会视频的剪辑与制作。在进行视频剪辑的时候应该要找到不错的软件来使用,这样能够让自己在制作的过程当中更加容易也能够…查看详情

网店名字大全 给网店取名需要注意些什么?

电商发展迅速,很多人萌生了创业的想法,一个好的网店名字对于网店来说是非常重要的,这也是店铺进行获客的重要手段和渠道,如何取名字?给网店取名需要注意些什么?以下就各行业领域举例,以下这些不错的网店名字大全供大家参考…查看详情

万商云集为建筑工程行业打造小程序全网营销模式

时代飞速发展,科技日新月异,稍不留神就可能错过无限商机。小程序自出现以来,便受到各行各业的*,成为传统企业转型互联网的捷径之选。建筑工程行业也不例外,其看似硬核的行业特性下,在小程序的帮助下,也可以柔软的融入互联网…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询