广告中的机器学习应用场景

2020-12-28 11:51:17 阅读（177） 评论（0）

01之前写的最后一篇文章《数据与广告系列9:有趣的本地化广告》是7月30日，刚好隔了一个月。哈哈，这不是断断续续，正常的更新节奏(微信官方账号:数据虫巢)。不知不觉中，《数据与广告系列》已经到了第十篇文章，以平均5000字数来看，也有5万多字。在过去的一年里，我突然发现散文写得相对较少。不知不觉中，我习惯于从更全面的角度组织知识结构，然后形成部分系统的知识结构。除了目前的九个数据和广告系列，还有六个推荐系统，四个非典型的跳槽指南，三个数据和业务系列，四个阅读清单系列。从目前的角度来看，目前的数据和广告系列还有继续下去的空间。这种情况也可能是对相关知识结构的更系统的思考，应该算是好事。以前写“短篇小说”，现在终于开始写“中长篇小说”了。在之前的计划中，该系列应该从广告的起源到技术架构，再到推荐系统的交叉比较，再到不同类型的广告业务场景，这样的结构逻辑。因此，本系列的下一个内容很可能涉及到游戏广告的垂直领域，并计划进行深入探索。然而，从写完《推荐系统系列》到写完《数据与广告系列》第九篇文章，我总觉得整个知识结构体系缺少了什么。直到最近才突然想起来，是的，是算法维度的东西。以数据为核心，再到业务应用场景，没有问题，但总是缺少最重要的环节，那就是算法。虽然在推荐系统系列中，也涉及到一些传统的推荐算法逻辑，甚至代码级别，但总是太介绍，而不是正统的算法和机器学习陈述逻辑和知识结构，直率地说，逻辑或初步构建推荐系统的整体结构，而不是最终的形式。换句话说，那永远是低level的东西，我们总是要有更高的追求。因此，在接下来的内容中，会有大量的算法，或者更严格的意义上是机器学习，当然，不是纯粹的理论（太理论我不擅长），仍然会结合整个机器学习应用场景的广告，很多事情我不会，边走边看。但我能保证的是，只有我彻底理解的东西才会抛给大家，尽量结合广告的实际场景，然后拿更实用的数据(kagle上的相关数据集)，然后边聊广告边撕机器学习代码，顺便聊聊生活。03广告机器学习应用场景由于这是广告算法相关的延伸，当然，看算法，但不是这个，一开始总是不能撕裂代码，让我们看看机器学习在整个广告过程中，可以做什么，然后知道我们的计划逻辑需要进一步学习什么，了解什么。回忆第七篇《推荐与广告技术架构》中广告技术的架构图，其中一个非常重要的环节就是广告的排名。因此，说到算法在广告中的应用，首先要想到的是通过机器学习来实现广告的最佳排名。回忆一下广告排名逻辑中涉及的几个因素:出价、上下文匹配、CTR估算。这本身就是多元素组合排名最好的问题，CTR预测是广告领域需要解决的核心问题。因为在许多广告系统中，上下文可能无法理解，出价逻辑可能有点粗糙，但CTR估计是首要任务，首先需要解决的问题。CTR预测本质上是对候选人曝光用户和每个广告候选人池点击概率的估计。因此，这是一个非常典型的偏回归问题。上下文理解延续上述主题，上下文理解或上下文匹配。简单地说，计算环境因素与广告因素的匹配程度，或计算相关程度。当然，匹配只是解决上下文理解的一种方法，或者这种机器学习模型可以解决这个问题。事实上，还有其他方法可以解决。例如，当您积累足够的样本时，您不仅可以计算内容的相关性，还可以从推荐系统的想法中思考，即大量的广告环境和广告曝光关系数据，以及用户在此组合下的ctr数据。这不是一个非常典型的相关分析场景吗！通过历史信息，对上下文环境和广告进行相关分析，而不是基于内容相关性。从目的的角度来看，用户最终会点击广告，所以相关分析和相关分析都是一种方式。lookalike人群扩张是广告领域典型的需求场景。更直白地说，当我想要的人没有那么多时，我该怎么办？给我一个预测，扩展一下。因此，lookalike基本上获得了核心用户（所谓的核心用户是已经验证的高转换人群），然后计算类似的用户（不是严格意义上的相似内容，而是相似的最终转换目标），从而达到扩展的目的。通常扩展的原始用户是用户圈选择定向的群体，但显然定向圈定的群体与实际需求曝光水平存在差距。还有一个更常见的扩展场景，即广告商引导自己积累的高转型核心人群，这是最准确的方向，然后平台负责帮助我找到同样的人。回到机器学习，你可以认为这是一个类似于用户计算的场景，二值判断，概率计算，最简单的，你可以用LR来满足你的需求。但不仅仅是这么简单，因为很多时候你会发现你的训练样本可能是数百万，甚至数千万的数据集，然后如果维度意外达到数十万维度，数百万维度，甚至数千万级，那么你需要解决更多的问题。我们知道，定向是广告系统中的人群召回阶段，从基本的男女性别到更高纬度的商业兴趣，比如你是否想*，你是否想贷款，这些最具体的形式是用户标签。每个成熟的广告平台都有一个完整而相对准确的标签系统，每个系统中的人或多或少都可以贴上几个标签。所以，总有一个合适的广告场景，平台可以卖你，卖个好价钱。回想一下以前的文章，广告的本质就是卖流量，卖人。虽然有点残酷，但这是终极的本质。标签人就是把人分类，就像超市里的超市阿姨把不同的商品放在不同类别的货架上一样，方便顾客“选择”(我太佩服自己了，甚至写得那么有哲理/捂脸)。而且标签的制作简单，说起来难。举个简单的例子，如果有场景，最基本的性别标签可以收集身份证号码，这自然很简单，但如果没有，你可以猜吗？因此，这里是典型的二值分类场景(也有三个分类，比如微博，除了男女，还有很多机构属性的账号)。此外，还有数百个其他标签，包括各个层次和细分领域。简单地说，你可以通过行为规则来标记一些标签。只要规则合理，准确性就可以通过行为规则来判断。然而，一方面，显性行为的数量不能满足你对大规模曝光的需求，另一方面，召回能力太差，机器学习的专业术语被称为泛化能力太差。因此，从机器学习的角度来看，这是一个典型的模型场景，也是一个超多分类的场景。当然，你也可以转化为二值分类，对于每个标签，都是YESORNO的答案。当然，在实际处理中，大多数可能只计算一个概率值，然后进行进一步的计算和判断。基于用户行为，肯定会遇到很多文本，自然语言处理的东西是必不可少的。异常分析所谓的异常分析应属于偏反作弊的范畴。比如大规模机器点击广告，造成假货怎么办？即使不是机器，也总有一些人闲着没事干，点着广告玩。更重要的是，在连接发布和收集信息的广告场景或二级电子商务中。填空号是正常的。打电话说自己不正常是正常的。在二级电商中，地址到了门牌号，名字上写着“周杰伦”。你应该犹豫要不要发货吗？如果你拒绝来回邮费，那就没用了。广告商非常担心桑树，每次点击都要扣除钱，每个被拒绝的名单不仅浪费送货能源，更重要的是来回邮费成本，是一个小企业，无法忍受扔。因此，二级电子商务必须控制主脏订单率（所谓脏订单是找不到地址，各种拒绝订单），CPC层，大量恶意无效点击是不可行的，这些压力最终将不可避免地落实到平台上，平台必须解决这类人。抓住那些有恶意广告行为的人（处理历史污点），但那些有这种潜力的人也必须找出来，以防止未来的麻烦！从机器学习和算法的角度来看，这是一个典型的分类场景，但它真的不是一个典型的分类场景。你知道，坏人总是少数，如果你的平台是坏人，你的平台就不用玩了。这是“大海捞针”的活计！也就是说，你必须从数千万甚至数亿用户中获得数十万或数百万“可能的坏人”。这是一个典型的正负样本极度不平衡的场景，这是分类场景中的禁忌。这是一场灾难，是一个非常困难的场景。04你想手撕代码吗？以上是我暂时能想到的机器学习在广告平台上的应用场景。基于我浅薄的知识，机器学习必须解决更多的其他场景。最好说这么多，最后一个代码，对吧？别担心，既然开了机器学习这个头，总会有代码。在接下来的一章中，我们将逐一了解上述场景，基于真实的广告需求，结合机器学习知识，使用kagle中的真实数据来解决这些问题。基于我不可靠的机器学习理论，下一个内容将是两个广告场景，三个机器学习理论，五个分手撕裂代码，这样的结构，也是一个相对合理的结构，更容易理解和吸收。

以上就是关于广告中的机器学习应用场景的相关介绍，更多广告中的机器学习应用场景相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对广告中的机器学习应用场景有更深的了解和认识。

内容来源:数据虫巢，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：业务数据异动，如何实现问题定位？下一条：产品数据分析模型在实战中要注意的关键点