说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术

2021-01-04 10:14:11 阅读（173） 评论（0）

Quora已经使用机器学习技术一段时间了。我们始终跟进最新的方法，对现有的方法进行重大改进。有必要提醒您，所有这些改进都是优化和测试各种离线测试方法，但最终必须通过在线A/B测试。在这篇文章中，我将谈谈Quora在2015年将使用的一些非常重要的机器学习应用和技术。(注:本文作者XavierAmatriaiain是Quora工程副总裁。）排名可以说是网上最重要的机器学习应用之一。大大小小的公司都围绕排名建立了商业模式，比如查询字符串返回的结果。Quora在不同的环境中使用不同的排名算法，目的不同。一个有趣的例子是答案排名。假设一个问题有几个答案，我们感兴趣的是如何对它们进行降序，使“最好”的答案在最前面，最坏的答案在最后。(见以下屏幕截图)。确定一个问题答案的正确排序涉及多种特征。要确定顺序，首先要确定Quora如何定义“好答案”。我们的机器学习算法实现了一种特殊的机器学习排名方法，并尝试编码与上述抽象概念相关的多个维度，具有多种功能。例如，我们使用描述写作质量信息的特征和描述答案收到的互动特征（如赞扬、踩踏和扩展数量）。我们还使用了与答案作者相关的特征，比如他在问题领域的专业性。Quora还有很多其他的排名应用，有的甚至不为人所知。例如，用户名的答案也显示在排名后，目的是把我们认为对问题/答案最有见识的用户放在第一位。同样，对于具体问题显示可能的回答者，那些推荐用户也是按顺序排列的。让我们仔细看看机器学习排名算法的两个特例：搜索和个性化排名。搜索算法可以被视为Quora等应用排名的另一个应用。事实上，搜索可以分为两个步骤：文本匹配和排名。第一步是以某种方式返回与搜索框输入的查询字符串相匹配的文档(问题)。然后，这些文档作为第二步的候选问题进行排名，以优化点击概率。第二步可以使用许多特征，这确实是机器学习排名算法的另一个例子。它包括在最初的文本匹配阶段使用的简单文本特征，以及与用户行为相关的其他特征，或流行等对象属性。在上面描述的一些场景中，个性化排名可能足以为所有用户提供全球最佳排名。换句话说，我们可以假设，对于给定的问题，最“有帮助”的答案排名对于阅读答案的用户来说是独立的。然而，这种假设在许多重要场合都没有成立。其中一个场合是QuoraFeed，从根本上说，它是任何登录本产品的用户都能看到的主页。在这个主页上，我们试图在特定的时间为特定的用户选择最“有趣”的故事，并进行排名（见下例）。这是典型的机器学习个性化排名，类似于Netflix主页对电影和电视剧的排名。而Quora的用例比Netflix电影电视剧的排名更具挑战性。事实上，我们的用例可以看作是Netflix、Facebook和GoogleNews优化个性化排名的组合。一方面要保证顶级故事在主题上与用户有关。另一方面，Quora和用户之间也有明确的关系。你在“社交网络”上的行为也应该影响排名。第三，Quora上的故事有时可能与正在进行的趋势事件有关。及时性是影响模型决策的另一个因素，决定故事的排名是应该提高还是降低。因此，Quora的个性化排名涉及到各种特征。以下列出了一些用户*的热门事件：问题/答案的质量用户感兴趣的主题。。。事实上，请记住，在Quora，我们不仅对如何吸引用户阅读有趣的内容感兴趣，而且对向能够写有趣内容的用户提交问题感兴趣。因此，我们必须包括有趣的答案和针对问题的特征。为了获得这些特征，我们使用从用户、作者和对象（如答案/问题）行为中推导出的信息。所有这些行为都被考虑在内，并在不同的时间窗口中积累，并提供给排名算法。事实上，我们可以获得许多不同的特征来添加我们的个性化推送模型，我们一直在尝试添加更多的特征。对于我们的Feed排名应用，另一个重要的考虑是，我们需要能够响应用户的行为、印象甚至流行事件。由于数以百万计的问题和答案仍在增加，因此我们无法尝试对每个用户进行实时排名。为了优化体验，我们实现了多段排名解决方案，提前对候选人进行选择和排名，然后真正实施最终排名。推荐上述个性化排名已成为推荐的一种形式。在不同的案例中使用类似的方法。举例来说，流行的Quora邮件选择包括一系列为您选择和推荐的故事。根据不同的目标函数优化，这是一种不同的机器学习排名模型。除排名算法外，我们在产品的不同部分还有其他个性化的推荐算法。例如，在几个地方，你可以看到角色或主题的推荐（见下图）。另一个推荐相关问题的来源是向用户展示其他与当前问题有一定关系的问题。另一个机器学习模型确定了相关问题，它考虑了文本相似性、共享数据等多种不同特征（co-visitdata），或者主题等相同的特征。还应考虑与流行程度或问题质量相关的特征。需要指出的是，一个好的“类似问题”推荐，不仅仅是一个项目和源问题有多相似，还有目标问题的“趣味性”。事实上，对于任何“相关项目”机器学习模型来说，最麻烦的问题是权衡相似性和其他相关因素。这个模型对于吸引用户从外部搜索中访问问题页面特别有效。这也是这个推荐模型到目前为止还没有个性化的原因之一。重复问题是上述相关问题的极端情况。对于Quora来说，这是一个难题，因为我们需要确保用户能够分享和集中精力回答特定问题。同样，也有必要为想在网站上提问的用户指出现有的答案。因此，我们花费了大量的精力来检测重复性问题，特别是在发起问题的阶段。我们现有的解决方案是基于重复/非重复标签训练的二元分类器。从文本向量空间模型到基于使用量的特征，我们使用各种信号量。在Quora这样的应用中，掌握用户的可信度/专业推断是非常重要的。事实上，我们不仅仅局限于回答问题本身，还对与相关主题的相关性感兴趣。用户可能对某些主题知识渊博，但对其他领域不一定。Quora利用机器学习技术推断用户的专业性。我们不仅知道用户对给定的主题写了什么答案，还知道这些答案得到了多少赞扬，踩了多少步，以及什么样的评论。我们也知道用户在这个领域得到了多少“推荐”。推荐（Endorsements）从其他用户的角度来看，对某人的专业性有着非常明确的认可。此外，还需要记住，可信度/专业性是通过网络传播的，这也需要算法考虑。例如，如果一位机器学习专家赞扬了我在机器学习领域的回答，它的重量应该超过该领域非专家随机用户的赞扬。这也适用于推荐和其他用户间特征。检测和控制垃圾信息（Moderation)以保持高质量内容为荣的网站，如Quora，必须对使用垃圾、恶意或非常低质量的内容愚弄系统非常警惕。纯人工审查模式无法扩展。而且解决问题的方法，正如你所猜测的那样，就是使用机器学习模型来检测这些问题。Quora有几个模型来检测内容质量相关的问题。在大多数情况下，这些分类器的输出不会直接用作决策，而是将这些问题/答案提供给控制队列，然后手动审查。内容创建的预测对Quora来说非常重要。请记住，我们优化了系统的许多部分，不仅是为了吸引读者，也是为了产生最好的质量和最受欢迎的内容。所以，我们有一个机器学习模型来预测某个用户写某个问题答案的可能性。这使得我们的系统能够以各种方式优先考虑这些问题。其中一个是自动A2A系统（AsktoAnswer），它通过提示将问题发送给潜在的回答者。上述其他排名系统也使用该模型来预测概率。Quora尝试了许多不同的模型，以上述不同的案例。有时，我们使用开源来实现，但更多的时候，我们最终实现了更有效、更灵活的内部版本。我不会讨论模型的细节，但我会列出我们系统使用的模型：逻辑回归弹性网络梯度增强决策树随机森林神经网络Lambdamart矩阵分解向量模型等自然语言处理技术。综上所述，Quora使用各种机器学习方法。我们使用这些机器学习方法获得了非常重要的好处，我们坚信未来会有更多的好处，我们将继续投资于新技术。此外，在不久的将来，还有令人兴奋的机器学习新应用程序，我们已经考虑过了。这些新应用包括广告排名、机器翻译等自然语言处理领域，将直接成为我们计划立即添加的产品的新特征。

以上就是关于说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术的相关介绍，更多说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：三年建站过程中，得到的4个深刻启示下一条：简单对比评测：DreamHost主机与BlueHost主机