分享关于知乎数据方面的一些工作

2020-12-03 14:35:30 阅读（129） 评论（0）

【指南】知乎已经四年了。在互联网世界里，知乎已经成为一个无可争议的高质量社区。然而，经过快速发展，如何管理、筛选和呈现这些大量信息（数据）已经成为一个难题。事实上，数据管理本身对任何社区都是一个巨大的挑战。以下是知乎联合创始人在七牛大会上关于知乎数据的演讲，稍作删减。大家好，我是知乎的李申申。第一，我想对主办方说：谢谢！感谢大家搭建这样一个专业的平台，让大家有机会聚在一起认真讨论数据这个话题。说实话，当我收到会议的邀请时，我第一次想到了这句话。正如Danariely所说，知乎也像许多面对大数据的人一样无知「年轻人」其中一个；虽然我们也在做一些与大数据相关的事情，但实际上相对肤浅。我听说今天在座的很多用户都是知乎用户，对知乎感兴趣，所以我会借此机会和大家分享一些关于知乎数据的工作。简单进入正题，先来看看知乎的基本数据。截至2015年7月，知乎社区注册用户2900万，月UV1.1亿，月累计页面浏览量3亿。现在知乎全站已经产生了大约620万个问题和近2000万个答案。用户总回答4、129、244、445字数，是大不列颠百科全书的近100倍，鹿鼎记的2580倍。除上述基本数据外，其他一些数字也在以让我们更快乐的速度发展。自知乎开放注册以来，我们截取了两个数据：1000多个同意的答案和1000多个单词的答案，看看它们的增长情况。可以看出，这两个数据都保持了相对稳定的增长趋势。再来看看这些用户日均获赞的数量。首先，必须注意的是，我们并不完全把这两个指标作为有价值的回答判断标准，但当用户愿意冷静下来，花时间写长文回答时，至少他的态度是认真的，符合知乎倡导的讨论理念。另一方面，知乎上的千赞代表了1000名知乎用户对此答案的认可和接受。除了2月份等过年期间的数据会稍微低一些，其他时候，这个数据的增长率基本保持在10%左右。基于话题的维度，我们随机抽取几个话题，看看最近的用户讨论趋势。这是心理学、互联网、经济和天津爆炸的话题。值得注意的是，当天津爆炸事件席卷了几乎所有的社交和舆论平台，引起爆炸性关注时，知乎站其他专业话题的讨论仍在继续。同时，由于天津事件后续讨论中涉及心理学的问题很多，知乎站内心理学话题的热度也略有上升。总的来说，知乎更像是一个广场，各种热门时事讨论似乎都是广场中央的喷泉，吸引了游客和公众的关注。与此同时，广场周围还有各种各样的酒吧、咖啡馆和茶馆，城市居民聚集在一起与知己交谈。知乎大V和知乎小白有很多知乎用户有疑问，只有早期用户同意知乎的社区概念，还是只有老用户容易获得认可和关注？事实并非如此。让我们来看看下面的数据截图。横轴是时间变化。我们截取了2010年12月20日知乎内测以来2015年6月30日批准前1万的用户，并根据他们的注册时间和批准数量绘制图纸，以及日均批准数量的增长。你可以看到这些点的分布相对分散，这表明增长相对均匀。可见，即使是2015年刚加入知乎的人，也有很大的机会得到关注和认可。这也表明，这些新用户也渴望仔细讨论和获得有价值的信息交换，这些用户也同意知乎的社区概念。一般的秘诀是，只要你继续参与讨论，并在你擅长的领域输出信息，你就能得到更多人的认可。如何生产知乎信息，如何流动？在前几张图中，我们已经了解了知乎百花齐放的话题和不断贡献的优质用户。让我们来看看知乎的信息生产模式。为了更加关注这个问题，我们选择了最近的天津爆炸事件作为例子。从发展模式来看，热点话题与其他话题没有什么不同。但由于其新闻性，这类话题的发展更具爆发性，用户的行为更加集中。因此，我们做这样的展示也更方便。首先，一群用户关注和回答问题，产生基本的高质量内容。然后，其他用户的自发邀请、关注、收集、感谢、投票、评论等社会行为，使这些内容得到更广泛的传播和关注，覆盖范围不断扩大。在知乎，社会行为催生了高质量内容的生产和传播，高质量内容引发了下一轮新的社会行为。用户兴趣识别如何使用大数据？用户在知乎的行为是多维的；它不仅包括相对较轻的浏览和阅读，还包括更重的认可和反对，以及更重的问答（这里的重量和轻量是根据用户的运营成本来定义的）。我们可以根据这些行为分析用户的特点，这也是每个互联网服务都会做的日常工作。只有根据不同的服务特点，我们才能分析不同的特点、算法和效果。除了大量的用户行为数据外，知乎还有大量的文本信息。基于行为和文本，我们可以更准确地识别用户的兴趣和擅长。在现实社会中，我们对某些领域的知识有着深刻的掌握，但其他领域可能不是。个人精力有限，没有人能全知成为各个领域的专家，这种情况可以映射到知乎上。不同的用户在不同的话题领域有不同的专业精神。我们需要掌握这种差异，为每个人计算每个话题下的权重。计算分数的主要依据是你在知乎上的回答。当然，我们也会添加一些其他的考虑因素，包括其他专业人士的认可、你的专业背景等。这是知乎非常基础的数据设施，但这个数值计算的量级并不小(百万回答用户10万个话题，是1000亿级别的数量计算)。知乎每周都会全量计算权重判断，一直在调整优化中。答案排序：如何更好地呈现？优化答案排序算法的目的是让好的答案更高。随着用户数量的不断增加，早期最简单的答案排名规则出现了问题：一些答案得到了更多的友好认可，使得专业性不足的答案被推到了最高的位置。我们想到了加权赞同票的方法，根据主题下每个人的专业权重来计算，排名优化，可以让大多数高质量的答案排在前面。虽然权重计算的优化仍在继续，但我们在算法上仍然遇到了一些瓶颈。当问题下有多个早期答案获得高票时，即使新答案的质量很高，也很难在问题页面上获得足够的曝光，很难积累更多的同意票，一些误导性、煽动性的高票内容，即使有很多反对票，仍然在严肃、严格但相对较少的高质量答案之前。在专业领域，这些问题对参与讨论的用户造成了特别明显的伤害。这绝不是我们想看到的。因此，我们设计了新的排序算法。新排序算法的想法是，如果向许多人展示一个答案并让他们投票，不同内容质量的答案将得到不同比例的批准和反对，最终得到反映内容质量的分数。当投票人较少时，答案的质量分数可以根据获得的票数进行估计。投票人越多，估计结果就越接近真正的分数。如果新答案得到1票认可0票反对，也就是说100%参与投票的用户选择认可，但是因为数量太少，分数不会太高。如果这个答案在一段时间内得到20次批准和1次反对，那么基于新算法，我们有信心把它放在另一个50次批准和20次反对的答案之前。原因是我们预测，当这个答案也得到50次同意时，反对数应该小于20次。威尔逊得分算法最好的特点是，即使我们错了前一步，现在新答案在前面，得到更多的显示，在得到更多的投票后，算法将修改自己，更准确地计算得分基于更多的投票数据，这样排名最终可以真正反映内容的质量。我们的新算法在年初发布后，得到了知乎站用户的热烈反馈，这也是制作知乎产品的好处。出现了许多专业的讨论，为我们的下一个优化提供了良好的想法。主页自我修养：内容个性化推荐主页内容将主要考虑这些方面：知乎主页有一套特殊的数据收集和处理机制，可以记录用户在主页上的所有重要行动，例如，如果用户浏览器窗口或手机屏幕上的内容，将记录一次。还有...知乎还有一些其他的数据优化，我举几个简单介绍的例子。1.邀请稍熟悉知乎的用户知道“谢谢”这个词。该产品的功能是为每个问题找到合适的答案并向用户推荐。我们采用算法模型来预测用户回答问题的可能性和质量。90%的邀请是通过这个推荐结果发出的，剩下的10%％每周由用户主动搜索生成的知乎精选邮件(eDM)通过不断的算法优化，我们对每个用户进行了个性化的计算，实现了30%的开启率和14%的点击率。2.众所周知，问题聚类想要聚类问题的文本。首先想到的是通过文本语义匹配和复杂的词袋模型(如传统的plsa)。LDA，新word2vec等)对问题文本进行向量化，使相关问题通过语义进行聚类。知乎站拥有庞大的用户浏览数据。如果通过简单的算法(如协同过滤)建立这些浏览数据，也可以取得很好的效果。知乎每天的问答浏览量可以达到1000万级，这意味着输入算法的useritem边数每天可以达到1000万以上，近三个月的浏览数据可以达到10亿边。在知乎的数据平台上建立模型需要近一个小时。从聚类结果可以看出，即使不使用任何与文本相关的分析，也可以通过用户浏览的行为分析很好地聚类问题。这也证实了基于大数据的简单算法比基于小数据的复杂算法更有效。

以上就是关于分享关于知乎数据方面的一些工作的相关介绍，更多分享关于知乎数据方面的一些工作相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分享关于知乎数据方面的一些工作有更深的了解和认识。

内容来源:虎嗅网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：让APP抓住用户，方法要用对！下一条：刚入职，如何有理有据的向MD说明运营现状与挑战？