首页 >知识讲堂 >运营知识>分享关于知乎数据方面的一些工作

分享关于知乎数据方面的一些工作

2020-12-03 14:35:30 阅读(151 评论(0)

【指南】知乎已经四年了。在互联网世界里,知乎已经成为一个无可争议的高质量社区。然而,经过快速发展,如何管理、筛选和呈现这些大量信息(数据)已经成为一个难题。事实上,数据管理本身对任何社区都是一个巨大的挑战。以下是知乎联合创始人在七牛大会上关于知乎数据的演讲,稍作删减。大家好,我是知乎的李申申。第一,我想对主办方说:谢谢!感谢大家搭建这样一个专业的平台,让大家有机会聚在一起认真讨论数据这个话题。说实话,当我收到会议的邀请时,我第一次想到了这句话。正如Danariely所说,知乎也像许多面对大数据的人一样无知「年轻人」其中一个;虽然我们也在做一些与大数据相关的事情,但实际上相对肤浅。我听说今天在座的很多用户都是知乎用户,对知乎感兴趣,所以我会借此机会和大家分享一些关于知乎数据的工作。简单进入正题,先来看看知乎的基本数据。截至2015年7月,知乎社区注册用户2900万,月UV1.1亿,月累计页面浏览量3亿。现在知乎全站已经产生了大约620万个问题和近2000万个答案。用户总回答4、129、244、445字数,是大不列颠百科全书的近100倍,鹿鼎记的2580倍。除上述基本数据外,其他一些数字也在以让我们更快乐的速度发展。自知乎开放注册以来,我们截取了两个数据:1000多个同意的答案和1000多个单词的答案,看看它们的增长情况。可以看出,这两个数据都保持了相对稳定的增长趋势。再来看看这些用户日均获赞的数量。首先,必须注意的是,我们并不完全把这两个指标作为有价值的回答判断标准,但当用户愿意冷静下来,花时间写长文回答时,至少他的态度是认真的,符合知乎倡导的讨论理念。另一方面,知乎上的千赞代表了1000名知乎用户对此答案的认可和接受。除了2月份等过年期间的数据会稍微低一些,其他时候,这个数据的增长率基本保持在10%左右。基于话题的维度,我们随机抽取几个话题,看看最近的用户讨论趋势。这是心理学、互联网、经济和天津爆炸的话题。值得注意的是,当天津爆炸事件席卷了几乎所有的社交和舆论平台,引起爆炸性关注时,知乎站其他专业话题的讨论仍在继续。同时,由于天津事件后续讨论中涉及心理学的问题很多,知乎站内心理学话题的热度也略有上升。总的来说,知乎更像是一个广场,各种热门时事讨论似乎都是广场中央的喷泉,吸引了游客和公众的关注。与此同时,广场周围还有各种各样的酒吧、咖啡馆和茶馆,城市居民聚集在一起与知己交谈。知乎大V和知乎小白有很多知乎用户有疑问,只有早期用户同意知乎的社区概念,还是只有老用户容易获得认可和关注?事实并非如此。让我们来看看下面的数据截图。横轴是时间变化。我们截取了2010年12月20日知乎内测以来2015年6月30日批准前1万的用户,并根据他们的注册时间和批准数量绘制图纸,以及日均批准数量的增长。你可以看到这些点的分布相对分散,这表明增长相对均匀。可见,即使是2015年刚加入知乎的人,也有很大的机会得到关注和认可。这也表明,这些新用户也渴望仔细讨论和获得有价值的信息交换,这些用户也同意知乎的社区概念。一般的秘诀是,只要你继续参与讨论,并在你擅长的领域输出信息,你就能得到更多人的认可。如何生产知乎信息,如何流动?在前几张图中,我们已经了解了知乎百花齐放的话题和不断贡献的优质用户。让我们来看看知乎的信息生产模式。为了更加关注这个问题,我们选择了最近的天津爆炸事件作为例子。从发展模式来看,热点话题与其他话题没有什么不同。但由于其新闻性,这类话题的发展更具爆发性,用户的行为更加集中。因此,我们做这样的展示也更方便。首先,一群用户关注和回答问题,产生基本的高质量内容。然后,其他用户的自发邀请、关注、收集、感谢、投票、评论等社会行为,使这些内容得到更广泛的传播和关注,覆盖范围不断扩大。在知乎,社会行为催生了高质量内容的生产和传播,高质量内容引发了下一轮新的社会行为。用户兴趣识别如何使用大数据?用户在知乎的行为是多维的;它不仅包括相对较轻的浏览和阅读,还包括更重的认可和反对,以及更重的问答(这里的重量和轻量是根据用户的运营成本来定义的)。我们可以根据这些行为分析用户的特点,这也是每个互联网服务都会做的日常工作。只有根据不同的服务特点,我们才能分析不同的特点、算法和效果。除了大量的用户行为数据外,知乎还有大量的文本信息。基于行为和文本,我们可以更准确地识别用户的兴趣和擅长。在现实社会中,我们对某些领域的知识有着深刻的掌握,但其他领域可能不是。个人精力有限,没有人能全知成为各个领域的专家,这种情况可以映射到知乎上。不同的用户在不同的话题领域有不同的专业精神。我们需要掌握这种差异,为每个人计算每个话题下的权重。计算分数的主要依据是你在知乎上的回答。当然,我们也会添加一些其他的考虑因素,包括其他专业人士的认可、你的专业背景等。这是知乎非常基础的数据设施,但这个数值计算的量级并不小(百万回答用户10万个话题,是1000亿级别的数量计算)。知乎每周都会全量计算权重判断,一直在调整优化中。答案排序:如何更好地呈现?优化答案排序算法的目的是让好的答案更高。随着用户数量的不断增加,早期最简单的答案排名规则出现了问题:一些答案得到了更多的友好认可,使得专业性不足的答案被推到了最高的位置。我们想到了加权赞同票的方法,根据主题下每个人的专业权重来计算,排名优化,可以让大多数高质量的答案排在前面。虽然权重计算的优化仍在继续,但我们在算法上仍然遇到了一些瓶颈。当问题下有多个早期答案获得高票时,即使新答案的质量很高,也很难在问题页面上获得足够的曝光,很难积累更多的同意票,一些误导性、煽动性的高票内容,即使有很多反对票,仍然在严肃、严格但相对较少的高质量答案之前。在专业领域,这些问题对参与讨论的用户造成了特别明显的伤害。这绝不是我们想看到的。因此,我们设计了新的排序算法。新排序算法的想法是,如果向许多人展示一个答案并让他们投票,不同内容质量的答案将得到不同比例的批准和反对,最终得到反映内容质量的分数。当投票人较少时,答案的质量分数可以根据获得的票数进行估计。投票人越多,估计结果就越接近真正的分数。如果新答案得到1票认可0票反对,也就是说100%参与投票的用户选择认可,但是因为数量太少,分数不会太高。如果这个答案在一段时间内得到20次批准和1次反对,那么基于新算法,我们有信心把它放在另一个50次批准和20次反对的答案之前。原因是我们预测,当这个答案也得到50次同意时,反对数应该小于20次。威尔逊得分算法最好的特点是,即使我们错了前一步,现在新答案在前面,得到更多的显示,在得到更多的投票后,算法将修改自己,更准确地计算得分基于更多的投票数据,这样排名最终可以真正反映内容的质量。我们的新算法在年初发布后,得到了知乎站用户的热烈反馈,这也是制作知乎产品的好处。出现了许多专业的讨论,为我们的下一个优化提供了良好的想法。主页自我修养:内容个性化推荐主页内容将主要考虑这些方面:知乎主页有一套特殊的数据收集和处理机制,可以记录用户在主页上的所有重要行动,例如,如果用户浏览器窗口或手机屏幕上的内容,将记录一次。还有...知乎还有一些其他的数据优化,我举几个简单介绍的例子。1.邀请稍熟悉知乎的用户知道“谢谢”这个词。该产品的功能是为每个问题找到合适的答案并向用户推荐。我们采用算法模型来预测用户回答问题的可能性和质量。90%的邀请是通过这个推荐结果发出的,剩下的10%%每周由用户主动搜索生成的知乎精选邮件(eDM)通过不断的算法优化,我们对每个用户进行了个性化的计算,实现了30%的开启率和14%的点击率。2.众所周知,问题聚类想要聚类问题的文本。首先想到的是通过文本语义匹配和复杂的词袋模型(如传统的plsa)。LDA,新word2vec等)对问题文本进行向量化,使相关问题通过语义进行聚类。知乎站拥有庞大的用户浏览数据。如果通过简单的算法(如协同过滤)建立这些浏览数据,也可以取得很好的效果。知乎每天的问答浏览量可以达到1000万级,这意味着输入算法的useritem边数每天可以达到1000万以上,近三个月的浏览数据可以达到10亿边。在知乎的数据平台上建立模型需要近一个小时。从聚类结果可以看出,即使不使用任何与文本相关的分析,也可以通过用户浏览的行为分析很好地聚类问题。这也证实了基于大数据的简单算法比基于小数据的复杂算法更有效。 

以上就是关于分享关于知乎数据方面的一些工作的相关介绍,更多分享关于知乎数据方面的一些工作相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分享关于知乎数据方面的一些工作有更深的了解和认识。

内容来源:虎嗅网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

画漫画的软件有哪些?这些软件就不错

画画是很多人都比较喜欢的,在平时的时候相信很多人也都会选择一些比较好的软件来给自己进行辅助,找到好的画漫画的软件其实还是非常不错的,不仅有着很多的素材,而且还可以给自己提供学习的机会,能够提高自己的画画水平。那么…查看详情

有哪些网站可以免费发布广告?

  现在对于中小型企业来说推广成本是非常高的,很多的中小企业在推广这一块是做得不太好的,而且现在广告费也是非常的昂贵的,下面万商云集小编给大家来详细介绍一下有哪些网站可以免费发布广告?希望能帮助到大家。  1、百度…查看详情

绿之韵全国多少家分店?

绿之韵全国多少家分店?目前有9家分公司绿之韵马来西亚分公司首家绿之韵国外分公司选在马亚西亚吉隆坡绿之韵内蒙古分公司绿之韵内蒙分公司和包头旗舰店于2009年5月25日开业绿之韵吉林分公司绿之韵吉林省分公司和长春旗舰店于2009年4月30…查看详情

一部手机怎么在家挣钱,6个靠谱兼职赚钱思路

很多同学在网络上非常迷茫,找不到赚钱的途径和方法,自己上班的收入又非常有限,着急赚钱但是不知道路在何方,今天和大家分享10个副业赚钱的兼职,满满的干货。 1.写小说 首先你要先构思好你小说的整体框架,然后写个大概几…查看详情

经营淘宝经常用到的图片处理软件推荐

在淘宝上有许多零食和衣服都可以选择购买,我们在购买之前,会先看一下商家发布的图片,图片会直接吸引顾客会不会买这个东西,所以,如果你是商家,就需要知道淘宝图片处理软件有哪些?1、美图秀秀针对单张的图片解决作用也是特别…查看详情

微商外包代运营解决微商三大成本问题

2019年,微商呗正式纳入了电子商务的范畴,那个时候开始微商逐渐步入正规化和规范化,这对于微商来说还是一个挑战,也是一份机遇。人们所知道的微商或许只是每天在朋友圈发商品信息,让自己身边的亲戚朋友来购买,然而事实的真相是…查看详情

好用免费的编辑器有哪些 五个免费的pdf编辑器推荐给你

  其实之前我也推荐了几款在线的PDF处理工具,这次给大家在丰富一下资源库,PDF处理工具的免费转换条件各不一样,可以根据自己的需要选择适合的工具。下面小编就给大家来详细介绍一下好用免费的编辑器有哪些 五个免费的pdf编辑…查看详情

版权保护和版权登记有何意义?

版权保护和版权登记是什么?如何有效进行版权保护?版权是如何产生的?版权登记的流程是怎么样的?小万认为以上问题能回答出来的人少之又少。 图片来源于网络 虽然现今大家的版权意识愈发强烈,但版权保护和版权登记其实对…查看详情

2022受众广泛的在线直播软件,全都可以免费使用

随着网络技术的不断发展,在线直播成为一种特殊的文化沟通方式,用户可以通过在线直播将向外界展示更多维的生活状态,也可以通过在线直播方式进行文化传递、知识共享、娱乐分享等。当前在线直播软件众多,受众也各有不同。那么,…查看详情

怎么维护注册域名?维护域名不被他人抢注

想要建立网站,那么就应该要注册域名,域名是非常重要的,而且选择好的域名更容易被人记住,推广起来也比较容易。所以说在注册域名的时候一定要及时看好了,域名应该要及时下手,这样才能够保护好域名,不被他人抢注。那么怎么维…查看详情

有哪些性价比高的灯具品牌推荐

照明仪器一直是我们生活当中必备的家居用品,不管是在装修还是平日的生活当中我们都是需要用到一些灯具的,但是很多人也不知道选择什么价位的灯具品牌,具体可以看以下的推荐。1、飞利浦照明灯具飞利浦在照明这方面一直做得都不错…查看详情

中小企业微信营销:小程序引流,正确运营是关键

继微商城之后,小程序跳进微信平台再度成为很多企业的“标配”。“即用即走”是小程序区别于其他流量平台的最大特性,满足了用户的及时性需求,却也对企业运营者提出了更高要求。尤其是中小企业,在布局微信营销时,一定要正确打…查看详情

电子商务运营都是如何提高企业的销售率的?

现在的我们生活在互联网飞速发展的时代,几乎人手一个手机,而是电子商务的出现,更是激励了广大消费者购物欲望,对企业来说则是有更加广阔的渠道来推销自己的产品。因此每个企业都把电子商务运营当成企业的头等大,只有运营推广…查看详情

iPad靠拢PC,笔记本厂商慌了

据悉,苹果将为iPad引入鼠标支持功能,用户可以使用鼠标在iPad上进行操作。这意味着iPad将朝着PC的方向发展,对笔记本市场构成了直接威胁,不禁让国内许多笔记本厂商慌了神。或将陷入内外困惑我们都知道,苹果在国内占据了很大一部分消…查看详情

字符串常量使用什么作为定界符

VF中常量与变量?常量的定义很简单,固定的不变的值就是常量。如果是初学者,可以这么理解,输入到命令窗口的数据,敲回车后,输入到主窗口的值仍然不变,就叫常量。变量分两种字段变量(只在数据表中出现,估计你还没有学习到数据…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询