首页 >知识讲堂 >运营知识>分享关于知乎数据方面的一些工作

分享关于知乎数据方面的一些工作

2020-12-03 14:35:30 阅读(129 评论(0)

【指南】知乎已经四年了。在互联网世界里,知乎已经成为一个无可争议的高质量社区。然而,经过快速发展,如何管理、筛选和呈现这些大量信息(数据)已经成为一个难题。事实上,数据管理本身对任何社区都是一个巨大的挑战。以下是知乎联合创始人在七牛大会上关于知乎数据的演讲,稍作删减。大家好,我是知乎的李申申。第一,我想对主办方说:谢谢!感谢大家搭建这样一个专业的平台,让大家有机会聚在一起认真讨论数据这个话题。说实话,当我收到会议的邀请时,我第一次想到了这句话。正如Danariely所说,知乎也像许多面对大数据的人一样无知「年轻人」其中一个;虽然我们也在做一些与大数据相关的事情,但实际上相对肤浅。我听说今天在座的很多用户都是知乎用户,对知乎感兴趣,所以我会借此机会和大家分享一些关于知乎数据的工作。简单进入正题,先来看看知乎的基本数据。截至2015年7月,知乎社区注册用户2900万,月UV1.1亿,月累计页面浏览量3亿。现在知乎全站已经产生了大约620万个问题和近2000万个答案。用户总回答4、129、244、445字数,是大不列颠百科全书的近100倍,鹿鼎记的2580倍。除上述基本数据外,其他一些数字也在以让我们更快乐的速度发展。自知乎开放注册以来,我们截取了两个数据:1000多个同意的答案和1000多个单词的答案,看看它们的增长情况。可以看出,这两个数据都保持了相对稳定的增长趋势。再来看看这些用户日均获赞的数量。首先,必须注意的是,我们并不完全把这两个指标作为有价值的回答判断标准,但当用户愿意冷静下来,花时间写长文回答时,至少他的态度是认真的,符合知乎倡导的讨论理念。另一方面,知乎上的千赞代表了1000名知乎用户对此答案的认可和接受。除了2月份等过年期间的数据会稍微低一些,其他时候,这个数据的增长率基本保持在10%左右。基于话题的维度,我们随机抽取几个话题,看看最近的用户讨论趋势。这是心理学、互联网、经济和天津爆炸的话题。值得注意的是,当天津爆炸事件席卷了几乎所有的社交和舆论平台,引起爆炸性关注时,知乎站其他专业话题的讨论仍在继续。同时,由于天津事件后续讨论中涉及心理学的问题很多,知乎站内心理学话题的热度也略有上升。总的来说,知乎更像是一个广场,各种热门时事讨论似乎都是广场中央的喷泉,吸引了游客和公众的关注。与此同时,广场周围还有各种各样的酒吧、咖啡馆和茶馆,城市居民聚集在一起与知己交谈。知乎大V和知乎小白有很多知乎用户有疑问,只有早期用户同意知乎的社区概念,还是只有老用户容易获得认可和关注?事实并非如此。让我们来看看下面的数据截图。横轴是时间变化。我们截取了2010年12月20日知乎内测以来2015年6月30日批准前1万的用户,并根据他们的注册时间和批准数量绘制图纸,以及日均批准数量的增长。你可以看到这些点的分布相对分散,这表明增长相对均匀。可见,即使是2015年刚加入知乎的人,也有很大的机会得到关注和认可。这也表明,这些新用户也渴望仔细讨论和获得有价值的信息交换,这些用户也同意知乎的社区概念。一般的秘诀是,只要你继续参与讨论,并在你擅长的领域输出信息,你就能得到更多人的认可。如何生产知乎信息,如何流动?在前几张图中,我们已经了解了知乎百花齐放的话题和不断贡献的优质用户。让我们来看看知乎的信息生产模式。为了更加关注这个问题,我们选择了最近的天津爆炸事件作为例子。从发展模式来看,热点话题与其他话题没有什么不同。但由于其新闻性,这类话题的发展更具爆发性,用户的行为更加集中。因此,我们做这样的展示也更方便。首先,一群用户关注和回答问题,产生基本的高质量内容。然后,其他用户的自发邀请、关注、收集、感谢、投票、评论等社会行为,使这些内容得到更广泛的传播和关注,覆盖范围不断扩大。在知乎,社会行为催生了高质量内容的生产和传播,高质量内容引发了下一轮新的社会行为。用户兴趣识别如何使用大数据?用户在知乎的行为是多维的;它不仅包括相对较轻的浏览和阅读,还包括更重的认可和反对,以及更重的问答(这里的重量和轻量是根据用户的运营成本来定义的)。我们可以根据这些行为分析用户的特点,这也是每个互联网服务都会做的日常工作。只有根据不同的服务特点,我们才能分析不同的特点、算法和效果。除了大量的用户行为数据外,知乎还有大量的文本信息。基于行为和文本,我们可以更准确地识别用户的兴趣和擅长。在现实社会中,我们对某些领域的知识有着深刻的掌握,但其他领域可能不是。个人精力有限,没有人能全知成为各个领域的专家,这种情况可以映射到知乎上。不同的用户在不同的话题领域有不同的专业精神。我们需要掌握这种差异,为每个人计算每个话题下的权重。计算分数的主要依据是你在知乎上的回答。当然,我们也会添加一些其他的考虑因素,包括其他专业人士的认可、你的专业背景等。这是知乎非常基础的数据设施,但这个数值计算的量级并不小(百万回答用户10万个话题,是1000亿级别的数量计算)。知乎每周都会全量计算权重判断,一直在调整优化中。答案排序:如何更好地呈现?优化答案排序算法的目的是让好的答案更高。随着用户数量的不断增加,早期最简单的答案排名规则出现了问题:一些答案得到了更多的友好认可,使得专业性不足的答案被推到了最高的位置。我们想到了加权赞同票的方法,根据主题下每个人的专业权重来计算,排名优化,可以让大多数高质量的答案排在前面。虽然权重计算的优化仍在继续,但我们在算法上仍然遇到了一些瓶颈。当问题下有多个早期答案获得高票时,即使新答案的质量很高,也很难在问题页面上获得足够的曝光,很难积累更多的同意票,一些误导性、煽动性的高票内容,即使有很多反对票,仍然在严肃、严格但相对较少的高质量答案之前。在专业领域,这些问题对参与讨论的用户造成了特别明显的伤害。这绝不是我们想看到的。因此,我们设计了新的排序算法。新排序算法的想法是,如果向许多人展示一个答案并让他们投票,不同内容质量的答案将得到不同比例的批准和反对,最终得到反映内容质量的分数。当投票人较少时,答案的质量分数可以根据获得的票数进行估计。投票人越多,估计结果就越接近真正的分数。如果新答案得到1票认可0票反对,也就是说100%参与投票的用户选择认可,但是因为数量太少,分数不会太高。如果这个答案在一段时间内得到20次批准和1次反对,那么基于新算法,我们有信心把它放在另一个50次批准和20次反对的答案之前。原因是我们预测,当这个答案也得到50次同意时,反对数应该小于20次。威尔逊得分算法最好的特点是,即使我们错了前一步,现在新答案在前面,得到更多的显示,在得到更多的投票后,算法将修改自己,更准确地计算得分基于更多的投票数据,这样排名最终可以真正反映内容的质量。我们的新算法在年初发布后,得到了知乎站用户的热烈反馈,这也是制作知乎产品的好处。出现了许多专业的讨论,为我们的下一个优化提供了良好的想法。主页自我修养:内容个性化推荐主页内容将主要考虑这些方面:知乎主页有一套特殊的数据收集和处理机制,可以记录用户在主页上的所有重要行动,例如,如果用户浏览器窗口或手机屏幕上的内容,将记录一次。还有...知乎还有一些其他的数据优化,我举几个简单介绍的例子。1.邀请稍熟悉知乎的用户知道“谢谢”这个词。该产品的功能是为每个问题找到合适的答案并向用户推荐。我们采用算法模型来预测用户回答问题的可能性和质量。90%的邀请是通过这个推荐结果发出的,剩下的10%%每周由用户主动搜索生成的知乎精选邮件(eDM)通过不断的算法优化,我们对每个用户进行了个性化的计算,实现了30%的开启率和14%的点击率。2.众所周知,问题聚类想要聚类问题的文本。首先想到的是通过文本语义匹配和复杂的词袋模型(如传统的plsa)。LDA,新word2vec等)对问题文本进行向量化,使相关问题通过语义进行聚类。知乎站拥有庞大的用户浏览数据。如果通过简单的算法(如协同过滤)建立这些浏览数据,也可以取得很好的效果。知乎每天的问答浏览量可以达到1000万级,这意味着输入算法的useritem边数每天可以达到1000万以上,近三个月的浏览数据可以达到10亿边。在知乎的数据平台上建立模型需要近一个小时。从聚类结果可以看出,即使不使用任何与文本相关的分析,也可以通过用户浏览的行为分析很好地聚类问题。这也证实了基于大数据的简单算法比基于小数据的复杂算法更有效。 

以上就是关于分享关于知乎数据方面的一些工作的相关介绍,更多分享关于知乎数据方面的一些工作相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对分享关于知乎数据方面的一些工作有更深的了解和认识。

内容来源:虎嗅网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

电商平台代运营要有6个规划,才叫专业,才能选择它

社会发展、互联网发展,迎来的是人们生活方式的改变,企业经营模式的改变。个人在开网店、商家在开网店、企业在开网店,网店数量一直在增加,与此同时电商平台代运营公司也在急速增加。 图片来源于网络 电商平台代运营公司…查看详情

优质营销短信:格式规范、商业化、时间化

短信营销是当下宣传效果比较好、成本较低的一种推广方式,同时也受到很多中小型的青睐。优质营销短信不仅切合流量发展的大市场方向,为企业和消费者层面创造更好的体验。企业通过不断对短信内容进行解析升级,创造出优质营销短信…查看详情

微信小程序申请步骤

  如何注册申请微信小程序?  1、微信小程序注册在微信公众平台官网首页,按照提示点击右上角的“立即注册”按钮,里面总过有12步,按照要求提交就可以了。  2、小程序申请微信认证政府、媒体、其他组织类型帐号,必须通过微信…查看详情

ug是什么软件

UG是用来干什么的?UG软件主要功能是将原有2维平面制图拓展至三维立体制图的软件,主要是迅速帮助设计加工等人员认知产品结构,还可向下生成2维图纸并标注细节尺寸、表面要求、技术要求等。相同类型软件有pro/E,solidworks,CATIA...查看详情

文件恢复软件哪个靠谱呢?你选对了吗?

现在的人们通常都会使用手机或者是电脑去办公,但难免会出现误删的情况,让自己的辛苦付之东流。其实文件丢失了不用担心,可以通过文件恢复软件来成功找回,但作为电脑的菜鸟,怎样选择合适的软件,就成为了人们较为关注的问题,…查看详情

2022年免费有效的推广平台有哪些

  最近几年对于企业做推广来说难度是越来越大,下面万商云集小编就给大家来推荐下2022年免费有效的推广平台有哪些,希望能帮助到大家。  那曾经有哪些属于红利期的营销玩法和渠道?读完这篇文章你能了解到:  1、互联网营销该…查看详情

谷歌镜像是什么意思?有什么作用?

  谷歌镜像(GoogleMirror)是指对谷歌搜索引擎的镜像站点,也就是把原来的谷歌网站内容(包括搜索结果、谷歌应用程序等)做了一个完全的备份,用户可以通过访问谷歌镜像站点来获取Google搜索结果或使用Google的其他应用程序。谷歌...查看详情

注册商标能一样吗?可在不同类别注册相同商标

在这个商标注册成功一天比一天难的今天,在这个最容易因商标相似或相同而被驳回的今天,注册商标能一样吗?答案是,能。具体为什么可以参考《商标法》中的规定。 图片来源于网络 注册商标能一样吗?我国《商标法》规定:同…查看详情

微信公众号怎么开通 微信公众号开通方法

现在微信公众号也成为了很多企业引流推广营销的一个阵营,但是对于新手来说微信公众号都不知道怎么注册,下面万商云集小编就给大家来介绍下信公众号开通方法。 第一步:4步完成微信公众号怎么创建  1、打开网页搜索并登录微信公…查看详情

电商运营是做什么的

  电商运营是指运用互联网技术和电子商务手段,对电商平台进行全方位的规划、管理和运营,以达到促进销售、提升用户体验、增强品牌影响力、实现商业目标的目的。电商运营是电商企业成功的重要因素之一,它直接关系到电商企业的…查看详情

跨境电商自建站平台有哪些

如果企业想要得到更好的推广,那么建设网站就是首选。每一家企业所销售的产品是不一样的,有些企业是属于跨境电商,那么在进行网站建设的时候,就应该要注意选择一些比较不错的自建站平台。那么跨境电商自建站平台有哪些呢?这个…查看详情

全球范围内好用的个人管理软件详情介绍

在中国,我们更多地接触个人时间管理软件或库存软件。然而,很少有用户知道个人信息管理软件。个人信息管理软件的英文名称是personalinformatiomanagement(个人信息管理),简称PIM,它用于管理我们日常生活中的许多方面的信...查看详情

初级会计刷题软件哪个比较好?冬奥会计云课堂好用吗?

根据网上数据显示和综合个人的经历。我比较推荐东奥“会计云课堂”,一款集资讯、学习、商城为一体的移动学习应用产品,给各位考生更优质的课程体验和服务。初级会计刷题软件哪个比较好?备受关注的冬奥会计云课堂好用吗? 冬…查看详情

视频去马赛克软件有哪些 好用的视频去马赛克软件

现在属于自媒体时代,很多的小伙伴也选择自媒体创业,这个时候视频处理就是很麻烦的事情了,很多的视频会带上马赛克的,下面万商云集小编给大家来详细介绍一下视频去马赛克软件有哪些 好用的视频去马赛克软件这一块的内容。希…查看详情

矿泉水品牌有哪些 2022矿泉水品牌排名

  随着中国经济社会的发展,人们生活水平的提高,人们消费的品牌意识越来越强。重视品牌,反映了消费者生活理念的转变。同质同价的矿泉水,消费者更青睐品牌产品。那么国内知名常见的饮用矿泉水中,下面万商云集小编给大家来详…查看详情

首页

产品

万商学院

客户服务

会员中心

当前站点

h

选择站点

全国站成都

一 客户顾问-张三

已为0个客户提供专业互联网服务咨询
  • 手机号码
  • 验证码图形验证码换一张
  • 短信校验码

    电话咨询

    在线咨询