2020-12-24 17:49:32 阅读(187)
Google新SEO代言人GaryIllyes在Google官方博客上发帖:WhatCrawlBudgetMeansforGooglebot,讨论了搜索引擎蜘蛛抓取份额的问题。对于大中型网站来说,这是一个非常重要的SEO问题,有时会成为网站自然流量的瓶颈。今天的帖子总结了Garyillyes帖子中的博客和论坛帖子的主要内容,以及我自己的一些案例和理解。强调以下概念也适用于百度。搜索引擎蜘蛛抓取的份额是什么?顾名思义,抓取份额是搜索引擎蜘蛛花在网站上抓取页面的总时间上限。对于特定的网站,搜索引擎蜘蛛花在这个网站上的总时间相对固定,不会无限期地抓取网站的所有页面。抓取份额的英文谷歌使用crawlbudget,直译是爬行预算。我不认为这意味着什么,所以我用抓取份额来表达这个概念。什么决定了抓取份额?这涉及到捕获需求和捕获速度的限制。抓住需求,抓住需求,crawldemand,指的是搜索引擎“想”抓取特定网站的页面。有两个主要因素决定抓住需求。一是页面权重,网站上有多少页面达到了基本页面权重,搜索引擎想要抓取多少页面。第二,索引库里页面是否没有更新太久。归根结底还是页面权重,权重高的页面不会更新太久。页面权重与网站权重密切相关。提高网站权重可以使搜索引擎愿意掌握更多的页面。抓取速度限制搜索引擎蜘蛛不会为了抓取更多的页面而拖垮别人的网站服务器,所以会为某个网站设定抓取速度的上限,crawlratelimit,也就是说,服务器可以承受的上限,蜘蛛抓取不会减慢服务器,影响用户访问。服务器响应速度足够快,速度限制略有上升,抓取速度加快,服务器响应速度下降,速度限制下降,抓取速度减慢,甚至停止抓取。因此,抓取速度限制是搜索引擎“能”抓取的页数。什么决定了抓取份额?抓取份额是考虑抓取需求和抓取速度限制的结果,即搜索引擎“想”抓取和“能”抓取的页面数。网站权重高,页面内容质量高,页面足够,服务器速度足够快,抓取份额大。小网站不需要担心抓取份额小网站页面数量少,即使网站重量低,服务器慢,每天搜索引擎蜘蛛抓取,通常至少可以抓取数百页,十天如何抓取整个网站,所以成千上万页的网站不用担心抓取份额。成千上万页的网站一般都不是什么大事。如果每天有数百次访问可以减缓服务器,SEO就不是主要需要考虑的事情。大中型网站可能需要考虑抓取数十万页以上的大中型网站,也可能需要考虑抓取份额是否足够。例如,网站有1000万页面,搜索引擎每天只能抓住数万页面,所以抓住网站可能需要几个月,甚至一年,也可能意味着一些重要的页面不能被抓住,所以没有排名,或者重要的页面不能及时更新。要及时、充分地抓取网站页面,首先要保证服务器足够快,页面足够小。如果网站有大量高质量的数据,抓取份额将受到抓取速度的限制,提高页面速度将直接提高抓取速度的限制,从而提高抓取份额。百度站长平台和Googlesearchconsole都有数据捕获。百度抓取频率如下图所示:上图显示SEO每天发布这个级别的小网站。页面抓取频率与抓取时间(取决于服务器速度和页面大小)无关,表明没有用完抓取份额,不用担心。有时,抓取频率和抓取时间有一定的对应关系,如下图所示:可以看出,抓取时间改善(减少页面尺寸,提高服务器速度,优化数据库),明显导致抓取频率上升,使更多的页面被抓取,网站更快。GoogleSearchConsole中更大点站的例子:顶部是捕获页面数量,中间是捕获数据量。除非服务器出错,否则这两个应该是相应的。下面是页面抓取时间。可以看出,页面下载速度足够快,每天抓取数百万页没有问题。当然,正如前面所说,一方面可以抓住数百万页,另一方面可以抓住搜索引擎。大型网站经常需要考虑抓取份额的另一个原因是,不要在无意义的页面上浪费有限的抓取份额,导致重要的页面应该被抓取,但没有机会被抓取。典型的浪费抓取份额页面包括:大量过滤和筛选页面。几年前,关于无效URL爬行索引的帖子进行了详细的讨论。站内复制内容质量低、垃圾内容日历等无限页面被大量抓取,可能用完抓取份额,但不抓取该抓取的页面。如何节省抓取份额?当然,首先要降低页面文件的大小,提高服务器的速度,优化数据库,减少抓取时间。然后,尽量避免上面列出的浪费抓取份额的东西。有的是内容质量问题,有的是网站结构问题。如果是结构问题,最简单的方法就是禁止捕获robots文件,但是会浪费一些页面权重,因为权重只进不出。在某些情况下,使用链接nofollow属性可以节省抓取份额。小网站,因为抓取份额用不完,加nofollow毫无意义。在大网站上,nofollow可以在一定程度上控制权重流动和分配。精心设计的nofollow将减轻无意义页面的权重,增加重要页面的权重。搜索引擎在捕获时会使用URL捕获列表,根据页面权重对待捕获的URL进行排序。如果重要的页面权重增加,它将首先被捕获。毫无意义的页面权重可能低于搜索引擎不想捕获。最后几个说明:链接加nofollow不会浪费抓取份额。但是在Google上会浪费权重。noindex标签不能节省抓取份额。如果搜索引擎想知道页面上有noindex标签,就必须先抓取页面,所以不节省抓取份额。canonical标签有时可以节省一点抓取份额。和noindex标签一样,搜索引擎要知道页面上有canonical标签,首先要抓取页面,所以不直接节省抓取份额。但是有canonical标签的页面被抓取的频率往往会降低,所以会节省一点抓取份额。抓取速度和抓取份额不是排名因素。但是没有被抓取的页面也不是排名。
以上就是关于搜索引擎蜘蛛抓取份额是由什么决定的?的相关介绍,更多搜索引擎蜘蛛抓取份额是由什么决定的?相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对搜索引擎蜘蛛抓取份额是由什么决定的?有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一

