2021-01-06 09:47:14 阅读(163)
以下方法可以标本兼治:1、分析限制IP地址单位时间的访问次数:除非是程序访问,否则没有普通人能在一秒钟内访问相同的网站5次,只有搜索引擎爬虫和令人讨厌的收集器。缺点:一刀切,这也会阻止搜索引擎包含适用的网站:不依赖搜索引擎的网站收集器会做什么:减少单位时间访问次数,降低收集效率2、屏蔽ip分析:通过后台计数器记录访问者ip和访问频率,人工分析访问记录,屏蔽可疑IP。缺点:似乎没有缺点,是网站管理员忙一点适用的网站:所有的网站,网站管理员可以知道什么是谷歌或百度机器人收集器会做:玩游击战争白!一次使用ip代理采集一次,但会降低采集器的效率和网速(使用代理)。3、使用js加密网页内容Notetetetetetetete加密网页内容:我没有接触过这种方法,只是从其他地方分析:不需要分析,搜索引擎爬虫和收集器杀死适用的网站:非常讨厌搜索引擎和收集器网站收集器会这样做:你这么牛,放弃,他不会来收集你4、将网站版权或一些随机垃圾文字隐藏在网页中,这些文字风格写在css文件中进行分析:虽然不能防止收集,然而,收集后的内容将充满您网站的版权描述或一些垃圾文本,因为一般的收集器不会同时收集您的css文件,这些文本将显示没有风格。适用网站:所有网站收集器将如何做:版权文本,易于处理,替换。适用网站:所有网站收集器将如何做:版权文本,易于做,更换。对于随机的垃圾文本,没有办法,更勤奋。5、用户登录可以访问网站内容*分析:搜索引擎爬虫不会为每种类型的网站设计登录程序。听说采集器可以为网站设计模拟用户登录提交表格。适用网站:极度讨厌搜索引擎,想阻止大多数收集器的网站收集器做什么:制作模块6,拟用户登录并提交表格、用脚本语言分析分页(隐藏分页):同样,搜索引擎爬虫也不会分析各种网站的隐藏分页,影响搜索引擎的收录。但是,收藏家在编写收藏规则时,要分析目标网页代码,懂一些脚本知识的人,就会知道分页的真实链接地址。适用网站:不依赖搜索引擎的网站,收集你的人不知道脚本知识收集器会做什么:应该说收集者会做什么,他必须分析你的网页代码,顺便分析你的页面脚本,不需要太多额外的时间。7、防盗链措施(只允许通过本网站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“)分析:asp和php可以通过阅读要求的HTTP_REFERER属性来判断该请求是否来自本网站,从而限制收集器和搜索引擎爬虫。严重影响搜索引擎对网站部分防盗链内容的收录。适用网站:不考虑搜索引擎收录的网站采集器会怎么做:伪装HTTP_REFERER并不难。8、全flash、图片或pdf呈现网站内容分析:搜索引擎爬虫和收集器支持不好,很多人知道搜索引擎优化知道适用于网站:媒体设计,不关心搜索引擎包含网站收集器会做:不采摘,离开9、网站随机采用不同的模板分析:由于采集器是根据网页结构定位所需的内容,一旦模板相继更换两次,收集规则无效,不错。这对搜索引擎爬虫没有影响。而且这对搜索引擎爬虫没有影响。适用网站:动态网站,不考虑用户体验。收集器会怎么做:一个网站模板不能超过10个,每个模板都有一个规则,不同的模板使用不同的收集规则。假如超过10个模板,既然目标网站都这么费劲地更换模板,成全他,撤退。10、采用动态不规则html标签分析:此比较异常。考虑到html标签中的空格效果与无空格效果相同,< div>和<div>页面显示效果相同,但作为收集器的标记是两个不同的标记。如果每个页面的html标签中的空格数是随机的,那么收集规则就会失效。然而,这对搜索引擎爬虫影响不大。适合网站:所有不想遵守网页设计规范的动态网站。收集器会怎么做:还是有对策的。现在还有很多htmlcleaner。先清理html标签,再写收集规则;在使用收集规则之前,您应该清理html标签,或者您可以获得所需的数据。
以上就是关于【解决办法】防止网页被搜索引擎爬虫和网页采集器收录的相关介绍,更多【解决办法】防止网页被搜索引擎爬虫和网页采集器收录相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对【解决办法】防止网页被搜索引擎爬虫和网页采集器收录有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一