2020-12-08 10:18:19 阅读(158)
爬虫工具是从网页上选择数据的最佳方法。很多人认为爬虫很难学,对吧?一开始我也是这么想的,直到遇到WebScraper这个工具,才知道爬网页数据可以这么简单。下面,我就现身说明一个小白是如何快速上手WebScraper的。第一步:下载webscraperwebscraper是chrome浏览器上的插件,您需要翻墙进入chrome应用商店,下载webscraper插件。第二步:打开WebScraper,先打开一个你想爬数据的网页,比如我想爬今天的头条「吴晓波频道」这个账户的文章标题、时间和评论数量,然后我先打开它,然后一个接一个地操作。然后使用快捷键Ctrllll Shift I/F12打开WebScraper。第三步:点击createnewsitemap创建一个新的sitemap,其中有两个选项。importsitemap是指导一个现成的sitemap,我们小白一般没有现成的,所以一般不选这个,只选createsitemap。然后进行这两个操作:SitemapName:这意味着你的Sitemap适用于哪个网页,所以你可以根据网页命名,但你需要使用英文字母。例如,如果我掌握了今天头条的数据,我会用toutiao命名;SitemapURL:将网页链接复制到StarURL栏,例如,我把它放在图片中「吴晓波频道」将主页链接复制到本栏中。第四步:设置整个WebSelecraper的抓取逻辑如下:设置一级Selector,选择抓取范围;在一级Selector下设置二级Selector,选择抓取字段,然后抓取。让我们举一个脚踏实地的例子。如果你想获得福建人的名字、性别和年龄,你必须这样做:首先定位福建省,然后在福建省定位姓名、性别和年龄。让我们举一个脚踏实地的例子。如果你想获得福建人的姓名、性别和年龄,你必须这样做:首先,你必须定位福建省,然后在福建省定位你的姓名、性别和年龄。在这里,一级Selector表示,你应该在中国这个大国圈出福建省,二级Selector表示,你应该在福建省人口中圈出三个要素:姓名、性别和年龄。对于文章来说,一级Selector意味着你应该圈出这篇文章的元素。这个元素可能包括标题、作者、发布时间、评论数量等,然后我们在二级Selector中选择我们想要的元素,如标题、作者和阅读数量。下面我们来拆解一级和二级Selector的工作流:1。点击Addnewselector创建一级Selector,按以下步骤操作:输入id:id代表你抓取的整个范围。例如,这是一篇文章。我们可以把它命名为wuxiaobo-articles;选择Type:type代表你抓取的这部分类型,比如元素/文本/链接,因为这是整个文章元素范围的选择,我们需要使用element作为一个整体来选择(如果这个网页需要更多的滑动和加载,请选择elementscroldown);勾选Multiple:勾选Multiple前面的小框,因为你要选择多个元素而不是单个元素,当我们勾选的时候,爬虫插件可以帮助我们识别许多类似的文章;保留设置:其余部分未提及默认设置。2.点击select选择范围,按以下步骤操作:选择范围:用鼠标选择你想爬数据的范围,绿色是待选区域,用鼠标点击后变成红色,就是选择这个区域;多选:不要只选一个,下面也要选,否则爬出来的数据只有一行;完成选择:记得点击doneselecting;保存:点击SaveSelector。3.设置一级Selector后,点击设置二级Selector,按以下步骤操作:新建Selector:单击Addnewselectorr;输入id:id代表你抓取的是哪个字段,所以你可以拿这个字段的英文。例如,我想选择它「作者」,我就写「writer」;选择Type:选择Text,因为你想抓取的是文本;不要勾选Multiple:不要检查Multiple前面的小框架,因为我们需要在这里捕捉单个元素;保留设置:其余部分未提及默认设置。4.点击select,然后点击要爬的字段,按照以下步骤操作:选择字段:这里爬的字段是单个的,可以用鼠标点击字段选择。比如要爬标题,用鼠标点击文章的标题,选择字段所在区域变红;完成选择:记得点击doneselecting;保存:点击SaveSelector。5.重复上述操作,直到选择您想爬的字段。5.重复上述操作,直到选择您想爬的字段。步骤5:爬数据是愚蠢的爬虫工具,因为你只需要设置所有的Selector,你就可以开始爬数据,怎么样,不简单吗?那么如何开始爬数据呢?只需要一个简单的操作:点击Scrape,然后点击StartScraping,弹出一个小窗口,然后努力工作的小爬虫开始工作。你会得到一个列表,上面有你想要的所有数据。如果想对这些数据进行排序,比如根据阅读量、赞数、作者等指标进行排序,让数据一目了然,可以点击ExportDatasCSV将其导入Excel表。在导入Excel表格后,您可以筛选数据。以上是WebScraper快速启动的所有操作过程,甚至是像我这样的懒癌 手残可以在5分钟内完成,相信你也可以指哪里爬,完全可以。
以上就是关于快速上手新媒体人必会的工具:WebScraper的相关介绍,更多快速上手新媒体人必会的工具:WebScraper相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对快速上手新媒体人必会的工具:WebScraper有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一