03基础:同种网页结构套用采集规则

华天清 华天清     2022-08-04     715

关键词:

请先安装爬虫软件。爬虫软件安装

经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。

回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机,然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。

在学会将xml文件转成Excel之前,先解决当下的一个疑问?如果要采集其他博主主页的微博,是要重新做过规则吗?非也~

用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,都可以套用该规则进行采集了。

为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。

以后用该规则抓取数据的时候就会运行所有的线索而不仅仅是样本网址。

前一个教程采集微博博主主页是将宝宝主页的网址作为样本网址来制定采集规则的。宝宝之前参加过很火的《奔跑吧兄弟》,现在我想采集兄弟团所有成员的微博主页,只要将他们主页网址当成新的线索添加给之前做的“weibo_博主主页”采集规则就OK了。

怎么添加线索?

第一季兄弟团各个成员的主页网址如下:

先进入集搜客官网,登录后点击右上角自己的用户名之后进入会员中心>爬虫管理>规则管理,点击主题名,进入线索管理页面。

看到“weibo_博主主页”下只有样本网址这一条线索。

单条添加

点击“添加线索”,输入线索网址后保存。

批量添加

用Excel存储线索网址

点击“批量导入线索”,添加附件,点击“批量导入”后添加成功!

添加了6条,加上原来的一个样本网址,总共7条线索,现在都是“待抓取”状态。

在这个页面,除了添加线索、还可以激活、去活以及删除线索。

如何运行线索?

运行采集规则就是运行规则里头的线索。

由上图可知,现在“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行这些线索要在DS打数机启动。

打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”都可以启动DS打数机进行抓取数据。

单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。

点击集搜后,待抓取线索有几条就输入几条,点击确定。

我们看到DS打数机马上在运行抓取了。

如果不知道待抓取线索有多少条,在DS打数机右击统计线索就可以了。

如何激活线索?

刚刚运行了“weibo_博主主页”这个采集规则,在会员中心看到这7条线索都是“抓取完成”的状态。

如果按上面的步骤在DS打数机中再次运行规则,这时候会提示没有线索了,那是因为刚刚已经运行这7条线索了。

要重新抓取这些线索只要重新将这些线索激活就可以了,激活以后这些线索的状态将会变成“待抓取”。

激活有两种方法——

规则管理激活

在规则管理选择要激活的线索后点击“激活”按钮。

DS窗口激活

到这里,看看刚刚运行“weibo_博主主页”这个采集规则的结果文件吧~

下一期将讲结果文件转成Excel,学完下一期你就已经入门了,只要不是复杂的网页你都可以采集了,所向披靡,是不是很激动。

前端基础

html是什么?超文本标记语言(HypertextMarkupLanguage,HTML)通过标签语言来标记要显示的网页中的各个部分。一套规则,浏览器认识的规则浏览器按顺序渲染网页文件,然后根据标记符解释和显示内容。但需要注意的是,对于不同... 查看详情

多量平台怎么对接

...,用于SaaS或者ERP与电商平台的对接,包括:将SaaS或ERP的基础数据映射转换并翻译为统一的基础数据模型,并将统一的基础数据映射转换并翻译为各个电商平台的数据;将统一的接口模型映射为各个电商平台所开发的接口模型;... 查看详情

day03java基础学习笔记

三元运算符1.格式:(条件表达式)?表达式1:表达式2;2.运算规则:先对条件表达式求值,得出一个逻辑值,如果至为true,则执行表达式1;如果值为false,则执行表达式2。443.典型用法:Stringstr=(5<3)?"5大于3":"5大于3";... 查看详情

java基础-----循环结构

循环的结构特点:  循环条件 循环操作-----  while循环 来个小例子,实现打印50份shij1、确定循环条件和循环操作  2、套用while语法写出代码3、检查循环能否退出 1publicclassWhileDemo{23/*4*如何使用while... 查看详情

html网页的基本结构及基础功能

一、HTML网页的基本结构1、HTML——超文本标记语言,浏览器解析html标记后,展示内容2、H5——HTML5(目前流行比较火)3、网页的基本结构  3.1静态网页的拓展名htm或html  3.2新建网页的步骤:1、新建文本文档,更改拓展名为ht... 查看详情

html网页的基本结构及基础功能

一、HTML网页的基本结构1、HTML——超文本标记语言,浏览器解析html标记后,展示内容2、H5——HTML5(目前流行比较火)3、网页的基本结构  3.1静态网页的拓展名htm或html  3.2新建网页的步骤:1、新建文本文档,更改拓展名为ht... 查看详情

html基础

HTML简介超文本标记语言(HypertextMarkupLanguage,HTML)是一种用于创建网页的标记语言。本质上是浏览器可识别的规则,我们按照规则写网页,浏览器根据规则渲染我们的网页。对于不同的浏览器,对同一个标签可能会有不同的解释... 查看详情

html基础

HTML简介超文本标记语言(HypertextMarkupLanguage,HTML)是一种用于创建网页的标记语言。本质上是浏览器可识别的规则,我们按照规则写网页,浏览器根据规则渲染我们的网页。对于不同的浏览器,对同一个标签可能会有不同的解释... 查看详情

大脑结构及脑电信号基础知识

文章目录大脑结构大脑大脑皮层神经元脑电信号生理机制脑电概念信号采集信号分析脑机交互(BCI)节律与心理活动诱发电位大脑结构大脑大脑皮层神经元脑电信号生理机制脑电概念信号采集信号分析脑机交互(BCI)附录节律与心理... 查看详情

html基础

一、HTML简介1.HTML是什么?超文本标记语言(HypertextMarkupLanguage,HTML)是一种用于创建网页的标记语言。本质上是浏览器可识别的规则,我们按照规则写网页,浏览器根据规则渲染我们的网页。对于不同的浏览器,对同一个标签可... 查看详情

数据结构与算法同种算法分别用递归/回溯与栈实现(代码片段)

一、阶乘importjava.util.Stack;publicclassMain publicstaticintfact1(intn) if(n==0)return1; elsereturnn*fact1(n-1); publicstaticintfact2(intn) intans=1; Stack<Integer>stack=ne 查看详情

爬虫技术之数据采集?

...作与网络也是分不开联系,而信息收集则成为网络生活最基础也最必不可少的部分。因此,诞生了一大批被称为“网络爬虫”的工作者,他们每天的工作就是利用程序脚本来收集各种大量的信息。而代理IP作为爬虫工作的基础,... 查看详情

0基础学爬虫爬虫基础之网页解析库的使用(代码片段)

...、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为网页解析库的使用。概述前几期的文章中讲到了网络请求库的使用,我们已经能够使用各种库对目标网址发起请求,并... 查看详情

前端零基础入门:页面结构层html

搭建网页HTML结构<div>标签<span>标签块级标签和行内标签标签嵌套规则<div>和<span>div+css<div>标签是一个区块容器标记,<div></div>之间是一个容器,可以包含段落,表格,图片等各种HTML元素。<span>... 查看详情

基础学习(标签结构)

html基础介绍认识html:HTML是超文本标记语言,用于描述网页文档语言。也是我们经常说的静态网页(超文本:能实现网页调整的文本)HTML文件扩展名:.html或是.htm HTML结构 DOCTYPE声明、head、网页编码声明(metacharset="utf-8"... 查看详情

大数据包括哪些?

...等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。数据预处理主要包括四个部分:数据清理、数据集成、数据转换、数据规约。数据清理:指利用ETL等清洗工具,对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中... 查看详情

数据采集工具:八爪鱼(代码片段)

...、导出数据   一.八爪鱼介绍八爪鱼是一款通用的网页数据采集器,能够采集98%的网页。可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案。八爪鱼... 查看详情

基础理论:03.命名规则之标识符

0.服务器,数据库和数据库对象都有标识符,数据库对象的名称被看成是该对象的标识符。大多数对象要求带有标识符,但有些对象中(如约束)标识符是可选项。1.标识符格式  必须遵守的规定:    1)首字母必须是统... 查看详情