30天搞定大数据爬虫项目,数据爬虫全文检索数据可视化爬虫项目监控

cjmn1166 cjmn1166     2022-12-09     752

关键词:

好,开始今天的文章。

今天主要是来说一下怎么可视化来监控你的爬虫的状态。

相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。

关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。

1.成品图

 
技术图片
 

这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的方式不一样而已, 如下图。

 
技术图片
 

可以实现对爬虫数量,增量,大小,大小增量的实时监控。

2. 环境

InfluxDb,是目前比较流行的时间序列数据库;

Grafana,一个可视化面板(Dashboard),有着非常漂亮的图表和布局展示,功能齐全的度量仪表盘和图形编辑器,支持Graphite、zabbix、InfluxDB、Prometheus和OpenTSDB作为数据源

Ubuntu

influxdb(pip install influxdb)

Python 2.7

3. 原理

获取要展示的数据,包含当前的时间数据,存到InfluxDb里面,然后再到Grafana里面进行相应的配置即可展示;

4. 安装

4.1 Grafana安装

官方安装指导

安装好以后,打开本地的3000端口,即可进入管理界面,用户名与密码都是admin

4.2 InfulxDb安装

这个安装就网上自己找吧,有很多的配置我都没有配置,就不在这里误人子弟了。

5. InfluxDb简单操作

碰到了数据库,肯定要把增删改查学会了啊, 和sql几乎一样,只有一丝丝的区别,具体操作,大家可以参考官方的文档。

influx 进入命令行

CREATE DATABASE test 创建数据库

show databases 查看数据库

use test 使用数据库

show series 看表

select * from table_test 选择数据

DROP MEASUREMENT table_test 删表

6. 存数据

InfluxDb数据库的数据有一定的格式,因为我都是利用python库进行相关操作,所以下面将在python中的格式展示一下:

 
技术图片
 

其中:

measurement, 表名

time,时间

tags,标签

fields,字段

可以看到,就是个列表里面,嵌套了一个字典。其中,对于时间字段,有特殊要求,可以参考这里, 下面是python实现方法:

 
技术图片
 

所以,到这里,如何将爬虫的相关属性存进去呢?以MongoDB为例

 
技术图片
 

那么现在我们已经往数据里存了数据了,那么接下来要做的就是把存的数据展示出来。

7.展示数据

7.1 配置数据源大数据精英课程,云计算,数据分析,数据仓库,数据爬虫,项目实战,用户画像,日志分析,全文检索,项目监控,性能调优,系统架构,电商数据分析,电商行为日志分析,电商实时分析系统,分布式计算平台,分布式集群部署,实时流计算,全端数据统计分析系统,堵车预测系统实战,共享单车实战,电信级海量数据处理,分布式消息系统,日志传输实战,大型电商项目与数据应用实战,Hadoop,Flink,Spark,Kafka,Storm,Docker,Kubernetes(K8s),ElaticStack,HBase,SparkSQL,Hive,Flume,ETL,DMP等高端视频课程......

以admin登录到Grafana的后台后,我们首先需要配置一下数据源。点击左边栏的最下面的按钮,然后点击DATA SOURCES,这样就可以进入下面的页面:

 
技术图片
 

点击ADD DATA SOURCE,进行配置即可,如下图:

 
技术图片
 

其中,name自行设定;Type 选择InfluxDB;url为默认的http://localhost:8086, 其他的因为我前面没有进行配置,所以默认的即可。然后在InfluxDB Details里的填入Database名,最后点击测试,如果没有报错的话,则可以进入下一步的展示数据了;

在学习中有迷茫不知如何学习的朋友小编推荐一个学Python的学习裙[663033228]无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

7.2 展示数据

点击左边栏的+号,然后点击GRAPH

 
技术图片
 

接着点击下图中的edit进入编辑页面:

 
技术图片
 
 
技术图片
 

从上图中可以发现:

中间板块是最后的数据展示

下面是数据的设置项

右上角是展示时间的设置板块,在这里可以选择要展示多久的数据

7.2.1 配置数据

在Data Source中选择刚刚在配置数据源的时候配置的NAME字段,而不是database名。

接着在下面选择要展示的数据。看着就很熟悉是不是,完全是sql语句的可视化。同时,当我们的数据放到相关的字段上的时候,双击,就会把可以选择的项展示出来了,我们要做的就是直接选择即可;

设置右上角的时间,则可以让数据实时进行更新与展示

因为下面的配置实质就是sql查询语句,所以大家按照自己的需求,进行选择配置即可,当配置完以后,就可以在中间的面板里面看到数据了。

8. 总结

到这里,本篇文章就结束了。其中,对于Grafana的操作我没有介绍的很详细,因为本篇主要讲的是怎么利用这几个工具完成我们的任务。

同时,里面的功能确实很多,还有可以安装的插件。我自己目前还是仅仅对于用到的部分比较了解,所以大家可以查询官方的或者别的教程资料来对Grafana进行更深入的了解,制作出更加好看的可视化作品来。



python大作业——爬虫+可视化+数据分析+数据库(可视化篇)(代码片段)

相关链接Python大作业——爬虫+可视化+数据分析+数据库(简介篇)Python大作业——爬虫+可视化+数据分析+数据库(爬虫篇)Python大作业——爬虫+可视化+数据分析+数据库(数据分析... 查看详情

python+flask+爬虫双色球数据采集及大数据可视化平台

...点击下载:点击下载简要概述:项目主要构成有数据爬虫、数据可视化、数据管理、数据预测四大部分,爬虫爬取数据,可视化进行分析展示,数据管理进行管理后台数据,数据预测生成数据,形成完... 查看详情

python大作业——爬虫+可视化+数据分析+数据库(数据分析篇)(代码片段)

Python大作业——爬虫+可视化+数据分析+数据库(简介篇)Python大作业——爬虫+可视化+数据分析+数据库(爬虫篇)Python大作业——爬虫+可视化+数据分析+数据库(可视化篇)Python... 查看详情

python爬虫编程思想(162):综合爬虫项目:可视化爬虫

...目,如果没有GUI接口,控制起来是很费劲的。而且,抓取数据并不是目的,最终的目的是如何利用这些抓取到的数据,从这些数据中提取出有价值的东西,也就是数据处理。爬虫也是很多高端应用的数据源,如搜索引擎、深度学... 查看详情

python+flask+爬虫天气监测可视化系统

...下载简要概述:项目通过爬取中国天气网的各个城市数据,然后保存到自己的数据库,然后通过python以及echart技术对这些数据进行初步分析以及可视化。项目采用B/S架构,通过浏览器即可访问。项目技术:pytho... 查看详情

python+flask+爬虫双色球数据采集及大数据可视化平台

...点击下载:点击下载简要概述:项目主要构成有数据爬虫、数据可视化、数据管理、数据预测四大部分,爬虫爬取数据,可视化进行分析展示,数据管理进行管理后台数据,数据预测生成数据,形成完... 查看详情

python爬虫课设-爬取3000条数据并做数据可视化(代码片段)

...下(挺水的,将就着看吧)文章目录作业要求数据爬取爬取结果数据处理数据可视化大作业文档作业要求《Python与数据分析》期末大作业要求(2020-2021学年第2学期)一、期末作业要求:1、在前期作业爬取的数据基础上... 查看详情

python爬虫课设-爬取3000条数据并做数据可视化(代码片段)

...下(挺水的,将就着看吧)文章目录作业要求数据爬取爬取结果数据处理数据可视化大作业文档作业要求《Python与数据分析》期末大作业要求(2020-2021学年第2学期)一、期末作业要求:1、在前期作业爬取的数据基础上... 查看详情

python爬虫入门教程全集

...掌握一项谋生技能。带你学到如何从网上批量获得几十万数据,如何处理海量大数据,数据可视化及网站制作。课程目录开始之前,魔力手册for实战学员预习第一周:学会爬取网页信息第二周:学会爬取大规模数据第三周:数据... 查看详情

网络爬虫简介

...收录的网页中按照一定的算法或排名规则呈现给用户(3)大数据也离不开网络爬虫,需要使用网络爬虫去一些比较大型的站点爬取数据源,进行大数据分析或数据挖掘 2.为什么要学网络爬虫(1)学习网络爬虫,可以私人定制一个... 查看详情

爬虫数据可视化(代码片段)

使用plotly,将爬虫获取的数据可视化,代码如下importplotly.offlineaspyfromplotly.graph_objsimportScatter,Layoutimportplotly.graph_objsasgoimportpandasaspddata=pd.read_csv(‘2018-05-27.csv‘)#载入数据data.rename(columns=‘Unname 查看详情

python疫情数据可视化(爬虫+数据可视化)(jupyter环境)(代码片段)

目录1项目背景2项目目标3项目分析3.1数据获取3.1.1分析网站3.1.2找到数据所在url3.1.3获取数据3.1.4解析数据3.1.5保存数据3.2数据可视化3.2.1读取数据3.2.2各地区确诊人数与死亡人数情况条形图3.2.3各地区现有确诊人数地图3.2.4各地区现... 查看详情

如何一个月入门python爬虫,轻松爬取大规模数据

...掌握一项谋生技能。带你学到如何从网上批量获得几十万数据,如何处理海量大数据,数据可视化及网站制作。课程目录开始之前,魔力手册for实战学员预习第一周:学会爬取网页信息第二周:学会爬取大规模数据第三周:数据... 查看详情

知乎python爬虫如何入门学习

...掌握一项谋生技能。带你学到如何从网上批量获得几十万数据,如何处理海量大数据,数据可视化及网站制作。课程目录开始之前,魔力手册for实战学员预习第一周:学会爬取网页信息第二周:学会爬取大规模数据第三周:数据... 查看详情

有没有python爬虫视频教程推荐

...掌握一项谋生技能。带你学到如何从网上批量获得几十万数据,如何处理海量大数据,数据可视化及网站制作。课程目录开始之前,魔力手册for实战学员预习第一周:学会爬取网页信息第二周:学会爬取大规模数据第三周:数据... 查看详情

atitit.数据检索与网络爬虫与数据采集的原理概论

 Atitit.数据检索与网络爬虫与数据采集的原理概论  1.信息检索11.1.《信息检索导论》((美)曼宁...)【简介_书评_在线阅读】-dangdang.html11.2.《现代信息检索(原书第2版)(由信息检索领域的代表人物撰写,及时掌握现代... 查看详情

豆瓣电影top250爬虫及可视化分析笔记(代码片段)

  人类社会已经进入大数据时代,大数据深刻改变着我们的工作和生活。随着互联网、移动互联网、社交网络等的迅猛发展,各种数量庞大、种类繁多、随时随地产生和更新的大数据,蕴含着前所未有的社会价值和... 查看详情

爬虫开源工具gopup的介绍与使用(代码片段)

老师今天中午找我做一个任务:爬虫+将爬到的数据可视化。老师指定我用GoPUP来获取数据,用ECharts来可视化成图表。一、介绍GoPUP是GitHub中的一个开源工具,GoPUP项目所采集的数据皆来自公开的数据源,不涉及... 查看详情