简单实现nodejs爬虫工具

sroot      2022-02-08     594

关键词:

约30行代码实现一个简单nodejs爬虫工具,定时抓取网页数据。

 

使用npm模块

request---简单http请求客户端。(轻量级)
fs---nodejs文件模块。
 
index.js
var request = require(‘request‘);
var fs = require("fs");

var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7IRbfmijiJeeeIQ&ab=welcome_3&src=web"
var title = ""

var options = {
    uri: JJurl,
    headers: {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘,
    },
    json: true
};

setInterval(function() {
    request(options, function(error, response, body) {
        if (!error) {
            for (var i in body.d) {
                title += body.d[i].title + "
"
            }
            fs.writeFile(‘./result.txt‘, title, function(err) {
                if (err) {
                    throw err;
                }
            });
        } else {
            console.log(‘抓取失败‘)
        }
    });
}, 5000);

 

PS: 建议设置用户代理。防止请求被拒绝。
 

nodejs实现一个简单的爬虫

nodejs是js语言,实现一个爬出非常的方便。 步骤1.使用nodejs的request模块,获取目标页面的html代码;https://github.com/request/request2.使用cheerio模块对html代码做处理(cheerio类似jQuery的语法,所以好用又方便)https://github.com/cheeriojs/c... 查看详情

如何通过nodejs爬虫获取数据简单实现代码

varhttp=require('http');varcheerio=require('cheerio');//页面获取到的数据模块varurl='http://www.jcpeixun.com/lesson/1512/';functionfilterData(html)/*所要获取到的目标数组  varcourseData=[chapterTitle:"",videosData:videoTitle:title,videoId:id,vi... 查看详情

nodejs爬虫笔记

...作系统环境:WiN764位)   在Windows环境下安装相对简单(ps:其他版本我也不太清楚,可以问度娘)  http://nodejs.org/download/ &n 查看详情

nodejs爬虫简单编写

nodejs爬虫原理,先用request请求页面内容,把内容获取到并iconv-lite设置编码格式,再用cheerio进行类似dom操作合并内容,转换写入文件中1)获取单页面数据:varfs=require(‘fs‘)varrequest=require(‘request‘)variconvLite=require(‘iconv-lite‘)v... 查看详情

nodejs爬虫入门

1.写在前面往常都是利用Python/.NET语言实现爬虫,然现在作为一名前端开发人员,自然需要熟练NodeJS。下面利用NodeJS语言实现一个糗事百科的爬虫。另外,本文使用的部分代码是es6语法。实现该爬虫所需要的依赖库如下。request:利... 查看详情

nodejs爬虫前端爬虫系列

...开销。要读懂本文,其实只需要有能看懂Javascript及JQuery简单的nodejs基础http网络抓包和 查看详情

nodejs.http模块,cheerio模块实现小爬虫.

 代码:1varhttp=require("http");23varcheerio=require("cheerio");456varurl=‘http://www.imooc.com/learn/348‘;789http.get(url,function(res){10varhtml=‘‘;1112res.on(‘data‘,function(data){13html+=data;14 查看详情

“最简单”的爬虫开发方法(代码片段)

背景:  本人接触python爬虫也有一段时间了,期间也有许多小伙伴和我探讨python爬虫怎么学习,因此写下这篇随笔,算不上教学,只是谈谈自己的想法。  实现爬虫的方法有很多,我选取了个人觉得最容易理解、实现的方法... 查看详情

简单nodejs爬虫和使用cookie进行模拟登录

...便的。因为nodejs有HTTP模块直接可以使用,而且还有很多简单粗暴的库可以即拿即用。   首先,需要的库文件,   1、superagent是个轻量的的http方面的库,就像jquery的post,和get一样,很简单。   2、... 查看详情

nodejs之小爬虫

一、简单的单页面varhttp=require(‘http‘)varurl=‘http://www.imooc.com/learn/348‘http.get(url,function(res){  varhtml=‘‘//有data触发时res.on(‘data‘,function(data){html+=data})res.on(‘end‘,function(){console.log(html 查看详情

pyrthon简单爬虫实现

简单爬虫的通用步骤BY ZKEEER2017-09-03 2COMMENTS 本文首发:ZKeeer’sBlog——简单爬虫的通用步骤代码基于python3.5多图预警,长文预警知识点很多,适合小白,大神绕路 1.获取数据爬虫,就是要千方百计地装成浏览器从... 查看详情

nodejs爬虫使用async控制并发写一个小说爬虫

...cheerio是一个有着jQuery类似语法的文档解析模块,你可以简单理解为nodejs中的jQuery。async是一个异步流程控制模块,在这里我们主要用到async的mapLimit 查看详情

nodejs制作爬虫全过程

...考下吧。 今天来学习alsotang的爬虫教程,跟着把CNode简单地爬一遍。建立项目craelr-demo我们首先建立一个Express项目,然后将app.js的文件内容全部删除, 查看详情

golang简单爬虫实现,爬取小说

...说网站的爬虫会是一个不错的实践。这是两个实例:Golang简单爬虫实现golan 查看详情

gjm:用c#实现网络爬虫

...,是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。下面开始逐步分析爬虫的实现。 1.待下... 查看详情

简单的爬虫实现

//1、创建一个测试类,取名为TestHttpClientpublicclassTestHttpClient{//2、创建获取数据的方法getpublicvoidget(){//3、创建http对象CloseableHttpClienthttpClient=HttpClients.createDefault();//4、模拟get请求(这里地址取的是新浪上的一篇博文)Stringurl="... 查看详情

爬虫基础知识与简单爬虫实现

css规则:选择器,以及一条或者多条生命。selector{declaration1;,,,;desclarationN}每条声明是由一个属性和一个值组成property:value例子:h1{color:red;fontsize:14px} 元素选择器:直接选择文档元素比如head,p类选择器:元素的class属性,比如&... 查看详情

$python爬虫系列——一个简单的爬虫实例

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。1.概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。下载图片的步骤如下:获取网页html文本内容;分析html中图片的html标签特征,用... 查看详情