go开源宝藏golang爬虫|整点新花样(代码片段)

小生凡一 小生凡一     2023-01-05     596

关键词:

写在前面

Python爬虫可能大家都玩腻了,那就玩一下Golang的爬虫吧!
这篇文章会持续更新哒!

思维导图

想获取原图或是.xmind格式可在文末扫描并回复Go爬虫

Golang中提供了net/http这个包原生支持requestresponse

1. 发送请求

  • 构造客户端
	var client http.Client
  • 构造GET请求:
	reqList, err := http.NewRequest("GET", URL, nil)
  • 构造POST请求

Go中提供了一个cookiejar.New的函数方法,用于保留生成Cookie信息,这个是为了一些网站要登陆才能爬取的情况,所以我们登陆完之后,会有一个cookie,这个cookie是存储用户信息的,也就是这个信息是让服务器知道是谁进行这一次的访问!比如说登陆学校的教务处进行爬取课表,因为课表每个人都可能是不同的,所以就需要登陆,让服务器知道这是谁的课表信息,所以就需要在请求头上加上cookie进行伪装爬取。

	jar, err := cookiejar.New(nil)
	if err != nil 
		panic(err)
	

构造POST请求的时候,可以把要传输的数据进行封装好,与URL一起构造

	var client http.Client
	Info :="muser="+muserid+"&"+"passwd="+password
	var data = strings.NewReader(Info)
	req, err := http.NewRequest("POST", URL, data)
  • 添加请求头
	req.Header.Set("Connection", "keep-alive")
	req.Header.Set("Pragma", "no-cache")
	req.Header.Set("Cache-Control", "no-cache")
	req.Header.Set("Upgrade-Insecure-Requests", "1")
	req.Header.Set("Content-Type", "application/x-www-form-urlencoded")
	req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36")
	req.Header.Set("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9")
	req.Header.Set("Accept-Language", "zh-CN,zh;q=0.9")
  • 发送请求
	resp, _:= client.Do(req)  // 发送请求
	bodyText, _ := ioutil.ReadAll(resp.Body)  // 使用缓冲区读取网页内容
  • 关于cookie

上文也提到了一个包,当发送完请求之后,cookie就会保存在这个client.Jar这个包中

	myStr:=fmt.Sprintf("%s",client.Jar)   //强制类型转化 指针装到string

我们处理打印出这个client.Jar这个包的信息之后,选出响应的cookie,然后放在请求头上面即可!就能处理登陆情况下的cookie问题了。

	req.Header.Set("Cookie", "ASP.NET_SessionId="+cook)

至此,发送请求部分就完全完成了!

2. 解析网页

2.1 CSS选择器

github.com/PuerkitoBio/goquery 提供了.NewDocumentFromReader方法进行网页的解析。

	doc, err := goquery.NewDocumentFromReader(resp.Body)

2.2 Xpath 语法

github.com/antchfx/htmlquery 提供了.Parse方法进行网页的解析

	root, _ := htmlquery.Parse(resp.Body)

2.3 Regex 正则

	reId, _ := regexp.Compile(`id=(\\d+)`)  // 正则匹配
	allId := reId.FindAll(bodyText,1)
	for _,item := range allId 
		id=string(item)
	

3. 获取节点信息

3.1 CSS 选择器

通过2.1,我们拿到上一步解析出来的doc之后,可以进行css选择器语法,进行结点的选择。

doc.Find("#main > div.right > div.detail_main_content").
			Each(func(i int, s *goquery.Selection) 
			Data.title = s.Find("p").Text()
			Data.time = s.Find("#fbsj").Text()
			Data.author = s.Find("#author").Text()
			Data.count = Read_Count(Read_Id)
			fmt.Println(Data.title, Data.time, Data.author,Data.count)
		)

doc.Find("#news_content_display").Each(func(i int, s *goquery.Selection) 
			Data.content = s.Find("p").Text()
			fmt.Println(Data.content)
		)

3.2 Xpath 语法

通过3.2,我们拿到上一步解析出来的root之后,可以进行Xpath语法的编写,进行结点的选择。

	tr := htmlquery.Find(root, "//*[@id='LB_kb']/table/tbody/tr/td")   //使用Xpath进行结点信息的获取
	for _, row := range tr  //len(tr)=13
		classNames := htmlquery.Find(row, "./font")
		classPosistions := htmlquery.Find(row,"./text()[4]")
		classTeachers := htmlquery.Find(row,"./text()[5]")
		if len(classNames)!=0 
			className = htmlquery.InnerText(classNames[0])
			classPosistion = htmlquery.InnerText(classPosistions[0])
			classTeacher = htmlquery.InnerText(classTeachers[0])
		  fmt.Println(className)
		  fmt.Println(classPosistion)
		  fmt.Println(classTeacher)
		
	

4. 保存信息

4.1 使用原生SQL语句把数据保存Mysql中

  • 定义数据库链接参数
const (
	usernameClass = "root"
	passwordClass = "root"
	ipClass       = "127.0.0.1"
	portClass     = "3306"
	dbnameClass   = "class"
)
  • 连接数据库
var DB *sql.DB
func InitDB()
	path := strings.Join([]stringusernameClass, ":", passwordClass, "@tcp(", ipClass, ":", portClass, ")/", dbnameClass, "?charset=utf8", "")
	DB, _ = sql.Open("mysql", path)
	DB.SetConnMaxLifetime(10)
	DB.SetMaxIdleConns(5)
	if err := DB.Ping(); err != nil
		fmt.Println("opon database fail")
		return
	
	fmt.Println("connect success")

  • 定义数据类型
type Class struct 
	classData   string
	teacherName string
	position    string

  • 插入数据
func InsertData(Data Class) bool 
	tx, err := DB.Begin()
	if err != nil
		fmt.Println("tx fail")
		return false
	
	stmt, err := tx.Prepare("INSERT INTO class_data (`class`,`teacher`,`position`) VALUES (?, ?, ?)")
	if err != nil  // 数据的插入
		fmt.Println("Prepare fail",err)
		return false
	
	_, err = stmt.Exec(Data.classData,Data.teacherName,Data.position)  //执行事务
	if err != nil
		fmt.Println("Exec fail",err)
		return false
	
	_ = tx.Commit()  // 提交事务
	return true

4.2 使用GORM把数据保存到Mysql中

  • 构造GORM模型model
type NewD struct 
	gorm.Model
	Title   string `gorm:"type:varchar(255);not null;"`
	Time    string `gorm:"type:varchar(256);not null;"`
	Author  string `gorm:"type:varchar(256);not null;"`
	Count   string `gorm:"type:varchar(256);not null;"`
	Content string `gorm:"type:longtext;not null;"`

  • 连接数据库
var db *gorm.DB

func Init() 
	var err error
	path := strings.Join([]stringuserName_New, ":", password_New, "@tcp(",ip_New, ":", port_New, ")/", dbName_New, "?charset=utf8", "")
	db, err = gorm.Open("mysql", path)
	if err != nil 
		panic(err)
	
	fmt.Println("SUCCESS")
	_ = db.AutoMigrate(&NewD)
	sqlDB := db.DB()
	sqlDB.SetMaxIdleConns(10)
	sqlDB.SetMaxOpenConns(100)

  • 写入数据
	NewA := NewD
		Title:   Data.title,
		Time:    Data.time,
		Author:  Data.author,
		Count:   Data.count,
		Content: Data.content,
	
	err = db.Create(&NewA).Error  // 在数据库中创建一条数据

go开源宝藏基于golang语法的性能调优技巧(数组的遍历)(代码片段)

1.数组的遍历数组和切片的遍历方式一样,所以我们这里就不进行区分。我们一般用以下两种方式直接取下标方式fori:=0;i<len(nums);i++ ...我们先来讲一下这种方式,我们都知道数组在内存中存储是连续的。所以我... 查看详情

go开源宝藏go-cron定时任务(代码片段)

GO-CRON1.cron是什么1.1cron简介1.2cron详细语法2.下载3.使用1.cron是什么1.1cron简介cron:计划任务,其实就是定时任务。和系统约个时间,在几点几分几秒或者每隔一段时间跑一个任务(job),就那么简单。1.2cron详细语法结... 查看详情

go开源宝藏go-swagger自动生成api接口文档(代码片段)

Go-Swagger写在前面1.使用2.API注释介绍3.请求部分4.响应部分写在前面安装goget-ugithub.com/swaggo/swag/cmd/swagGo-Swagger可以用来自动生成接口文档,减少大家编写接口文档的时间。1.使用先下载驱动goget-ugithub.com/swaggo/swag/cmd/swag头部导入... 查看详情

go开源宝藏go-doc自动生成项目结构目录(代码片段)

目录写在前面1.下载2.运行3.查看写在前面这个是可以自动生成项目的结构目录,方便后续开发人员的开发查看。1.下载goget-v-ugolang.org/x/tools/cmd/godoc2.运行在根目录下执行godoc-http=:60603.查看在浏览器中输入地址http://localhost:60... 查看详情

go开源宝藏十分强大的日志库logrus(代码片段)

文章目录1.写在前面2.简单例子3.HOOKS4.嵌入中间件1.写在前面这次所介绍的库是一个日志库github.com/sirupsen/logrus,是我们在web开发中,经常需要的库,因为我们的应用部署到线上出现问题的话,就需要用日志来进行... 查看详情

go开源宝藏十分强大的日志库logrus(代码片段)

文章目录1.写在前面2.简单例子3.HOOKS4.嵌入中间件1.写在前面这次所介绍的库是一个日志库github.com/sirupsen/logrus,是我们在web开发中,经常需要的库,因为我们的应用部署到线上出现问题的话,就需要用日志来进行... 查看详情

go开源宝藏jwt-go鉴权|中间件(文末送书嗷~)(代码片段)

🎉粉丝福利送书:《Go语言区块链应用开发从入门到精通》🎉点赞👍收藏⭐留言📝即可参与抽奖送书🎉下周三(9月22日)晚上20:00将会在【点赞区和评论区】抽一位粉丝送这本书~🙉🎉详情请... 查看详情

go开源宝藏cors跨域与csrf攻击|中间件(代码片段)

目录1.什么是跨域2.CSRF攻击2.1CSRF说明2.1原理3.CORS3.1简介3.2引用1.什么是跨域当一个请求url的协议、域名、端口三者之间任意一个与当前页面url不同即为跨域当前页面url被请求页面url是否跨域原因http://www.test.com/http://www.test.com/index.... 查看详情

go开源宝藏gorm专场(含思维导图)|持续更新(代码片段)

写在前面本人只是一个Go语言的初学者,这篇文只是把我平常经常用到的都总结起来而已。具体详细的内容建议到去GORM的中文文档查看。当然这篇文章也会持续更新,记录我的CURD打磨过程这篇文章也会持续更新哒思维导... 查看详情

go开源宝藏web框架gin专场(含思维导图)|持续更新(代码片段)

写在前面本人只是一个Go语言的初学者,这篇总结只是把我平常经常用到的都总结起来而已。具体详细的内容建议到去GIN的中文文档查看。当然这篇文章也会持续更新,记录我的Web框架操练过程这篇文章也会持续更新哒思... 查看详情

go开源宝藏go语言操作redis(代码片段)

目录1.Redis简介2.Go语言连接Redis3.String操作3.1Set&Get3.2Incr&Incrby3.2.1Incr加13.2.2Incrby加val3.3MSet&MGet3.4总结4.List操作4.1RPush4.2LLen&LRange4.3总结参考链接1.Redis简介Redis支持诸如字符串(strings)、哈希(hashes)、列... 查看详情

golang模拟搜索引擎爬虫(代码片段)

最近网站需要针对百度做SEO优化,相关同学提交代码之后,我这边用Go写了个程序,模拟百度的爬虫,测试返回的内容是否正确。其实很简单,就是发送一个请求,把百度相关的信息放入请求头中即可,代码如下:packagemainimport(&... 查看详情

题解pta团体程序设计天梯赛l1-018大笨钟(10分)go语言|golang(代码片段)

L1-018大笨钟(10分)Go语言|Golang微博上有个自称“大笨钟V”的家伙,每天敲钟催促码农们爱惜身体早点睡觉。不过由于笨钟自己作息也不是很规律,所以敲钟并不定时。一般敲钟的点数是根据敲钟时间而定的,如果正好... 查看详情

go语言入门150题l1-061新胖子公式(10分)go语言|golang(代码片段)

...【PTA团体程序设计天梯赛】L1-061新胖子公式(10分)Go语言|Golang根据钱江晚报官方微博的报导,最新的肥胖计算方法为:体重(kg)/身高(m)的平方。如果超过25,你就是胖子。于是本题就请你编写程序自动判断一个人到底算... 查看详情

用golang实现一个代理池(代码片段)

...on/ProxyPool的启发下,决定自己实现一个代理池。项目已经开源在github。https://github.com/AceDarkkinght/GoProxyCollector开发环境windows7,Go1.8.4数据来源http://www.xicidaili 查看详情

golang查看代码调用关系图(代码片段)

go-callvis是github上一个开源项目,可以用来查看代码调用关系。安装安装graphviz$brewinstallgraphviz安装go-callvisgoget-ugithub.com/TrueFurby/go-callviscd$GOPATH/src/github.com/TrueFurby/go-callvis&&make用法$go-callvis[flags]p 查看详情

「gocn酷go推荐」后现代时代远程办公网络问题的golang开源解决方案——pairmesh(代码片段)

...程办公的网络连接问题提供了开箱即用的解决方案。拥抱开源,拥抱开放PairMesh是主要使用go语言开发实现的开源项目,您可以查看并获取PairMesh源代码:https://github.com/pairmesh/pairmesh这个repo包含了Pair 查看详情

alibaba/ioc-golang正式开源——打造服务于go开发者的ioc框架(代码片段)

IOC(inversionofcontrol)即控制反转,是面向对象编程中的一种设计原则,可以用来减低计算机代码之间的耦合度。IOC-golang是一款服务于Go语言开发者的依赖注入框架,基于控制反转思路,方便开发人员搭建任... 查看详情