爬取游民福利,搞了一堆美女图片,代码奉上,多张福利(代码片段)

香菜聊游戏 香菜聊游戏     2022-12-09     534

关键词:

点赞再看,养成习惯

目录

展示成果:

分析网站

总结下:

技术分析

注:图片下载可运行

遇到的困难

未解决的问题:


因为想要爬取一些福利图片,花了差不多1个半小时的时间写了这个图片的爬虫,虽然还是有些问题,但是能爬下来图片就够了,下面开始聊一下,

展示成果:

图片

注:这只是一页的数据,网站总共有262 页哦

分析网站

目标网站:

游民星空的游民福利,基本上是一些美女图片,LSP喜欢,废话不多说,开始吧

Url 如下:https://www.gamersky.com/ent/xz/

打开网址,选择自己想要查看的,右键 -> 检查,就可以直接查看到对应的html 代码。

href 就是对应的链接

分析下url找个每个详情页的地址

图片

进入到详情页查看每个图片的url

图片

最终找到图片的详细地址

图片

总结下:

  • 对首页进行分析,找到详情页的url

  • 对详情页进行分析,找到图片的url

  • 打开url,找到图片

  • 每个详情页的的第一页就是url ,第二页就是url_2.shtml

技术分析

之前没写过爬虫,所以技术上没有什么经验,但是爬虫领域python是最火的,所以果断放弃Java,选择python,有段时间没写python了,有点生疏了,管他呐,不会就查,开干!!!

选择的IDE 是pycharm ,因为习惯了idea

python 是选择了3.9的版本,随便下的

使用的库是BeautifulSoup 和 requests

直接上代码:

import time

import requests
from bs4 import BeautifulSoup

def get_content(url):
   try:
       user_agent = 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0'
       response = requests.get(url, headers='User-Agent': user_agent)
       response.raise_for_status()  # 如果返回的状态码不是200, 则抛出异常;
       response.encoding = response.apparent_encoding  # 判断网页的编码格式, 便于respons.text知道如何解码;
   except Exception as e:
       print("爬取错误")
   else:

       print(response.url)
       print("爬取成功!")
       return response.content

def save_img(img_src):
   if img_src is None:
       return
   try:
       print(img_src)
       urlArr = img_src.split('?')
       if len(urlArr) == 2:
           url = urlArr[1]
       else:
           url = urlArr[0]
       headers = "User-Agent": 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0'
       # 注意 verify 参数设置为 False ,不验证网站证书
       requests.packages.urllib3.disable_warnings()
       res = requests.get(url=url, headers=headers, verify=False)
       data = res.content
       filePath = "D:\\\\pic\\\\"+ str(int(time.time())) +".jpg"
       with open(filePath, "wb+") as f:
           f.write(data)
   except Exception as e:
       print(e)
def downloadImg(sigleArticle):
   if sigleArticle is None:
       return
   # 实例化soup对象, 便于处理;
   soup = BeautifulSoup(sigleArticle, 'html.parser')

   imgList = soup.find_all('p',class_ ="GsImageLabel")
   for img in  imgList:
       atag = img.find('a')
       if atag:
           save_img(atag['href'])

def getAllArticle(content):
   # 实例化soup对象, 便于处理;
   soup = BeautifulSoup(content, 'html.parser')
   divObj = soup.find_all('div', class_="tit")
   for item in divObj:
       link = item.find('a')
       if link:
           articleUrl = link['href']
           sigleArticle = get_content(articleUrl)
           downloadImg(sigleArticle)
           arr = articleUrl.split(".shtml")
           for i in range(2,10):
               url = arr[0]+"_" +str(i)+ ".shtml"
               sigleArticle = get_content(url)
               downloadImg(sigleArticle)

if __name__ == '__main__':
   for i in range(2, 5):
       print(i)
       url = "https://www.gamersky.com/ent/xz/"
       articleUrl = "https://www.gamersky.com/ent/202107/1406688.shtml"
       content = get_content(url)
       getAllArticle(content)

       # singleArticle = get_content(articleUrl)
       #
       # downloadImg(singleArticle)

注:图片下载可运行

遇到的困难

1.bs4 的安装

在pycharm 中无法安装,不知道什么情况,即使换了阿里的和清华的源依然不行,最后是在控制台安装

2.字符串的拆分

字符串的拆分的函数提示不好,不如Java方便

网站的字符串存在一些不规律,也没有深度探索

未解决的问题:

1.首页的翻页问题,现在只解决了首页的下载,还需要研究

2.程序的一些警告没有处理,直接无视了 requests.packages.urllib3.disable_warnings()

3.图片网址的前半部分是否需要拆分的问题,在浏览器中可以查看,但是爬取的时候似乎有点问题,没有深究

注意:爬虫虽好,可不要多用,会浪费网站的服务器性能

常规福利

图片

图片

图片

图片

图片

赶紧点赞,分享

福利贴——爬取美女图片的java爬虫小程序代码

自己做的一个Java爬虫小程序废话不多说,先上图。文件夹命名是用标签缩写,如果大家看得不顺眼可以等下载完成后手动改一下,比如像有强迫症的我一样。。。这是挂了一个晚上下载的总大小,不过还有很多因为一些问题没... 查看详情

今晚图灵科普专场直播,福利奉上!

...  图书盲盒,惊喜不断  双十一全场五折好书,福利不断视频号一键预约!朋友圈转发下面这张海报(注意不是文章哦)留言“已转发”我们将从中抽取10人,送出图书盲盒一份!活动持续至直播当日... 查看详情

爬虫经典教学,爬取小姐姐图片,太好看了!

...妙想写了个爬虫教程,给大家送点福利,教大家爬取某站的小姐姐高清图片。(嘿嘿~我可能是个老se批,其实女生真的比男生更喜欢看美女)先说好啊,技术无罪;这只是一个小案例教大家方法,... 查看详情

❤️爬取某网站小姐姐视频,源码奉上,保姆级教程,赶紧收藏❤️(代码片段)

目录1、目标网站2:技术选型2.1方案A2.2方案B3、安装环境3.1必要的环境3.2安装selenium3.3下载chromedriver4、代码实现4.1代码4.2一些点:4.3成果5、未解决的问题6、总结在群里聊天的时候,突然聊起爬某网站的美女视频,... 查看详情

❤️爬取抖音小姐姐无水印视频,源码奉上,保姆级教程,赶紧收藏❤️(代码片段)

目录1、目标网站2:技术选型2.1方案A2.2方案B3、安装环境3.1必要的环境3.2安装selenium3.3下载chromedriver4、代码实现4.1代码4.2一些点:4.3成果5、未解决的问题6、总结在群里聊天的时候,突然聊起爬抖音的美女视频,手... 查看详情

❤️爬取抖音小姐姐无水印视频,源码奉上,保姆级教程,赶紧收藏❤️(代码片段)

目录1、目标网站2:技术选型2.1方案A2.2方案B3、安装环境3.1必要的环境3.2安装selenium3.3下载chromedriver4、代码实现4.1代码4.2一些点:4.3成果5、未解决的问题6、总结在群里聊天的时候,突然聊起爬抖音的美女视频,手... 查看详情

我用python爬取了五千张美女图壁纸,每天一张忘记初恋!(代码片段)

...壁纸从美女壁纸开始。今天给大家带来福利啦,爬取美女图片作为桌面壁纸!【防止有人捶我打擦边球,都是正经的图片,自己想歪了是你的事, 查看详情

atitit研发团队建设----福利法案--非物质福利与物质福利法案

Atitit研发团队建设----福利法案--非物质福利与物质福利法案  1.1.何为非物质福利法案??11.2.福利类型11.2.1.公共福利11.2.2.个人福利21.2.3.组织内公共福利21.2.4.生活福利22.具体福利种类2  精神福利与物质福利,这里... 查看详情

我的第一个网络爬虫c#版福利程序员专车

...了知乎上一篇文章(https://www.zhihu.com/question/20799742),在福利网上爬视频。。。由是我就开始跟着做了,但答主给的例子是基于python2.x的,而我开始学的是3.x,把print用法改了以后还是有很多模块导入不了,新手又不知道该怎么... 查看详情

福利管理

福利是薪酬的重要组成部分。福利是员工在取得工资收入外,还享有的利益。包括:现金性福利、实物性福利。员工福利通常由法定福利、统一福利和专项福利构成。福利对企业的作用:1、改善企业形象,提高企业经济效益;2... 查看详情

新书上市|python办公自动化(好友新书,值得一看,文末有福利)

...贴02大咖推荐,精彩书评03谁适合阅读本书?粉丝福利福利1福利2福利3前言推荐一位好友小码哥的新书,《Python+Excel/Word/PPT一本通》几个表格又让我复制粘贴了一下午,几个Word文档又让我合并了好几个小时,... 查看详情

新书上市|python办公自动化(好友新书,值得一看,文末有福利)

...贴02大咖推荐,精彩书评03谁适合阅读本书?粉丝福利福利1福利2福利3前言推荐一位好友小码哥的新书,《Python+Excel/Word/PPT一本通》几个表格又让我复制粘贴了一下午,几个Word文档又让我合并了好几个小时,... 查看详情

美图福利让你心情好好的

本文地址原文地址关注微信公众号    这是一个读图时代,并不是说文字不行了,而是大家更喜欢图文并茂的东西。照片或者说图片更有说服力,所谓眼见为实大抵如此。这里我就稍微盘点一下读图时代的林林总总... 查看详情

队友代码拜读(文末附福利呦)

根据结队编程要求:要读队友代码,然后找出代码的优缺点。队友代码为Java编程,Java为一门完全面向对象语言。首先说一下不规范性,同时也是给自己写代码时提醒(某国某程序员写代码不规范被枪杀)1、队友代码共有354行,... 查看详情

企业员工福利积分商城系统:深耕福利场景,解锁福利采购新玩法!

近年来,经济结构升级,福利待遇增长明显,单靠高薪已较难留住公司的优秀人才。如何为企业员工提供更具吸引力的员工福利计划,逐渐成为许多企业人力资源管理战略的重要环节。然而,企业管理者在面... 查看详情

程序员应该知道的福利

工资每个月多少工资是需要谈的,我见过很多优秀的人工资很低,就是因为他们不懂谈工资。公司之所以要求薪资保密,就是说明同等职位的工资存在较大的差异入职时候的工资可能在很长的一段时间内都不会变,不要指望你入... 查看详情

python批量爬取猫咪图片实现千图成像(代码片段)

...区领书,价值89元的《认识编程》!前言使用Python爬取猫咪图片,并为猫咪🐱制作千图成像!爬取猫咪图片本文使用的Python版本是3.10.0版本,可直接在官网下载:https://www.python.org。Pythonn的安装配置过... 查看详情

聊聊阿里的福利~(代码片段)

作者:程序猿石头福利网传各大厂福利上图列举了各大厂相关福利,可能有的已经过时了,可供参考,也许可当个笑话看看呢,比如:原来“开水团”是这样来的,看到朋友圈帮砍一刀的折扣福利也是... 查看详情