正文

爬虫遇到httperror403的问题(代码片段)

rener0424  rener0424  2022-12-16  672

关键词：

# coding=utf-8


from bs4 import BeautifulSoup
import requests
import urllib
x = 1
y = 1

def crawl(url):
    res = requests.get(url)
    soup = BeautifulSoup(res.text, 'html.parser')
    global y
    with open(f'C:/Users/Administrator/Desktop/alien/pachong/xnt/y.txt','w',encoding="utf-8") as f:
        f.write(str(soup))
        y += 1
    yinhuns = soup.select('img')
    print()
    for yh in yinhuns:
        print(yh)
        link = yh.get('src')
        print(link)
        global x    
        urllib.request.urlretrieve(link, f'C:/Users/Administrator/Desktop/alien/pachong/xnt/x.jpg')
        print(f'正在下载第x张图片')
        x += 1
        
for i in range(1,5):
    url = "https://acg.fi/hentai/23643.htm/" + str(i)
    
    try:
        crawl(url)
    except ValueError as f:
        continue
    except Exception as e:
        print(e)

httperror403:forbidden

在写网页爬虫的时候，有的网站会有反爬取措施，所以有可能出现上面所示bug出现bug的地方可能有两处：1.requests请求时　　requests.get(url)，返回结果是403。　　解决方法：　　headers={　　　　　　‘User-Ageent‘:‘一些字符‘,　... 查看详情

来自 Python AppEngine 的 Google Url Shortener API：HTTPError：HTTP 错误 403：禁止

】来自PythonAppEngine的GoogleUrlShortenerAPI：HTTPError：HTTP错误403：禁止【英文标题】：GoogleUrlShortenerAPIfromPythonAppEngine:HTTPError:HTTPError403:Forbidden【发布时间】：2014-09-1018:34:16【问题描述】：我在AppEngine生产环境中使用GoogleURLShortenerAPI时... 查看详情

urllib.error.httperror:httperror403:forbidden

...个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTPError403:Forbidden"异常例如执行下面的语句时[python] <spanstyle="font-size:14px;">urllib.request.urlopen("http:// 查看详情

爬虫遇到的坑🕳(代码片段)

...现乱码response.text响应总是乱码　找了许多种方法，python爬虫解决gbk乱码问题、python爬虫的中文乱码问题？-知乎　　　　　发现，在爬取百度[https://www.baidu.com/]时出现乱码，通过编码->解码，importrequestsurl=‘https://www.ba... 查看详情

请求无时的 HttpError 403 返回“权限不足

】请求无时的HttpError403返回“权限不足【英文标题】：HttpError403whenrequestingNonereturned"InsufficientPermission【发布时间】：2021-12-0206:29:24【问题描述】：从Gmail中的电子邮件附件上传到GoogleDrive：from__future__importprint_functionimportpicklei... 查看详情

爬虫之遇到403forbidden,你该怎么办？

...。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例，过程中就会面临，IP被封，爬取受限、违法操作等多种问题，当你采集数据最起劲儿的时候，突然网页跳出403Forbidden的提示。所以在爬取数据之前，一... 查看详情

HTTPError：HTTP 错误 403：禁止

】HTTPError：HTTP错误403：禁止【英文标题】：HTTPError:HTTPError403:Forbidden【发布时间】：2012-10-1420:19:29【问题描述】：我制作了一个供个人使用的python脚本，但它不适用于***...这项工作：importurllib2,sysfrombs4importBeautifulSoupsite="http://yout... 查看详情

python爬虫采集遇到403问题怎么办？

最近使用爬虫程序去爬一些电商网站，但是爬取的效果不怎么好，总是返回403，也使用过代理，是代理的问题，还是程序的问题。各位大神请指教？403是网页状态码，表示访问拒绝或者禁止访问。应该是你触发到网站的反爬虫机... 查看详情

python爬虫反爬方法(代码片段)

...态码：·2开头表示访问正常·4开头，比如403表示爬虫被网站封锁·5开头表示服务器出问题本篇文章主要讲当遇到返回值出现403解决方法：例如：importrequestsurl='http://www.dianping.com/shanghai/hotel/p1'resp=reques 查看详情

urllib2.HTTPError：HTTP 错误 403：禁止

】urllib2.HTTPError：HTTP错误403：禁止【英文标题】：urllib2.HTTPError:HTTPError403:Forbidden【发布时间】：2012-10-2911:59:58【问题描述】：我正在尝试使用python自动下载历史股票数据。我尝试打开的URL以CSV文件响应，但我无法使用urllib2打开... 查看详情

urllib2.httperror:httperror403:forbidden解决方法

参考：https://stackoverflow.com/questions/13303449/urllib2-httperror-http-error-403-forbiddenhttps://segmentfault.com/q/1010000000470724通过测试应该是request中header的问题。1classS0819MtimeTiantangPipeline(object):2 查看详情

HTTPError：HTTP 错误 403：在 Google Colab 上被禁止

】HTTPError：HTTP错误403：在GoogleColab上被禁止【英文标题】：HTTPError:HTTPError403:ForbiddenonGoogleColab【发布时间】：2020-06-1715:41:49【问题描述】：我正在尝试使用以下代码在PyTorch中下载MNIST数据：train_loader=torch.utils.data.DataLoader(datasets.M... 查看详情

使用爬虫遇到的一些问题(代码片段)

本博客会记录博主在使用爬虫过程中遇到的问题，不断更新，希望以后再遇到这些问题的时候，可以快速解决。1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL，但是复... 查看详情

Google Roads API - HTTP 错误 403：禁止

...GoogleRoadsAPI-HTTP错误403：禁止【英文标题】：GoogleRoadsAPI-HTTPError403:Forbidden【发布时间】：2021-06-2214:31:28【问题描述】：背景和问题：我正在尝试使用GoogleRoadsAPI提取某些道路的速度限制。当我尝试执行网站上描述的basicexample时，... 查看详情

firebase 云函数 http 错误代码 403

...base云函数http错误代码403【英文标题】：firebasecloudfunctionshttperrorcode403【发布时间】：2019-06-2409:00:39【问题描述】：我正在尝试将功能部署到我的firebase项目以处理通知。但是我一直遇到这个错误HTTPError:403,UnknownError我已经联系了f... 查看详情

请求时Google Sheets HttpError 403

】请求时GoogleSheetsHttpError403【英文标题】：GoogleSheetsHttpError403whenrequesting【发布时间】：2021-12-1009:51:50【问题描述】：请帮帮我。启动从googlesheet输出数据的程序时，出现错误。importhttplib2importapiclient.discoveryfromoauth2client.service_acco... 查看详情

，遇到的爬虫问题与解决思路(代码片段)

爬虫问题分析回顾之前写了一个爬取小说网站的多线程爬虫，操作流程如下：先爬取小说介绍页，获取所有章节信息(章节名称，章节对应阅读链接)，然后使用多线程的方式(pool=Pool(50))，通过章节的阅读... 查看详情

urllib.error.HTTPError：HTTP 错误 403：使用 urllib.requests 禁止

】urllib.error.HTTPError：HTTP错误403：使用urllib.requests禁止【英文标题】：urllib.error.HTTPError:HTTPError403:Forbiddenwithurllib.requests【发布时间】：2021-12-1508:18:41【问题描述】：我正在尝试从Internet读取图像URL并能够通过python将图像获取到我... 查看详情