爬虫遇到httperror403的问题(代码片段)

rener0424 rener0424     2022-12-16     672

关键词:

# coding=utf-8


from bs4 import BeautifulSoup
import requests
import urllib
x = 1
y = 1

def crawl(url):
    res = requests.get(url)
    soup = BeautifulSoup(res.text, 'html.parser')
    global y
    with open(f'C:/Users/Administrator/Desktop/alien/pachong/xnt/y.txt','w',encoding="utf-8") as f:
        f.write(str(soup))
        y += 1
    yinhuns = soup.select('img')
    print()
    for yh in yinhuns:
        print(yh)
        link = yh.get('src')
        print(link)
        global x    
        urllib.request.urlretrieve(link, f'C:/Users/Administrator/Desktop/alien/pachong/xnt/x.jpg')
        print(f'正在下载第x张图片')
        x += 1
        
for i in range(1,5):
    url = "https://acg.fi/hentai/23643.htm/" + str(i)
    
    try:
        crawl(url)
    except ValueError as f:
        continue
    except Exception as e:
        print(e)

httperror403:forbidden

在写网页爬虫的时候,有的网站会有反爬取措施,所以有可能出现上面所示bug出现bug的地方可能有两处:1.requests请求时  requests.get(url),返回结果是403。  解决方法:  headers={      ‘User-Ageent‘:‘一些字符‘, ... 查看详情

来自 Python AppEngine 的 Google Url Shortener API:HTTPError:HTTP 错误 403:禁止

】来自PythonAppEngine的GoogleUrlShortenerAPI:HTTPError:HTTP错误403:禁止【英文标题】:GoogleUrlShortenerAPIfromPythonAppEngine:HTTPError:HTTPError403:Forbidden【发布时间】:2014-09-1018:34:16【问题描述】:我在AppEngine生产环境中使用GoogleURLShortenerAPI时... 查看详情

urllib.error.httperror:httperror403:forbidden

...个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTPError403:Forbidden"异常例如执行下面的语句时[python] <spanstyle="font-size:14px;">urllib.request.urlopen("http:// 查看详情

爬虫遇到的坑🕳(代码片段)

...现乱码response.text响应总是乱码 找了许多种方法,python爬虫解决gbk乱码问题、python爬虫的中文乱码问题?-知乎       发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码,importrequestsurl=‘https://www.ba... 查看详情

请求无时的 HttpError 403 返回“权限不足

】请求无时的HttpError403返回“权限不足【英文标题】:HttpError403whenrequestingNonereturned"InsufficientPermission【发布时间】:2021-12-0206:29:24【问题描述】:从Gmail中的电子邮件附件上传到GoogleDrive:from__future__importprint_functionimportpicklei... 查看详情

爬虫之遇到403forbidden,你该怎么办?

...。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,当你采集数据最起劲儿的时候,突然网页跳出403Forbidden的提示。所以在爬取数据之前,一... 查看详情

HTTPError:HTTP 错误 403:禁止

】HTTPError:HTTP错误403:禁止【英文标题】:HTTPError:HTTPError403:Forbidden【发布时间】:2012-10-1420:19:29【问题描述】:我制作了一个供个人使用的python脚本,但它不适用于***...这项工作:importurllib2,sysfrombs4importBeautifulSoupsite="http://yout... 查看详情

python爬虫采集遇到403问题怎么办?

最近使用爬虫程序去爬一些电商网站,但是爬取的效果不怎么好,总是返回403,也使用过代理,是代理的问题,还是程序的问题。各位大神请指教?403是网页状态码,表示访问拒绝或者禁止访问。应该是你触发到网站的反爬虫机... 查看详情

python爬虫反爬方法(代码片段)

...态码:·2开头表示访问正常·4开头,比如403表示爬虫被网站封锁·5开头表示服务器出问题本篇文章主要讲当遇到返回值出现403解决方法:例如:importrequestsurl='http://www.dianping.com/shanghai/hotel/p1'resp=reques 查看详情

urllib2.HTTPError:HTTP 错误 403:禁止

】urllib2.HTTPError:HTTP错误403:禁止【英文标题】:urllib2.HTTPError:HTTPError403:Forbidden【发布时间】:2012-10-2911:59:58【问题描述】:我正在尝试使用python自动下载历史股票数据。我尝试打开的URL以CSV文件响应,但我无法使用urllib2打开... 查看详情

urllib2.httperror:httperror403:forbidden解决方法

参考:https://stackoverflow.com/questions/13303449/urllib2-httperror-http-error-403-forbiddenhttps://segmentfault.com/q/1010000000470724通过测试应该是request中header的问题。1classS0819MtimeTiantangPipeline(object):2 查看详情

HTTPError:HTTP 错误 403:在 Google Colab 上被禁止

】HTTPError:HTTP错误403:在GoogleColab上被禁止【英文标题】:HTTPError:HTTPError403:ForbiddenonGoogleColab【发布时间】:2020-06-1715:41:49【问题描述】:我正在尝试使用以下代码在PyTorch中下载MNIST数据:train_loader=torch.utils.data.DataLoader(datasets.M... 查看详情

使用爬虫遇到的一些问题(代码片段)

本博客会记录博主在使用爬虫过程中遇到的问题,不断更新,希望以后再遇到这些问题的时候,可以快速解决。1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL,但是复... 查看详情

Google Roads API - HTTP 错误 403:禁止

...GoogleRoadsAPI-HTTP错误403:禁止【英文标题】:GoogleRoadsAPI-HTTPError403:Forbidden【发布时间】:2021-06-2214:31:28【问题描述】:背景和问题:我正在尝试使用GoogleRoadsAPI提取某些道路的速度限制。当我尝试执行网站上描述的basicexample时,... 查看详情

firebase 云函数 http 错误代码 403

...base云函数http错误代码403【英文标题】:firebasecloudfunctionshttperrorcode403【发布时间】:2019-06-2409:00:39【问题描述】:我正在尝试将功能部署到我的firebase项目以处理通知。但是我一直遇到这个错误HTTPError:403,UnknownError我已经联系了f... 查看详情

请求时Google Sheets HttpError 403

】请求时GoogleSheetsHttpError403【英文标题】:GoogleSheetsHttpError403whenrequesting【发布时间】:2021-12-1009:51:50【问题描述】:请帮帮我。启动从googlesheet输出数据的程序时,出现错误。importhttplib2importapiclient.discoveryfromoauth2client.service_acco... 查看详情

,遇到的爬虫问题与解决思路(代码片段)

爬虫问题分析回顾之前写了一个爬取小说网站的多线程爬虫,操作流程如下:先爬取小说介绍页,获取所有章节信息(章节名称,章节对应阅读链接),然后使用多线程的方式(pool=Pool(50)),通过章节的阅读... 查看详情

urllib.error.HTTPError:HTTP 错误 403:使用 urllib.requests 禁止

】urllib.error.HTTPError:HTTP错误403:使用urllib.requests禁止【英文标题】:urllib.error.HTTPError:HTTPError403:Forbiddenwithurllib.requests【发布时间】:2021-12-1508:18:41【问题描述】:我正在尝试从Internet读取图像URL并能够通过python将图像获取到我... 查看详情