requests库爬取猫眼电影“最受期待榜”榜单--网络爬虫(代码片段)

qikeyishu qikeyishu     2022-11-30     244

关键词:

目标站点:https://maoyan.com/board/6

# coding:utf8
import requests, re, json
from requests.exceptions import RequestException


# from multiprocessing import Pool

# 获取页面
def get_one_page(url):
    try:
        resp = requests.get(url)
        if resp.status_code == requests.codes.ok:
            return resp.text
        else:
            return None
    except RequestException:
        return None


# 页面解析
def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\\d+)</i>.*?data-src="(.*?)"'
                         '.*?name"><a.*?">(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         '.*?</dd>', re.S)
    items = re.findall(pattern, html)  # result is a list,made up of tuples
    for item in items:
        # 生成字典
        yield 
            'index': item[0],
            'img_url': item[1],
            'title': item[2],
            'stars': item[3][3:],
            'releasetime': item[4],
        


# 将爬取到的内容写入到文件中
def write_file(content):
    with open('content.txt', 'a', encoding='utf-8') as f:
        str_content = json.dumps(content, ensure_ascii=False)  # 转换成字符串
        f.write(str_content + '\n')
        f.close()


# 主函数
def main(offset):
    url = "https://maoyan.com/board/6/?offset=" + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_file(item)
        print(item)


if __name__ == "__main__":
    # 请求4次
    for i in range(5):
        main(i * 10)

技术图片

使用requests爬取猫眼电影top100榜单

  Requests是一个很方便的python网络编程库,用官方的话是“非转基因,可以安全食用”。里面封装了很多的方法,避免了urllib/urllib2的繁琐。  这一节使用requests库对猫眼电影的TOP100榜进行抓取。1获得页面。 首先确定要... 查看详情

14-requests+正则表达式爬取猫眼电影

‘‘‘Requests+正则表达式爬取猫眼电影TOP100‘‘‘‘‘‘流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。正则表达式分析:根据HTML代码分析得到电影的名称、主演、上映时间、评分、图... 查看详情

requests+正则表达式爬取猫眼电影

 代码:importreimportjsonfrommultiprocessingimportPoolimportrequestsfromrequests.exceptionsimportRequestExceptionbasic_url=‘http://maoyan.com/board/4?offset=%d‘headers={‘User-Agent‘:‘Mozilla/5.0(Win 查看详情

python爬虫知识点总结requests+正则表达式爬取猫眼电影

一、爬取流程 二、代码演示#-*-coding:UTF-8-*-#_author:AlexCthon#mail:[email protected]#date:2018/8/3importrequestsfrommultiprocessingimportPool#进程池,用来实现秒抓fromrequests.exceptionsimportRequestExceptionimpo 查看详情

requests+正则爬取猫眼电影top100(代码片段)

(一)目标站点的分析首先打开我们的目标网站,发现每一页有十个电影,最下面有分页标志,而分页只改变的是标签后缀,如下:而后可以在网页按f12打开源代码管理,查看网页每处信息对应的源代码形式,如下图: (二... 查看详情

20170513爬取猫眼电影top100

importjsonimportreimportrequestsfrombs4importBeautifulSoupfromrequestsimportRequestExceptionfrommultiprocessingimportPooldefget_one_page(url):headers={‘User-Agent‘:‘baiduspider+‘}try:response=requests 查看详情

对猫眼电影排行的爬取(代码片段)

...0名的爬取,并将结果以文件的形式保存下来2.准备工作:requests库3.抓取分析 offset代表偏移量值,分开请求10次,就可以获取前100的电影4.抓取首页5.正则提取6.文件提取7.代码整合8.每页爬取总代码:1importjson2importrequests3fromrequ... 查看详情

python使用asyncio+aiohttp异步爬取猫眼电影专业版

...以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访问网页是阻塞的,无法并发,所以我们需要一个更牛逼的库 aiohttp ,它的用法与requests相似,可以看成是异步版的requests,下面通过实战爬取猫眼电影专业... 查看详情

静觅爬虫学习笔记8-爬取猫眼电影

... 不知道是不是我学习太晚的原因,猫眼电影这网站我用requests进行爬取源码直接返回给我一个您的访问被禁止。作为萌新的我登时就傻了,还好认真听了之前的课,直接换selenium抓了源码,虽然效率惨不忍睹,但多少也能运行... 查看详情

网站爬取-案例一:猫眼电影top100

...取方式为10页循环抓取先看下代码:引入模块:这次我用REQUEST模块作为抓取工具,以JSON的形式做成文件存储方式 第一步:请求网页并且读取: 查看详情

requests+正则表达式爬取猫眼top100电影

...,中文显示问题(3)线程池的使用(4)正则表达式的写法importrequestsfromrequests.exceptionsimportRequestExceptionimportreimportjsonfrommultiprocessingimportPool#抓取单页内容defget_one_page(url):try:response=requests.get(url)ifresponse.status_code==200:returnresponse.textreturnNone... 查看详情

requests+正则表达式爬取猫眼电影(代码片段)

 1#encoding:utf-82fromrequests.exceptionsimportRequestException3importrequests4importre5importjson6frommultiprocessingimportPool78defget_one_page(url):9try:10response=requests.get(url)11ifresponse.status_code==200:12returnresponse.text13returnNone14exceptRequestException:15returnNone1617defpars... 查看详情

python爬虫编程思想(37):项目实战:抓取猫眼电影top100榜单

本文会使用urllib3抓取猫眼电影Top100榜单,读者使用下面的URL进入Top100榜单页面。https://maoyan.com/board/4Top100榜单页面如图1所示。        从Top100榜单页面可以看出,每一页有10部电影,共10页,一共100部... 查看详情

requwsts+正则表达式爬取猫眼电影top100

流程框架:抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。正则表达式分析:根据HTML代码分析得到电影和名称、主演、上映时间、评分、图片链接等信息。开启循环及多线程:对多页内容遍历,开启... 查看详情

抓取猫眼top100电影信息

...=‘+str(offset)3.卡发者选项,查看排行的电影信息,我们要爬取电影的排行(index),图片的url,标题(title),演员,上映时间,评分。4.获取首页的html代码,1user_agent=‘Mo 查看详情

爬取猫眼电影数据(代码片段)

...排好序号了,这就很简单了。2、在分析页面,这次主要爬取黄色框中的内容。在浏览器中按F12检查元素,只要把Div获取出来就算完成了。   下面贴代码:   主函数1staticvoidMain(string[]a 查看详情

使用xpath爬取猫眼电影排行榜(代码片段)

....正则我一般用于在处理文件,简直神器.下面贴代码.importrequestsfromrequests.exceptionsimportRequestExceptionfromlxmlimportetreeimportcsvimportredefget_page(url):"""获取网页的源代码:paramurl::return:"""try:headers=‘User-Agent‘:‘Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/5... 查看详情

正则表达式爬取猫眼电影(代码片段)

正则表达式爬取猫眼电影Top100importrequestsimportre,jsonfrommultiprocessingimportPooldefget_one_page(url):response=requests.get(url)returnresponse.textdefparse_one_page(html):pattern=re.compile(‘<dd>.*?board-index.*?>(d+)</i>.*?data-src="(.*?)".*?name"><a‘+‘.*?&g... 查看详情