正文

requests库爬取猫眼电影“最受期待榜”榜单--网络爬虫(代码片段)

qikeyishu  qikeyishu  2022-11-30  244

关键词：

目标站点：https://maoyan.com/board/6

# coding:utf8
import requests, re, json
from requests.exceptions import RequestException


# from multiprocessing import Pool

# 获取页面
def get_one_page(url):
    try:
        resp = requests.get(url)
        if resp.status_code == requests.codes.ok:
            return resp.text
        else:
            return None
    except RequestException:
        return None


# 页面解析
def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\\d+)</i>.*?data-src="(.*?)"'
                         '.*?name"><a.*?">(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         '.*?</dd>', re.S)
    items = re.findall(pattern, html)  # result is a list,made up of tuples
    for item in items:
        # 生成字典
        yield 
            'index': item[0],
            'img_url': item[1],
            'title': item[2],
            'stars': item[3][3:],
            'releasetime': item[4],
        


# 将爬取到的内容写入到文件中
def write_file(content):
    with open('content.txt', 'a', encoding='utf-8') as f:
        str_content = json.dumps(content, ensure_ascii=False)  # 转换成字符串
        f.write(str_content + '\n')
        f.close()


# 主函数
def main(offset):
    url = "https://maoyan.com/board/6/?offset=" + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_file(item)
        print(item)


if __name__ == "__main__":
    # 请求4次
    for i in range(5):
        main(i * 10)

技术图片

使用requests爬取猫眼电影top100榜单

　　Requests是一个很方便的python网络编程库，用官方的话是“非转基因，可以安全食用”。里面封装了很多的方法，避免了urllib/urllib2的繁琐。　　这一节使用requests库对猫眼电影的TOP100榜进行抓取。1获得页面。首先确定要... 查看详情

14-requests+正则表达式爬取猫眼电影

‘‘‘Requests+正则表达式爬取猫眼电影TOP100‘‘‘‘‘‘流程框架：抓去单页内容：利用requests请求目标站点，得到单个网页HTML代码，返回结果。正则表达式分析：根据HTML代码分析得到电影的名称、主演、上映时间、评分、图... 查看详情

requests+正则表达式爬取猫眼电影

代码:importreimportjsonfrommultiprocessingimportPoolimportrequestsfromrequests.exceptionsimportRequestExceptionbasic_url=‘http://maoyan.com/board/4?offset=%d‘headers={‘User-Agent‘:‘Mozilla/5.0(Win 查看详情

python爬虫知识点总结requests+正则表达式爬取猫眼电影

一、爬取流程二、代码演示#-*-coding:UTF-8-*-#_author:AlexCthon#mail:[email protected]#date:2018/8/3importrequestsfrommultiprocessingimportPool#进程池，用来实现秒抓fromrequests.exceptionsimportRequestExceptionimpo 查看详情

requests+正则爬取猫眼电影top100(代码片段)

（一）目标站点的分析首先打开我们的目标网站，发现每一页有十个电影，最下面有分页标志，而分页只改变的是标签后缀，如下：而后可以在网页按f12打开源代码管理，查看网页每处信息对应的源代码形式，如下图：（二... 查看详情

20170513爬取猫眼电影top100

importjsonimportreimportrequestsfrombs4importBeautifulSoupfromrequestsimportRequestExceptionfrommultiprocessingimportPooldefget_one_page(url):headers={‘User-Agent‘:‘baiduspider+‘}try:response=requests 查看详情

对猫眼电影排行的爬取(代码片段)

...0名的爬取，并将结果以文件的形式保存下来2.准备工作：requests库3.抓取分析 offset代表偏移量值，分开请求10次，就可以获取前100的电影4.抓取首页5.正则提取6.文件提取7.代码整合8.每页爬取总代码：1importjson2importrequests3fromrequ... 查看详情

python使用asyncio+aiohttp异步爬取猫眼电影专业版

...以参考官方文档并发访问能极大的提高爬虫的性能，但是requests访问网页是阻塞的，无法并发，所以我们需要一个更牛逼的库 aiohttp ，它的用法与requests相似，可以看成是异步版的requests，下面通过实战爬取猫眼电影专业... 查看详情

静觅爬虫学习笔记8-爬取猫眼电影

...　不知道是不是我学习太晚的原因，猫眼电影这网站我用requests进行爬取源码直接返回给我一个您的访问被禁止。作为萌新的我登时就傻了，还好认真听了之前的课，直接换selenium抓了源码，虽然效率惨不忍睹，但多少也能运行... 查看详情

网站爬取-案例一：猫眼电影top100

...取方式为10页循环抓取先看下代码：引入模块：这次我用REQUEST模块作为抓取工具，以JSON的形式做成文件存储方式第一步：请求网页并且读取：查看详情

requests+正则表达式爬取猫眼top100电影

...,中文显示问题(3)线程池的使用(4)正则表达式的写法importrequestsfromrequests.exceptionsimportRequestExceptionimportreimportjsonfrommultiprocessingimportPool#抓取单页内容defget_one_page(url):try:response=requests.get(url)ifresponse.status_code==200:returnresponse.textreturnNone... 查看详情

requests+正则表达式爬取猫眼电影(代码片段)

1#encoding:utf-82fromrequests.exceptionsimportRequestException3importrequests4importre5importjson6frommultiprocessingimportPool78defget_one_page(url):9try:10response=requests.get(url)11ifresponse.status_code==200:12returnresponse.text13returnNone14exceptRequestException:15returnNone1617defpars... 查看详情

python爬虫编程思想（37）：项目实战：抓取猫眼电影top100榜单

本文会使用urllib3抓取猫眼电影Top100榜单，读者使用下面的URL进入Top100榜单页面。https://maoyan.com/board/4Top100榜单页面如图1所示。从Top100榜单页面可以看出，每一页有10部电影，共10页，一共100部... 查看详情

requwsts+正则表达式爬取猫眼电影top100

流程框架:抓取单页内容：利用requests请求目标站点，得到单个网页HTML代码，返回结果。正则表达式分析：根据HTML代码分析得到电影和名称、主演、上映时间、评分、图片链接等信息。开启循环及多线程：对多页内容遍历，开启... 查看详情

抓取猫眼top100电影信息

...=‘+str(offset)3.卡发者选项，查看排行的电影信息，我们要爬取电影的排行（index）,图片的url,标题（title）,演员，上映时间，评分。4.获取首页的html代码，1user_agent=‘Mo 查看详情

爬取猫眼电影数据(代码片段)

...排好序号了，这就很简单了。2、在分析页面，这次主要爬取黄色框中的内容。在浏览器中按F12检查元素，只要把Div获取出来就算完成了。下面贴代码：主函数1staticvoidMain(string[]a 查看详情

使用xpath爬取猫眼电影排行榜(代码片段)

....正则我一般用于在处理文件,简直神器.下面贴代码.importrequestsfromrequests.exceptionsimportRequestExceptionfromlxmlimportetreeimportcsvimportredefget_page(url):"""获取网页的源代码:paramurl::return:"""try:headers=‘User-Agent‘:‘Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/5... 查看详情

正则表达式爬取猫眼电影(代码片段)

正则表达式爬取猫眼电影Top100importrequestsimportre,jsonfrommultiprocessingimportPooldefget_one_page(url):response=requests.get(url)returnresponse.textdefparse_one_page(html):pattern=re.compile(‘<dd>.*?board-index.*?>(d+)</i>.*?data-src="(.*?)".*?name"><a‘+‘.*?&g... 查看详情