正文

python应用-爬取猫眼电影top100(代码片段)

v01cano  v01cano  2022-12-02  446

关键词：

import requests
import re
import json
import time
from requests.exceptions import RequestException


def get_one_page(url):
    try:
        headers = 
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
        
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield 
            'index':item[0],
            'image':item[1],
            'title':item[2].strip(),
            'actor':item[3].strip()[3:] if len(item[3]) > 3 else '',
            'time':item[4].strip()[5:] if len(item[4]) > 5 else '',
            'score':item[5].strip() + item[6].strip()
        

def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
def main(offset):
    url = 'https://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    # print(html)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
if __name__ == '__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1)

python爬虫获取猫眼top100电影信息(上)(代码片段)

准备工作需要用到的库importrequests#获取url的信息frombs4importBeautifulSoup#html内容解析importre#正则表达式fromfontTools.ttLibimportTTFont#解析自定义字体要爬取的目标urlhttps://maoyan.com/films/1200486计划要爬取的指标电影名称(中英)、类型、上映... 查看详情

爬虫练习|爬取猫眼电影top100(代码片段)

#coding=utf-8_date_=‘2018/12/916:18‘importrequestsimportreimportjsonimporttimedefget_one_page(url):headers=‘User-Agent‘:‘Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/ 查看详情

网站爬取-案例一：猫眼电影top100

今天有小朋友说想看一下猫眼TOP100的爬取数据，要TOP100的名单，让我给发过去，其实很简单，先来看下目标网站：建议大家都用谷歌浏览器：这是我们要抓取的内容，100个数据，很少我们看一下页面结构100部电影分十个页码，也... 查看详情

使用requests爬取猫眼电影top100榜单

　　Requests是一个很方便的python网络编程库，用官方的话是“非转基因，可以安全食用”。里面封装了很多的方法，避免了urllib/urllib2的繁琐。　　这一节使用requests库对猫眼电影的TOP100榜进行抓取。1获得页面。首先确定要... 查看详情

20170513爬取猫眼电影top100

importjsonimportreimportrequestsfrombs4importBeautifulSoupfromrequestsimportRequestExceptionfrommultiprocessingimportPooldefget_one_page(url):headers={‘User-Agent‘:‘baiduspider+‘}try:response=requests 查看详情

requests+正则爬取猫眼电影top100(代码片段)

（一）目标站点的分析首先打开我们的目标网站，发现每一页有十个电影，最下面有分页标志，而分页只改变的是标签后缀，如下：而后可以在网页按f12打开源代码管理，查看网页每处信息对应的源代码形式，如下图：（二... 查看详情

requwsts+正则表达式爬取猫眼电影top100

流程框架:抓取单页内容：利用requests请求目标站点，得到单个网页HTML代码，返回结果。正则表达式分析：根据HTML代码分析得到电影和名称、主演、上映时间、评分、图片链接等信息。开启循环及多线程：对多页内容遍历，开启... 查看详情

抓取猫眼top100电影信息

...=‘+str(offset)3.卡发者选项，查看排行的电影信息，我们要爬取电影的排行（index）,图片的url,标题（title）,演员，上映时间，评分。4.获取首页的html代码，1user_agent=‘Mo 查看详情

00_抓取猫眼电影排行top100(代码片段)

前言：学习python3爬虫大概有一周的时间，熟悉了爬虫的一些基本原理和基本库的使用，本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容。1、本次目标：需要爬去出猫眼电影排行TOP100的电影相关信息，... 查看详情

pyspider抓取猫眼电影top100(代码片段)

"""抓取猫眼电影TOP100"""importreimporttimeimportrequestsfrombs4importBeautifulSoupclassSpiderMaoyan(object):def__init__(self):#通过分析URL可以发现,猫眼电影TOP100页面是通过offset+10来分页的self.url="http://maoyan.com/board/4?off 查看详情

python：正则表达式匹配猫眼电影html信息

爬虫项目爬取猫眼电影TOP100电影信息项目内容来自：https://github.com/Germey/MaoYan/blob/master/spider.py由于其中需要爬取的包含电影名字、电影海报图片、演员、上映时间等众多信息，正则表达式代码较为复杂在parse_one_page(html)获取HTML文... 查看详情

python爬虫编程思想（37）：项目实战：抓取猫眼电影top100榜单

本文会使用urllib3抓取猫眼电影Top100榜单，读者使用下面的URL进入Top100榜单页面。https://maoyan.com/board/4Top100榜单页面如图1所示。从Top100榜单页面可以看出，每一页有10部电影，共10页，一共100部... 查看详情

爬取猫眼top100(代码片段)

importurllib.requestimportrandomimportreimportjson‘‘‘解决访问403的问题，需要模仿浏览器访问‘‘‘my_headers=["Mozilla/5.0(WindowsNT6.3;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/39.0.2171.95Safari/537.36","Mozilla/5. 查看详情

对猫眼电影排行的爬取(代码片段)

1.目标：对猫眼电影前100名的爬取，并将结果以文件的形式保存下来2.准备工作：requests库3.抓取分析 offset代表偏移量值，分开请求10次，就可以获取前100的电影4.抓取首页5.正则提取6.文件提取7.代码整合8.每页爬取总代码... 查看详情

14-requests+正则表达式爬取猫眼电影

‘‘‘Requests+正则表达式爬取猫眼电影TOP100‘‘‘‘‘‘流程框架：抓去单页内容：利用requests请求目标站点，得到单个网页HTML代码，返回结果。正则表达式分析：根据HTML代码分析得到电影的名称、主演、上映时间、评分、图... 查看详情

requests+正则表达式爬取猫眼top100电影

需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法importrequestsfromrequests.exceptionsimportRequestExceptionimportreimportjsonfrommultiprocessingimportPool#抓取单页内容def... 查看详情

猫眼top_100爬取___只完成了第一页(代码片段)

#python3.7fromurllib.requestimportRequest,urlopenimporttime,re,csvclassMaoyan(object):def__init__(self):self.header=‘Connection‘:‘keep-alive‘,‘Cookie‘:‘uuid_n_v=v1;uuid=16B52300EED311E8A50EC9D5D894D3 查看详情

python爬虫应用实战案例-pyquery在爬虫中的应用，爬取猫眼电影数据(代码片段)

什么是pyquerypyquery是类似于jquery的网页解析工具，让你使用jquery的风格来遍历xml文档，它使用lxml操作html的xml文档，它的语法与jquery很像，和我们之前所讲的解析库xpath与BeautifulSoup比起来更加灵活与简便，并且增加了添加类和移... 查看详情