关键词:
1、数据描述
使用python软件对豆瓣电影数据集进行探索性分析
字段描述:
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
NAME: 电影名称
ALIAS: 别名
ACTORS: 主演
COVER: 封面图片地址
DIRECTORS: 导演
GENRES: 类型
OFFICIAL_SITE: 地址
REGIONS: 制片国家/地区
LANGUAGES: 语言
RELEASE_DATE: 上映日期
MINS: 片长
IMDB_ID: IMDbID
DOUBAN_SCORE: 豆瓣评分
DOUBAN_VOTES: 豆瓣投票数
TAGS: 标签
STORYLINE: 电影描述
SLUG: 加密的url,可忽略
YEAR: 年份
ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;
2、问题描述
1、电影的什么对评分影响最大?
2、电影的评分、投票数和年份之间有什么关系?
3、数据清洗和预处理
3.1、导入相关数据和数据库
导入豆瓣电影数据集
import pandas as pd import dtale data=pd.read_csv(r\'C:\\Users\\宋科\\Desktop\\python作业\\movies.csv\',encoding=\'utf-8\') data
3.1、查找缺失值
查看数据的缺失值
# 查找缺失值 pd.isnull(data).sum()
运行结果:
发现指导教师具有缺失值,需对其进行去除缺失值
3.1.1、删除缺失值所在行
删除缺失值
# 删除缺失值所在的行 data.dropna(inplace=True) data.shape
运行结果:
3.2、去除重复值
删除数据的重复值
# 对数据进行去重 import numpy as np data=data.drop_duplicates() data
运行结果:
4、各变量相关性数据分析与可视化
下面我们借助tale工具,通过可视化的方法进一步了解获奖作品数据集
4.1、可视化
4.1.1、豆瓣评分的直方图
从图中可以看出,豆瓣电影数据主要聚集在6.1至8.9评分之间,可以明确看出评分的数量与评分之间的关系
4.1.2、豆瓣投票数的直方图
从图中可以看出,豆瓣电影的投票数大致数量区间在19656左右,可以明确看见投票数和数量之间的关系
4.1.3、豆瓣电影年份直方图
从图中可以明显的看出,在1997年至2017年电影的数量比较多,可以和清楚的看见年份与电影数量的关系
4.2、相关性分析
下面我们将使用散点图对DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性进行分析
4.2.1、DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)相关性
从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)趋势先上升后又逐渐下降,可以看出大部分电影投票率最高处在9分作用。
4.2.2、DOUBAN_SCORE(豆瓣评分)和YEAR(年份)之间的相关性
从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和YEAR(年份)趋势不断上升后又逐步下降,可以推测出可能是有一部分烂片充斥者电影市场,导致评分有些下滑趋势。
4.2.3、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性
从该散点图中可以看出,DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)趋势不断上升,说明用豆瓣的观众越来越多,后又评价较少,可能观众们在其他平台看电影,不满于只在豆瓣上看电影,可以看出豆瓣的竞争力越来越大。
4.3、图表
下面我们借助下面我们借助tale工具,对豆瓣电影进行进一步探索性分析
4.3.1、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的小提图
4.3.2、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的热图
4.3.3、词云图
4.3.4、折线图
5、主要结论
1、从DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)关系性图可以看出,大部分观众都趋向于到9分左右,说明电影还是能够达到大部分观众的肯定。
2、从DOUBAN_VOTES(豆瓣投票数)到YEAR(年份)关系性图可以看出,用豆瓣作为主要平台的人在变少,说明豆瓣拥有许多强大的竞争者。
3、观众大部分都在2000至2010年进行评分投票,可以看出电影在这个年份区间普及率较高
团队-爬取豆瓣电影top250-需求分析
团队-爬取豆瓣电影TOP250-需求分析需求:爬取豆瓣电影TOP250*向用户展示电影的排名,分数,名字,简介,导演,演员,前10条影评信息,链接信息实现思路:分析豆瓣电影TOP250的url规则,编写模块获取相关url获取全部相关页面的html代码分析html... 查看详情
团队-爬取豆瓣电影top250-需求分析
需求:爬取豆瓣电影TOP250*向用户展示电影的排名,分数,名字,简介,导演,演员,前10条影评信息,链接信息 实现思路:分析豆瓣电影TOP250的url规则,编写模块获取相关url获取全部相关页面的html代码分析html中有关"排名,分数,名字,简介,... 查看详情
《团队-爬取豆瓣电影top250-需求分析》
需求:1.搜集相关电影网址2.实现相关逻辑的代码项目步骤:1.通过豆瓣网搜索关键字,获取相关地址2.根据第三方包实现相关逻辑 查看详情
python爬取豆瓣电影图片并生成评分柱状图(代码片段)
博主在学习python爬虫后,实现了一个爬取豆瓣电影评分并形成柱状图,并下载电影海报,实现效果如图所示python爬取电影信息需要按此步骤模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文... 查看详情
爬取豆瓣网页上的电影(包括图片,评分,和简介等)(代码片段)
...我用了Hibernate的框架),最后用自己的网站显示这些数据豆瓣本身貌似提供了给开发者使用的接口,但是我不想去注册账号(我还没有豆瓣账号),,,就想自己通过网页源码分析,然后拿到自己想要的数据。在看豆瓣的网页源... 查看详情
python爬虫入门爬取豆瓣电影top250(代码片段)
python爬虫入门(6):爬取豆瓣电影top250本次用re库实现爬取豆瓣电影top250的第一页,当网页换页的时候start参数会变,暂未实现爬取后续内容有些网页的信息不直接在网页源代码中显示,有些网页会在网页源代码显示,所以... 查看详情
豆瓣电影top250爬虫及可视化分析笔记(代码片段)
人类社会已经进入大数据时代,大数据深刻改变着我们的工作和生活。随着互联网、移动互联网、社交网络等的迅猛发展,各种数量庞大、种类繁多、随时随地产生和更新的大数据,蕴含着前所未有的社会价值和... 查看详情
用requests和etree爬取豆瓣电影评论(代码片段)
写在前面的话:上一篇文章我们用requests和lxml.etree爬取了豆瓣电影Top250的电影信息,为了能对requests和lxml.etree有更深的理解,下面我们将继续用他们来爬取豆瓣电影的短评温馨提示:博主使用的系统为win10,使用的python版本为3.6.... 查看详情
(scrapy框架)爬虫获取豆瓣正在热映的电影信息,xpath属性爬取|爬虫案例(代码片段)
...分热门的电影我都看过。处理爱好的目的,我看了看豆瓣热映的电影列表。于是我写了这个爬虫把豆瓣热映的电影都爬了下来。对页面的处理主要是需要点击显示全部电影,然后爬取影片属性,最后输出文本。采用的... 查看详情
python爬取《流浪地球》豆瓣影评与数据分析(代码片段)
...选题背景: 2019年年初,《流浪地球》全国上榜。在豆瓣上,首日开分站稳8分以上,评分了之后点映的高热。微博上跟着出现吴京客串31天与6000万的热度搜。知乎上关于“评价刘慈欣如何评价刘慈欣小说改编的同名电影《流... 查看详情
scrapy抓取豆瓣电影相关数据(代码片段)
1.任务分析及说明目标网站:https://movie.douban.com/tag/#/抓取豆瓣电影上,中国大陆地区,相关电影数据约1000条;数据包括:电影名称、导演、主演、评分、电影类型、语言、上映时间、短评top20等数据;1.1Fiddler抓包要点分析:请... 查看详情
python爬虫实践四种姿势爬取豆瓣电影top250信息!(代码片段)
文章目录一、分析网页二、正则表达式三、BeautifulSoup四、PyQuery五、Xpath六、总结一、分析网页电影信息在olclass为grid_view下的li标签里,获取到所有li标签的内容,然后遍历,从中提取出每一条电影的信息。翻页查看url变化规律:... 查看详情
简单爬取《小丑》电影豆瓣短评生成词云(代码片段)
...部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给观众们留下的关键词是什么。抓取数据 首先刚开始的时候,是通过req... 查看详情
呕心沥血的一次爬虫经历豆瓣电影top250(代码片段)
爬虫实战:豆瓣电影Top250前言数据来源分析网页源码获取HTML源码解析网页内容保存数据完整代码结果展示前言没有系统的学习爬虫,只是偶尔跟着大佬的博客练练手,有了前几天女朋友想换情侣头像了,怎么办?... 查看详情
第一个爬虫经历----豆瓣电影top250(经典案例)(代码片段)
因为要学习数据分析,需要从网上爬取数据,所以开始学习爬虫,使用python进行爬虫,有好几种模拟发送请求的方法,最基础的是使用urllib.request模块(python自带,无需再下载),第二是requests模块(第三方库,需要pipin... 查看详情
python爬虫简单实例——豆瓣电影评论数据的爬取(代码片段)
一、前言豆瓣网是一家基于用户对于图书、电影和音乐兴趣而搭建的社交网站,由杨勃创立于2005年。豆瓣网推崇算法,根据用户对音乐、书、电影等进行的操作,自动给出同类趣味和友邻推荐。基于记录和分享而生... 查看详情
哪吒票房逼近30亿,从豆瓣短评简单分析人们对哪吒的态度(代码片段)
目录前言分析具体步骤登录爬取与存储可视化分析结语 前言暑期档电影惨淡,但随着哪吒爆红开拓了新局面。这也是国产动画的首次爆红。在哪吒刚出,笔者以为最多10亿就算不错的了。没想过仅过了几天就破了10亿。接着... 查看详情
python爬取豆瓣电影top250(附完整源代码)
...使用以及简单静态网页的分析。就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫。网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方,细化到他在哪个div里面,在哪个class里面,... 查看详情