实战!《长津湖》为什么这么火爆?我用python来分析猫眼影评(代码片段)

Python学习与数据挖掘 Python学习与数据挖掘     2023-01-12     240

关键词:

作者:周萝卜 链接:长津湖猫眼影评
欢迎关注 ,专注Python、数据分析、数据挖掘、好玩工具!

对于这个十一黄金周的电影市场,绝对是《长津湖》的天下,短短几天,票房就已经突破36亿,大有奋起直追《战狼2》的尽头。而且口碑也是相当的高,猫眼评分高达9.5,绝对的票房口碑双丰收啊

下面我们就通过爬取猫眼的电影评论,进行相关的可视化分析,看看为什么这部电影是如此的受欢迎,最后还进行了简单的票房预测,你一定不能错过哦,欢迎收藏学习,点赞支持,喜欢技术交流的可以文末技术交流群。

数据获取

猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可

url = "https://m.maoyan.com/mmdb/comments/movie/257706.json?v=yes&offset=30"

payload=
headers = 
  'Cookie': '_lxsdk_cuid=17c188b300d13-0ecb2e1c54bec6-a7d173c-100200-17c188b300ec8; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1633622378; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=87266087.1633622378325.1633622378325.1633622378325.1; uuid_n_v=v1; iuuid=ECBA18D0278711EC8B0DFD12EB2962D2C4A641A554EF466B9362A58679FDD6CF; webp=true; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; featrues=[object Object]; _lxsdk=92E6A4E0278711ECAE4571A477FD49B513FE367C52044EB5A6974451969DD28A; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1633622806',
  'Host': 'm.maoyan.com',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'


response = requests.request("GET", url, headers=headers, data=payload)

print(response.json())

这么几行代码,我们就可以得到如下结果

获取到数据后,我们就可以解析返回的 json 数据,并保存到本地了
先写一个保存数据的函数

def save_data_pd(data_name, list_info):
    if not os.path.exists(data_name + r'_data.csv'):
        # 表头
        name = ["comment_id","approve","reply","comment_time","sureViewed","nickName",
                "gender","cityName","userLevel","user_id","score","content"]
        # 建立DataFrame对象
        file_test = pd.DataFrame(columns=name, data=list_info)
        # 数据写入
        file_test.to_csv(data_name + r'_data.csv', encoding='utf-8', index=False)
    else:
        with open(data_name + r'_data.csv', 'a+', newline='', encoding='utf-8') as file_test:
            # 追加到文件后面
            writer = csv.writer(file_test)
            # 写入文件
            writer.writerows(list_info)

直接通过 Pandas 来保存数据,可以省去很多数据处理的事情

接下来编写解析 json 数据的函数

def get_data(json_comment):
    list_info = []
    for data in json_comment:
        approve = data["approve"]
        comment_id = data["id"]
        cityName = data["cityName"]
        content = data["content"]
        reply = data["reply"]
        # 性别:1男,2女,0未知
        if "gender" in data:
            gender = data["gender"]
        else:
            gender = 0
        nickName = data["nickName"]
        userLevel = data["userLevel"]
        score = data["score"]
        comment_time = data["startTime"]
        sureViewed = data["sureViewed"]
        user_id = data["userId"]
        list_one = [comment_id, approve, reply,  comment_time, sureViewed, nickName, gender, cityName, userLevel, 
                    user_id, score, content]
        list_info.append(list_one)
    save_data_pd("maoyan", list_info)

我们把几个主要的信息提取出来,比如用户的 nickname,评论时间,所在城市等等

最后把上面的代码整合,并构造爬取的 url 即可

def fire():
    tmp = "https://m.maoyan.com/mmdb/comments/movie/257706.json?v=yes&offset="

    payload=
    headers = 
      'Cookie': '_lxsdk_cuid=17c188b300d13-0ecb2e1c54bec6-a7d173c-100200-17c188b300ec8; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1633622378; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=87266087.1633622378325.1633622378325.1633622378325.1; uuid_n_v=v1; iuuid=ECBA18D0278711EC8B0DFD12EB2962D2C4A641A554EF466B9362A58679FDD6CF; webp=true; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; featrues=[object Object]; _lxsdk=92E6A4E0278711ECAE4571A477FD49B513FE367C52044EB5A6974451969DD28A; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1633622806',
      'Host': 'm.maoyan.com',
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
    
    for i in range(0, 3000, 15):
        url = tmp + str(i)
        print(url)
        response = requests.request("GET", url, headers=headers, data=payload)
        comment = response.json()
        if not comment.get("hcmts"):
            break
        hcmts = comment['hcmts']
        get_data(hcmts)
        cmts = comment['cmts']
        get_data(cmts)
        time.sleep(10)

爬取过程如下

保存到本地的数据如下

下面我们就可以进行相关的可视化分析了

可视化分析

1 数据清洗

我们首先根据 comment_id 来去除重复数据

df_new = df.drop_duplicates(['comment_id'])

对于评论内容,我们进行去除非中文的操作

def filter_str(desstr,restr=''):
    #过滤除中文以外的其他字符
    res = re.compile("[^\\u4e00-\\u9fa5^,^,^.^。^【^】^(^)^(^)^“^”^-^!^!^?^?^]")
    # print(desstr)
    res.sub(restr, desstr)

2 评论点赞及回复榜

我们先来看看哪些评论是被点赞最多的

approve_sort = df_new.sort_values(by=['approve'], ascending=False)

approve_sort = df_new.sort_values(by=['approve'], ascending=False)
x_data = approve_sort['nickName'].values.tolist()[:10]
y_data = approve_sort['approve'].values.tolist()[:10]

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(title='评论点赞前十名'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()


可以看到位于榜首的是一个叫“琦寶”的观众写的评论,点赞量高达86027

再来看看评论回复的情况

reply_sort = df_new.sort_values(by=['reply'], ascending=False)
x_data = reply_sort['nickName'].values.tolist()[:10]
y_data = reply_sort['reply'].values.tolist()[:10]

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(title='评论回复前十名'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

回复量最高的同样是“琦寶”的评论,很好奇,他到底写了什么呢,快来看看

df_new[df_new['nickName'].str.contains('琦寶')]['content'].values.tolist()[0]

Output:

'印象中第一次一大家子一起来看电影,姥爷就是志愿军,他一辈子没进过电影院,开始还担心会不会不适应,感谢影院工作人员的照顾,
姥爷全程非常投入,我坐在旁边看到他偷偷抹了好几次眼泪,刚才我问电影咋样,一直念叨“好,好哇,我们那时候就是那样的,就是那样的……”\\n忽然觉得历史长河与我竟如此之近,刚刚的三个小时我看到的是遥远的70年前、是教科书里的战争,更是姥爷的19岁,是真真切切的、他的青春年代!'

还真的是非常走心的评论,而且自己的家人就有经历过长津湖战役的经历,那么在影院观影的时候,肯定会有不一样的感受!

当然我们还可以爬取每条评论的reply信息,通过如下接口

https://i.maoyan.com/apollo/apolloapi/mmdb/replies/comment/1144027754.json?v=yes&offset=0

只需要替换 json 文件名称为对应的 comment_id 即可,这里就不再详细介绍了,感兴趣的朋友自行探索呀

下面我们来看一下整体评论数据的情况

3 各城市排行

来看看哪些城市的评论最多呢

result = df_new['cityName'].value_counts()[:10].sort_values()
x_data = result.index.tolist()
y_data = result.values.tolist()

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(title='评论城市前十'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

一线大城市纷纷上榜,看来这些城市的爱国主义教育做的还是要好很多呀

再来看看城市的全国地图分布

result = df_new['cityName'].value_counts().sort_values()
x_data = result.index.tolist()
y_data = result.values.tolist()
city_list = [list(z) for z in zip(x_data, y_data)]

可以看到,这个评论城市的分布,也是与我国总体经济的发展情况相吻合的

4 性别分布

再来看看此类电影,对什么性别的观众更具有吸引力

attr = ["其他","男","女"]

b = (Pie()
     .add("", [list(z) for z in zip(attr, df_new.groupby("gender").gender.count().values.tolist())])
     .set_global_opts(title_opts = opts.TitleOpts(title='性别分布'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

在填写了性别的数据当中,女性竟然多一些,这还是比较出乎意料的

5 是否观看

猫眼是可以在没有观看电影的情况下进行评论的,我们来看看这个数据的情况

result = df_new["sureViewed"].value_counts()[:10].sort_values().tolist()
b = (Pie()
     .add("", [list(z) for z in zip(["未看过", "看过"], result)])
     .set_global_opts(title_opts = opts.TitleOpts(title='是否观看过'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

大部分人都是在观看了之后才评论的,这要在一定程度上保证了评论和打分的可靠性

6 评分分布

猫眼页面上是10分制,但是在接口当中是5分制

result = df_new["score"].value_counts().sort_values()
x_data = result.index.tolist()
y_data = result.values.tolist()

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(title='评分分布'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

可以看到5-4.5评论占据了大部分,口碑是真的好啊

7 评论时间分布

对于评论时间,我这里直接使用了原生的 echarts 来作图

from collections import Counter 
result = df_new["comment_time"].values.tolist()
result = [i.split()[1].split(":")[0] + "点" for i in result]
result_dict = dict(Counter(result))
result_list = []
for k,v in result_dict.items():
    tmp = 
    tmp['name'] = k
    tmp['value'] = v
    result_list.append(tmp)

children_dict = "children": result_list

示例地址:https://echarts.apache.org/examples/zh/editor.html?c=treemap-sunburst-transition

能够看出,在晚上的19点和20点,都是大家写评论的高峰期,一天的繁忙结束后,写个影评放松下

8 每天评论分布

接下来是每天的评论分布情况

result = df_new["comment_time"].values.tolist()
result = [i.split()[0] for i in result]
result_dict = dict(Counter(result))
b = (Pie()
     .add("", [list(z) for z in zip(result_dict.keys(), result_dict.values())])
     .set_global_opts(title_opts = opts.TitleOpts(title='每天评论数量'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

就目前来看,几乎所有的评论都集中在10月8号,难道是上班第一天,不想上班,只想摸鱼?😂

9 用户等级分布

来看下猫眼评论用户的等级情况,虽然不知道这个等级有啥用😀

result = df_new['userLevel'].value_counts()[:10].sort_values()
x_data = result.index.tolist()
y_data = result.values.tolist()

b = (Bar()
     .add_xaxis(x_data)
     .add_yaxis('',y_data)
     .set_global_opts(title_opts = opts.TitleOpts(title='用户等级'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
     .reversal_axis()
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))
grid.render_notebook()

大家基本都是 level2,哈哈哈哈,普罗大众嘛

10 主创提及次数

我们再来看看在评论中,各位主创被提及的次数情况

name = ["吴京",
"易烊千玺",
"段奕宏",
"朱亚文",
"李晨",
"胡军",
"王宁",
"刘劲",
"卢奇",
"曹阳",
"李军",
"孙毅",
"易",
"易烊",
"千玺"
]
def actor(data, name):
    counts = 
    comment = jieba.cut(str(data), cut_all=False)
    # 去停用词
    for word in comment:
        if word in name:
            if word == "易"直播:如何通过elk实战实现《长津湖》影评可视化?

1、Elastic Stack全局认知ELK是Elasticsearch、Logstash、Kibana技术栈的简称。Elastic官方已统称为:ElasticStack,翻译成:Elastic技术栈体系。单独使用Elasticsearch能应对很多业务场景,包含但不限于:全文检索场景。日志... 查看详情

区块链到底是什么,为什么这么火爆

一、相关背景介绍互联网上的贸易,几乎都需要借助可资信赖的第三方信用机构来处理电子支付信息。这类系统仍然内生性地受制于“基于信用的模式”。区块链技术是构建比特币区块链网络与交易信息加密传输的基础技术... 查看详情

python爬虫——刚学会爬虫,第一次实践就爬取了《长津湖》影评数据(代码片段)

...mp;offset=15&startTime=解析地址:257706代表电影ID长津湖offset=15代表:每次加载多少条数据15条startTime:从什么时间段开始加载API_URL="https://m.maoyan.com/mmdb/comments/movie/movie_id.json?_v_=yes&offset=15&star... 查看详情

带你了解java这么火爆的真实原因!

...爆?原因是什么呢?本文,小千带你了解Java这么火爆的真实原因。一、Ja 查看详情

快50亿了!用python分析长津湖到底好看在哪里

...aa十月份的黄金周,乃至整个十月份,妥妥的是《长津湖》的天下,才小半个月票房就已经突破44亿,都快追上战狼2了。猫眼评分9.5,口碑超高,2021年票房口碑双丰收大黑马!今天我们通过爬取猫眼的... 查看详情

快50亿了!用python分析长津湖到底好看在哪里

...aa十月份的黄金周,乃至整个十月份,妥妥的是《长津湖》的天下,才小半个月票房就已经突破44亿,都快追上战狼2了。猫眼评分9.5,口碑超高,2021年票房口碑双丰收大黑马!今天我们通过爬取猫眼的... 查看详情

python爬虫——刚学会爬虫,第一次实践就爬取了《长津湖》影评数据(代码片段)

思路:数据采集清洗入库分析处理1.数据采集接口地址https://m.maoyan.com/mmdb/comments/movie/257706.json?_v_=yes&offset=15&startTime=解析地址:257706代表电影ID长津湖offset=15代表:每次加载多少条数据15条start 查看详情

python爬虫——刚学会爬虫,第一次实践就爬取了《长津湖》影评数据(代码片段)

思路:数据采集清洗入库分析处理1.数据采集接口地址https://m.maoyan.com/mmdb/comments/movie/257706.json?_v_=yes&offset=15&startTime=解析地址:257706代表电影ID长津湖offset=15代表:每次加载多少条数据15条start 查看详情

为什么nft的头像卖这么贵?火爆的元宇宙与fil有什么样的联系?

​​BoredApeYachtClub(BAYC,无聊猿俱乐部于今年4月推出),其中包括10000个具有朋克风格的猿猴NFT头像。其中有些人戴着帽子、耳钉有些则露出顽皮的微笑,最开始每只类人猿猴要卖到186美元,而如今最便宜的那只也... 查看详情

《长津湖》《我和我的父辈》,python国庆档影评分析(代码片段)

读者朋友们大家好啊,我是小张~国庆小长假昨天就已将结束了,我们呢,也各自回到自己的工作岗位,继续开启我们的努力搬砖(摸鱼)生活从19年开始,每逢十一就会上映一部以我和我的*主题的电影... 查看详情

...;这次为大家做一个总结,方便大家学习和查询。Python实战20000字的深度分析,让你彻底搞懂《电信用户流失预测模型》!数据分析实战之超市零售分析!(附python代码)20行代码教你用python给证件照换底色!Python... 查看详情

国庆看了长津湖|坚韧的毅力让我拿到了薪资18.5k,人生就像马拉松,坚持到最后,就是胜利者

...#xff0c;也让沉寂已久的电影院重新火爆了起来,其中《长津湖》让不少观众留下了深刻的印象,3个小时的时间,影片通过宏观的历史和微观的叙事,让每个观众都贴切地感受到了志 查看详情

精选100个python实战项目案例,送给缺乏实战经验的你

...言的流行,越来越多的人加入到了Python的大家庭中。为什么这么多人学Python?我要喊出那句话了:“人生苦短,我用Python!”,正是因为语法简单、容易学习,所以Python深受大家喜爱。(Python!... 查看详情

小编来告诉你为什么现在这么多人开始学习python了

Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。在千锋武汉Python培训老师看来,基本上可以负责任地认为,Python可以做任何事... 查看详情

什么?出门忘了带地图!我用❤️python绘制了一份地图❤️来方便出行(代码片段)

什么?出门忘了带地图!我用❤️Python绘制了一份地图❤️来方便出行文章目录什么?出门忘了带地图!我用❤️Python绘制了一份地图❤️来方便出行一、简单的介绍二、pyecharts的模块的介绍三、首先绘制一个简... 查看详情

什么?出门忘了带地图!我用❤️python绘制了一份地图❤️来方便出行(代码片段)

什么?出门忘了带地图!我用❤️Python绘制了一份地图❤️来方便出行文章目录什么?出门忘了带地图!我用❤️Python绘制了一份地图❤️来方便出行一、简单的介绍二、pyecharts的模块的介绍三、首先绘制一个简... 查看详情

给人脸戴上口罩,python实战项目来了(代码片段)

...#xff0c;人生苦短,我用Python。今天给大家分享一个Python实战案例:为人脸照片添加口罩,喜欢本文记得收藏、点赞、关注。废话不多说,我们先展示最终的效果。【注】完整版代码、资料,技术沟通,文末... 查看详情

抓取豆瓣上的《长津湖》的热评,我发现了这些(代码片段)

前言🔗运行环境:python3🚩作者:K同学啊📚精品专栏:《Matplotlib教程》🧿优秀专栏:《Python入门100题》🔥推荐专栏:《小白入门深度学习》🥇精选专栏:《深度学习100例》大家&#x... 查看详情