python|kaggle机器学习系列之pandas基础练习题(代码片段)

海轰Pro 海轰Pro     2022-12-22     741

关键词:

前言

Hello!小伙伴!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
 
自我介绍 ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,有幸拿过一些国奖、省奖…已保研。目前正在学习C++/Linux/Python
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
 
初学Python 小白阶段
文章仅作为自己的学习笔记 用于知识体系建立以及复习
题不在多 学一题 懂一题
知其然 知其所以然!

往期推荐

【Python|Kaggle】机器学习系列之Pandas基础练习题(一)

【Python|Kaggle】机器学习系列之Pandas基础练习题(二)

【Python|Kaggle】机器学习系列之Pandas基础练习题(三)

Introduction

In these exercises we’ll apply groupwise analysis to our dataset.
Run the code cell below to load the data before running the exercises.

事先导入后面所需的数据集、库

import pandas as pd

reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option("display.max_rows", 5)

from learntools.core import binder; binder.bind(globals())
from learntools.pandas.grouping_and_sorting import *
print("Setup complete.")
reviews

本练习使用的数据集:

Exercises

1.

题目

Who are the most common wine reviewers in the dataset? Create a Series whose index is the taster_twitter_handle category from the dataset, and whose values count how many reviews each person wrote.

解答

题目意思:

创建一个Series,其索引是数据集中的taster_twitter_handle类别,其值计算每个人写了多少评论。
也就是先对taster_twitter_handle进行分组 然后统计每一个组的size

reviews_written = reviews.groupby('taster_twitter_handle').size()


其余参考Demo:

reviews_written = reviews.groupby('taster_twitter_handle').taster_twitter_handle.count()

Note:

  • size作用与dataframe
  • count作用于seriers

2.

题目

What is the best wine I can buy for a given amount of money? Create a Series whose index is wine prices and whose values is the maximum number of points a wine costing that much was given in a review. Sort the values by price, ascending (so that 4.0 dollars is at the top and 3300.0 dollars is at the bottom).

解答

题目意思:

找出每个价格 对应评分中最高的一个

best_rating_per_price = reviews.groupby('price').points.max()


其余参考Demo:

best_rating_per_price = reviews.groupby('price')['points'].max().sort_index()
# best_rating_per_price = reviews.groupby('price')['points'].max() 这个也是正确的

3.

题目

What are the minimum and maximum prices for each variety of wine? Create a DataFrame whose index is the variety category from the dataset and whose values are the min and max values thereof.

解答

题目意思:

统计出每一种酒类型(variety)对应的最高价格和最低价格

price_extremes = reviews.groupby('variety').price.agg([min,max])

4.

题目

What are the most expensive wine varieties? Create a variable sorted_varieties containing a copy of the dataframe from the previous question where varieties are sorted in descending order based on minimum price, then on maximum price (to break ties).

解答

题目意思:

统计出每一种酒(variety)对应的最高价格、最低价格 ,然后先按照最低价格进行降序排列,最低价格相同时,依据最高价格进行降序排列

sorted_varieties = price_extremes.sort_values(by=['min', 'max'], ascending=False)

5.

题目

Create a Series whose index is reviewers and whose values is the average review score given out by that reviewer. Hint: you will need the taster_name and points columns.

解答

题目意思:

统计每一个品酒师(taster_name)其所有评分(points)的平均值

reviewer_mean_ratings = reviews.groupby('taster_name').points.mean()

6.

题目

What combination of countries and varieties are most common? Create a Series whose index is a MultiIndexof country, variety pairs. For example, a pinot noir produced in the US should map to "US", "Pinot Noir". Sort the values in the Series in descending order based on wine count.

解答

题目意思:

统计每一个国家(country)所具有不同酒种类(variety)的数量 按照降序排列(按照数量)

country_variety_counts = reviews.groupby(['country','variety']).size().sort_values(ascending=False)

结语

文章仅作为学习笔记,记录从0到1的一个过程

希望对您有所帮助,如有错误欢迎小伙伴指正~

我是 海轰ଘ(੭ˊᵕˋ)੭

如果您觉得写得可以的话,请点个赞吧

谢谢支持 ❤️

python|kaggle机器学习系列之pandas基础练习题(代码片段)

前言Hello!小伙伴!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍ଘ(੭ˊᵕˋ)੭昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,... 查看详情

python|kaggle机器学习系列之pandas基础练习题(代码片段)

前言Hello!小伙伴!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍ଘ(੭ˊᵕˋ)੭昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,... 查看详情

python|kaggle机器学习系列之pandas基础练习题(代码片段)

前言Hello!小伙伴!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍ଘ(੭ˊᵕˋ)੭昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,... 查看详情

python|kaggle机器学习系列之pandas基础练习题(代码片段)

前言Hello!小伙伴!非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍ଘ(੭ˊᵕˋ)੭昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,... 查看详情

机器学习系列_逻辑回归应用之kaggle泰坦尼克之灾(代码片段)

作者:寒小阳时间:2015年11月。出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(l 查看详情

python机器学习及实践+从零开始通往kaggle竞赛之路

...习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn... 查看详情

机器学习英雄访谈录之kagglekernels专家:aakashnain

...数据是我的另一个爱好,计算机视觉是我最喜欢的领域。Python是我生命中唯一的真爱。除此之外,我是一个运动员,足球运动员、业余旅行者和狂热的阅读者。哲学是继计算机科学之后我第二热爱的学科。Sanyam:了不起,我知道... 查看详情

机器学习系列_逻辑回归应用之kaggle泰坦尼克之灾(代码片段)

...简单的实际例子,来看看,所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程。『喂,那几个说要看大数据上机器学习应用的,对& 查看详情

pandas高级数据分析快速入门之五——机器学习特征工程篇(代码片段)

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

pandas高级数据分析快速入门之五——机器学习特征工程篇(代码片段)

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

pandas高级数据分析快速入门之六——机器学习预测分析篇(代码片段)

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

机器学习资料

机器学习资料-----###1.聚类资料及代码:Python实现聚类算法(三)之总结:https://www.colabug.com/72166.htmlscikit-learn学习之K-means聚类算法与MiniBatchK-Means算法:https://blog.csdn.net/gamer_gyt/article/details/51244850###2.斯坦福大学公开课:机器学习课程htt... 查看详情

机器学习kaggle

...。KaggleKernels的处理能力来自云端服务器,而不是本地机器,所以我们能在Kaggle的页面上完成很多的数据科学和机器学习工作。用户通过KaggleKernels的免费试用GPU、TPU等算力资源。 Kaggle注册需要安装的插件:Goo 查看详情

机器学习kaggle

...。KaggleKernels的处理能力来自云端服务器,而不是本地机器,所以我们能在Kaggle的页面上完成很多的数据科学和机器学习工作。用户通过KaggleKernels的免费试用GPU、TPU等算力资源。 Kaggle注册需要安装的插件:Goo 查看详情

python机器学习3大宝典

...er编辑:Peter大家好,我是Peter~今天给大家推荐3本Python机器学习相关的书籍,如果你想提升Python能力,想开启kaggle实战,想了解机器学习神器Scikit-Learn库的使用,建议下载学习~一、流畅的Python一本关于Python... 查看详情

用python+sklearn(机器学习)实现天气预报准备(代码片段)

用python+sklearn机器学习实现天气预报准备项目地址系列教程0.流程介绍1.环境搭建a.pythonb.涉及到的机器学习相关库sklearnpandaseabornjoblib2.寻找数据来源3.分析数据源网址规则4.分析页面规则项目地址github项目:PYWeatherReport系列教程... 查看详情

pandas高级数据分析快速入门之一——python开发环境篇

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

机器学习:kaggle项目(房价:先进的回归技术)(代码片段)

一、项目目录(一)数据加载基础统计特征分类基本分布(scatter) (二)数据分析正态性检验偏离度分析(hist|scatter)峰度分析(hist|scatter)分散度分析(box)特征本身分散度SalePrice的分散度方差齐次检验方差分析(bar)scipy.stats.f_oneway()... 查看详情