将训练数据的四分位数切割应用于测试数据

     2023-03-11     228

关键词:

【中文标题】将训练数据的四分位数切割应用于测试数据【英文标题】:Apply the quartile cuts from the train data to the test data 【发布时间】:2019-05-15 04:13:36 【问题描述】:

是否有任何现有的 python 函数可以从训练数据中获取四分位数并应用于测试数据。

import pandas as pd
import numpy as np

d = 'col1': np.arange(1, 100, 1)
train = pd.DataFrame(data=d)

d1 = 'col1': np.arange(1, 200, 2)
test = pd.DataFrame(data = d1)

我在训练和测试中都有大约 1000 列。是否可以使用 pandas qcut 函数使其可扩展,或者是否有任何其他现有的 sklearn 函数?

我希望根据火车上的垃圾箱获得测试数据的四分位数(1、2、3 或 4)。

【问题讨论】:

您的预期输出是什么样的? 也许你需要这个:scikit-learn.org/stable/modules/generated/… 【参考方案1】:

当您 pd.qcut 训练集时,您可以使用 retbins 参数。使用 pd.cut 将这些 bin 用于您的测试集,修改下限和上限,以便您可以包含所有内容。

import numpy as np
import pandas as pd

_, bins = pd.qcut(train.col1, q=4, retbins=True)
bins = np.concatenate(([-np.inf], bins[1:-1], [np.inf]))

# How many elements in each bin for the test set?
test.groupby(pd.cut(test.col1, bins)).size()
#col1
#(-inf, 25.5]    13
#(25.5, 50.0]    12
#(50.0, 74.5]    12
#(74.5, inf]     63
#dtype: int64

【讨论】:

什么是分位数,如何计算分位数?

参考技术A分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等。四分位数也称为四分位点,它... 查看详情

数据分析分位距

分位距是对全距的一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于全距的指标。常用的有四分位距、八分位距、十分位距等。四分位距计算公式为:  四分位距排除了数列两端各25%单位标志值的影... 查看详情

如何将使用 PCA 和随机森林训练的模型应用于测试数据?

】如何将使用PCA和随机森林训练的模型应用于测试数据?【英文标题】:HowtoapplymodeltrainedwithPCAandRandomForesttotestdata?【发布时间】:2016-07-2219:25:25【问题描述】:在解决其中一个机器学习问题时,我正在对训练数据实施PCA,然后... 查看详情

如何将经过训练和测试的随机森林模型应用于 tidymodels 中的新数据集?

】如何将经过训练和测试的随机森林模型应用于tidymodels中的新数据集?【英文标题】:Howtoapplythetrained&testedrandomforestmodeltoanewdatasetintidymodels?【发布时间】:2021-07-2618:24:18【问题描述】:我已经使用tidymodels在R中训练和测试了... 查看详情

如何将 tf-idf 应用于整个数据集(训练和测试数据集),而不是仅在朴素贝叶斯分类器类中训练数据集?

】如何将tf-idf应用于整个数据集(训练和测试数据集),而不是仅在朴素贝叶斯分类器类中训练数据集?【英文标题】:Howtoapplytf-idftowholedataset(trainingandtestingdataset)insteadofonlytrainingdatasetwithinnaivebayesclassifierclass?【发布时间】:201... 查看详情

数据集切割

一、数据集切割  我们通常将数据及切割成两部分:训练数据集(TrainingDataset);测试数据集(TestingDataset).  注意:可采用分层抽样的方式进行,以保持数据在目标字段上分布的一致性。     1.数据分割•80%... 查看详情

获取列表列表的四分位数并绘制它们

】获取列表列表的四分位数并绘制它们【英文标题】:Takingquartilevaluesofanlistoflist,andplottingthem【发布时间】:2021-11-1915:49:49【问题描述】:我下面的代码在运行时会在图上绘制100条曲线,以获取ODE系统中参数的随机值。但是,我... 查看详情

通过箱线图判断偏向

箱线图(Boxplot)也称箱须图(Box-whiskerPlot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息... 查看详情

应用统计学描述数据的离散程度

...极差极差又称全距(Range),以R表示,用来表示统计数据中的最大值与最小值之间的差距,即最大值减最小值后所得之数据。二、四分位差四分位差是上四分位数(Q3,即位于75%)与下四分位数(Q1,... 查看详情

应用统计学描述数据的离散程度

...极差极差又称全距(Range),以R表示,用来表示统计数据中的最大值与最小值之间的差距,即最大值减最小值后所得之数据。二、四分位差四分位差是上四分位数(Q3,即位于75%)与下四分位数(Q1,... 查看详情

应用统计学描述数据的离散程度

...极差极差又称全距(Range),以R表示,用来表示统计数据中的最大值与最小值之间的差距,即最大值减最小值后所得之数据。二、四分位差四分位差是上四分位数(Q3,即位于75%)与下四分位数(Q1,... 查看详情

在表格中查找第三个四分位数以上的频率

...【发布时间】:2015-07-3115:32:21【问题描述】:我有一个大数据框(对57个变量进行了+239k的观察),其中包含一些疾病描述以及针对不同年龄段人群的这些疾病的药物。我想在每种疾病描述的使用频率最高的四分之一中找到这些... 查看详情

tableau箱型图

中位数:数据按降序排序,处于中间位置的数据,总观测数50%的数据值第一四分位数:数据降序排序,总观测数25%的数据组第三四分位数:数据降序排序,总观测数75%的数据组IOR:四分卫数全距,第三四分位数与第一四分位数的... 查看详情

r语言箱线图(boxplot)四分位算法

...术A箱线图(Boxplot)也称箱须图(Box-whiskerPlot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有有对称性,分布的离散程度等信... 查看详情

您是不是对训练和测试数据分别应用最小最大缩放?

】您是不是对训练和测试数据分别应用最小最大缩放?【英文标题】:Doyouapplyminmaxscalingseparatelyontrainingandtestdata?您是否对训练和测试数据分别应用最小最大缩放?【发布时间】:2017-09-0407:10:50【问题描述】:在应用最小最大缩... 查看详情

特征工程之缺失值与离群值处理

参考技术A离群值简单理解就是和大多数数据相差比较多的点。下面从两个方面1.画图,非常直观2.正态分布的3a原则如果数据服从正态分布(如何看数据是否正态分布),如果值超过平均值的3倍标准差的值被认为离群值。如果不... 查看详情

OneHotEncoding 训练数据和测试数据之间的映射问题

】OneHotEncoding训练数据和测试数据之间的映射问题【英文标题】:OneHotEncodingmappingissuebetweentrainingdataandtestdata【发布时间】:2017-08-2719:36:19【问题描述】:我已经通过sklearnOneHotEncoding方法转换了训练和测试数据集。但是,转换后... 查看详情

将 kNN 模型应用于 RapidMiner 中的整个数据集

...叉验证,我现在想用这个模型对我处理过的整个数据集(训练和测试集)进行预测,这是怎么做的?我尝试了以下方法:但是每个对象的“标签”都包含在其自己 查看详情