正文

机器学习之必知开源数据集

qwangxiao  qwangxiao  2022-10-31  783

关键词：

之前看到的不错的文章，玩机器学习数据是关键，有了这些东西，你就不必再为没有数据而苦恼。
转自：https://www.365soke.cn

机器学习的研究与实现，离不开大数据。知晓通用的开源数据集，一方面可以验证自己算法，而另一方面也可以与其他算法进行比较。

不少开源工具和框架都会含有默认的数据集，使学习者能很快上手。比如scikit-learn就直接支持iris、digits等数据集，通过datasets.load_iris()、datasets.load_digits()就可以直接载入数据进行分析。

除了工具默认支持的数据集外，还有很多知名的开源数据集，供机器学习相关人员使用。

UCI

UCI肯定是最知名的开源数据集（库）之一，它是加州大学欧文分校所维护的一个数据集（库），里面包含373个数据集，并且还在持续增长。数据集的类别也很丰富多样并且归类清晰，有专门针对聚类的数据集，专门针对回归研究的数据集；从数据类型纬度，有文本类型的，有时序相关类型的。
技术分享图片

同时其数据的获取也很简单，直接点击需要的数据集，进入下载页面直接压在压缩包，解压即可使用。数据一般按照特定格式组织成文本形式。

在UCI项目中，最常用的数据集包括iris、wine、soybean、zoo：

iris，鸢尾数据集，其包含3个类，每个类50个元素，每个元素有5个属性，用来代表不同的鸢尾花
wine，酒水数据库，其中包含3个类，共178个元素，每个元素有3个属性，常用于聚类研究
soybean，大豆疾病数据集，其中包含4个类，共47个元素，但每个元素有35个属性
zoo，动物园数据集，其中包含7个类，共101个元素，每个元素16个属性

项目地址：http://archive.ics.uci.edu/ml/index.php

GoogleTrends

GoogleTrends开源出来的数据集不一定是非常知名、用途广泛的数据集，但是由于其数据来源于互联网，具有很强的时间感，社会属性，并且也能很快检测算法的准确性，毕竟互联网数据的产生速度要远远大于传统数据。
技术分享图片

该数据集中数据组织形式也非常直接，csv文件，这样无论是人工查看，还是程序处理都非常方便，毕竟现在绝大多数框架都支持直接载入csv文件。

项目地址：http://googletrends.github.io/data/

Kaggle

Kaggle本身是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。而各种机器学习竞赛中用到的数据集则可以在改平台上下载，这对于验证、对比自身算法的优劣大有裨益。
技术分享图片

其中覆盖了分类、回归、排名、推荐系统以及图像分析等各个非常使用的领域，但是不好之处在于有些数据集是收费的

AWS公用数据集

这个数据集是AWS集成的，必须通过AWS API访问的数据集，其中包含了人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams等形形色色的数据集。

使用该数据库最大问题是它默认支持的格式是通过AWS相关的操作，包括建实例等，对于离线分析，或者不想购买云资源的用户来说，不那么方便直接。

项目地址：https://www.taohuayuan178.com

Imagenet

Imagenet是图像领域最出名的数据集之一，各种图像处理相关的算法都会在该数据集上验证其先进性，也有各种研究人员针对该数据集做研究以及优化。
技术分享图片

在深度学习异常火爆的当下，Imagenet也起了非常大的推动作用。深度学习领域大牛Hilton的论文《ImageNet Classification with Deep Convolutional Neural Networks》，其使用的就是Imagenet数据集，后来者们也都纷纷使用该数据集进行算法的研究和优化。

该数据集有1400W图片，涵盖有丰富的类别，带标注数据也超过百万，这使得该数据集在图像处理，定位，检测等研究工作中占据很大的地盘，其机会成为了目前深度学习图像领域算法性能检验的标准数据库。

项目地址：http://www.mhylpt.com/

MINIST

深度学习领域的“Hello World!”，入门必备！MNIST是一个手写数字数据库，它有60000个训练样本集和10000个测试样本集，每个样本图像的宽高为28*28。此数据集是以二进制存储的，不能直接以图像格式查看，不过很容易找到将其转换成图像格式的工具。最早的深度卷积网络LeNet便是针对此数据集的，当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程，其中Tensorflow关于MNIST的教程非常详细。

技术分享图片
项目地址：http://yann.lecun.com/exdb/mnist/

/r/数据集

Reddit的/r/数据集是一个大伙分享、请求的数据集平台，在此平台上能分享、下载甚至讨论大量的数据集，从普通数据集到用于深度分析的数据集，不一而足。

项目地址：https://www.reddit.com/r/datasets/

其他数据集

麻省理工大学人脸识别，http://www.hbs90.cn/ /fddb/

歌曲数据库，http://labrosa.ee.columbia.edu/millionsong/

图像处理COCO，http://mscoco.org/

视频数据集youtube，https://research.google.com/youtube8m/

此外，还有大量的针对某个领域的数据集，比如图像分隔、地质数据、政府数据等等，不一而足。

强烈推荐机器学习之算法篇(代码片段)

机器学习算法机器学习算法数据类型：可用数据集：监督学习和无监督学习：算法分类：scikit-learn数据集获取数据集：获取数据集方式：数据集的划分：本地数据集：分类数据集：回归数据集&#x... 查看详情

机器学习之svm__1

一、支持向量机：1.优点：泛化错误率较低，计算开销不大，结果易解释。2.缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。3.适用数据类型：数值型和标称型数据。二、重要概念：1.分... 查看详情

机器学习之朴素贝叶斯（分类）

朴素：在给定类别的情况下，各个特征相互独立贝叶斯公式：P(A|B)=P(A)P(B|A)/P(B)朴素贝叶斯：P(特征|类别)=P(特征)P(类别|特征)/P(类别)核心思想：算一下概率，那种类别概率大，就分为那种类别。在scikit-learn中的实现：　　1.高斯... 查看详情

机器学习之决策树

...使用不熟悉的数据集合，并从中提取一系列规则，在这些机器根据数据集创建规则是，就是机器学习的过程。　　在构造决策树时，第一个需要解决的问题就是，查看详情

机器学习之分类问题实战(基于ucibankmarketingdataset)

导读：分类问题是机器学习应用中的常见问题，而二分类问题是其中的典型，例如垃圾邮件的识别。本文基于UCI机器学习数据库中的银行营销数据集，从对数据集进行探索，数据预处理和特征工程，到学习模型的评估与选择，较... 查看详情

机器学习之anaconda介绍

AnacondaDistribution最受欢迎的Python/R数据科学发行版轻松安装1,400多个Python/R数据科学包并管理您的包，依赖项和环境-只需单击一下按钮即可。免费和开源。?数据科学图书馆Anaconda数据科学图书馆超过1,400个Anaconda策划和社区数据科... 查看详情

机器学习之knn算法

1KNN算法1.1KNN算法简介　　KNN（K-NearestNeighbor）工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据... 查看详情

机器学习之决策树(代码片段)

一、复习信息熵　　为了解决特征选择问题，找出最优特征，先要介绍一些信息论里面的概念。　　1、熵（entropy）　　　　　　　　python3代码实现：defcalcShannonEnt(dataSet):‘‘‘计算香农熵:paramdataSet:数据集:return:计算结果... 查看详情

机器学习之特征选择和降维的理解

在机器学习中，特征选择和降维感觉好像差不多，维度都降低了，今天和其他同学交流学习才知道其实不然，区别很大。一般情况下，我们不会使用原始数据直接去进行训练，因为原始数据的特征明显，信息丰富，我们训练... 查看详情

机器学习之良/恶性乳腺癌肿瘤预测

知识点：　　逻辑斯蒂回归分类器　　训练数据集：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data数据预处理打开ipython网页解释器#导入模块importpandasaspdimportnumpyasnp#创建特征列表表头col 查看详情

机器学习之fp-growth频繁项集算法(代码片段)

FP-growth算法项目背景/目的对于广告投放而言,好的关联会一定程度上提高用户的点击以及后续的咨询成单对于产品而言,关联分析也是提高产品转化的重要手段,也是大多商家都在做的事情,尤其是电商平台曾经我用SPSSModeler做过Aprio... 查看详情

机器学习之决策树学习

决策树是一个函数，以属性值向量作为输入，返回一个“决策”。如上图，我们输入一系列属性值（天气状况，湿度，有无风）后会得到一个要不要出去玩的一个决策。从样例构建决策树对于原始样例集，我们选取一个最好的属... 查看详情

机器学习之决策树

决策树：从给定训练数据集学的一个模型用于对新示例进行分类。我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”越高越好，这样避免多次无用的分类。 1.用信息熵度量样本集合... 查看详情

机器学习之逻辑回归

1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归又称逻辑回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域；与线性回归相比大致有两大不同：①... 查看详情

深度学习之batchnormalization

在机器学习领域中，有一个重要的假设：独立同分布假设，也就是假设训练数据和测试数据是满足相同分布的，否则在训练集上学习到的模型在测试集上的表现会比较差。而在深层神经网络的训练中，当中间神经层的前一层参数... 查看详情

python机器学习之垃圾短信分类(用朴素贝叶斯算法的伯努利模型和多项式模型分类垃圾短信数据集smsspamcollection.txt）(代码片段)

一.数据集下载地址SMSSpamCollection.txt二.打开下载的.txt文件，可以看到数据集长这样，标签（ham和spam,spam就是指垃圾短信）与文本之间的分隔符是一个tab键,也就是‘\\t’三.首先用pd.read_csv函数读取该数据集时要注意... 查看详情

机器学习之决策树(decisiontree)(代码片段)

Contents 理论基础熵信息增益算法实现Python模型的保存与读取总结理论基础决策树(DecisionTree,DT)：决策树是一种基本的分类与回归方法。由于模型呈树形结构，可以看做是if-then规则的集合，具有一定的可读性，可视化效果... 查看详情

机器学习之数据处理与可视化鸢尾花数据分类|特征属性比较(代码片段)

@[toc]一，前言1.1本文基于原理大部分的机器学习模型所处理的都是特征，特征通常是输入变量所对应的可用于模型的数值表示。大部分情况下，收集得到的数据需要经过处理后才能够为算法所使用。通常情况下，一个数据集当中... 查看详情