机器学习经典开源数据集盘点

Wang_AI Wang_AI     2023-03-09     645

关键词:

在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。

01 Kaggle数据集

Kaggle数据集地址
https://www.kaggle.com/datasets

这是我最喜欢的数据集之一,每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。

02 Amazon数据集

AWS开放数据地址
https://registry.opendata.aws/

这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。

数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。

03 UCI机器学习数据集

UCI数据集地址:
https://archive.ics.uci.edu/ml/datasets.html

这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。

04 Google  
数据集搜索引擎

Google数据集搜索引擎
https://toolbox.google.com/datasetsearch

在2018年末,Google推出了数据集搜索服务。这是一个可以按名称搜索数据集的搜索引擎,目标是为数万个不同数据集存储库提供统一搜索入口,非常好用。

05 微软数据集

在2018年7月,微软与外界研究社区一起,发布了微软研究开发数据。

微软数据集地址:
https://msropendata.com/

它包含了云服务器中的数据存储库,致力于促进全球研究社区的协作,并在其中提供了一系列用于已发表研究的数据集内容。

06 Awesome  开放数据集收藏列表

Awesom Public Datasets
https://github.com/awesomedata/awesome-public-datasets

本数据集列表中,按主题整理了大量的数据集内容,例如:生物学、经济学、教育等。其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

07 政府数据集

许多国家均在网络上提供了多种公众可用的政府数据集内容,例如:

欧洲政府数据集
https://data.europa.eu/euodp/data/dataset

美国政府数据集
https://www.data.gov/

新西兰政府数据集
https://catalogue.data.govt.nz/dataset

印度政府数据集
https://data.gov.in/

北爱尔兰公共数据集
https://www.opendatani.gov.uk/

08 VisualData数据集

VisualData数据集
https://www.visualdata.io/

视觉数据包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

总之,从目前观察到的现象看,似乎存在一个全球性的方向,即向研究与机器学习社区提供越来越多的数据。这些新数据集的社区将继续发展并使数据更加易用,以便众包与计算机科学界能够继续快速创新,并为未来生活带来更多创造性的方案。

原文链接:
https://medium.com/datadriveninvestor/top-8-sources-for-machine-learning-and-analytics-datasets-5d2d94ada8ab 

仅供学术分享,侵删

觉得还不错就给我一个小小的鼓励吧!

机器学习之必知开源数据集

之前看到的不错的文章,玩机器学习数据是关键,有了这些东西,你就不必再为没有数据而苦恼。 转自:https://www.365soke.cn机器学习的研究与实现,离不开大数据。知晓通用的开源数据集,一方面可以验证自己算法,而另一... 查看详情

3w+深度盘点:机器学习面试知识点梳理!(代码片段)

大家好,今天我来梳理一下机器学习、算法、数据挖掘等岗位面试时必备的知识点,欢迎收藏学习,喜欢点赞支持。机器学习主要分为监督学习和无监督学习。有监督学习:对具有标记的训练样本进行学习,... 查看详情

国内外经典开源数据大全!

...↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过 Datawhale干货 来源:Graviti,方向:开源数据集本文整理了国内外经典的开源数据,包含了目标检测、自动驾驶、人脸识别、自然语言处理... 查看详情

机器挖掘之经典算法

在机器学习中,有一种叫做「没有免费的午餐」的定理。简而言之,它指出没有任何一种算法对所有问题都有效,在监督学习(即预测建模)中尤其如此。例如,你不能说神经网络总是比决策树好,反之亦然。有很多因素在起作... 查看详情

机器学习初探(手写数字识别)matlab读取数据集

手写数字识别是机器学习里面的一个经典问题,今天就这一段时间学习的机器学习,花一个下午茶的时间,试试机器学习。首先数据库是在MNIST(http://yann.lecun.com/exdb/mnist/)下载下来的。下载下来的数据如下图所示。官方有给出... 查看详情

机器学习算法盘点

  机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里我们将为您总结一下常见的机器学习算法,以供您在工作和学习中参考。  机器学习的算法很多。很多... 查看详情

如何选择开源的机器学习框架?

虽然机器学习还处于早期发展阶段,但是其融入相关行业的应用,前景不可估量,其潜在价值也注定机器学习必将成为企业的主要应用技术。本文和大家分享的是针对不同行业,我们应该如何选择合适的开源框架,一起来看看... 查看详情

pyhon3实现机器学习经典算法knn(代码片段)

一、KNN概述   K-(最)近邻算法KNN(k-NearestNeighbor)是数据挖掘分类技术中最简单的方法之一。它具有精度高、对异常值不敏感的优点,适合用来处理离散的数值型数据,但是它具有  非常高的计算复杂度和空间复杂度... 查看详情

spark探索经典数据集movielens

...息。    这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于 查看详情

经典的机器学习方面源代码库

经典的机器学习方面源代码库编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是Python(numpy+scipy+matplotlib)和C/C++,这样组合既可搞研究,也可搞商业开发,易用性不比matlab差,功能组合更为强大... 查看详情

机器学习笔记:常用数据集之scikit-learn内置玩具数据集(代码片段)

...糖尿病数据集例3:手写数字数据集1.前言        机器学习算法是以数据为粮食的,所以机器学习开发的第一步就是数据的准备。数据预处理和特征工程是机器学习中不显眼(没有像算法开发那样亮丽)但是往... 查看详情

深度盘点:初学者必备这15个scikit-learn重要技能(代码片段)

Scikit-Learn是一个非常棒的python库,用于实现机器学习模型和统计建模。通过它,我们不仅可以实现各种回归、分类、聚类的机器学习模型,它还提供了降维、特征选择、特征提取、集成技术和内置数据集的功能。今天... 查看详情

[转]最好用的ai开源数据集top39:nlp语音等6大类

...据集通常在产品和研发两方面都有用。【学术】这些是在机器学习和AI的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据 查看详情

机器学习经典算法源码分析系列--线性回归

一、单变量线性回归:1.数据集可视化   2.求解模型参数对于线性回归模型,有两种方法可以求解模型参数。1) 梯度下降法  将代价函数代入展开:  Matlab代码实现:  2) 正规方程 Mat... 查看详情

机器学习经典模型简单使用及归一化(标准化)影响测试(代码片段)

俗话说的好,不动手就永远不知道该怎么做,上次一听说要做这个的时候人都懵了,听了几次似乎都摸不到门道,这次花了几天时间去写了写,总算是摸到了点门道。实验数据集这次用到的数据集是跟火电厂有关的,都是匿名特... 查看详情

第一篇:使用spark探索经典数据集movielens

...息。    这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS:它是某次具有历史意义的推荐系统竞赛所用的数据集)。   & 查看详情

机器学习|机器学习评估方法

机器学习评估方法留出法(holdout):数据集预留出一部分数据为测试集,将数据集D划分为训练集S和测试集T。大概比例为测试集占全局数据量的(1/5~1/3)留一法:留一法是留出法的特例,即每次测试集T只留一个数据,剩下的作为训... 查看详情

机器学习图解十大经典机器学习算法

【机器学习】图解十大经典机器学习算法 决策树(DecisionTree)根据一些feature(特征)进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出... 查看详情