黑马程序员---三天快速入门python机器学习(第一天)(代码片段)

zdb呀 zdb呀     2023-04-13     574

关键词:

机器学习入门


前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:人工智能从入门到精通教程




一、机器学习概述

1.1 人工智能概述

1.1.1 机器学习与人工智能、深度学习

  • 机器学习是人工智能的一个实现途径
  • 深度学习是机器学习的一种方法

1.1.2 机器学习、深度学习能做什么

  • 传统预测:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类
  • 图像识别:街道交通标志检测、人脸识别
  • 自然语言处理:文本分类、情感分析、自动聊天、文本检测

1.1.3 人工智能阶段课程安排

1.2 什么是机器学习

1.2.1 定义

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

1.2.2 解释


对经验归纳总结,对未知事物预测

1.2.3 数据集构成

结构:特征值+目标值

注:

  • 对于每一行数据我们可以称为样本
  • 有些数据集可以没有目标值

1.3 机器学习算法分类

第一种:

识别猫和狗:
特征值:图片
目标值:猫/狗**-类别**
分类问题

第二种:


房屋价格预测:
特征值:房屋的各个属性信息
目标值:房屋价格**-连续型的数据**
回归问题

第三种

特征值:人物的各个属性信息
目标值:无
无监督学习

1.3.1 总结

1.3.2 练习

说一下他们具体问题分类:
1、预测明天的天气是多少度? 回归
2、依存明天是阴天还是晴天还是雨天?分类
3、人脸年龄预测?分类或回归
4、人脸识别?分类

1.3.3 机器学习算法分类

监督学习:预测

  • 定义:输入数据是由输入特征和目标值所组成,函数的输出可以是一个连续的值,称为回归;也可以是一个离散的值,称为分类
  • 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
  • 回归:线性回归、岭回归

无监督学习

  • 定义:输入数据是由输入特征值组成
  • 聚类:k-means

1.4 机器学习开发流程


流程:
1)获取数据
2)数据处理
3)特征工程
4)机器学习算法训练-得到模型
5)模型评估
6)应用

1.5 学习框架和资料介绍

大部分复杂模型的算法设计都是算法工程师在做,而我们

  • 分析很多的数据
  • 分析具体的业务
  • 应用常见的算法
  • 特征工程、调参、优化

1.5.1 机器学习库与框架

1.5.2 书籍资料

1.5.3 提深内功




二、特征工程

2.1 数据集

目标

  • 知道数据集分为训练集和测试集
  • 会使用sklearn的数据集

2.1.1 可用数据集

Kaggle网址:https://www.kaggle.com/datasets
UCI数据集网址: http://archive.ics.uci.edu/ml/
scikit-learn网址: http://scikit-learn.org/stable/datasets/index.html#datasets
https://scikit-learn.org.cn/

scikit-learn特点:

  • 1、数据量小
  • 2、方便学习

UCI特点:

  • 1、收录了360个数据集
  • 2、覆盖科学、生活、经济等领域
  • 3、数据集几十万

Kaggle特点:

  • 1、大数据竞赛平台
  • 2、80万科学家
  • 3、数据量巨大

1 Scikit-learn工具介绍

  • Python语言的机器学习工具
  • Scikit-learn包括许多知名的机器学习算法的实现
  • Scikit-learn文档完善,容易上手,丰富的API
  • 目前稳定版本0.19.1

2 安装

pip install Scikit-learn -i https://pypi.douban.com/simple

安装好之后可以通过以下命令查看是否安装成功

import sklearn

注:安装scikit-learn需要Numpy,Scipy等库

3 Scikit-learn包含的内容

2.1.2 sklearn数据集

1 scikit-learn数据集API介绍

  • sklearn.datasets.load_*():获取小规模数据集,数据包含在datasets里
  • sklearn.datasets.fetch_*(data_home=None):获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是**~/scikit_learn_data/**

2 sklearn小数据集

  • sklearn.datasets.load_iris():加载并返回鸢尾花数据集
  • sklearn.datasets.load_boston():加载并返回波士顿房价数据集

3 sklearn大数据集
sklearn.datasets.fetch_20newsgroups(data=None, subset=‘train’)

  • subset:‘train’或者’test’,‘all’,可选,选择要加载的数据集
  • 训练集的‘训练’,测试集的‘测试’,两者的‘全部’

4 sklearn数据集的使用
sklearn数据集返回值介绍
load和fetch返回的数据类型datasets.base.Bunch(字典格式

  • data:特征数据数组,是[n_samples * n_features]的二维numpy.ndarry数组
  • target:标签数组,是n_samples的一维numpy.ndarry数组
  • DESCR:数据描述
  • feature_names:特征名,新闻数据,手写数字、回归数据集没有
  • target_names:标签名
from sklearn.datasets import load_iris

def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集:\\n", iris)
    print("查看数据集描述:\\n", iris["DESCR"])           # 数据集的描述信息
    print("查看特征值的名字:\\n", iris.feature_names)
    print("查看特征值:\\n", iris.data, iris.data.shape)  # shape:(150,4)
    return None

if __name__ == "__main__":
    datasets_demo()
查看特征值的名字:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

2.1.3 数据集的划分

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:

  • 训练集:70%、80%
  • 测试集:30%、20%

数据集划分api:sklearn.model_selection.train_test_split(arrays, *options)

  • x 数据集的特征值
  • y 数据集的标签值
  • test_size测试集的大小,一般为float
  • random_state随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同
  • return训练集特征值,测试集特征值,训练集目标值,测试集目标值
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集:\\n", iris)
    print("查看数据集描述:\\n", iris["DESCR"])
    print("查看特征值的名字:\\n", iris.feature_names)
    print("查看特征值:\\n", iris.data, iris.data.shape)  # 150个样本

    # 数据集划分  X为特征 Y为标签
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("训练集的特征值:\\n", x_train, x_train.shape)   # 120个样本
    return None

if __name__ == "__main__":
    datasets_demo()

2.2 特征工程介绍

2.2.1 为什么需要特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

2.2.2 什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
意义:会直接影响机器学习的效果

2.2.3 特征工程的位置与数据处理的比较

  • pandas:一个数据读取非常方便以及基本的处理格式的工具
  • sklearn:对于特征的处理提供了强大的接口

特征工程包含内容:

  • 特征抽取/特征提取
  • 特征预处理
  • 特征降维

什么是特征提取?

2.3 特征提取

2.3.1 什么是特征提取

1 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
注:特征值是为了计算机更好的去理解数据

  • 字典特征提取(特征离散化)
  • 文本特征提取
  • 图像特征提取(深度学习再介绍)

2 特征提取API

sklearn.feature_extraction

2.3.2 字典特征提取

作用:对字典数据进行特征值化

sklearn.feature_extraction.DictVectorizer(sparse=True, …)

  • DictVectorizer.fit_transform(X), X:字典或者包含字典的迭代器返回值,返回sparse矩阵
  • DictVectorizer.inverse_transform(X), X:array数组或者sparse矩阵 返回值:转换之前数据格式
  • DictVectorizer.get_feature_names():返回类别名称

1 应用
对数据进行特征提取:将类别转换为one-hot编码,节省内存,提高下载效率

from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    字典特征抽取
    :return:
    """
    data = ['city':'北京', 'temperature':100,
            'city':'上海', 'temperature':60,
            'city':'深圳', 'temperature':30]
    # 1、实例化一个转换器类
    #transfer = DictVectorizer() # 返回sparse矩阵
    transfer = DictVectorizer(sparse=False)
    # 2、调用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\\n", data_new)   # 转化后的
    print("特征名字:\\n", transfer.get_feature_names())

    return None


if __name__ == "__main__":
    dict_demo()
data_new:
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]
 特征名字:
 ['city=上海', 'city=北京', 'city=深圳', 'temperature']

2.3.3 文本特征提取

单词作为特征

作用:对文本数据进行特征值化

sklearn.feature_extraction.text.CountVectorizer(stop_words=[]):返回词频矩阵

  • CountVectorizer.fit_transform(X),X:文本或者包含文本字符串的可迭代对象,返回值:返回sparse矩阵
  • CountVectorizer.inverse_transform(X),X:array数组或者sparse矩阵,返回值:转换之前数据格
  • CountVectorizer.get_feature_names():返回值:单词列表

sklearn.feature_extraction.text.TfidVectorizer

1 应用
英文文本分词

from sklearn.feature_extraction.text import CountVectorizer


def count_demo():
    """
    文本特征抽取:CountVectorizer
    :return:
    """
    data = ['life is short,i like like python',
            'life is too long,i dislike python']
    # 1、实例化一个转换器类
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\\n", data_new.toarray())  # toarray转换为二维数组
    print("特征名字:\\n", transfer.get_feature_names())

    return None


if __name__ == "__main__":
    count_demo()
data_new:
 [[0 1 1 2 0 1 1 0]
 [1 1 1 0 1 1 0 1]]
特征名字:
 ['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

停用词:stop_words=[]

from sklearn.feature_extraction.text import CountVectorizer


def count_demo():
    """
    文本特征抽取:CountVectorizer
    :return:
    """
    data = ['life is short,i like like python',
            'life is too long,i dislike python']
    # 1、实例化一个转换器类
    transfer = CountVectorizer(stop_words=['is', 'too'])
    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\\n", data_new.toarray())  # toarray转换为二维数组
    print("特征名字:\\n", transfer.get_feature_names())

    return None


if __name__ == "__main__":
    count_demo()
data_new:
 [[0 1 2 0 1 1]
 [1 1 0 1 1 0]]
特征名字:
 ['dislike', 'life', 'like', 'long', 'python', 'short']

中文文本分词
注意:不支持单个中文词!
这个方法是计算特征词出现的个数的

from sklearn.feature_extraction.text import CountVectorizer


def count_demo():
    """
    文本特征抽取:CountVectorizer
    :return:
    """
    data = ['我 爱 北京 天安门',
            '天安门 上 太阳 升']
    # 1、实例化一个转换器类
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\\n", data_new.toarray())  # toarray转换为二维数组
    print("特征名字:\\n", transfer.get_feature_names())

    return None


if __name__ == "__main__":
    count_demo()
data_new:
 [[1 1 0]
 [0 1 1]]
特征名字:
 ['北京', '天安门', '太阳']

例2

from sklearn.feature_extraction.text import CountVectorizer
import jieba


def count_chinese_demo2():
    """
    中文文本特征抽取,自动分词
    :return:
    """
    data = ['一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。',
            '我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。',
            '如果只用一种方式了解某件事物,他就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。']
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    print(data_new)

    # 1、实例化一个转换器类
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_final:\\n", data_final.toarray())
    print("特征名字:\\n", transfer.get_feature_names())

    return None


def cut_word(text):
    """
    进行中文分词:“我爱北京天安门” -> "我 爱  北京 天安门"
    :param text:
    :return:
    """

    return ' '.join(jieba.cut(text))


if __name__ == "__main__":
    count_chinese_demo2()
    #print(cut_word('我爱北京天安门'))
['一种 还是 一种 今天 很 残酷 , 明天 更 残酷 , 后天 很 美好 , 但 绝对 大部分 是 死 在 明天 晚上 , 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 , 这样 当 我们 看到 宇宙 时 , 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某件事 物 , 他 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']
data_final:
 [[2 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 1
  0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 0
  1]
 [1 1 0 0 4 2 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0
  0]]
特征名字:
 ['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某件事', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '还是', '这样']

关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少

5 Tf-idf文本特征提取

  • Tf-idf的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分来
  • Tf-idf作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
    这种方法是计算特征词的重要程度的
    TF-IDF:衡量重要程度
    TF:词频
    IDF:逆向文档频率,可以由总文件数目 / 包含该词语之文件的数目,再将得到的商取以10为底的对数得到
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba


def cut_word(text):
    """
    进行中文分词:“我爱北京天安门” -> "我 爱  北京 天安门"
    :param text:
    :return:
    """

    return ' '.join(jieba.cut(text))


def tfidf_demo():
    """
    用TF-IDF的方法进行文本特征抽取
    :return:
    """
    data = ['一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。',
            '我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。',
            '如果只用一种方式了解某件事物,他就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。']
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    print(data_new)

    # 1、实例化一个转换器类
    transfer = TfidfVectorizer()
    # 2、调用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_final:\\n", data_final.toarray())
    print("特征名字:\\n", transfer.get_feature_names())
    return None

if __name__ == "__main__":
    tfidf_demo()
    #print(cut_word('我爱北京天安门'))
['一种 还是 一种 今天 很 残酷 , 明天 更 残酷 , 后天 很 美好 , 但 绝对 大部分 是 死 在 明天 晚上 , 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 , 这样 当 我们 看到 宇宙 时 , 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某件事 物 , 他 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']
data_final:
 [[0.30847454 0.         0.20280347 0.         0.         0.
  0.40560694 0.         0.         0.         0.         0.
  0.20280347 0.         0.20280347 0.         0.         0.
  0.         0.20280347 0.20280347 0.         0.40560694 0.
  0.20280347 0.         0.40560694 0.20280347 0.         0.
  0.         0.20280347 0.20280347 0.         0.         0.20280347
  0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         0.         0.         0.         0.         0.2410822
  0.55004769 查看详情  

三天爆肝快速入门机器学习:线性回归逻辑回归岭回归第三天(代码片段)

三天爆肝快速入门机器学习【第三天】线性回归过拟合和欠拟合岭回归逻辑回归前言:这个系列终于写完了,只写了三篇,但是基础知识基本都写了,但是阅读量都不高,可能也是自己初次写这种系列的没什么经验,排版内容都有很大改... 查看详情

三天爆肝快速入门机器学习:knn算法朴素贝叶斯算法决策树第二天(代码片段)

三天爆肝快速入门机器学习【第二天】转换器与预估器KNN算法决策树随机森林个人总结转换器与预估器必须理解的转换器与估计器一转化器回想一下之前做的特征工程的步骤?实例化(实例化的是一个转换器类transformer)... 查看详情

pandas高级数据分析快速入门之五——机器学习特征工程篇(代码片段)

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

pandas高级数据分析快速入门之五——机器学习特征工程篇(代码片段)

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

[学习笔记]黑马程序员spark全套视频教程,4天spark3.2快速入门到精通,基于python语言的spark教程(代码片段)

文章目录视频资料:思维导图一、Spark基础入门(环境搭建、入门概念)第二章:Spark环境搭建-Local2.1课程服务器环境2.2Local模式基本原理2.3安装包下载2.4SparkLocal模式部署第三章:Spark环境搭建-StandAlone3.1StandAlon... 查看详情

pandas高级数据分析快速入门之六——机器学习预测分析篇(代码片段)

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

猿创征文|python-sklearn机器学习快速入门:你的第一个机器学习实战项目(代码片段)

目录前言一、从目的出发1.导入数据二、项目开启1.导入数据2.预览数据3.数据预处理1.过采样 2.欠采样4.数据可视化 单变量图表多变量图表5.训练模型5.1划分数据集 5.2评估算法5.3模型建立 5.4模型预测点关注,防走丢,... 查看详情

机器学习快速入门简单自学机器学习理论

【机器学习快速入门】简单自学机器学习理论机器学习理论——partI 前言(第II部分内容点此;第III部分内容点此)动机大多数人在小的时候被魔术师以及魔术技巧所迷住,并想弄明白其中的奥秘。有些人会带着这份迷恋研... 查看详情

numpy快速入门笔记

...机器学习相关知识。出于机器学习实践过程中的需要,我快速了解了一下NumPy这个科学计算库的使用方法。下面记录相关学习笔记。简介NumPy是一个科学计算库。结合Python生态系统的其它库,如SciPy、matplotlib等,NumPy可以玩出比Mat... 查看详情

pandas高级数据分析快速入门之一——python开发环境篇

Pandas高级数据分析快速入门之一——Python开发环境篇Pandas高级数据分析快速入门之二——基础篇Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇Pandas高级数据分析快速入门之四——数据可视化篇Pandas高级数据分析快速... 查看详情

机器学习入门快速版

机器学习入门快速版本文地址:https://github.com/no7dw/MachineLearningTutorialbackground从数据量的角度,MachineLearning(ML)是解决传统程序在数据量大,条件多的情况下,使用代码处理复杂场景已经力不从心的情况下的一种解决方案。而DeepLea... 查看详情

华为云技术分享机器学习(02)——学习资料链接

...用。在这段时间学习的过程中,我一直在思索,怎样才能快速入门机器学习?快速入门的步骤是什么呢?经过一段时间查看大量的学习文章和梳理,觉得要入门其实并不复杂,首先得对机器学习有个总体的认识和了解,了解其基... 查看详情

简单易懂|机器学习如何快速入门?

1 什么是机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2 机器学习工作流程1.获取数据2.数据基本处理3.特征工程4.机器学习(模型训练)5.模型评估结果达到要求,上线服务没有达到要求... 查看详情

怎么快速入门深度学习

深度学习是一门综合的研究方向,目前大多数研究生都在研究这个,包括我在内,我研究的是图像识别领域,包括图像分类、目标识别、对象定位、风格迁移等等。说回来,那到底要如何去学习深度学习,首先深度学习属于机器... 查看详情

机器学习matplotlib快速入门笔记

Matplotlib快速入门笔记XuAn  2018-4-7import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3D1、基本图形绘制x=np.linspace(-1,1, 查看详情

python学习基础之快速入门(代码片段)

...及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的理想语言。Python官网(WelcometoPython.org)上免费提供了Python解释器和扩展的标准库,包括源码和适用于各操作系统的机器码形式,并可自由地... 查看详情

简单易懂|机器学习如何快速入门?(代码片段)

1 什么是机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2 机器学习工作流程1.获取数据2.数据基本处理3.特征工程4.机器学习(模型训练)5.模型评估结果达到要求,上线服务没有达到要... 查看详情