python深度学习:python数据处理及可视化(读书笔记)(代码片段)

芝士工具猿 芝士工具猿     2022-11-30     811

关键词:

老铁们,我们Python的深度学习开始了,第一篇正式的文章就是数据处理和可视化,我们开始吧!

数据处理与可视化

一、NumPy的初步使用

表格是数据的一般表示形式,但对于机器来说是不可理解的,也就是无法辨识的数据,所以我们需要对表格的形式进行调整。
常用的机器学习表示形式为数据矩阵。

我们观察这个表格,发现,矩阵中的属性有两种,一种是数值型,一种是布尔型。那么我们现在就建立模型描述这个表格:

#  数据的矩阵化
import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])
row = 0
for line in data:
    row += 1
print( row )
print(data.size)
print(data)

这里第一行代码的意思就是引入NumPy将其重命名为np。第二行我们使用NumPy中的mat()方法建立一个数据矩阵,row是引入的计算行数的变量。
这里的size意思就是5*5的一个表格,直接打印data就可以看到数据了:

二、Matplotlib包的使用–图形化数据处理

我们还是看最上面的表格,第二列是房价的差异,我们想直观的看出差别是不容易的(因为只有数字),所以我们希望能够把它画出来(研究数值差异和异常的方法就是绘制数据的分布程度):

import numpy as np
import scipy.stats as stats
import pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])
coll = []
for row in data:
    coll.append(row[0,1])

stats.probplot(coll,plot=pylab)
pylab.show()

这个代码的结果就是生成一个图:

这样我们就能清晰的看出来差异了。

一个坐标图的要求,就是通过不同的行和列表现出数据的具体值。
当然,坐标图我们一样可以展示:

三、深度学习理论方法–相似度计算(可以跳过)

相似度的计算方法有很多,我们选用最常用的两种,即欧几里得相似度和余弦相似度计算。

1、基于欧几里得距离的相似度计算

欧几里得距离,用来表示三维空间中两个点的真实距离。公式我们其实都知道,只是名字听的少:

那么我们来看一看它的实际应用:
这个表格是3个用户对物品的打分:

d12表示用户1和用户2的相似度,那么就有:

同理,d13:

可见,用户2更加相似于用户1(距离越小,相似度越大)。

2、基于余弦角度的相似度计算

余弦角度的计算出发点是夹角的不同。


可见相对于用户3,用户2与用户1更为相似(两个目标越相似,其线段形成的夹角越小)

四、数据统计的可视化展示(以我们亳州市降水为例)

数据的四分位

四分位数,是统计学中分位数的一种,也就是把数据由小到大排列,之后分成四等份,处于三个分割点位置的数据,就是四分位数。
第一四分位数(Q1),也称下四分位数
第二四分位数(Q1),也称中位数
第三四分位数(Q1),也称下四分位数

第三四分位数与第一四分位数的差距又称为四分差距(IQR)。

若n为项数,则:
Q1的位置 = (n+1)*0.25
Q2的位置 = (n+1)*0.50
Q3的位置 = (n+1)*0.75

四分位示例:
关于这个rain.csv,有需要的可以私我要文件,我使用的是亳州市2010-2019年的月份降水情况。

from pylab import *
import pandas as pd
import matplotlib.pyplot as plot
filepath = ("C:\\\\Users\\\\AWAITXM\\\\Desktop\\\\rain.csv")
# "C:\\Users\\AWAITXM\\Desktop\\rain.csv"
dataFile = pd.read_csv(filepath)
summary = dataFile.describe()
print(summary)

array = dataFile.iloc[:,:].values
boxplot(array)
plot.xlabel("year")
plot.ylabel("rain")
show()

以下是plot运行结果:

这个是pandas的运行

这里就可以很清晰的看出来数据的波动范围。
可以看出,不同月份的降水量有很大差距,8月最多,1-4月和10-12月最少。

那么每月的降水增减程度如何比较?

from pylab import *
import pandas as pd
import matplotlib.pyplot as plot
filepath = ("C:\\\\Users\\\\AWAITXM\\\\Desktop\\\\rain.csv")
# "C:\\Users\\AWAITXM\\Desktop\\rain.csv"
dataFile = pd.read_csv(filepath)
summary = dataFile.describe()
minRings = -1
maxRings = 99
nrows = 11
for i in range(nrows):
    dataRow = dataFile.iloc[i,1:13]
    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )
    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)
plot.xlabel("Attribute")
plot.ylabel(("Score"))
show()

结果如图:

可以看出来降水月份并不规律的上涨或下跌。

那么每月降水是否相关?

from pylab import *
import pandas as pd
import matplotlib.pyplot as plot
filepath = ("C:\\\\Users\\\\AWAITXM\\\\Desktop\\\\rain.csv")
# "C:\\Users\\AWAITXM\\Desktop\\rain.csv"
dataFile = pd.read_csv(filepath)
summary = dataFile.describe()
corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())
plot.pcolor(corMat)
plot.show()

结果如图:

可以看出,颜色分布十分均匀,表示没有多大的相关性,因此可以认为每月的降水是独立行为。

今天就记录到这里了,我们下次再见!希望本文章对你也有所帮助。

这是一张机器&深度学习代码速查表

...神经网络线性代数python基础scipy科学计算spark数据保存及可视化numpypandasbokeh画图matplotlibggplot机器学习sklearnkerastensorflow算法数据结构复杂度排序算法随着深度学习的蓬勃发展,越来越多的小伙伴们开始使用python作为主打代码,pytho 查看详情

python常用包及主要功能

参考技术APython常用包:NumPy数值计算、pandas数据处理、matplotlib数据可视化、sciPy科学计算、Scrapy爬虫、scikit-learn机器学习、Keras深度学习、statsmodels统计建模计量经济。NumPy是使用Python进行科学计算的基础包,Numpy可以提供数组支... 查看详情

《python数据科学手册》学习笔记及书评(代码片段)

...记写在前面1.食谱数据库数据找不到的问题2.Seaborn马拉松可视化里时分秒转化为秒数的问题3.scikit-learn使用fetch_mldata无法下载MNIST数据集的问题4.GridSearchCV.grid_scores_和mean_validation_score报错5.Jupyter导出PDF从入门到绝望 查看详情

14张python代码速查表,玩转数据分析&可视化&机器学习

...据科学速查表-导入数据Python数据科学速查表-JupyterNotebook数据处理系列推出的内容包括:Numpy、Pandas及SciPy。Python数据科学速查表-Numpy基础Python 查看详情

《python深度学习》第五章-6(可视化类激活图)读书笔记(代码片段)

《Python深度学习》第五章-6(可视化类激活图)读书笔记卷积神经网络学到的表示非常适合可视化,很大程度上是因为它们是视觉概念的表示\\colorred视觉概念的表示视觉概念的表示。接下来介绍3种可视化方法。事中\\... 查看详情

[python人工智能]三十八.keras构建无监督学习autoencoder模型及mnist聚类可视化详解(代码片段)

从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章详细讲解了基于Transformer的商品评论情感分析案例。本篇文章将分享无监督学习Autoencoder的原理知识,然后介绍Keras构建自编码的案... 查看详情

[python人工智能]三十七.keras构建无监督学习autoencoder模型及mnist聚类可视化详解(代码片段)

从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章详细讲解了基于Transformer的商品评论情感分析案例。本篇文章将分享无监督学习Autoencoder的原理知识,然后介绍Keras构建自编码的案... 查看详情

14张python代码速查表,玩转数据分析&可视化&机器学习

...据科学速查表-导入数据Python数据科学速查表-JupyterNotebook数据处理系列推出的内容包括:Numpy、Pandas及SciPy。Python数据科学速查表-Numpy基础Python数据科学速查表-Pandas基础Python数据科学速查表-Pandas进阶Python数据科学速查表-SciPy... 查看详情

python中数据模块化你不容错过的库!

...于网页自动生成的仪表盘,它将数据学习流和结果进行了可视化处理,这一功能对于排错和展示都十分有用。3、 PyTorchPyTorch是由Facebook发布的一个开源库,用作Python的公用机器学习框架。与Tensorflow相比,PyTorch的语句更加适... 查看详情

《python深度学习》第五章-4(可视化中间激活层)读书笔记(代码片段)

5.4 卷积神经网络的可视化卷积神经网络学到的表示非常适合可视化,很大程度上是因为它们是视觉概念的表示\\colorred视觉概念的表示视觉概念的表示。接下来介绍3种可视化方法。可视化卷积神经网络的中间输出(中间... 查看详情

深度学习建模预测全流程(python)!

...了深度学习模型构建及预测的全流程,代码示例基于python及神经网络库keras,通过设计一个深度神经网络模型做波士顿房价预测。主要依赖的Python库有:keras、scikit-learn、pandas、tensorflow(建议可以安装下anaconda包&#x... 查看详情

《python深度学习》第五章-5(可视化过滤器)读书笔记(代码片段)

5.4 卷积神经网络的可视化卷积神经网络学到的表示非常适合可视化,很大程度上是因为它们是视觉概念的表示\\colorred视觉概念的表示视觉概念的表示。接下来介绍3种可视化方法。事中\\colorblue事中事中:可视化卷积神... 查看详情

卧槽,又是一个python神器(代码片段)

...游学、旅游,而他的公众号:「关于数据分析与可视化」,已经累积了170+篇的原创,有关于数据分析与可视化方向的,也有Python入门实战方向的,以及机器学习、深度学习方向的内容关注公众号:... 查看详情

ai人工智能机器学习深度学习学习路径及推荐书籍

...习Pytorch,需要掌握以下基本知识:编程语言:Pytorch使用Python作为主要编程语言,因此需要熟悉Python编程语言。线性代数和微积分:Pytorch主要用于深度学习领域,深度学习是基于线性代数和微积分的,因此需要具备线性代数和微... 查看详情

14张python速查表玩转数据分析&可视化&机器学习

...据科学速查表-导入数据Python数据科学速查表-JupyterNotebook数据处理系列推出的内容包括:Numpy、Pandas及SciPy:Python数据科学速查表-Numpy基础Python数据科学速查表-Pandas基础Python数据科学速查表-Pandas进阶Python数据科学速查表-Sc... 查看详情

14张python速查表玩转数据分析&可视化&机器学习

...据科学速查表-导入数据Python数据科学速查表-JupyterNotebook数据处理系列推出的内容包括:Numpy、Pandas及SciPy:Python数据科学速查表-Numpy基础Python数据科学速查表-Pandas基础Python数据科学速查表-Pandas进阶Python数据科学速查表-Sc... 查看详情

基于深度学习的口罩检测系统(python+清新界面+数据集)(代码片段)

...、视频、连接摄像头等方式的口罩检测,另外支持和结果可视化。在介绍算法原理的同时,给出Python的实现代码以及PyQt的UI界面。口罩检测系统可用于路口、商场等公共场合检测人脸是否佩戴口罩,佩戴和未佩戴口罩的数目、位... 查看详情

想学深度学习开发,需要提前掌握哪些python知识?

...服用效果更加(还可以加torchnet等一些其他模块)然后在可视化方面:PIL,cv2,visdom或tensorborad像NLP方向的话,还可以加些torchtext,jieba(中文),nltk(英文),各种API一些其他方向也有很多库,网上也能搜到参考技术A分享一份千锋的... 查看详情