tensorflow快餐教程-30行代码搞定手写识别

author author     2022-11-06     589

关键词:

去年买了几本讲tensorflow的书,结果今年看的时候发现有些样例代码所用的API已经过时了。看来自己维护一个保持更新的Tensorflow的教程还是有意义的。这是写这一系列的初心。

快餐教程系列希望能够尽可能降低门槛,少讲,讲透。

为了让大家在一开始就看到一个美好的场景,而不是停留在漫长的基础知识积累上,参考网上的一些教程,我们直接一开始就直接展示用tensorflow实现MNIST手写识别的例子。然后基础知识我们再慢慢讲。

Tensorflow安装速成教程

由于Python是跨平台的语言,所以在各系统上安装tensorflow都是一件相对比较容易的事情。GPU加速的事情我们后面再说。

Linux平台安装tensorflow

我们以Ubuntu 16.04版为例,首先安装python3和pip3。pip是python的包管理工具。

sudo apt install python3 sudo apt install python3-pip

然后就可以通过pip3来安装tensorflow:

pip3 install tensorflow --upgrade

MacOS安装tensorflow

建议使用Homebrew来安装python。

brew install python3

安装python3之后,还是通过pip3来安装tensorflow.

pip3 install tensorflow --upgrade

Windows平台安装Tensorflow

Windows平台上建议通过Anaconda来安装tensorflow,下载地址在:https://www.anaconda.com/download/#windows

然后打开Anaconda Prompt,输入:

conda create -n tensorflow pip activate tensorflow pip install --ignore-installed --upgrade tensorflow

这样就安装好了Tensorflow。

我们迅速来个例子试下好不好用:

import tensorflow as tf a = tf.constant(1) b = tf.constant(2) c = a * b sess = tf.Session() print(sess.run(c))

输出结果为2. 

Tensorflow顾名思义,是一些Tensor张量的流组成的运算。

运算需要一个Session来运行。如果print(c)的话,会得到

Tensor("mul_1:0", shape=(), dtype=int32)

就是说这是一个乘法运算的Tensor,需要通过Session.run()来执行。

入门捷径:线性回归

我们首先看一个最简单的机器学习模型,线性回归的例子。

线性回归的模型就是一个矩阵乘法:

tf.multiply(X, w)

然后我们通过调用Tensorflow计算梯度下降的函数tf.train.GradientDescentOptimizer来实现优化。

我们看下这个例子代码,只有30多行,逻辑还是很清晰的。例子来自github上大牛的工作:https://github.com/nlintz/TensorFlow-Tutorials,不是我的原创。

import tensorflow as tf import numpy as np trX = np.linspace(-1, 1, 101) trY = 2 * trX + np.random.randn(*trX.shape) * 0.33 # 创建一些线性值附近的随机值 X = tf.placeholder("float") Y = tf.placeholder("float") def model(X, w):    return tf.multiply(X, w) # X*w线性求值,非常简单 w = tf.Variable(0.0, name="weights") y_model = model(X, w) cost = tf.square(Y - y_model) # 用平方误差做为优化目标 train_op = tf.train.GradientDescentOptimizer(0.01).minimize(cost) # 梯度下降优化 # 开始创建Session干活! with tf.Session() as sess:    # 首先需要初始化全局变量,这是Tensorflow的要求    tf.global_variables_initializer().run()    for i in range(100):        for (x, y) in zip(trX, trY):            sess.run(train_op, feed_dict=X: x, Y: y)    print(sess.run(w))

最终会得到一个接近2的值,比如我这次运行的值为1.9183811

多种方式搞定手写识别

线性回归不过瘾,我们直接一步到位,开始进行手写识别。

技术分享图片

我们采用深度学习三巨头之一的Yann Lecun教授的MNIST数据为例。如上图所示,MNIST的数据是28x28的图像,并且标记了它的值应该是什么。

线性模型:logistic回归

我们首先不管三七二十一,就用线性模型来做分类。

算上注释和空行,一共加起来30行左右,我们就可以解决手写识别这么困难的问题啦!请看代码:

import tensorflow as tf import numpy as np from tensorflow.examples.tutorials.mnist import input_data def init_weights(shape):    return tf.Variable(tf.random_normal(shape, stddev=0.01)) def model(X, w):    return tf.matmul(X, w) # 模型还是矩阵乘法 mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels X = tf.placeholder("float", [None, 784]) Y = tf.placeholder("float", [None, 10]) w = init_weights([784, 10]) py_x = model(X, w) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=py_x, labels=Y)) # 计算误差 train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost) # construct optimizer predict_op = tf.argmax(py_x, 1) with tf.Session() as sess:    tf.global_variables_initializer().run()    for i in range(100):        for start, end in zip(range(0, len(trX), 128), range(128, len(trX)+1, 128)):            sess.run(train_op, feed_dict=X: trX[start:end], Y: trY[start:end])        print(i, np.mean(np.argmax(teY, axis=1) ==                         sess.run(predict_op, feed_dict=X: teX)))

经过100轮的训练,我们的准确率是92.36%。

无脑的浅层神经网络

用了最简单的线性模型,我们换成经典的神经网络来实现这个功能。神经网络的图如下图所示。

技术分享图片

我们还是不管三七二十一,建立一个隐藏层,用最传统的sigmoid函数做激活函数。其核心逻辑还是矩阵乘法,这里面没有任何技巧。

   h = tf.nn.sigmoid(tf.matmul(X, w_h))    return tf.matmul(h, w_o)

完整代码如下,仍然是40多行,不长:

import tensorflow as tf import numpy as np from tensorflow.examples.tutorials.mnist import input_data # 所有连接随机生成权值 def init_weights(shape):    return tf.Variable(tf.random_normal(shape, stddev=0.01)) def model(X, w_h, w_o):    h = tf.nn.sigmoid(tf.matmul(X, w_h))    return tf.matmul(h, w_o) mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels X = tf.placeholder("float", [None, 784]) Y = tf.placeholder("float", [None, 10]) w_h = init_weights([784, 625]) w_o = init_weights([625, 10]) py_x = model(X, w_h, w_o) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=py_x, labels=Y)) # 计算误差损失 train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost) # construct an optimizer predict_op = tf.argmax(py_x, 1) with tf.Session() as sess:    tf.global_variables_initializer().run()    for i in range(100):        for start, end in zip(range(0, len(trX), 128), range(128, len(trX)+1, 128)):            sess.run(train_op, feed_dict=X: trX[start:end], Y: trY[start:end])        print(i, np.mean(np.argmax(teY, axis=1) ==                         sess.run(predict_op, feed_dict=X: teX)))

第一轮运行,我这次的准确率只有69.11% ,第二次就提升到了82.29%。最终结果是95.41%,比Logistic回归的强!

请注意我们模型的核心那两行代码,完全就是无脑地全连接做了一个隐藏层而己,这其中没有任何的技术。完全是靠神经网络的模型能力。

深度学习时代的方案 - ReLU和Dropout显神通

上一个技术含量有点低,现在是深度学习的时代了,我们有很多进步。比如我们知道要将sigmoid函数换成ReLU函数。我们还知道要做Dropout了。于是我们还是一个隐藏层,写个更现代一点的模型吧:

   X = tf.nn.dropout(X, p_keep_input)    h = tf.nn.relu(tf.matmul(X, w_h))    h = tf.nn.dropout(h, p_keep_hidden)    h2 = tf.nn.relu(tf.matmul(h, w_h2))    h2 = tf.nn.dropout(h2, p_keep_hidden)    return tf.matmul(h2, w_o)

除了ReLU和dropout这两个技巧,我们仍然只有一个隐藏层,表达能力没有太大的增强。并不能算是深度学习。

import tensorflow as tf import numpy as np from tensorflow.examples.tutorials.mnist import input_data def init_weights(shape):    return tf.Variable(tf.random_normal(shape, stddev=0.01)) def model(X, w_h, w_h2, w_o, p_keep_input, p_keep_hidden):    X = tf.nn.dropout(X, p_keep_input)    h = tf.nn.relu(tf.matmul(X, w_h))    h = tf.nn.dropout(h, p_keep_hidden)    h2 = tf.nn.relu(tf.matmul(h, w_h2))    h2 = tf.nn.dropout(h2, p_keep_hidden)    return tf.matmul(h2, w_o) mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels X = tf.placeholder("float", [None, 784]) Y = tf.placeholder("float", [None, 10]) w_h = init_weights([784, 625]) w_h2 = init_weights([625, 625]) w_o = init_weights([625, 10]) p_keep_input = tf.placeholder("float") p_keep_hidden = tf.placeholder("float") py_x = model(X, w_h, w_h2, w_o, p_keep_input, p_keep_hidden) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=py_x, labels=Y)) train_op = tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost) predict_op = tf.argmax(py_x, 1) with tf.Session() as sess:    # you need to initialize all variables    tf.global_variables_initializer().run()    for i in range(100):        for start, end in zip(range(0, len(trX), 128), range(128, len(trX)+1, 128)):            sess.run(train_op, feed_dict=X: trX[start:end], Y: trY[start:end],                                          p_keep_input: 0.8, p_keep_hidden: 0.5)        print(i, np.mean(np.argmax(teY, axis=1) ==                         sess.run(predict_op, feed_dict=X: teX,                                                         p_keep_input: 1.0,                                                         p_keep_hidden: 1.0)))

从结果看到,第二次就达到了96%以上的正确率。后来就一直在98.4%左右游荡。仅仅是ReLU和Dropout,就把准确率从95%提升到了98%以上。

卷积神经网络出场

真正的深度学习利器CNN,卷积神经网络出场。这次的模型比起前面几个无脑型的,的确是复杂一些。涉及到卷积层和池化层。这个是需要我们后面详细讲一讲了。

import tensorflow as tf import numpy as np from tensorflow.examples.tutorials.mnist import input_data batch_size = 128 test_size = 256 def init_weights(shape):    return tf.Variable(tf.random_normal(shape, stddev=0.01)) def model(X, w, w2, w3, w4, w_o, p_keep_conv, p_keep_hidden):    l1a = tf.nn.relu(tf.nn.conv2d(X, w,                       # l1a shape=(?, 28, 28, 32)                        strides=[1, 1, 1, 1], padding='SAME'))    l1 = tf.nn.max_pool(l1a, ksize=[1, 2, 2, 1],              # l1 shape=(?, 14, 14, 32)                        strides=[1, 2, 2, 1], padding='SAME')    l1 = tf.nn.dropout(l1, p_keep_conv)    l2a = tf.nn.relu(tf.nn.conv2d(l1, w2,                     # l2a shape=(?, 14, 14, 64)                        strides=[1, 1, 1, 1], padding='SAME'))    l2 = tf.nn.max_pool(l2a, ksize=[1, 2, 2, 1],              # l2 shape=(?, 7, 7, 64)                        strides=[1, 2, 2, 1], padding='SAME')    l2 = tf.nn.dropout(l2, p_keep_conv)    l3a = tf.nn.relu(tf.nn.conv2d(l2, w3,                     # l3a shape=(?, 7, 7, 128)                        strides=[1, 1, 1, 1], padding='SAME'))    l3 = tf.nn.max_pool(l3a, ksize=[1, 2, 2, 1],              # l3 shape=(?, 4, 4, 128)                        strides=[1, 2, 2, 1], padding='SAME')    l3 = tf.reshape(l3, [-1, w4.get_shape().as_list()[0]])    # reshape to (?, 2048)    l3 = tf.nn.dropout(l3, p_keep_conv)    l4 = tf.nn.relu(tf.matmul(l3, w4))    l4 = tf.nn.dropout(l4, p_keep_hidden)    pyx = tf.matmul(l4, w_o)    return pyx mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels trX = trX.reshape(-1, 28, 28, 1)  # 28x28x1 input img teX = teX.reshape(-1, 28, 28, 1)  # 28x28x1 input img X = tf.placeholder("float", [None, 28, 28, 1]) Y = tf.placeholder("float", [None, 10]) w = init_weights([3, 3, 1, 32])       # 3x3x1 conv, 32 outputs w2 = init_weights([3, 3, 32, 64])     # 3x3x32 conv, 64 outputs w3 = init_weights([3, 3, 64, 128])    # 3x3x32 conv, 128 outputs w4 = init_weights([128 * 4 * 4, 625]) # FC 128 * 4 * 4 inputs, 625 outputs w_o = init_weights([625, 10])         # FC 625 inputs, 10 outputs (labels) p_keep_conv = tf.placeholder("float") p_keep_hidden = tf.placeholder("float") py_x = model(X, w, w2, w3, w4, w_o, p_keep_conv, p_keep_hidden) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=py_x, labels=Y)) train_op = tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost) predict_op = tf.argmax(py_x, 1) with tf.Session() as sess:    # you need to initialize all variables    tf.global_variables_initializer().run()    for i in range(100):        training_batch = zip(range(0, len(trX), batch_size),                             range(batch_size, len(trX)+1, batch_size))        for start, end in training_batch:            sess.run(train_op, feed_dict=X: trX[start:end], Y: trY[start:end],                                          p_keep_conv: 0.8, p_keep_hidden: 0.5)        test_indices = np.arange(len(teX)) # Get A Test Batch        np.random.shuffle(test_indices)        test_indices = test_indices[0:test_size]        print(i, np.mean(np.argmax(teY[test_indices], axis=1) ==                         sess.run(predict_op, feed_dict=X: teX[test_indices],                                                         p_keep_conv: 1.0,                                                         p_keep_hidden: 1.0)))

我们看下这次的运行数据:

0 0.95703125 1 0.9921875 2 0.9921875 3 0.98046875 4 0.97265625 5 0.98828125 6 0.99609375

在第6轮的时候,就跑出了99.6%的高分值,比ReLU和Dropout的一个隐藏层的神经网络的98.4%大大提高。因为难度是越到后面越困难。

在第16轮的时候,竟然跑出了100%的正确率:

7 0.99609375 8 0.99609375 9 0.98828125 10 0.98828125 11 0.9921875 12 0.98046875 13 0.99609375 14 0.9921875 15 0.99609375 16 1.0

综上,借助Tensorflow和机器学习工具,我们只有几十行代码,就解决了手写识别这样级别的问题,而且准确度可以达到如此程度。

原文链接

阅读更多干货好文,请关注扫描以下二维码:

技术分享图片


tensorflow2.0入门教程实战案例

中文文档TensorFlow2/2.0中文文档知乎专栏欢迎关注知乎专栏 https://zhuanlan.zhihu.com/geektutu一、实战教程之强化学习TensorFlow2.0(九)-强化学习70行代码实战PolicyGradientTensorFlow2.0(八)-强化学习DQN玩转gymMountainCarTensorFlow2.0(七)-强化学习Q-Le... 查看详情

深度学习手写数字识别tensorflow2实验报告(代码片段)

实验一:手写数字识别一、实验目的利用深度学习实现手写数字识别,当输入一张手写图片后,能够准确的识别出该图片中数字是几。输出内容是0、1、2、3、4、5、6、7、8、9的其中一个。二、实验原理(1)采... 查看详情

tensorflow实现cnn简单手写数字识别(python)(代码片段)

...行数:112行(主程序)开发环境:Python3.9、OpenCV4.5、Tensorflow2.7该源码均通过亲自测试可正常运行下载地址:点击下载简要概述:主要使用到的库:Numpy,Pygame,Tensorflow训练模型用到的是minist数据集由于时... 查看详情

tensorflow实践mnist手写数字识别

minst数据集                        tensorflow的文档中就自带了mnist手写数字识别的例子,是一个很经典也比较简单的入门tensorflow的例子,非常值得自己动 查看详情

机器学习教程十四-利用tensorflow做手写数字识别

...题,我们借这个多类分类问题来介绍一下google最新开源的tensorflow框架,后面深度学习的内容都会基于tensorflow来介绍和演示请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址什么是tensorflowtensor意思是张量,flow是... 查看详情

不需要服务器,教你仅用30行代码搞定实时健康码识别

本文分享自华为云社区《助力疫情防控,30行代码就能搞定无服务器实时健康码识别!》,作者:华为云PaaS服务小智。此次新冠疫情,波及范围之广,持续时间之久已经超出了我们的预料。自打疫情发生以... 查看详情

程序员写30行代码,应届生3行搞定!也配叫程序员?(代码片段)

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇作者:程序员小萧来源:https://www.jianshu.com/u/54f462970ba0身为一个程序员,我们应该知道学习对于自己职业的重要性。如果一个程序员,... 查看详情

基于tensorflow的手写数字识别代码(代码片段)

基于tensorflow的手写数字识别代码fromkeras.utilsimportto_categoricalfromkerasimportmodels,layers,regularizersfromkeras.optimizersimportRMSpropfromkeras.datasetsimportmnist(train_images,train_labels),(test_images, 查看详情

tensorflow反卷积(deconv)实现原理+手写python代码实现反卷积(deconv)(代码片段)

最近看到一个巨牛的人工智能教程,分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。平时碎片时间可以当小说看,【点这里可以去... 查看详情

10张图帮你搞定tensorflow数据读取机制

导读在学习tensorflow的过程中,有很多小伙伴反映读取数据这一块很难理解。确实这一块官方的教程比较简略,网上也找不到什么合适的学习材料。今天这篇文章就以图片的形式,用最简单的语言,为大家详细解释一下tensorflow的... 查看详情

tensorflow中使用cnn实现mnist手写体识别

  本文参考YannLeCun的LeNet5经典架构,稍加ps得到下面适用于本手写识别的cnn结构,构造一个两层卷积神经网络,神经网络的结构如下图所示:  输入-卷积-pooling-卷积-pooling-全连接层-Dropout-Softmax输出    第一层卷积利用5*... 查看详情

代码补全快餐教程-预训练模型的加载和使用(代码片段)

代码补全快餐教程(2)-预训练模型的加载和使用上一节我们用30多行代码建立了一个强大的补全模型,让大家对于transformers库有了个感性的认识。下面我们开始补课,更深入到了解下发生在幕后的故事。加载预训练好的语... 查看详情

tensorflow笔记之mnist手写识别系列一

tensorflow笔记(四)之MNIST手写识别系列一版权声明:本文为博主原创文章,转载请指明转载地址http://www.cnblogs.com/fydeblog/p/7436310.html前言这篇博客将利用神经网络去训练MNIST数据集,通过学习到的模型去分类手写数字。我会将本篇... 查看详情

mnist手写数字识别tensorflow(代码片段)

Mnist手写数字识别Tensorflow任务目标了解mnist数据集搭建和测试模型编辑环境操作系统:Win10python版本:3.6集成开发环境:pycharmtensorflow版本:1.*了解mnist数据集mnist数据集:mnist数据集下载地址??MNIST数据集来自美国国家标准与技术研究所,... 查看详情

tensorflow力学101笔记[4]

TensorFlow力学101笔记[4]本教程的目的是展示如何使用TensorFlow来训练和评估使用(经典)MNIST数据集的手写数字分类的简单前馈神经网络。教程文件本教程引用以下文件:文件目的mnist.py构建完全连接的MNIST模型的代码。fully_connected_... 查看详情

tensorflow入门-实现神经网络(代码片段)

quad学习tensorflow一段时间了,感觉非常的好用,在使用时,有时候最重要的是想好神经网络的结构,这样就可以随意的在神经网络中加如隐含层了,特别主要的是矩阵的维度相乘的问题,下面将使用tensorflow实现神经网络,做一下自己的理... 查看详情

美团云tensorflow迁移学习识花实战案例(transferlearning)(代码片段)

TensorFlow迁移学习识花实战案例(TransferLearning)TensorFlow迁移学习识花实战案例什么是迁移学习为什么要使用迁移学习识花模型中迁移学习的思路VGG模型介绍迁移VGG的思路演示代码文件介绍用例执行过程TensorFlow迁移学习识... 查看详情

tensorflow——mnist手写数据集(代码片段)

...里下载数据集。使用如下的代码对数据集进行加载:fromtensorflow.examples.tutorials.mnistimportinput_datamnist=input_data.read_data_set 查看详情