计算机视觉(cv)基于高层api实现宝石分类(代码片段)

author author     2022-12-05     592

关键词:

【计算机视觉(CV)】基于高层API实现宝石分类


(文章目录)


前言

(一)、任务描述

图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题

宝石识别属于图像分类中的一个细分类问题

实践平台:百度AI实训平台-AI Studio

实践环境:Python3.7,PaddlePaddle2.0


(二)、环境配置

本实践代码运行的环境配置如下:Python版本为3.7,PaddlePaddle版本为2.0.0,操作平台为AI Studio。大部分深度学习项目都要经过以下几个过程:数据准备、模型配置、模型训练、模型评估。

import paddle
import numpy as np
import matplotlib.pyplot as plt
print(paddle.__version__)

# cpu/gpu环境选择,在 paddle.set_device() 输入对应运行设备。
# device = paddle.set_device(gpu)

一、方案设计

(一)、深度神经网络(DNN)

深度神经网络(Deep Neural Networks,简称DNN)是深度学习的基础,其结构为input、hidden(可有多层)、output,每层均为全连接。


二、数据集介绍

  • 数据集文件名为archive_train.zip,archive_test.zip。
  • 该数据集包含25个类别不同宝石的图像。
  • 这些类别已经分为训练和测试数据。
  • 图像大小不一,格式为.jpeg。 ​ ​

请勿将本数据集用于商务用途。


三、数据集预处理

本案例主要分以下几个步骤进行数据预处理:

(1)解压原始数据集

(2)按照比例划分训练集与验证集

(3)乱序,生成数据列表

(4)定义数据读取器,转换图片


(一)、导入相关包

首先我们引入本案例需要的所有模块

#导入所需的包
import os
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import paddle
import paddle.nn as nn

(二)、生成图像列表


参数配置

train_parameters = 
    "input_size": [3, 224, 224],                           #输入图片的shape
    "class_dim": 25,                                     #分类数
    "src_path":"data/data55032/archive_train.zip",       #原始数据集路径
    "target_path":"/home/aistudio/data/dataset",        #要解压的路径 
    "train_list_path": "./train.txt",              #train_data.txt路径
    "eval_list_path": "./eval.txt",                  #eval_data.txt路径
    "label_dict":,                                    #标签字典
    "readme_path": "/home/aistudio/data/readme.json",   #readme.json路径
    "num_epochs": 40,                                    #训练轮数
    "train_batch_size": 32,                             #批次的大小
    "learning_strategy":                               #优化函数相关的配置
        "lr": 0.0001                                     #超参数学习率
     



输出结果如下图1所示:


(三)、定义数据集

通过继承paddle.io.Dataset对数据集进行定义


import paddle
import paddle.vision.transforms as T
import numpy as np
from PIL import Image


class FoodDataset(paddle.io.Dataset):
    """
    数据集类的定义
    """
    def __init__(self, mode=train_data):
        """
        初始化函数
        """
        self.data = []
        with open(fmode.txt) as f:
            lines = f.readlines()
            np.random.shuffle(lines)
            for line in lines:
                info = line.strip().split(\\t)
                if len(info) > 0:
                    self.data.append([info[0].strip(), info[1].strip()])  
                      
    def __getitem__(self, index):
        """
        根据索引获取单个样本
        """
        image_file, label = self.data[index]
        img = Image.open(image_file) 
        img = img.resize((img_size, img_size), Image.ANTIALIAS)
        img = np.array(img).astype(float32)
        # img = img[:,:,:]
        img = img.transpose((2, 0, 1))[:3,:,:]     #读出来的图像是rgb,rgb,rbg..., 转置为 rrr...,ggg...,bbb...
        # print(img.shape)
        img = img[:,:,:]/255.0
        # if img.size!=img_size*img_size*3:
        #     print(error-----------------------,img.size,img.shape)
        return img, np.array(label, dtype=int64)

    def __len__(self):
        """
        获取样本总数
        """
        return len(self.data)

(四)、定义数据集训练器

# 训练的数据提供器
train_dataset = FoodDataset(mode=train_data)
# 测试的数据提供器
eval_dataset = FoodDataset(mode=test_data)

# 查看训练和测试数据的大小
print(train大小:, train_dataset.__len__())
print(eval大小:, eval_dataset.__len__())

# 查看图片数据、大小及标签
# for data, label in train_dataset:
#     print(data)
#     print(np.array(data).shape)
#     print(label)
#     break

输出结果如下图2所示:


三、定义模型

from paddle.nn import Linear
import paddle.nn.functional as F
import paddle

#定义DNN网络
class MyDNN(paddle.nn.Layer):
    def __init__(self):
        super(MyDNN,self).__init__()
        self.hidden1 = Linear(img_size,512)
        self.hidden2 = Linear(512,256)
        self.hidden3 = Linear(256,128)
        self.hidden4 = Linear(3*img_size*128,labels_number)
    
    def forward(self,input): 
        x = self.hidden1(input) 
        x =F.relu(x) 
        x = self.hidden2(x)
        x = F.relu(x) 
        x = self.hidden3(x)
        x = F.relu(x) 
        x = paddle.reshape(x, shape=[-1,3*img_size*128])  
        x = self.hidden4(x)
        y = F.softmax(x) 
        return y


四、模型封装

network = MyDNN()
model = paddle.Model(network)  # 模型封装

# 配置优化器、损失函数、评估指标
model.prepare(paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters()), 
              paddle.nn.CrossEntropyLoss(), 
              paddle.metric.Accuracy())

# 可视化模型结构
# paddle.summary(network, (3,225,225))

五、训练回调函数

# 训练可视化VisualDL工具的回调函数
visualdl = paddle.callbacks.VisualDL(log_dir=visualdl_log)   

# 启动模型全流程训练
model.fit(train_dataset,  # 训练数据集
          eval_dataset,   # 评估数据集
          epochs=20,       # 训练的总轮次
          batch_size=64,  # 训练使用的批大小
          verbose=1,      # 日志展示形式
          callbacks=[visualdl])  # 设置可视化

输出结果如下图5所示:


六、模型评估

# 模型评估,根据prepare接口配置的loss和metric进行返回
result = model.evaluate(eval_dataset, verbose=1)
print(result)
# 读取图片
def load_image(path):
    img = Image.open(path)
    img = img.resize((img_size, img_size), Image.ANTIALIAS)
    img = np.array(img).astype(float32)
    img = img.transpose((2, 0, 1))
    img = img/255.0
    print(img.shape)
    return img

七、模型预测

# 读取模型准备预测
model_state_dict = paddle.load(finetuning/model.pdparams)
model = MyDNN()
model.set_state_dict(model_state_dict) 
model.eval()

# 读取图片并预测
data = load_image(data/data55032/test/Alexandrite/alexandrite_18.jpg)
ceshi = model(paddle.to_tensor(data))
id2label = v:k for k,v in label2id.items()
print(预测的结果为:,id2label[np.argmax(ceshi.numpy())])


总结

本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟,其中代码均为基于百度飞桨开发,若有任何侵权和不妥之处,请私信于我,定积极配合处理,看到必回!!!

最后,引用本次活动的一句话,来作为文章的结语~( ̄▽ ̄~)~:

【**学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。**】

计算机视觉(cv)基于全连接网络实现宝石分类(代码片段)

【计算机视觉(CV)】基于全连接网络实现宝石分类(文章目录)前言(一)、任务描述本次实践是一个多分类任务,需要将照片中的宝石分别进行识别,完成宝石的识别实践平台:百度AI实训平台-AIStudio、PaddlePaddle2.0.0动态图(二)、环... 查看详情

计算机视觉(cv)基于卷积神经网络实现美食分类(代码片段)

【计算机视觉(CV)】基于卷积神经网络实现美食分类(文章目录)前言任务描述如何根据据图像的视觉内容为图像赋予一个语义类别是图像分类的目标,也是图像检索、图像内容分析和目标识别等问题的基础。本实践旨在通过一... 查看详情

emgu.cv

...几期写完什么是OpenCV?OpenCV是一个基于(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处... 查看详情

计算机视觉(cv)sklearn之分类算法与手写数字识别(代码片段)

【计算机视觉(CV)】sklearn之分类算法与手写数字识别(文章目录)前言(一)、任务描述数据介绍数据读取与存储形式sklearn分类模型代码实现与结果(二)、环境配置本实践代码运行的环境配置如下:Python版本为3.7,PaddlePaddle版本为2.... 查看详情

计算机视觉(cv)基于k-means实现鸢尾花聚类(代码片段)

【计算机视觉(CV)】基于k-means实现鸢尾花聚类(文章目录)前言(一)、任务描述对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大(二)、环境配置本... 查看详情

Open CV 计算机视觉中的 haar 级联分类器里面有啥?

】OpenCV计算机视觉中的haar级联分类器里面有啥?【英文标题】:What\'sinsideahaarcascadeclassifierinOpenCVcomputervision?OpenCV计算机视觉中的haar级联分类器里面有什么?【发布时间】:2011-05-2719:07:15【问题描述】:我需要将.xmlOpenCVhaar级联... 查看详情

Open CV 计算机视觉中的 haar 级联分类器里面有啥?

】OpenCV计算机视觉中的haar级联分类器里面有啥?【英文标题】:What\'sinsideahaarcascadeclassifierinOpenCVcomputervision?OpenCV计算机视觉中的haar级联分类器里面有什么?【发布时间】:2011-05-2719:07:15【问题描述】:我需要将.xmlOpenCVhaar级联... 查看详情

基于传统cv实现图片分类(以图搜图)(代码片段)

图片分类在计算机领域并不是一个新鲜的话题了,相对于传统计算机视觉(CV)方法解决这类问题,深度学习的效果反而更好。但是我们依然需要了解传统做法,说不定在未来研究时可以提供不一样的灵感。图... 查看详情

cv图像数据预处理详解(代码片段)

【CV】图像数据预处理详解@TOC前言什么是计算机视觉?计算机视觉(ComputerVision)又称为机器视觉(MachineVision),顾名思义就是要让计算机能够去“看”人类眼中的世界并进行理解和描述。什么是图像分类?图像分类是计算机视觉中... 查看详情

设计一个卷积神经网络模型用于遥感图像的场景分类(代码片段)

...要的场景分类方法可以分为三类:第一类是基于底层视觉特征的场景分类方法,第二类是基于中层视觉表示的场景分类方法,第三类是基于高层视觉信息的场景分类方法。其中基于高层视觉信息的场景分类方法通过训... 查看详情

计算机视觉·opencv使用haar+cascade实现人脸检测(代码片段)

前言人脸检测的目标是找出图像中所有的人脸对应的位置,算法的输出是人脸的外接矩形在图像中的坐标。使用haar特征和cascade检测器进行人脸检测是一种传统的方式,下面将给出利用OpenCV中的haarcascade进行人脸检测的代... 查看详情

计算机视觉:图片的边缘检测映射和油画效果(代码片段)

1.图片的边缘检测1.1调用cv2api方法importcv2img=cv2.imread(filename='../anqila21.jpg',flags=1)imgInfo=img.shapeheight=imgInfo[0]width=imgInfo[1]gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)#灰度处理imgG=cv2.GaussianBlur(gray,(3,3),0)#高斯滤波ÿ... 查看详情

计算机视觉:图片的边缘检测映射和油画效果(代码片段)

1.图片的边缘检测1.1调用cv2api方法importcv2img=cv2.imread(filename='../anqila21.jpg',flags=1)imgInfo=img.shapeheight=imgInfo[0]width=imgInfo[1]gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)#灰度处理imgG=cv2.GaussianBlur(gray,(3,3),0)#高斯滤波ÿ... 查看详情

computervision基于resnet-50实现cifar10数据集分类(代码片段)

...分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题猫狗分类属于图像分类中的粗粒度分类问题一、美食识别数据集加载(一)、参数配置导入相关包:#导入需要的包importpaddleimportosimportnumpyasnpfrom... 查看详情

深度学习和计算机视觉(cv)介绍(代码片段)

目录1深度学习概述1.1什么是深度学习1.2发展历史2计算机视觉(CV)2.1计算机视觉定义2.2常见任务2.3应用场景2.3.1人脸识别2.3.2视频监控2.3.3图片识别分析2.3.4辅助驾驶2.4发展历史1深度学习概述1.1什么是深度学习在介绍深度... 查看详情

设计一个卷积神经网络模型用于遥感图像的场景分类(代码片段)

...要的场景分类方法可以分为三类:第一类是基于底层视觉特征的场景分类方法,第二类是基于中层视觉表示的场景分类方法,第三类是基于高层视觉信息的场景分类方法。其中基于高层视觉信息的场景分类方法通过训... 查看详情

python计算机视觉(十七)——基于knn的图像分类(代码片段)

...#xff0c;这是非常复杂并且费时耗力的工作。因此,利用计算机辅助自动将图片按照人们理解的方式, 查看详情

计算机视觉之图像特效(实现图像灰度处理等功能)(待更新。。。)(代码片段)

1.图像灰度处理下面介绍四种图像灰度处理的方法:方法1:cv2中的imread(参数:0表示为灰度图片,1表示为彩色图片)测试代码如下:1importcv22#方法1imread3img0=cv2.imread(‘image0.jpg‘,0)#0为灰度图片1为彩色图片4img1=cv2.imread(‘image0.jpg... 查看详情