阿里云机器学习平台pai之分类实践(代码片段)

柳小葱 柳小葱     2022-11-30     269

关键词:

💜这篇博客是机器学习PAI的实践部分,主要演示的是分类算法在平台上的使用方法,对往期内容感兴趣的小伙伴可以查看一下内容👇:

💖自己动手学完一遍之后,发现这个平台所提供的功能太强大了,主流的模型方法,特征工程,评估方法等很全面。让我们开始今日的学习吧!

目录

1. 实验目的

实验借助葡萄酒的11种指标并通过线性支持向量机和逻辑回归多分类方法对不同类别的葡萄酒建立模型,检验此模型效果,以此达到通过模型可以预测葡萄酒类别的目的。

2. 导入数据

  1. 进入DataWorks的数据开发界面

  1. 创建数据表

  1. DDL模式生成表,提交到生产环境

  1. 将数据导入表中

  1. 导入成功

  1. 预览数据

3. 二分类分析

实验目标:对原始数据上已有的标签(即classification字段,该字段有3-9共7个类别)进行分类,为消除量纲而进行归一化操作后进行切分比例为0.8的拆分,用80%的数据进行分析建模,用剩余20%的数据对建立的模型进行检验,具体通过查看这20%的数据在classification字段上的准确率(即模型预测出的类别和这葡萄酒本身的类别符合程度)的方式明确模型效果

  1. 进入平台

  1. 进入项目

  1. 新建实验

  1. 读取数据表,将它拽过来改个名字

  1. 设置该节点的数据表为wine_classification

  1. 我们这里做的是二分类,所以先将classification分为3、4、5、6一类和7、8、9一类,分别标为0和1,拖拽一个sql组件,写入sql语句将数据分为两类。

--3、4、5、6一类和7、8、9一类,分别标为0和1
select
fixed_acidity,volatile_acidity,citric_acid,suger,chlorides,
free_sul_dio,total_sul_dio,density,ph,sulphates,alcohol,
(case when classification > 6 then 1 else 0 end) as grade
from $t1
  1. 数据标记成功

  1. 数据归一化

  1. 选择归一化字段

  1. 拆分训练集和测试集(80%训练,20测试)


拆分组件有两个输出口,左边输出口为用来建模的80%数据,右边输出口为预测的20%数据。

  1. 选择支持向量机模型,设置特征列和标签列

  1. 预测和混淆矩阵设置相同

  1. 可添加评估模块,评估结果

4. 多分类实践

多分类实践和二分类一样的,主要的区别在于导入数据那一块,我们可以指定分成几类,比如为3、4、5一类,6、7一类,8、9一类,然后采用sql语句设置标签列。

5. 参考资料

《阿里云全球培训中心》
《机器学习PAI平台产品手册》

阿里云机器学习平台pai之理论基础

🍓在前几章的学习中,我们学习了阿里云系列的计算平台MaxComputer、大数据治理和分析平台DataWorks和可视化平台QuickBI,今天进入阿里云大数据的最后部分的学习——机器学习平台PAI,对往期内容感兴趣的小伙伴可... 查看详情

阿里云机器学习平台——pai平台

在云栖TechDay第十五期活动上,阿里云iDST资深技术专家褚崴给大家带来了《阿里云机器学习平台》的分享,他以机器学习的概念入手展开了此次分享,演讲中他重点介绍了阿里云机器学习平台的基础架构和产品特点,并结合阿里... 查看详情

感悟:微博深度学习平台架构和实践

...布式性能上表现优异。PaddlePaddle、鲲鹏、Angel则是百度、阿里、腾讯分别推出的分布式计算框架。 腾讯深度学习平台DI-X 腾讯深度学习平台DI-X于2017年3月发布。DI-X基于腾讯云的大数据存储与处理能力来提供一站式的机器... 查看详情

机器学习pai实践二人口普查统计

...、背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘数据中的价值。本系列文章包含详细的实验流程以及相关的文档教程... 查看详情

阿里pai深度学习组件:tensorflow实现图片智能分类实验

PAI简介阿里云机器学习PAI(PlatformofArtificialIntelligence)是一款一站式的机器学习平台,包含数据预处理、特征工程、常规机器学习算法、深度学习框架、模型的评估以及预测这一整套机器学习相关服务。由于目前PAI还属于公测阶... 查看详情

机器学习pai实践二人口普查统计

...、背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习怎样通过算法来挖掘数据中的价值。本系列文章包括具体的实验流程以及相关的文档教程... 查看详情

[阿里云-机器学习pai快速入门与业务实战]课时1-机器学习背景知识以及业务架构介绍

什么是机器学习?     机器学习指的是机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。目前机器学习主要在一下一些方面发挥作用:营销类场景:商品推荐、用户... 查看详情

阿里云机器学习pai构建ai集团军作战,联手intel在ai软硬件领域发力

第一届“英特尔创新大师杯”深度学习挑战赛已在阿里云天池平台如火如荼的进行中。本次大赛由英特尔主办,阿里云计算平台机器学习PAI联合达摩院以及中文信息协会等组织机构联合承办,共有近7500支队伍报名参赛... 查看详情

机器学习实践:基于支持向量机算法对鸢尾花进行分类(代码片段)

摘要:Listitem使用scikit-learn机器学习包的支持向量机算法,使用全部特征对鸢尾花进行分类。本文分享自华为云社区《支持向量机算法之鸢尾花特征分类【机器学习】》,作者:上进小菜猪。一.前言1.1本文原理支... 查看详情

阿里云随笔(10)-pai-automl

在数据管理中,重新上传完整的白葡萄酒数据。然后可以进入数据开发,写sql代码对数据表进行查询。比如统计训练样本和测试数据的大小。打开建立好的葡萄酒质量多分类模型看看分类评结果。正确率83.55%开始自动调... 查看详情

机器学习实践五机器学习眼中的《人民的名义》

...了文本分析,希望从数据的角度得到一些输入。本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验:分词以及词频统计每一章的关键词提取每一章的文本摘要每一章文本之 查看详情

毕业设计之---新闻分类系统(代码片段)

...设计中比较热门的,本质上是属于自然语言分类,可以使用机器学习算法去处理,也可以使用深度学习算法去处理.基本步骤如下:文本数据采集-->选择训练算法(机器学习/深度学习)-->进行训练-->检效果.本文章博主将介绍:从头... 查看详情

毕业设计之---新闻分类系统(代码片段)

...设计中比较热门的,本质上是属于自然语言分类,可以使用机器学习算法去处理,也可以使用深度学习算法去处理.基本步骤如下:文本数据采集-->选择训练算法(机器学习/深度学习)-->进行训练-->检效果.本文章博主将介绍:从头... 查看详情

数加平台——阿里大数据os实践

数加是什么在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute、ADS、流计算、大数据开发套件;人工智能部分,机器学习(基础平台是PAI)、语音识别、ET等;数据分析展... 查看详情

主流机器学习平台调研与对比分析

梗概本报告主要调研目前主流的机器学习平台,包括但不限于Amazon的Sagemaker,Alibaba的PAI,Baidu的PaddlePaddle。对产品的定位、功能、实践、定价四个方面进行详细解析,并通过标杆对比分析提出一套机器学习平台评... 查看详情

基于maxcompute+pai的用户增长方案实践

...xff0c;包含拉新、促活、留存、创收、分享。本文作者李博阿里云智能高级产品专家在过去一年阿里云PAI机器学习团队做了很多偏业务的实践,其中有一条就是基于MaxCompute+PAI的产品方案实践,解决客户遇到用户增长相... 查看详情

机器学习实践二人口普查统计

...、背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘数据中的价值。本系列文章包含详细的实验流程以及相关的文档教程... 查看详情

机器学习算法与编程实践之中文文本分类

这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。一、文本挖掘与文本分类的概念被普遍认可的文本挖掘... 查看详情