正文

数据挖掘与机器学习——weka应用技术与实践

author  author  2022-09-05  323

关键词：

第一章 weka介绍

1.1 weka简介

weka是怀卡托智分析环境（Waikato Environment for Knowledge Analysis）的英文缩写，官方网址为：<http://www.cs.waikato.ac.nz/ml/weka/>，在该网站可以免费下载可运行软件和代码，还可以获得说明文档、常见问题解答、数据集和其他文献等资源。

1.1.1 Weka的历史

团队宣称：我们的目标是要建立最先进的软件开发机器学习技术，并将其应用于解决现实世界的数据挖掘问题。目标：是机器学习技术容易获得，开发新的机器学习算法并推向世界。

1.1.2 Weka功能简介

Weka系统汇集了最前沿的机器学习算法和数据预处理工具。它为数据挖掘的整个过程提供了全面的支持，包括准备输入数据、统计评估学习方案、输入数据和学习效果的可视化。

Weka系统包括处理标准数据挖掘问题的所有方法：回归、分类、聚类、关联规则以及属性选择。分析要进行处理的数据是重要的一个环节，Weka提供了很多用于数据可视化和预处理的工具。输入数据可以由两种形式，第一种是以ARFF格式为代表的文件；另一种是直接读取数据库表。

使用Weka的方式主要有三种：第一种是将学习方案应用于某个数据集，然后分析其输出从而更多地了解这些数据；第二种是使用已经学习到的模型对新实例进行预测；第三种是使用多种学习器，然后根据其性能表现来选择其中的一种来进行预测。

Weka提供的最容易使用的图形用户接口称为Explorer。通过选择菜单和填写表单，可以调用Weka的所有功能。但是他会将所需数据武全部一次性读入内存，这种批量方式仅适合处理小规模问题。

Knowledge界面可以使用增量方式的算法来处理大型数据集，

1.2 基本概念

1.2.1 数据挖掘和机器学习

机器学习方法构成数据挖掘的核心，绝大多数的数据挖掘技术来自于机器学习领域。数据挖掘是在数据中寻找模式的过程。机器学习定义为能够自动寻找数据中的模式的一套方法，使用所发现的模式进行预测或者决策。

机器学习分为两种主要类型，第一种称为有监督的学习，或称为预测学习，其目标是在给定一系列输入输出实例所构成的数据集的条件下，学习输入X到输出y的映射关系。这里的数据集称为训练集。第二种为无监督的学习，或称描述学习，在给定一系列仅由输入实例构成的数据集的条件下，其目标是发现数据中的有趣模式。无监督学习有时也称知识发现。这类问题没有明确的定义，也没有明显的误差度量可供使用。

1.2.2 数据和数据集

数据挖掘的对象可以是各种各样的书记处，这些书记处可以以各种形式存储，如数据库、数据仓库、数据文件、流数据、多媒体、网页，等等。即可以集中存储在数据存储库中，也可以分布在世界各地的网络服务器上。数据集就是待处理数据对象的集合。数据对象有多个别名，如记录、点、行、向量、案例、样本、观测等。属性用于刻画数据对象的基本特征。属性也有多个别名，如变量、特征、字段、维、列等。

属性可以分为四种类型：标称（nominal）、序数（ordinal）、区间（interval）和比率（ratio），其中，标称属性仅提供区分对象的足够信息，如性别（男、女）等；序数属性的值可以提供确定对象的顺序的足够信息，如成绩等级（优、良、中、及格、不及格）等；区间属性的值之间的差是有意义的，即存在测量单位，如温度、日历日期等；比率属性的值之间的差和比值都是有意义的，如绝对温度、年龄，长度等。标称属性和序数属性统称为分类的（Categorical）或定性的（Qualitative）属性，它们的取值为集合，即使使用数值来表示，也不具备数的大部分性质，知识一个符号而已；区间属性和比率属性统称为定量的（Quantitative）或数值的（Numeric）属性，定量属性可以使用整数值或连续值来表示，具备数的大部分性质。

1.2.3 ARFF格式

ARFF是weka专用的数据格式，代表Attribute-Relation File Format（属性-关系文件格式）。该文件是ASCII文本文件，描述共享一组属性结构的实力列表，由独立且无序的实例组成。略

1.2.4 预处理

数据挖掘所使用的数据往往不是专门为挖掘准备的，人的错误、测量设备的限制以及数据收集过程的漏洞都可能导致一些问题。数据挖掘只能通过两个方面设法避免数据质量问题：1.数据质量问题的检测与纠正；2.使用能容忍低质量数据的算法。第一种方式在数据挖掘前检测并纠正一些质量问题，这个过程称为数据的预处理；第二种方式需要提高算法的健壮性。

数据预处理是数据挖掘的重要步骤，weka专门提供若干过滤器进行预处理，还在Explorer界面中提供选择属性标签页专门处理属性的自动选择问题。数据预处理包括如下技术：

1）聚类

聚类（Aggregation）就是将两个或多个对象合并为单个对象。一般定量数据通常通过求和或者求平均值的方式进行聚集，定性数据通常通过汇总进行聚集。聚集通过数据规约来减少数据量，所导致的较小数据集只需要较少内存和处理时间的开销。但有可能导致有趣细节的丢失。

2）抽样

如果处理全部数据的开销过大，数据预处理可以使用抽样，只选择数据对象的子集进行分析。使用抽样可以压缩数据量，但是要确保样本近似地具有原数据相同的性质。

3）维度归约

维度是指数据集中属性的数目。维度归约（Dimension Reduction）是指创建新属性，通过数据编码或数据变换，将一些旧属性合并在一起以降低数据集的维度。

4）属性选择

除维度归约外，降低维度的另一种方法是仅只使用属性的一个子集。表面看来似乎这种方法可能丢失信息，但很多情况下，数据集存在冗余和不相关的属性。如果将全部可能的属性子集作为输入，然后选取能产生最好结果的子集（理想算法），这样工作量巨大。这是考虑三种标准的属性选择方法：嵌入、过滤和包装。

嵌入方法（Embedded Approach）将属性选择作为数据挖掘算法的一部分。在挖掘算法运行期间，算法本身决定使用哪些属性以及忽略哪些属性。决策树算法通常使用这种方法。过滤方法（Filter Approach）在运行数据挖掘算法之间，使用独立于数据挖掘任务的方法进行属性选择。包装方法（Wrapper Approach）将学习算法的结果作为评价准则的一部分，使用类似前文介绍的理想算法，但通常无法枚举出全部可能的子集以找出最佳属性子集。

5）属性创建

属性创建就是通过对数据集中旧的属性进行处理。创建新的数据集，这样能更有效的获得重要的信息。由于通常新数据集的维度比原数据集少，可以获得维度归约带来的好处。属性创建有三种方式：属性提取、映射数据到新空间和属性构造。略

6）离散化和二元化

将连续属性转化为分类属性称为离散化（Discretization），将连续和离散属性转换为一个或多个二元属性

《分布式机器学习：算法理论与实践》pdf+刘铁岩+资料学习

《分布式机器学习：算法、理论与实践》旨在全面介绍分布式机器学习的现状，深入分析其中的核心技术问题，并且讨论该领域未来的发展方向。下载：https://pan.baidu.com/s/1XeOGCQK5qWCba8VK0KU21w《分布式机器学习：算法、理论与实践... 查看详情

郑捷《机器学习算法原理与编程实践》学习笔记（第七章预测技术与哲学）7.3岭回归

7.3岭回归7.3.1验证多重共线性7.3.2岭回归理论7.3.3岭际分析7.3.4k值的判断7.3.5辅助函数（1）导入多维数据集：加载数据集defloadDataSet(filename):numFeat=len(open(filename).readline().split(‘ ‘))-1#getnumberoffieldsdataMat=[]labelMat=[]fr=ope 查看详情

郑捷《机器学习算法原理与编程实践》学习笔记（第七章预测技术与哲学）7.1线性系统的预测

7.1.1回归与现代预测 7.1.2最小二乘法 7.1.3代码实现（1）导入数据defloadDataSet(self,filename):#加载数据集X=[];Y=[]fr=open(filename)forlineinfr.readlines():curLine=line.strip().split(‘ ‘)X.append(float(curLine[0]) 查看详情

数学之路(机器学习实践指南)-文本挖掘与nlp

defwordfeatures(word):return{"cnword":word}.....classifier=nltk.NaiveBayesClassifier.train(samplewords)#大学所属的类别http://blog.csdn.net/myhasplprintu"----大学所属的类别-----"printclassifier.c 查看详情

数学之路(机器学习实践指南)-文本挖掘与nlp

#条件频率，每个词条在不同分类中出现的频率print"------------------"cfd=nltk.ConditionalFreqDist(samplewords)fdist=cfd[u‘财经‘]forwordinfdist:printwordprint"---------流动性出现次数-----------"printcfd[u‘财经‘][u‘流查看详情

实践中的机器学习：自己编写算法还是使用 Weka？

】实践中的机器学习：自己编写算法还是使用Weka？【英文标题】：MachineLearninginpractice:WritingalgorithmsyourselforusingWeka?【发布时间】：2013-08-1309:30:07【问题描述】：我问自己一个问题，大多数人是否通常自己编写机器学习算法，或... 查看详情

机器学习算法与编程实践之中文文本分类

这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景，以文本分类算法为中心，详细介绍了中文文本分类项目的相关知识点。一、文本挖掘与文本分类的概念被普遍认可的文本挖掘... 查看详情

基于机器学习的带宽估计在淘宝直播中的探索与实践

...#xff0c;大淘宝技术内容中台音视频基础技术团队，基于机器学习的带宽预测算法在淘宝直播的业务背景下的探索与大规模实践的成果。背景常见的媒体传输中带宽估计的算法有GCC/BBR/PCC/QUBIC等，主要基于传统的基于策略的... 查看详情

阅读书单2020

...程序深入浅出密码学——常用加密技术原理与应用机器学习深入理解Java虚拟机：JVM高级特性与最佳实践HotSpot实战深入浅出promethuseElasticSearch源码解析与优化实践Tensorflow：实战Google深度学习框架深度学习原理与实践深度学... 查看详情

《分布式机器学习：算法理论与实践》——re

分布式机器学习：算法、理论与实践——【1】分布式机器学习：算法、理论与实践2）——【2】《分布式机器学习：算法、理论与实践》——【RE】查看详情

机器学习平台痛点与模型提升方法：基于spark的机器学习平台在点融网风控应用介绍

...利，点融网DataScientistTeam负责人，从事互联网数据分析和数据挖掘近十年。现任点融网DataScie 查看详情

机器学习：weka的应用之j48（c4.5）(代码片段)

对于机器学习分类问题的解决方法除了SVM（支持向量机）、maxent（最大熵）还有J48和Adaboost，这两项工具箱都有集成在weka里，下面先说一下对J48即C4.5的应用weka的下载与安装什么是J48（C4.5）weka中J48&... 查看详情

李宏毅2020机器学习深度学习笔记1+2&&深度学习基础与实践课程笔记2

机器学习：研究如何从观测数据(observations)中寻找“规律”(skill)，这些规律可以在未知数据上的表现有所改进。目的：使用“高质量”的训练数据，构建“合适”的模型，以“更佳地”完成任务。本质：让... 查看详情

郑捷《机器学习算法原理与编程实践》学习笔记（第三章决策树的发展）_scikit-learn与回归树

　　（上接第三章）　　　3.4Scikit-Learn与回归树　　3.4.1回归算法原理　　在预测中，CART使用最小剩余方差（squaredResidualsMinimization）来判断回归时的最优划分，这个准则期望划分之后的子树与样本点的误差方差最小。这样决策... 查看详情

机器学习基础与实践----数据降维之pca

写在前面：本来这篇应该是上周四更新，但是上周四写了一篇深度学习的反向传播法的过程，就推迟更新了。本来想参考PRML来写，但是发现里面涉及到比较多的数学知识，写出来可能不好理解，我决定还是用最通俗的方法解释PC... 查看详情

机器学习——深度神经网络实践（fcncnnbp）(代码片段)

目录系列文章目录一、CNN（卷积神经网络）与FCN（全连接网络）的异同1.相同点2.区别二、神经网络前向后向传播算法的优化迭代公式三、深度神经网络算法的应用1.人脸识别1.1数据导入1.2模型搭建与使用1.3结果与... 查看详情

vivo互联网机器学习平台的建设与实践

...模型的训练、产出迫切需要进行平台化管理。vivo互联网机器学习平台主要业务场景包括游戏分发、商店、商城、内容分发等。本文将从业务场景、平台功能实现两个方面介绍vivo内部的机器学习平台在建设与实践中的思考和优化... 查看详情

python机器学习及实践+从零开始通往kaggle竞赛之路

内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据... 查看详情