机器学习系统构建

claireyuancy claireyuancy     2022-09-04     419

关键词:

看了NG视频关于机器学习系统构建的建议,感觉非常有用,记录下来作为听课笔记。

首先是机器学习系统构建的流程:

技术分享

NG推荐方法:首先高速实现一个可能并非非常完美的算法系统。进行交叉验证,画出学习曲线去学习算法问题之处,是high bias or high variance 细节看这篇博文介绍:bias和variance在机器学习中应用

最重要一步:错误分析。手工检验算法错误学习的样本。找到算法在什么类型样例上犯错误!然后几种经历在处理这类错误上。

以下以垃圾邮件系统举例:

技术分享


反垃圾邮件系统发现误分类最多的是Steal passwords所以集中经历去解决这部分问题。这样能比較高效率。

另一个小窍门就是:学习算法我们须要有数值量化标准来评估算法!

课上NG提到Spam Email 中是否使用词干提取器,最好的办法就是实验两次分别使用和不适用。通过数值量化标准进行评估来选择是否採用词干提取器。

技术分享

然后视频中特别提到须要在cross validation 集上进行错误分析验证。看以下题目:

技术分享

前面提到数值量化标准,有一种倾斜类状态看下图,会发现通常情况下的错误率衡量标准问题所在:

技术分享

癌症病人比例为0.5% ,假设我们有一个算法错误率为1%,通常情况下这种错误率是比較好,可是假设我不用不论什么算法就预測病人没有癌症。我的错误率也仅仅有0.5%,所以须要引入新的数值评价标准:precision  recall 见实例非常好懂意思。

技术分享

通常情况下,我们定义fscore来进行precision recall 的trade off 

技术分享

有句话能够參考:It‘s not who has the best algorithm that wins It‘s who has the most data。

意思在强调数据重要性,可是这个不全然对。在上一篇博文中提到,在某些状态下一味添加数据量是没有作用的!什么时刻添加数据是有意义的了?看下图

技术分享


我们设定学习算法比較多參数,使用大的训练集,使得系统low bias low variance 这就是我们须要达到的目标!













使用kubeflow构建机器学习流水线(代码片段)

...章中,我已经向你介绍了Kubeflow,这是一个为团队设置的机器学习平台,需要构建机器学习流水线。 在本文中,我们将了解如何采用现有的机器学习详细并将其变成Kubeflow的机器学习流水线,进而可以部署在Kubernetes上。在进... 查看详情

使用kubeflow构建机器学习流水线(代码片段)

...章中,我已经向你介绍了Kubeflow,这是一个为团队设置的机器学习平台,需要构建机器学习流水线。在本文中,我们将了解如何采用现有的机器学习详细并将其变成Kubeflow的机器学习流水线,进而可以部署在Kubernetes上。在进行本... 查看详情

如何使用 libsvm 格式的数据集构建机器学习模型

】如何使用libsvm格式的数据集构建机器学习模型【英文标题】:Howtobuildamachinelearningmodelusingdatasetwithlibsvmformat【发布时间】:2016-11-0118:54:54【问题描述】:我有一个以.libsvm格式编写的数据集,我想使用机器学习算法构建一个分类... 查看详情

使用optuna为机器学习模型挑选最优参数进行模型构建实战

使用optuna为机器学习模型挑选最优参数进行模型构建实战目录使用optuna为机器学习模型挑选最优参数进行模型构建实战Optuna是什么 查看详情

手把手带你玩转spark机器学习-使用spark构建分类模型

系列文章目录手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总[持续更新]手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转... 查看详情

大数据学习笔记60:构建spark机器学习系统

文章目录一、机器学习系统架构二、启动Spark集群(一)Spark运行模式(二)SparkShell交互式环境1、SparkShell概述2、SparkContext、驱动程序与集群管理器的关系3、SparkSession(三)启动SparkShell1、启动HDFS2、启动Spark器群3、启动SparkShell... 查看详情

构建决策树回归模型并预测样本的输出 - 机器学习

】构建决策树回归模型并预测样本的输出-机器学习【英文标题】:BuildDecisionTreeRegressionModelandpredictingoutputfromsample-Machinelearning【发布时间】:2020-05-2714:06:35【问题描述】:我是机器学习的新手。当我使用来自scikit-learn模块的波士... 查看详情

sparkmllib学习笔记:构建一个机器学习工作流

文章目录一、任务描述二、实现步骤(一)引入包并构建训练数据集(二)定义工作流阶段(三)创建工作流,训练出模型(四)构建测试数据集(五)利用模型做预测一、任务描述查出所有包含“spark”的句子,将包含“spark... 查看详情

deeplearning.ai构建机器学习项目week1听课笔记

...些分析机器学习问题的方法,如何更快速高效的优化机器学习系统,以及NG自己的工程经验和教训。 1.正交化(Othogonalization)  设计机器学习系统时需要面对一个问题是:可以尝试和改变的东西太多太多了。牛逼的机器学习... 查看详情

如何为机器学习和预测构建良好的训练数据集?

】如何为机器学习和预测构建良好的训练数据集?【英文标题】:Howtobuildagoodtrainingdatasetformachinelearningandpredictions?【发布时间】:2016-07-1019:40:23【问题描述】:我有一个学校项目要编写一个程序,该程序使用Weka工具对足球(足... 查看详情

keras深度学习实战(35)——构建机器翻译模型(代码片段)

Keras深度学习实战(35)——构建机器翻译模型0.前言1.模型与数据集分析1.1模型分析1.2数据集分析2.实现机器翻译模型2.1预处理数据2.2传统多对多架构2.3使用具有多个隐藏层的模型架构小结系列链接0.前言我们已经学习了... 查看详情

在比特币上构建机器学习竞赛市场(代码片段)

我们提出了一种在比特币上实现去中心化机器学习(ML)市场的新方法。任何人都可以通过发布附带奖励的智能合约来外包机器学习任务。任何提交表现最佳模型的人都将通过区块链交易获得奖励,而无需通过中心化机构。如何... 查看详情

keras深度学习实战(34)——构建聊天机器人(代码片段)

Keras深度学习实战(34)——构建聊天机器人0.前言1.模型与数据集分析1.1命名实体识别1.2数据集分析1.3模型分析2.实现聊天机器人2.1命名实体提取模型2.2意图提取模型2.3模型整合小结系列链接0.前言随着自然语言处理技术... 查看详情

数据科学机器学习系列3机器学习的流程

...试试😂一、课程简介        构建、使用和维护机器学习模型及其所使 查看详情

当我尝试构建 Catkin 工作区时,Raspberry Pi 崩溃 [机器人操作系统]

】当我尝试构建Catkin工作区时,RaspberryPi崩溃[机器人操作系统]【英文标题】:RaspberryPicrasheswhenItrytobuildtheCatkinworkspace[RobotOperatingSystem]【发布时间】:2016-12-0514:50:28【问题描述】:目前我正在尝试按照此处的this指南开始使用机器... 查看详情

r语言使用dalex包对h2o包构建的机器学习模型进行解释分析:总结及实战

R语言使用DALEX包对h2o包构建的机器学习模型进行解释分析:总结及实战 目录R语言使用DALEX包对h2o包构建的机器学习模型进行解释分析:总结及实战< 查看详情

elasticsearch:构建机器学习模型:深入研究监督学习管道

...tskyy你听说过“烹饪就像科学”这句话吗?好吧,机器学习也是如此。就像烹饪一样,构建机器学习(ML)管道需要一系列精确的步骤、一点创造力以及对你正在使用的食材的充分理解。没有时间、技能或知识?或者... 查看详情

elasticsearch:构建机器学习模型:深入研究监督学习管道

...tskyy你听说过“烹饪就像科学”这句话吗?好吧,机器学习也是如此。就像烹饪一样,构建机器学习(ML)管道需要一系列精确的步骤、一点创造力以及对你正在使用的食材的充分理解。没有时间、技能或知识?或者... 查看详情