coursera机器学习week10笔记

starry starry     2022-10-14     203

关键词:

Large scale machine learning

Learning with large datasets

如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有 100 万条记录的训练集?

 

以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和,如果我们的学习算法需要有 20 次迭代,这便已经是非常大的计算代价。
首先应该做的事是去检查一个这么大规模的训练集是否真的必要,也许我们只用 1000 个训练集也能获得较好的效果,我们可以绘制学习曲线来帮助判断。

Stochastic gradient descent

如果我们一定需要一个大规模的训练集,我们可以尝试使用随机梯度下降法来代替批量梯度下降法。
在随机梯度下降法中,我们定义代价函数为一个单一训练实例的代价:

随机梯度下降算法为:首先对训练集随机“洗牌”,然后: 

算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值的那一点,而是在最小值点附近徘徊。

Mini-­batch gradient descent  

微型批量梯度下降算法是介于批量梯度下降算法和随机梯度下降算法之间的算法,每计算常数 b 次训练实例,便更新一次参数 Θ。

 

通常我们会令 b 在 2-100 之间。这样做的好处在于,我们可以用向量化的方式来循环 b 个训练实例,如果我们用的线性代数函数库比较好,能够支持平行处理,那么算法的总体
表现将不受影响(与随机梯度下降相同)。

Stochastic gradient descent convergence

 

在随机梯度下降中,我们在每一次更新 Θ 之前都计算一次代价,然后每 X 次迭代后,求出这 X 次对训练实例计算代价的平均值,然后绘制这些平均值与 X 次迭代的次数之间的
函数图表。

 

Online learning

在线学习算法指的是对数据流而非离线的静态数据集的学习。许多在线网站都有持续不断的用户流,对于每一个用户,网站希望能在不将数据存储到数据库中便顺利地进行算法学
习。

Map-­reduce and data parallelism  

映射化简和数据并行对于大规模机器学习问题而言是非常重要的概念。之前提到,如果我们用批量梯度下降算法来求解大规模数据集的最优解,我们需要对整个训练集进行循环,
计算偏导数和代价,再求和,计算代价非常大。如果我们能够将我们的数据集分配给不多台计算机,让每一台计算机处理数据集的一个子集,然后我们将计所的结果汇总在求和。这样的方法叫做映射简化。

很多高级的线性代数函数库已经能够利用多核 CPU 的多个核心来并行地处理矩阵运算,这也是算法的向量化实现如此重要的缘故(比调用循环快)。

 

 

coursera机器学习week11笔记

Applicationexample:PhotoOCRProblemdescriptionandpipeline图像文字识别应用所作的事是,从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。 为了完成这样的工作,需要采取如下步骤:1.文字侦测(Textdetection)&mda... 查看详情

coursera机器学习week10单元测试

LargeScaleMachineLearning选B选CD选CD选AC不确定  查看详情

coursera机器学习week8笔记

ClusteringUnsupervisedlearningintroduction什么是非监督学习呢?在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟... 查看详情

coursera机器学习week7笔记

SupportVectorMachines(支持向量机)Optimizationobjective与逻辑回归和神经网络相比,支持向量机,或者简称SVM。在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。这是逻辑回归里的,右边是S型激励函数,我们用z表示&... 查看详情

coursera机器学习week9笔记

Anomalydetection(异常检测)Problemmotivation给定数据集,先假设它们都是正常的,如果有一新的数据,想知道是不是异常,即这个测试数据不属于该组数据的几率如何。在上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是... 查看详情

coursera机器学习week4笔记

NeuralNetworks: RepresentationNon-linearhypotheses我们之前学到的,无论是线性回归还是逻辑回归都有一个缺点,当特征太多时,计算负荷会非常的大。如下:只有x1和x2,但运用多次项进行预测时,我们的方程可以很好的预测。使用非... 查看详情

吴恩达-coursera-机器学习-week6

十、应用机器学习的建议(AdviceforApplyingMachineLearning)10.1决定下一步做什么10.2评估一个假设10.3模型选择和交叉验证集10.4诊断偏差和方差10.5正则化和偏差/方差10.6学习曲线10.7决定下一步做什么十一、机器学习系统的设计(MachineLearnin... 查看详情

吴恩达-coursera-机器学习-week10

十七、大规模机器学习(LargeScaleMachineLearning)17.1大型数据集的学习17.2随机梯度下降法17.3小批量梯度下降17.4随机梯度下降收敛17.5在线学习17.6映射化简和数据并行十八、应用实例:图片文字识别(ApplicationExample:PhotoOCR)18.1问题描述和... 查看详情

coursera机器学习week6单元测试

Week6|| AdviceforApplyingMachineLearning高方差,选B出现过拟合问题,选BD出现欠拟合问题,选BC选AC 一般用622来分,随机打乱数据是很有必要的。  选择BDA、出现高偏差,增加训练数据会增加测试误差C、明显错的week6|| ... 查看详情

coursera课程《machinelearning》学习笔记(week1)

这是Coursera上比较火的一门机器学习课程,主讲教师为AndrewNg。在自己看神经网络的过程中也的确发现自己有基础不牢、一些基本概念没搞清楚的问题,因此想借这门课程来个查漏补缺。目前的计划是先看到神经网络结束,后面... 查看详情

machinelearning|andrewng|coursera吴恩达机器学习笔记

Week1:MachineLearning: AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE. Supe 查看详情

coursera机器学习week7编程作业

gaussianKernel.msim=exp(-sum((x1-x2).^2)/(sigma.^2*2)); dataset3Params.msteps=[0.01,0.03,0.1,0.3,1,3,10,30];minError=Inf;minC=Inf;minSigma=Inf;fori=1:length(steps) forj=1:length(steps) currC=ste 查看详情

吴恩达-coursera-机器学习-week4

第八、神经网络:表述(NeuralNetworks:Representation)8.1非线性假设8.2神经元和大脑8.3模型表示18.4模型表示28.5样本和直观理解18.6样本和直观理解II8.7多类分类第4周第八、神经网络:表述(NeuralNetworks:Representation)8.1非线性假设参考视频:8-1... 查看详情

coursera机器学习week11单元测试

Application:PhotoOCR选B选D选AC选A选AB 查看详情

原coursera—andrewng机器学习—week10习题—大规模机器学习

【1】大规模数据【2】随机梯度下降【3】小批量梯度下降【4】随机梯度下降的收敛Answer:BDA错误。学习率太小,算法容易很慢B正确。学习率小,效果更好C错误。应该是确定阈值吧D正确。曲线不下降,说明学习率选的太大 ... 查看详情

coursera课程《machinelearning》学习笔记(week1)

这是Coursera上比较火的一门机器学习课程,主讲教师为AndrewNg。在自己看神经网络的过程中也的确发现自己有基础不牢、一些基本概念没搞清楚的问题,因此想借这门课程来个查漏补缺。目前的计划是先看到神经网络结束&... 查看详情

coursera机器学习week9单元测试

week9|| AnomalyDetection找出异常数据,选CD需要减小,选B选C 选CD选AWeek9|| RecommenderSystems选AD选BD选A选AC选AB 查看详情

原coursera—andrewng机器学习—week11习题—photoocr

【1】机器学习管道【2】滑动窗口Answer:C((200-20)/4)2=2025【3】人工数据【4】标记数据Answer:B(10000-1000)*10/(8*60*60)=3.125【5】上限分析测验 Answer:D忽略窗口的宽度,只考虑step:    (1000/2)*(1000/2)*2=500000Answer:B... 查看详情