搜索系统10:机器学习算法浅析

北漂程序员 北漂程序员     2022-09-21     678

关键词:

很多网站都有猜你喜欢,我对淘宝的推荐还是比较满意的。很多算法都可以实现推荐功能,下面来看一看机器学习的算法:
1.回归算法。
回归的意思大概是,估计这堆数据这个规律,然后找出这个规律,这个过程就是回归。spark的MLlib中有线性回归、逻辑回归、保序回归三种。

比如, 假设订单数与价格有f(x)=wx+b这么一个关系(线性模型),那我就收集一大堆订单和订单的价格。但我并不知道w和b这两个参数是啥,那么我就可以用mllib来通过我的数据计算出这两个参数来。
2.聚类与分类算法。
聚类与分类的区别:
聚类是以前不知道有那些分类,通过机器学习来得到分类,比如评价标签就可以这么做。
分类是有一些分类,不知一大堆数据中的每个到底该归为哪一类。比如图书馆有很多书、我们有10个书架分别对应10个分类,怎么把书分成10类?

分类算法有:贝叶斯、svm支持向量机、决策树
聚类算法有:Kmeans,LDA主题模型

3.推荐算法
a.ALS交替最小二乘法。
b.协同过滤。
关于基于用户的协同过滤和基于作品的协同过滤,很多书上都有些。我看《mahout in action》里有例子,但看了几遍都没明白,翻译的书就是有这个缺点。下图是另一本中文书里说的,比较清楚:

技术分享
其实区别就是一个是要算用户的邻居,另一个不需要算邻居就算全部作品的得分,但数据源都是一样的。在mahout中就只有方法名不一样,其它都一样。

如果用mahout,其实代码是很简单的,如下:
//model是数据源
UserSimilarity similarity = new PearsonCorrelationSimilarity(model);
UserNeighborhood neighborhood = new NearestNUserNeighborhood(2, similarity, model);
Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity);
List recommendations = recommender.recommend(1, 1);

这个算法到底好不好呢?如果用mahout的方法,得到查准率与查全率:
RecommenderIRStatsEvaluator evaluator = new GenericRecommenderIRStatsEvaluator();
IRStatistics stats = evaluator.evaluate(recommenderBuilder,null, model, null, 2,GenericRecommenderIRStatsEvaluator.CHOOSE_THRESHOLD,1.0);

这个结果好这并不能说明效果就好,我正在研究如何用数据来评价算法好坏,下文见。
技术分享


































浅析机器学习在推荐系统中的应用

...征提取。用户特征通过用户特点,用户的购书记录,用户搜索的关键字,用户的评分收藏行为等方法进行获取。可以使用聚类的方式对用户特征进行降维。在取得用户的兴趣以后,推荐系统应该按照特点找到和用户有关的物品。... 查看详情

机器学习算法--协同过滤算法

...  互联网的飞速发展使我们进入了信息过载的时代,搜索引擎可以帮助我们查找内容,但只能解决明确的需求。为了让用户从海量信息中高效地获得自己所需的信息,推荐系统应运而生。    推荐系统可以通过分析... 查看详情

机器学习算法--协同过滤算法

...  互联网的飞速发展使我们进入了信息过载的时代,搜索引擎可以帮助我们查找内容,但只能解决明确的需求。为了让用户从海量信息中高效地获得自己所需的信息,推荐系统应运而生。    推荐系统可以通过分析... 查看详情

mooc机器学习-01机器学习

...学,算法复杂度理论等多门学科    广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用  机器学习的分类    监督学习(SupervisedLearning)      从给... 查看详情

机器学习算法小结

...档分类系统,用于垃圾邮件过滤,或是根据关键字的模糊搜索来对一组文档进行划分) 贝叶斯分类器一般用于关于文档处理,但实际上也可以适用于任何其他形式的数据集,只要能将其转化成一组特征列表。所谓特征,就是... 查看详情

机器学习系统构建

看了NG视频关于机器学习系统构建的建议,感觉非常有用,记录下来作为听课笔记。首先是机器学习系统构建的流程:NG推荐方法:首先高速实现一个可能并非非常完美的算法系统。进行交叉验证,画出学习曲线去学习算法问题... 查看详情

《分布式机器学习:算法理论与实践》pdf+刘铁岩+资料学习

...法的理论性质,第11章则介绍几个主流的分布式机器学习系统(包括SparkMLlib迭代式MapReduce系统,Multiverso参数服务器系统,TensorFlow数据流系统)。最后的第 查看详情

大数据推荐系统算法代码全接触(企业内训,现场实录,机器学习算法+spark实现)

【学途无忧网】大数据推荐系统算法代码全接触(企业内训,现场实录,机器学习算法+Spark实现)课程下载:https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug提取码:b10v一、课程简介:推荐系统是利用电子商务网站向客户提供商品信息和建... 查看详情

大数据推荐系统算法代码全接触(企业内训,现场实录,机器学习算法+spark实现)

【学途无忧网】大数据推荐系统算法代码全接触(企业内训,现场实录,机器学习算法+Spark实现)课程下载:https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug提取码:b10v一、课程简介:推荐系统是利用电子商务网站向客户提供商品信息和建... 查看详情

推荐系统[八]算法实践总结v2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战

...题,因此产生了各类基于机器学习的排序算法,也带来了搜索引擎技术的成熟和发展,如今,LearningtoRank已经成为搜索、推荐和广告领域非常重要的技术手段。本文我们首先介绍排序学习的三种主要类别,然后详细介绍推荐领域... 查看详情

推荐系统[八]算法实践总结v2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战

...题,因此产生了各类基于机器学习的排序算法,也带来了搜索引擎技术的成熟和发展,如今,LearningtoRank已经成为搜索、推荐和广告领域非常重要的技术手段。本文我们首先介绍排序学习的三种主要类别,然后详细介绍推荐领域... 查看详情

机器学习理解

...法改进了其预测。例如,我记得当我的家人开始使用语音搜索而不是打字时。起初,机器需要一段时间来识别我们的话,但在使用它的一个星期内,算法的语音检测能力已经够好了,现在,语音是我家庭的主要搜索模式。其核心... 查看详情

机器学习100天(三十二):032kd树的构造和搜索

机器学习100天,今天讲的是:KD树的构造和搜索!《机器学习100天》完整目录:目录在K近邻算法中,我们计算测试样本与所有训练样本的距离,类似于穷举法。如果数据量少的时候,算法运行时间没有大的影响,但是如果数据量... 查看详情

机器学习系统设计----machinelearningsystemdesign

...,查看使算法出现误差的实例,分析这些实例是否有某种系统化的趋势。评估算法性能偏斜类(skewedclasses):训练集中的大多数实例属于一类,其他类占得很少或没有。类偏斜的情况下我们就不能单纯使用误差来评判算法的效... 查看详情

算法与模型的浅析

...障碍,极大地影响了沟通的效率。在人工智能尤其是机器学习领域,算法和模型是两个相关而又有区别的两个概念,弄清二者的含义和联系可以使我们讨论的问题更加明确。什么是算法?在计算机领域,算法... 查看详情

算法与模型的浅析

...障碍,极大地影响了沟通的效率。在人工智能尤其是机器学习领域,算法和模型是两个相关而又有区别的两个概念,弄清二者的含义和联系可以使我们讨论的问题更加明确。什么是算法?在计算机领域,算法... 查看详情

机器学习算法学习---推荐系统的常用算法

概括分类:1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。这一类由... 查看详情

大数据&ai人工智能数据科学家必学的9个核心机器学习算法

...着我们的世界。借助机器学习(ML),谷歌在为我们推荐搜索结果,奈飞在为我们推荐观看影片,脸书在为我们推荐可能认识的朋友。机器学习从未像在今天这样重要。但与此同时,机器学习这一领域也充斥着各种术语,晦涩难... 查看详情