基于hive的淘宝用户行为数据分析

Maynor大数据 Maynor大数据     2023-03-03     824

关键词:

基于Hive的淘宝用户行为数据分析

本文将通过阿里云天池提供的淘宝用户行为数据集,从不同维度出发,通过数据来分析淘宝用户的一些行为习惯和爱好。淘宝或商家可以根据结论做出一些举措。

一、 数据集介绍

本数据集取至阿里云天池的数据集,数据集名称为User behavior Data from Taobao for Recommendation,数据集包括用户ID,商品ID,商品类目ID,行为类型,时间戳,数据总条目数为100,150,807行。

1、采集网址:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

2、数据集展示:

图1-1 原始数据集部分截图

3、数据集介绍:

该数据集共有100,150,807行与5个属性,如表中的userid对应的是用户id,itemid对应的是商品id,categoryid对应的是商品类目ID,type对应的是行为类型,timestamp对应的是时间戳。

表1 淘宝用户数据集各字段说明

数据字段描述
userid用户id
itemid商品id
categoryid商品类目ID
type行为类型
timestamp时间戳

表2 type包含属性各字段说明

数据字段描述
pv商品详情页pv,等价于点击
buy商品购买
cart将商品加入购物车
fav收藏商品

二、 数据预处理

本课题的预处理方式主要是对数据进行数据清洗和数据规约。

(1)数据清洗:1)将时间戳转换成日期 2)数据集说明中写的是本数据集的日期范围是2017年11月25日至2017年12月2日,所以剔除这日期以外的数据

(2)数据规约:时间要在2017年11月25日至2017年12月2日

处理后数据集的部分截图如下:

图2-1 数据预处理结果(部分数据)

三、数据分析方法

1、分析目标

从用户id属性分析淘宝每日访问量的变化。

从时间属性分析用户在哪些时间、时段活跃。

从商品点击量维度分析热门商品类目有哪些。

统计出前10的热门商品。

2、分析思路与方法

根据数据集的特点,我们可以先从时间维度分析一下用户的一些行为习惯,比如哪个时间段是用户访问高发期,可以统计每天的访问量、每小时的访问量。直接统计商品分类前5名的分类,这样就可以按比例分配资源。

淘宝app用户行为数据分析by一只废鹅

...,我是云祁!今天和大家分享一篇淘宝用户行为数据分析的文章,干货内容值得收藏。一.提出问题和应用模型1.本次分析的目的是想通过对淘宝用户行为进行数据分析,为以下问题提供解释和改进建议:(... 查看详情

淘宝用户行为分析(代码片段)

...景该项目的数据集来源于天池,是由阿里巴巴提供的一个淘宝用户行为数据集,其中包含了2017年11月25日至2017年12月3日之间,一百万个随机用户的所有用户行为(行为包括点击、购买、加购、收藏)数据,有关每个字段的介绍如... 查看详情

淘宝用户行为数据分析(代码片段)

数据集来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649 这个数据集既能训练取数也能训练一定的业务逻辑,是个不错的项目,在这里做个学习记录 分析目的:用MySQL分析数据集,通过用户行为分析业务问题,得出针对... 查看详情

基于无埋点技术的用户行为分析

用户行为分析从狭义来看是用户的行为数据分析,但是广义来说这一个词包含用户分析,用户行为的结果分析,用户的行为分析。用户行为的结果和用户的行为分析是不一样的,一个是结果,一个是过程。现在国内市场上关于用... 查看详情

hive大数据实战项目---用户行为分析

...5.用户留存分析6.复购分析7.商品排行榜分析8.利用sqoop将数据分析结果导入mysql存储二、数据介绍1.用户行为信息表2.查看具体的数据格式a.用户信息:head-n3behavior.txtb.去除首行,首行为标题行,hive导入数据时不需要此行:sed-i"... 查看详情

用户消费行为分析(mapreduce实现,hive分析)(代码片段)

目录一、题目要求1、数据   2、数据清洗3、用户消费趋势分析二、解题过程1、MapReduce程序实现数据清洗mapper处理空值和分隔逗号有三种方法:2、使用hive解决问题三、总结一、题目要求     数据来自CDNow网站的一份用户... 查看详情

基于网站的用户行为分析

...;设定了一些常用的用户指标和值得关注的用户指标,基于这些分类用户指标的分析可以发现用户运营和推广中的诸多问题,其中活跃用户和流失用户的定义中已经用到了与用户行为相关的指标,这里重点介绍常用的... 查看详情

基于spark的用户行为路径分析

...客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基... 查看详情

基于用户行为数据为用户推荐商品

...荐算法  在推荐系统中,最基本也最广泛应用的算法是基于用户的协同过滤算法(UserCF)和基于物品的协同过滤算法(ItemCF)。基于用户的协同过滤算法(UserCF)的基本思想是:当为A用户推荐时,可以先找到和他有相似兴趣... 查看详情

用户消费行为分析(mapreduce实现,hive分析)(代码片段)

目录一、题目要求1、数据   2、数据清洗3、用户消费趋势分析二、解题过程1、MapReduce程序实现数据清洗mapper处理空值和分隔逗号有三种方法:2、使用hive解决问题三、总结一、题目要求     数据来自CDNow网站的一份用户... 查看详情

淘宝app用户行为数据分析(代码片段)

(idid_behavesetsql_safe_updates=0;altertableuseraddcolumndatetimetimestamp(0)null;updateusersetdatetime=from_unixtime(times);时间戳转换为日期类型将其按date和time拆分成两列altertableuseraddcolumndatechar(10)null;--增加date 查看详情

基于淘宝网的软件质量属性分析

此次写的是极具淘宝网的软件质量属性分析1、可用性分析可用性为系统能正常为用户提供服务的时间比例。可用性与系统故障及其相关后果有关,当系统不再提供其规范中所说明的服务时,也就出现了系统故障。公式为场景:... 查看详情

基于clickhouse的用户行为(路径)分析实践(代码片段)

...丰富的多参聚合函数(parametricaggregatefunction)和基于数组+Lambda表达式的高阶函数(higher-orderfunction),将它们灵活使用可以达到魔法般的效果。在我们的体系中,ClickHouse定位点击流数仓,所以下面 查看详情

淘宝用户分析(代码片段)

...步骤主要有5步:1、提出问题2、理解数据3、数据清洗4、数据分析(构建模型)5、数据可视化 一、提出问题1、电 查看详情

利用用户行为数据——基于spark平台的协同过滤实时电影推荐系统项目系列博客

系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark... 查看详情

hadoophdfshivehbase之间的关系

...写的hive的sql转换为复杂难写的map-reduce程序Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等Hive与HBase的区别与联系1、区别Hiv 查看详情

销量预测和用户行为的分析--基于erp的交易数据

写在前面:这段时间一直都在看一些机器学习方面的内容,其中又花了不少时间在推荐系统这块,然后自己做了一套简单的推荐系统,但是跑下来的结果总觉得有些差强人意,我在离线实验中得到Precision,Recall一般都只有15%左右... 查看详情

hive的用户和用户权限

...持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制体系与Linux及Hadoop的用户是否存在联系。1)remote方式部署Hi 查看详情