hive大数据实战项目---用户行为分析

author author     2023-05-09     685

关键词:

参考技术A 相关精彩专题链接: 数据成就更好的你

一、项目需求
本案例的数据为小程序运营数据,以行业常见指标对用户行为进行分析,包括UV、PV、新增用户分析、留存分析、复购分析等内容。

项目需求如下:
1.日访问量分析,并观察其走势
2.不同行为类型的访问量分析
3.一天中不同时间段的访问量分析(时间段按小时划分)
4.每日新增用户情况分析
5.用户留存分析
6.复购分析
7.商品排行榜分析
8.利用sqoop将数据分析结果导入mysql存储

二、数据介绍
1.用户行为信息表

2.查看具体的数据格式
a.用户信息:head -n 3 behavior.txt

b.去除首行,首行为标题行,hive导入数据时不需要此行:
sed -i "1d" behavior.txt

三、创建表
创建用户行为表(需结合数据格式)

四、用户行为分析:pv/uv
1.日访问量分析,并观察其走势

2.不同行为类型的访问量分析

3.一天中不同时间段的访问量分析(时间段按小时划分)

五、获客分析
获客分析:观察每日新增用户情况。新用户的定义:第一次访问网站

六、用户留存分析
留存定义:
1月1日,新增用户200人;
次日留存:第2天,1月2日,这200人里面有100人活跃,则次日留存率为:100 / 200 = 50%
2日留存:第3天,1月3日,这200名新增用户里面有80人活跃, 第3日新增留存率为:80/200 = 40%; 以此类推

留存分析结果如下:
例:2019-11-28日的新增7610个用户,次日这些新增用户有6026个再次访问网页,留存率为79.19%,第4天,有5980个用户再次访问,留存率为78.58%

七、复购分析
指在单位时间段内,重复购买率=再次购买人数/总购买人数。
例如在一个月内,有100个客户成交,其中有20个是回头客,则重复购买率为20%。
此处的回头客定义为:按天去重,即一个客户一天产生多笔交易付款,则算一次购买,除非在统计周期内另外一天也有购买的客户才是回头客。

1.用户的购买次数统计

2.复购率计算

八、商品排行榜信息
1.商品的销售数量top10,排名需考虑并列排名的情况

2.商品的浏览次数top10,排名需考虑并列排名的情况

3.商品的收藏次数top10,排名需考虑并列排名的情况

4.城市购买力排名

九、利用sqoop将数据分析结果导入mysql存储

1.在mysql创建一张表,字段类型、顺序都和hive中的表一样

2.测试sqoop连接mysql是否成功

3.利用sqoop将数据分析结果导入mysql存储

4.mysql中查询导入结果,看结果是否正确

大数据项目实战-招聘网站职位分析(代码片段)

...1.4开发环境和开发工具1.5项目开发流程第二章:搭建大数据集群环境2.1安装准备2.2Hadoop集群搭建2.3Hive安装2.4Sqoop安装第三章:数据采集3.1知识概要3.2分析与准备3.3采集网页数据第四章:数据预处理 4.1分析预处理数据4... 查看详情

大数据实战之用户画像概念项目概述及环境搭建(代码片段)

下面跟着我一起来学习大数据获取用户画像:项目Profile课程安排 :用户画像概念1、用户画像概述1.1、产生背景早期的用户画像起源于交互设计之父AlanCooper提出的”Personasareaconcreterepresentationoftargetusers.”。认为用户画像... 查看详情

spark2.x企业级大数据项目实战(实时统计离线分析和实时etl)

Spark2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目,所有代码都是在现网大数据集群上稳定运行,拒绝Demo。课程涵盖了离... 查看详情

基于echarts实现大数据项目实战一可视化分析(代码片段)

目录一、业务需求分析二、web系统数据处理服务层开发三、基于WebSocket协议的数据推送服务开发四、基于Echart框架的页面展示层开发五、运行展示一、业务需求分析根据业务需求,我们需要将spark处理过的数据写入到mysql数据... 查看详情

大数据项目之电商数仓-用户行为数据采集(代码片段)

数据仓库简介数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过数据仓库中的数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。项目需求实时采集买点的用户行为数... 查看详情

电商数仓——(师承尚硅谷)大数据实战项目(代码片段)

数仓实战1.概念技术选型:搭建环境三台ECS创建wts用户:useraddwtspasswdwts输入两边密码cd/home有无wts?让wts有sudoer权力:[root@hadoop100~]#vim/etc/sudoers修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示&# 查看详情

实时即未来,大数据项目车联网之原始数据实时elt流式任务流程总结

文章目录1原始数据实时ETL任务分析结果落地1Json解析hdfs数据映射hive表(建议)2自定义Sink数据写入hive表(不建议)总结1原始数据实时ETL任务分析结果落地1Json解析hdfs数据映射hive表(建议)l用StreamingFileSink方法将正确数据和错... 查看详情

大数据实战-spark实战技巧(代码片段)

1.连接mysql--driver-class-pathmysql-connector-java-5.1.21.jar在数据库中,SETGLOBALbinlog_format=mixed;2.Spark中使用Hive的udf同样使用—jars才行3.Sparkjupyter使用https://www.jb51.net/article/163641.htmhttps://my. 查看详情

这个场景是大数据项目吗?

】这个场景是大数据项目吗?【英文标题】:Isthisscenarioabigdataproject?【发布时间】:2016-07-1518:10:00【问题描述】:我参与了一个分两个阶段的项目,我想知道这是否是一个大数据项目(我是这个领域的新手)在第一阶段我有这种... 查看详情

大数据项目之电商数仓-用户行为数据仓库(代码片段)

数据仓库分层把复杂问题简单化,把一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解清晰的数据结构,每一层都有它的作用域,这样我们在使用表的时候能更方便的定... 查看详情

大数据项目之电商数仓-用户行为数据采集(代码片段)

数据仓库简介数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过数据仓库中的数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。项目需求实时采集买点的用户行为数... 查看详情

客快物流大数据项目(七十):impala入门介绍

文章目录Impala入门介绍一、impala基本介绍二、Impala与hive的关系三、​​​​​​​Impala与hive的异同四、​​​​​​​​​​​​​​Impala的优缺点1、​​​​​​​​​​​​​​优点2、​​​​​​​​​​​​​​缺... 查看详情

大数据实战之spark安装部署

楔子我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的。一段时间之后,我做了一个有趣的数据科学项目,它试着去预测在泰坦尼克号上幸存。对于进一步了解Spark内容和编程来说,这是一个很好... 查看详情

大数据项目之电商数仓日志采集flumesourcechannelsinkkafka的三个架构

文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.1Kafka的三个架构4.3.1.1source4.3.1.2channel4.3.1.3sink4.3.1.4kafkasource4.3.1.5kafkasink4.3.1.6kafkachannel4.3.1.6.1第一个结构4.3.1.6.2第二个结构4.3.1.6.3第三个结构4.用户行为数据采集模块4.3日志采集F... 查看详情

大数据项目3(数据规约)

数据规约一、简介二、数据分析与挖掘体系位置三、数据规约方法1、维度规约(DimensionalityReduction)(1)小波变换(WaveletTransform,WT)(2)主成分分析(PrincipalComponentAnalysis, 查看详情

实时即未来,大数据项目车联网之车辆驾驶行程分析十三

...车辆驾驶行程分析驾驶行程分析业务逻辑星途车联网项目大数据平台,包含数据源数据存储pipeline实时业务指标统计分析数据存储分层数据可视化我们已经学习了原始数据实时ETL部分,数据存储在hiv 查看详情

实时即未来,大数据项目车联网之车辆驾驶行程分析十三

...车辆驾驶行程分析驾驶行程分析业务逻辑星途车联网项目大数据平台,包含数据源数据存储pipeline实时业务指标统计分析数据存储分层数据可视化我们已经学习了原始数据实时ETL部分,数据存储在hiv 查看详情

客快物流大数据项目(八十五):实时olap分析需求

文章目录实时OLAP分析需求一、​​​​​​​​​​​​​​背景介绍二、技术选型三、​​​​​​​​​​​​​​设计方案实时OLAP分析需求一、​​​​​​​​​​​​​​背景介绍在之前的文章学习了离线数仓的构... 查看详情