正文

电商数仓——（师承尚硅谷）大数据实战项目(代码片段)

大概是犬青  大概是犬青  2022-12-06  279

关键词：

数仓实战

1. 概念

技术选型：

搭建环境

三台ECS创建wts用户：

useradd wts
passwd wts
输入两边密码
cd /home   有无wts？

让wts有sudoer权力：

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示：
wts ALL=(ALL) NOPASSWD:ALL

配置windows下hosts映射：不多说了
配置三个ecs之间的映射：不多说了

阿里云ECS云服务器–选择的是抢占式很便宜
P23课（电脑不够，云服务器来凑；开虚拟机的话后期16G内存根本不够）

前面根据之前学的mapreduce配置，其中配置三台云服务器之间的免密码登录的时候遇到了点小问题：
1.首先要在三台云服务器里面设置映射：vim /etc/hosts
把相关的私有IP（上图）写进去
2.然后才可以配置之间的免密码登录

生成日志

把材料中的四个文件拖进/opt/module/applog下面
运行：java -jar gmall2020-mock-log-2021-01-22.jar

写集群日志生成脚本lg.sh，脚本统一写在~/bin目录下

#!/bin/bash
for i in hadoop102 hadoop103; do
    echo "========== $i =========="
    ssh $i "cd /opt/module/applog/; java -jar gmall2020-mock-log-2021-01-22.jar >/dev/null 2>&1 &"
done

把lg.sh脚本和applog文件夹分发到hadoop102 103上面，
（删除hadoop104的applog，要求部署在102和103上面；同时删除刚刚在102运行产生的log日志）
效果：启动脚本，102和103上产生log日志…

集群所有进程查看脚本

同理在~/bin下创建脚本:vim xcall.sh

#! /bin/bash
 
for i in hadoop102 hadoop103 hadoop104
do
    echo --------- $i ----------
    ssh $i "$*"
done

分发到三个集群，效果：

用户行为数据采集

安装和解压hadoop，配置hadoop
五个地方要配置(core,hdfs,yarn,mapreduce,workers)
另外还要配置历史服务器和日志聚集

下面：
配置全部完成，第一次格式化，第二次启动hadoop
报错了，如下：

参考大哥：ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. 其中的方式二解决

最终的效果：红色的区域和老师启动不太一样，但是jps是一样的。（这个方法没有解决yarn的报错，不知道为什么，留着。。。）

在hadoop103上启动yarn：
报错：

参考：启动start-yarn.sh报错ERROR: Attempting to operate on yarn resourcemanager as root ERROR: but there is no

解决方法：
到 sbin 目录下更改 start-yarn.sh 和 stop-yarn.sh 信息，在两个配置文件的第一行添加：

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

有报错：jps运行正常，ping三台ECS云服务器的公IP也是同的，但是hadoop102:9870页面打不开
解决办法汇总：

1.Windows下ping一下hadoop102是否通？有问题大概率是windows下的hosts映射
2.虚拟环境，防火墙关了
3.检查hdfs-site.xml 配置web页面的那一块是否写对了

4如果你也是和我一样的阿里云服务ECS，你的安全组端口，要自己配一下9870的端口.（我就是这个问题）

zookeeper

解压改名安装配置

1.   创建zkData 给三台机器各自的myid
2. 配置conf，zoo.cfg

修改数据存储路径到zkData里面
配置设置server.A=B:C:D

群起zookeeper：

#!/bin/bash

case $1 in
"start")
	for i in hadoop102 hadoop103 hadoop104
	do
        echo ---------- zookeeper $i 启动 ------------
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
	done
;;
"stop")
	for i in hadoop102 hadoop103 hadoop104
	do
        echo ---------- zookeeper $i 停止 ------------    
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
	done
;;
"status")
	for i in hadoop102 hadoop103 hadoop104
	do
        echo ---------- zookeeper $i 状态 ------------    
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
	done
;;
esac

777 该权限，后就可以使用

大数据项目之电商数仓-用户行为数据采集(代码片段)

数据仓库简介数据仓库是为企业所有决策制定过程，提供所有系统数据支持的战略集合，通过数据仓库中的数据的分析，可以帮助企业改进业务流程、控制成本、提高产品质量等。项目需求实时采集买点的用户行为数... 查看详情

尚硅谷电商数仓flume写入hdfs报错(代码片段)

使用Flume消费kafka中数据，sink到hdfs中出现数据压缩格式支持错误；java.lang.IllegalArgumentException:Unsupportedcompressioncodeclzop.Pleasechoosefrom:[None,BZip2Codec,DefaultCodec,DeflateCodec,GzipCodec,Lz4Codec 查看详情

尚硅谷电商数仓flume写入hdfs报错(代码片段)

大数据项目之电商数仓-用户行为数据仓库(代码片段)

数据仓库分层把复杂问题简单化，把一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解清晰的数据结构，每一层都有它的作用域，这样我们在使用表的时候能更方便的定... 查看详情

大数据项目之电商数仓-用户行为数据采集(代码片段)

大数据项目之电商数仓日志采集flumesourcechannelsinkkafka的三个架构

文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.1Kafka的三个架构4.3.1.1source4.3.1.2channel4.3.1.3sink4.3.1.4kafkasource4.3.1.5kafkasink4.3.1.6kafkachannel4.3.1.6.1第一个结构4.3.1.6.2第二个结构4.3.1.6.3第三个结构4.用户行为数据采集模块4.3日志采集F... 查看详情

大数据项目之电商数仓数据仓库概念项目需求及架构设计(代码片段)

...1a;就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。用... 查看详情

大数据项目之电商数仓-业务数据仓库(代码片段)

电商业务流程简介电商术语SKU，库存量单位，即库存进出计量的基本单元，可以是以件，盒，托盘等为单位。SKU这是对于大型连锁超市DC（配送中心）物流管理的一个必要的方法。现在已经被引申为产... 查看详情

大数据项目之电商数仓-用户行为数据仓库(代码片段)

大数据实战之用户画像概念项目概述及环境搭建(代码片段)

下面跟着我一起来学习大数据获取用户画像：项目Profile课程安排：用户画像概念1、用户画像概述1.1、产生背景早期的用户画像起源于交互设计之父AlanCooper提出的”Personasareaconcreterepresentationoftargetusers.”。认为用户画像... 查看详情

湖仓一体电商项目：3万字带你从头开始搭建12个大数据项目基础组件(代码片段)

文章目录一、搭建Zookeeper1、上传zookeeper并解压,配置环境变量2、在node3节点配置zookeeper3、将配置好的zookeeper发送到node4,node5节点4、各个节点上创建数据目录，并配置zookeeper环境变量5、各个节点创建节点ID6、各个节点启动zookee... 查看详情

mac自学编程----电商数仓（以尚硅谷为例）

一.虚拟机环境准备官网下载vmwarefusion，以及ios镜像文件以及finashell安装模板虚拟机，IP地址192.168.29.100（需要在mac终端查看）、主机名称hadoop100、内存4G、硬盘50Ghadoop100虚拟机配置要求如下配置网络参考百度（1... 查看详情

基于echarts实现大数据项目实战一可视化分析(代码片段)

目录一、业务需求分析二、web系统数据处理服务层开发三、基于WebSocket协议的数据推送服务开发四、基于Echart框架的页面展示层开发五、运行展示一、业务需求分析根据业务需求，我们需要将spark处理过的数据写入到mysql数据... 查看详情

大数据实战-spark实战技巧(代码片段)

1.连接mysql--driver-class-pathmysql-connector-java-5.1.21.jar在数据库中，SETGLOBALbinlog_format=mixed;2.Spark中使用Hive的udf同样使用—jars才行3.Sparkjupyter使用https://www.jb51.net/article/163641.htmhttps://my. 查看详情

助力工业物联网，工业大数据项目介绍及环境构建(代码片段)

...，项目中大数据工程师要负责实现的内容和流程学习数仓基础理论：建模、分层项目2：工业大数据企业中项目开发的落地：代码开发代码开发：SQL【DSL+SQL】SparkCoreSparkSQL数仓的一些实际应用：分层体系... 查看详情

新年新姿势第一弹腾讯云emr数仓建设教程发布——与尚硅谷强强联手带你全方位了解大数据组件

...合推出，分为实时及离线两部分。实时数仓依托国内电商巨头的真实业务场景，基于各大互联网企业对于腾讯云EMR架构体系的需求，将整个电商的实时数据仓库体系搭建在腾讯云架构上。教程全方面完成了整个实时数... 查看详情

尚硅谷设计模式学习---[装饰者模式](代码片段)

🚀🚀🚀尚硅谷传送门==>B站尚硅谷Java设计模式❤❤❤感谢尚硅谷❤❤❤🕒🕑🕐最近开始计划学习一下设计模式了,加油!!!目录📢情景引入⚡装饰者模式装饰者模式在Io中的应用📢情景引... 查看详情