电商数仓——(师承尚硅谷)大数据实战项目(代码片段)

大概是犬青 大概是犬青     2022-12-06     279

关键词:

数仓实战

1. 概念

技术选型:

搭建环境

三台ECS创建wts用户:

useradd wts
passwd wts
输入两边密码
cd /home   有无wts?

让wts有sudoer权力:

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:
wts ALL=(ALL) NOPASSWD:ALL

配置windows下hosts映射:不多说了
配置三个ecs之间的映射:不多说了

阿里云ECS云服务器–选择的是抢占式 很便宜
P23课(电脑不够,云服务器来凑;开虚拟机的话后期16G内存根本不够)

前面根据之前学的mapreduce配置,其中配置三台云服务器之间的免密码登录的时候遇到了点小问题:
1.首先要在三台云服务器里面设置映射:vim /etc/hosts
把相关的私有IP(上图)写进去
2.然后才可以配置之间的免密码登录

生成日志

把材料中的四个文件拖进/opt/module/applog下面
运行:java -jar gmall2020-mock-log-2021-01-22.jar

写集群日志生成脚本lg.sh,脚本统一写在~/bin目录下

#!/bin/bash
for i in hadoop102 hadoop103; do
    echo "========== $i =========="
    ssh $i "cd /opt/module/applog/; java -jar gmall2020-mock-log-2021-01-22.jar >/dev/null 2>&1 &"
done 

lg.sh脚本applog文件夹分发到hadoop102 103上面,
(删除hadoop104的applog,要求部署在102和103上面;同时删除刚刚在102运行产生的log日志)
效果:启动脚本,102和103上产生log日志…

集群所有进程查看脚本

同理在~/bin下创建脚本:vim xcall.sh

#! /bin/bash
 
for i in hadoop102 hadoop103 hadoop104
do
    echo --------- $i ----------
    ssh $i "$*"
done

分发到三个集群,效果:

用户行为数据采集

安装和解压hadoop,配置hadoop
五个地方要配置(core,hdfs,yarn,mapreduce,workers)
另外还要配置历史服务器日志聚集

下面:
配置全部完成,第一次格式化,第二次启动hadoop
报错了,如下:

参考大哥:ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. 其中的方式二解决

最终的效果:红色的区域和老师启动不太一样,但是jps是一样的。(这个方法没有解决yarn的报错,不知道为什么,留着。。。)

hadoop103上启动yarn:
报错:

参考:启动start-yarn.sh报错ERROR: Attempting to operate on yarn resourcemanager as root ERROR: but there is no

解决方法:
到 sbin 目录下 更改 start-yarn.sh 和 stop-yarn.sh 信息,在两个配置文件的第一行添加:

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

有报错:jps运行正常,ping三台ECS云服务器的公IP也是同的,但是hadoop102:9870页面打不开
解决办法汇总:

1.Windows下ping一下hadoop102是否通?有问题大概率是windows下的hosts映射
2.虚拟环境,防火墙关了
3.检查hdfs-site.xml 配置web页面的那一块是否写对了

4如果你也是和我一样的阿里云服务ECS,你的安全组端口,要自己配一下9870的端口.(我就是这个问题)

zookeeper

解压改名安装配置

1.   创建zkData 给三台机器各自的myid
2. 配置conf,zoo.cfg

修改数据存储路径到zkData里面
配置设置server.A=B:C:D

群起zookeeper:

#!/bin/bash

case $1 in
"start")
	for i in hadoop102 hadoop103 hadoop104
	do
        echo ---------- zookeeper $i 启动 ------------
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
	done
;;
"stop")
	for i in hadoop102 hadoop103 hadoop104
	do
        echo ---------- zookeeper $i 停止 ------------    
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
	done
;;
"status")
	for i in hadoop102 hadoop103 hadoop104
	do
        echo ---------- zookeeper $i 状态 ------------    
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
	done
;;
esac

777 该权限,后就可以使用

大数据项目之电商数仓-用户行为数据采集(代码片段)

数据仓库简介数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过数据仓库中的数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。项目需求实时采集买点的用户行为数... 查看详情

尚硅谷电商数仓flume写入hdfs报错(代码片段)

使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;java.lang.IllegalArgumentException:Unsupportedcompressioncodeclzop.Pleasechoosefrom:[None,BZip2Codec,DefaultCodec,DeflateCodec,GzipCodec,Lz4Codec 查看详情

尚硅谷电商数仓flume写入hdfs报错(代码片段)

使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;java.lang.IllegalArgumentException:Unsupportedcompressioncodeclzop.Pleasechoosefrom:[None,BZip2Codec,DefaultCodec,DeflateCodec,GzipCodec,Lz4Codec 查看详情

尚硅谷电商数仓flume写入hdfs报错(代码片段)

使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;java.lang.IllegalArgumentException:Unsupportedcompressioncodeclzop.Pleasechoosefrom:[None,BZip2Codec,DefaultCodec,DeflateCodec,GzipCodec,Lz4Codec 查看详情

大数据项目之电商数仓-用户行为数据仓库(代码片段)

数据仓库分层把复杂问题简单化,把一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解清晰的数据结构,每一层都有它的作用域,这样我们在使用表的时候能更方便的定... 查看详情

大数据项目之电商数仓-用户行为数据采集(代码片段)

数据仓库简介数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过数据仓库中的数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。项目需求实时采集买点的用户行为数... 查看详情

大数据项目之电商数仓日志采集flumesourcechannelsinkkafka的三个架构

文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.1Kafka的三个架构4.3.1.1source4.3.1.2channel4.3.1.3sink4.3.1.4kafkasource4.3.1.5kafkasink4.3.1.6kafkachannel4.3.1.6.1第一个结构4.3.1.6.2第二个结构4.3.1.6.3第三个结构4.用户行为数据采集模块4.3日志采集F... 查看详情

大数据项目之电商数仓数据仓库概念项目需求及架构设计(代码片段)

...1a;就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。  用... 查看详情

大数据项目之电商数仓-业务数据仓库(代码片段)

电商业务流程简介电商术语SKU,库存量单位,即库存进出计量的基本单元,可以是以件,盒,托盘等为单位。SKU这是对于大型连锁超市DC(配送中心)物流管理的一个必要的方法。现在已经被引申为产... 查看详情

大数据项目之电商数仓-用户行为数据仓库(代码片段)

数据仓库分层把复杂问题简单化,把一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解清晰的数据结构,每一层都有它的作用域,这样我们在使用表的时候能更方便的定... 查看详情

大数据实战之用户画像概念项目概述及环境搭建(代码片段)

下面跟着我一起来学习大数据获取用户画像:项目Profile课程安排 :用户画像概念1、用户画像概述1.1、产生背景早期的用户画像起源于交互设计之父AlanCooper提出的”Personasareaconcreterepresentationoftargetusers.”。认为用户画像... 查看详情

湖仓一体电商项目:3万字带你从头开始搭建12个大数据项目基础组件(代码片段)

文章目录一、搭建Zookeeper1、上传zookeeper并解压,配置环境变量2、在node3节点配置zookeeper3、将配置好的zookeeper发送到node4,node5节点4、各个节点上创建数据目录,并配置zookeeper环境变量5、各个节点创建节点ID6、各个节点启动zookee... 查看详情

mac自学编程----电商数仓(以尚硅谷为例)

一.虚拟机环境准备官网下载vmwarefusion,以及ios镜像文件以及finashell安装模板虚拟机,IP地址192.168.29.100(需要在mac终端查看)、主机名称hadoop100、内存4G、硬盘50Ghadoop100虚拟机配置要求如下配置网络参考百度(1... 查看详情

基于echarts实现大数据项目实战一可视化分析(代码片段)

目录一、业务需求分析二、web系统数据处理服务层开发三、基于WebSocket协议的数据推送服务开发四、基于Echart框架的页面展示层开发五、运行展示一、业务需求分析根据业务需求,我们需要将spark处理过的数据写入到mysql数据... 查看详情

大数据实战-spark实战技巧(代码片段)

1.连接mysql--driver-class-pathmysql-connector-java-5.1.21.jar在数据库中,SETGLOBALbinlog_format=mixed;2.Spark中使用Hive的udf同样使用—jars才行3.Sparkjupyter使用https://www.jb51.net/article/163641.htmhttps://my. 查看详情

助力工业物联网,工业大数据项目介绍及环境构建(代码片段)

...,项目中大数据工程师要负责实现的内容和流程学习数仓基础理论:建模、分层项目2:工业大数据企业中项目开发的落地:代码开发代码开发:SQL【DSL+SQL】SparkCoreSparkSQL数仓的一些实际应用:分层体系... 查看详情

新年新姿势第一弹腾讯云emr数仓建设教程发布——与尚硅谷强强联手带你全方位了解大数据组件

...合推出,分为实时及离线两部分。实时数仓依托国内电商巨头的真实业务场景,基于各大互联网企业对于腾讯云EMR架构体系的需求,将整个电商的实时数据仓库体系搭建在腾讯云架构上。教程全方面完成了整个实时数... 查看详情

尚硅谷设计模式学习---[装饰者模式](代码片段)

🚀🚀🚀尚硅谷传送门==>B站尚硅谷Java设计模式❤❤❤感谢尚硅谷❤❤❤🕒🕑🕐最近开始计划学习一下设计模式了,加油!!!目录📢情景引入⚡装饰者模式装饰者模式在Io中的应用📢情景引... 查看详情