尚硅谷电商数仓flume写入hdfs报错(代码片段)

刘润森! 刘润森!     2022-12-04     503

关键词:

使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;

java.lang.IllegalArgumentException: Unsupported compression codec lzop.  Please choose from: [None, BZip2Codec, DefaultCodec, DeflateCodec, GzipCodec, Lz4Codec, SnappyCodec, ZStandardCodec]
	at org.apache.flume.sink.hdfs.HDFSEventSink.getCodec(HDFSEventSink.java:345)
	at org.apache.flume.sink.hdfs.HDFSEventSink.configure(HDFSEventSink.java:248)

锁定关键词 LZO

hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。

core-site.xml增加配置支持LZO压缩

<configuration>
    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
        </value>
    </property>

    <property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
</configuration>

上传 hadoop-lzo-0.4.20.jar 到 hadoop-3.1.3/share/hadoop/common/,也可以将这个jar拷贝到自己flume的lib目录下

尚硅谷电商数仓flume写入hdfs报错(代码片段)

使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;java.lang.IllegalArgumentException:Unsupportedcompressioncodeclzop.Pleasechoosefrom:[None,BZip2Codec,DefaultCodec,DeflateCodec,GzipCodec,Lz4Codec 查看详情

电商数仓——(师承尚硅谷)大数据实战项目(代码片段)

数仓实战1.概念技术选型:搭建环境三台ECS创建wts用户:useraddwtspasswdwts输入两边密码cd/home有无wts?让wts有sudoer权力:[root@hadoop100~]#vim/etc/sudoers修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示&# 查看详情

尚硅谷大数据hadoop教程-笔记02hdfs(代码片段)

视频地址:尚硅谷大数据Hadoop教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据Hadoop教程-笔记01【入门】尚硅谷大数据Hadoop教程-笔记02【HDFS】尚硅谷大数据Hadoop教程-笔记03【MapReduce】尚硅谷大数据Hadoop教程-笔记04【Ya... 查看详情

mac自学编程----电商数仓(以尚硅谷为例)

一.虚拟机环境准备官网下载vmwarefusion,以及ios镜像文件以及finashell安装模板虚拟机,IP地址192.168.29.100(需要在mac终端查看)、主机名称hadoop100、内存4G、硬盘50Ghadoop100虚拟机配置要求如下配置网络参考百度(1... 查看详情

离线数仓同步数据(代码片段)

第2章离线数仓同步数据2.1用户行为数据同步2.1.1数据通道用户行为数据由Flume从Kafka直接同步到HDFS,由于离线数仓采用Hive的分区表按天统计,所以目标路径要包含一层日期。具体数据流向如下图所示。2.1.2日志消费Flume配... 查看详情

尚硅谷大数据技术hadoop教程-笔记06hadoop-生产调优手册(代码片段)

视频地址:尚硅谷大数据Hadoop教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】尚硅... 查看详情

hadoop02-hdfs尚硅谷(代码片段)

HDFS大数据学习笔记一、HDFS产出背景及定义HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多... 查看详情

hadoop02-hdfs尚硅谷(代码片段)

HDFS大数据学习笔记一、HDFS产出背景及定义HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多... 查看详情

数据仓库数据同步策略(代码片段)

 1.实时数仓同步数据实时数仓数据由Flink源源不断从Kafka当中读数据计算,无需手动同步数据到实时数仓。2.离线数仓同步数据2.1用户行为数据同步2.1.1数据通道用户行为数据由Flume从Kafka直接同步到HDFS,由于离线数仓采用... 查看详情

尚硅谷大数据hadoop教程-笔记01入门(代码片段)

视频地址:尚硅谷大数据Hadoop教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据Hadoop教程-笔记01【入门】尚硅谷大数据Hadoop教程-笔记02【HDFS】尚硅谷大数据Hadoop教程-笔记03【MapReduce】尚硅谷大数据Hadoop教程-笔记04【Ya... 查看详情

clickhouse-尚硅谷(6.入门-副本)学习笔记(代码片段)

上一篇:(5.入门-SQL操作)学习笔记下一篇:(7.入门-分片集群)文章目录1副本写入流程2配置步骤1副本写入流程2配置步骤启动zookeeper集群在hadoop102的/etc/clickhouse-server/config.d目录下创建一个名为metrika.xml... 查看详情

clickhouse-尚硅谷(9.高级-建表优化)学习笔记(代码片段)

上一篇:(8.高级-Explain查看执行计划)学习笔记下一篇:(10.高级-语法优化规则)学习笔记文章目录1数据类型1.1时间字段的类型1.2空值存储类型2分区和索引3表参数4写入和删除优化5常见配置5.1CPU资源5.2... 查看详情

任务8:08_尚硅谷_flume案例_监控本地变化文件(需求分析)

该文件会实时地发生变化将案例分为两部分:部分一:实现实时监控变化的文件,并读取文件内容,然后打印到控制台部分二:使用ExecSourceLoggersink 查看详情

elasticsearch-尚硅谷(8.优化)学习笔记(代码片段)

上一篇:(7.进阶-下)学习笔记文章目录1.硬件选择2.分片策略2.1合理设置分片数2.2推迟分片分配3路由选择4写入速度优化4.1批量数据提交4.2优化存储设备4.3合理使用合并4.4减少Refresh的次数4.5加大Flush设置4.6减少副本的... 查看详情

clickhouse-尚硅谷(1.入门-概述)学习笔记(代码片段)

下一篇:(2.入门-安装)学习笔记文章目录1.ClickHouse概述2.ClickHouse的特点2.1列式存储2.2DBMS的功能2.3多样化引擎2.4高吞吐写入能力2.5数据分区与线程级并行2.6性能对比1.ClickHouse概述  ClickHouse是俄罗斯的Yandex于2016年开... 查看详情

新年新姿势第一弹腾讯云emr数仓建设教程发布——与尚硅谷强强联手带你全方位了解大数据组件

...来!腾讯云开发者社区带着干货来了,腾讯云×尚硅谷大数据研究院强强联手,重磅推出新年第一弹:腾讯云EMR数仓教程发布腾讯云开发者社区“公开课”直达:腾讯云开发者公开课-腾讯云开发者社区-腾讯云... 查看详情

clickhouse-尚硅谷(7.入门-分片集群)学习笔记(代码片段)

上一篇:(6.入门-副本)学习笔记下一篇:(8.高级-Explain查看执行计划)学习笔记文章目录1概述2集群写入流程(3分片2副本共6个节点)3集群读取流程(3分片2副本共6个节点)43分片2副本共... 查看详情

clickhouse-尚硅谷(7.入门-分片集群)学习笔记(代码片段)

上一篇:(6.入门-副本)学习笔记下一篇:(8.高级-Explain查看执行计划)学习笔记文章目录1概述2集群写入流程(3分片2副本共6个节点)3集群读取流程(3分片2副本共6个节点)43分片2副本共... 查看详情