正文

大数据项目组-月度考核汇报0102

延锋L  延锋L  2023-04-01  308

关键词：

01-2023年02月-月度考核汇报

2月份完成项目情况

MySQL数据同步到ElasticSearch任务进展（Windows系统）：

通过logstash加载mysql.conf配置文件的方式实现了

在MySQL数据库进行增改后于一分钟内将数据状态同步至ES中。

2月份学习情况

本月主要学习了以下内容：
① ElasticSearch ：索引库维护、集群、 Postman 工具的使用、 Java 客户端操作索引库、 SpringData 操作 ES 集群 ② Springboot+ElasticSearch 构建博客检索系统， logstash 与 kibana 的安装及使用。 ③ Hadoop ： MapReduce 、 HDFS 、 Hive 、 FineBI 实现可视化报表。

3月份学习计划

本月计划学习以下内容：
① 主要学习内容 ① Logstash 实现 MySQL 与 ES 的数据同步，在 MySQL 数据库中进行增删改操作后，数据状态能够及时反馈至 ES 中； ② Logstash 获取 es 日志文件后，将数据以 json 格式输出到 es 中进行存放； ③ SpringData 操作 ElasticSearch ； ④ 在 linux 上部署 es 。 ② 次要学习内容 ① Apache Spark ，大数据快速计算引擎； ② SVN 、 Git 、 Docker ，项目版本管理工具、项目打包。

老师点评

无！

02-2023年03月-月度考核汇报

项目完成情况

Linux服务器中MySQL数据库数据同步ElasticSearch
① 安装线上运行版本的软件： jdk11 、 elk-8.5.1(es 、 logstash 、 kibana ) 、 node.js-14.21.3 、 esHead 插件； ② 连接线上测试数据库进行测试： 通过 logstash 加载配置文件的方式，将 MySQL 数据同步到 es 中，并在 kibana 中进行查看到了数据增改的同步效果； ③ 拍摄虚拟机快照保存虚拟机状态 ； ④ 详细记录 elk 安装过程及启动步骤 。

投入实际生产时可通过scp命令将本地生产环境拷贝至实际开发环境，为后续生产环境作准备。

本月学习内容

① Git ① Git 简介及安装使用； Git 连接远程仓库； Git 分支； ② Linux ① Windows 安装 Ubuntu 版本 Linux 系统； ② 复习 Linux 常用命令； ③ 复习 Linux 用户和权限知识点； ④ 复习 Linux 实用操作； ⑤ Linux 系统软件安装。 ③ Hadoop ① Hadoop 集群搭建， scp 命令、集群常用脚本。 ② Hadoop-HDFS ，客户端 API 。 ③ Hadoop-MapReduce ， MR 序列化。 ④ Hadoop-Yarn ，生产环境核心参数配置、配置多队列的容量调度器。 ⑤ Hadoop- 生产调优手册， HDFS 集群压测。

① Git ① Git 简介及安装使用： 安装 Git 与 TortoiseGit ，测试本地仓库中文件的增删改； ② Git 连接远程仓库： GitHub 远程仓库、本地仓库推送至远程、克隆远程仓库； ③ Git 分支： 使用 Idea 使用 Idea 将工程添加到本地仓库、使用 Idea 克隆仓库并同步代码、在 Idea 中使用 git 的分支。 ② Linux ① Windows 安装 Ubuntu 版本 Linux 系统： 对比 Ubuntu 与 Cent OS 的差异； ② 复习 Linux 常用命令： ls 、 cd 、 pwd 、 mkdir 、 touch 、 cat 、 more 、 cp 、 mv 、 rm 、 which 、 find 、 grep 、 wc 、 echo 、 tail 、 vim 、 su 、 sudo 、 groupadd 、 useradd 、 usermod 、 userdel 、 getent 、 chmod 、 chown ； ③ 复习 Linux 用户和权限知识点： su 、 sudo 、 groupadd 、 useradd 、 usermod 、 userdel 、 getent 、 chmod 、 chown ； ④ 复习 Linux 实用操作： 软件安装方式、 systemctl 、端口、进程管理、环境变量； ⑤ Linux 系统软件安装： MySQL 、 Tomcat 、 Nginx 、 RabbitMQ 、 Redis 、 ElasticSearch 。 ③ Hadoop ① Hadoop 集群搭建， scp 命令、集群常用脚本 ( xsync 文件分发、集群启停脚本、查看三台服务器 Java 进程脚本 ) 。 ② Hadoop-HDFS ， shell 操作、客户端API( API创建文件夹： URI、Configuration、FileSystem )、core-site.xml 、 hdfs-site.xml 、 yarn-site.xml 、 mapred-site.xml 。 ③ Hadoop-MapReduce ， MR 序列化 (Mapper 、 Reducer 和Driver)、在实体类中实现序列化和反序列化方法、数据压缩。 ④ Hadoop-Yarn ，查看日志及节点状态、生产环境核心参数配置、配置多队列的容量调度器。 ⑤ Hadoop- 生产调优手册， HDFS 核心参数、 HDFS 集群压测、 HDFS 多目录。

下月学习计划

01、Hadoop
①复习hadoop中的重要知识点，重点复习HDFS、MapReduce、Yarn的使用。
②阅读书籍《 Hadoop权威指南_第四版_中文版》，以便对hadoop有更深的理解。

02、Spark（重点学习内容）
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。学习spark教程，重点掌握以下内容：
①Spark Core：最基础与最核心的功能
②Spark SQL：操作结构化数据的组件。
③Spark Streaming：实时数据进行流式计算的组件。
④Spark Mllib：机器学习算法库。
⑤Spark GraphX：Spark 面向图计算提供的框架与算法库。

03、Flink（次要学习内容）
Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。
①flink部署及架构；
②Data Stream API；
③flink处理函数。

04、kafka（次要学习内容）
Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。
①生产者消费者模式实现；
②外部系统集成；
③生产调优方法。

老师点评

zyh老师：不局限于结构化数据，尝试流式数据等各种数据的同步。

hj老师：学习Flink cdc。

基于 Flink SQL CDC 的实时数据同步方案-阿里云开发者社区

客快物流大数据项目学习框架

文章目录客快物流大数据项目学习框架前言一、项目简介二、功能介绍三、项目背景四、服务器资源规划五、技术亮点及价值六、智慧物流大数据平台客快物流大数据项目学习框架前言利用框架的力量，看懂游戏规则，... 查看详情

> 100 mio 的大数据项目选择哪种数据模型。项目

】>100mio的大数据项目选择哪种数据模型。项目【英文标题】：Whichdatamodeltochooseforbigdataprojectwith>100mio.items【发布时间】：2016-05-0413:31:43【问题描述】：我正在从事一个大数据项目，从不同的在线卖家那里收集大量产品信息，... 查看详情

客快物流大数据项目（一百）：clickhouse的使用

文章目录ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程查看详情

我应该将哪个库用于大数据项目[关闭]

】我应该将哪个库用于大数据项目[关闭]【英文标题】：whichlibraryshouldIuseforbigdataproject[closed]【发布时间】：2013-11-2405:29:55【问题描述】：该项目旨在使用大数据技术分析患者的疾病细胞，以表明哪些治疗可以产生最好的结果和... 查看详情

大数据项目3（数据规约）

数据规约一、简介二、数据分析与挖掘体系位置三、数据规约方法1、维度规约（DimensionalityReduction）（1）小波变换（WaveletTransform，WT）（2）主成分分析（PrincipalComponentAnalysis，查看详情

客快物流大数据项目（一百零五）：启动elasticsearch

文章目录启动ElasticSearch一、启动ES服务端二、启动Kibana启动ElasticSearch 查看详情

客快物流大数据项目（一百零五）：启动elasticsearch

文章目录启动ElasticSearch一、启动ES服务端二、启动Kibana启动ElasticSearch 查看详情

客快物流大数据项目（一百零六）：实时etl处理

文章目录实时ETL处理一、业务流程二、查看详情

客快物流大数据项目（一百零六）：实时etl处理

文章目录实时ETL处理一、业务流程二、查看详情

客快物流大数据项目（一百零八）：springcloud技术栈

文章目录SpringCloud技术栈前言一、微服务技术栈查看详情

客快物流大数据项目（一百零八）：springcloud技术栈

文章目录SpringCloud技术栈前言一、微服务技术栈查看详情

❤️21届校招8月前端月度工作汇报｜总结

...好呀，今天又到了月末了，周二又到了校招入职月度成长汇报的时间了，本次还是继续在这里进行一个大纲编写。8月月度成长汇报由于部分内容涉及公司信息，所以就不做详细说明了，以下内容仅个人工作期... 查看详情

客快物流大数据项目（一百零三）：快递追踪需求介绍

文章目录快递追踪需求介绍前言背景介绍设计方案快递追踪需求介绍查看详情

❤️21届校招8月前端月度工作汇报｜总结

客快物流大数据项目(十九)：项目环境准备

...装CentOS-7项目环境准备一、服务器规划在大数据物流系统中，一般先在确立一套通用的、可扩展的计算平台，然后基于该平台统一软件栈，最后部署很多的业务系统，各系统又相互依赖。服务器需... 查看详情

客快物流大数据项目（九十八）：clickhouse的sql函数

文章目录ClickHouse的SQL函数一、类型检测函数查看详情

客快物流大数据项目（一百零一）：实时olap开发

文章目录实时OLAP开发一、实时ETL处理二、SparkSQL基于DataSourceV2自定义数据源查看详情

客快物流大数据项目（七十三）：impala数据导入方式

文章目录Impala数据导入方式一、loaddata二、insertintovalues三、insertintoselect四、createasselectImpala数据导入方式一、loaddata 查看详情