数据中台citus集群压测报告

PGCCC PGCCC     2022-12-14     391

关键词:

作者简介:
迪颉科技是专注于企业数字化转型数据价值及数据治理,并在大数据、数据中台(零售、制造行业)、dataops/数仓以及数据驱动的应用等,提供专业解决方案的团队。在以往外企的从业经验中,将原来的Teradata等数仓大数据的模型/脚本/数据迁移到hadoop/HTAP开放平台,提供工具链和专业的服务及相关的解决方案。

测试时间及人员:
测试时间:2022/9/12 ~ 2022/09/23 测试人员:迪颉科技 项目组
测试背景:
为PG单机版迁移到Citus集群,集群架构与单机 PostgreSQL 的性能特性对比,从读写的效能,以及 SQL 兼容性、业务使用等多个方面进行验证。
测试环境:
同一台机器,不同数据库,分别是集群_db 和 data_platform 单机(单机)数据库,服务器信息如下:
IP:10.0.4.189 Port:5432
OS:CentOS Linux release 7.8.2003 (Core) CPU:64 vcore Memory:512G,Disk 24T
数据库:PG14.5 à Citus 11.0.6
集群采用一个CN 服务、两个Work

结论:
1、 采用集群(目前 2 节点 worker)后,性能大幅度提升(从 2x~ 42x 不等)
2、 按照生产的 SQL 测试了各类用例,SQL 完全兼容,运行良好
3、 验证了架构的扩展性和各种功能,无异常
4、联络人: Thomas 微信号:a29163631

测试用例:
测试数据信息概况:

集群按照日期字段(Date_Id)进行数据分布,两者都是分区表,按照日期字段(Date_Id)按月分区。
结论:大表扫描(18 亿),单机 7~28 分钟,集群 26~59 秒
记录数据统计:
1、单机data_platform 单机,运行结果:

nF_AGG_STOCK

nF_V_MONTHLY_STOCK

2、集群_db,运行结果:

nF_AGG_STOCK

nF_V_MONTHLY_STOCK

数据关联查询:

结论:2 个大表关联(18 亿 和 8 千 3 百万),单机:4 小时到 7 小时,集群:8 分钟到 11 分钟

单机data_platform 单机,运行结果:

nF_AGG_STOCK

nF_V_MONTHLY_STOCK

集群_db,运行结果:

nF_AGG_STOCKnF_V_MONTHLY_STOCK
数据关联查询:按照日期聚合
结论:2 个大表(按日期)关联(18 亿 和 8 千 3 百万),单机:6 小时到 7 小时,集群:12 分钟到 17 分钟

单机data_platform 单机,运行结果:

nF_AGG_STOCK

nF_V_MONTHLY_STOCK
集群_db,运行结果:
nF_AGG_STOCK
nF_V_MONTHLY_STOCK

数据关联查询:按照经营渠道聚合
结论:2 个大表(按经营渠道)关联(18 亿 和 8 千 3 百万),单机:5 小时到 5 小时,集群:12 分钟到 17 分钟
单机data_platform 单机,运行结果:
nF_AGG_STOCKnF_V_MONTHLY_STOCK

集群_db,运行结果:
nF_AGG_STOCK
nF_V_MONTHLY_STOCK
数据更新处理:

结论:单个大表(18亿),更新2百7万,单机:平均1分23秒,集群52秒;更新2前7万,平均9分43秒,集群:2分41秒;更新5千9万,平均23分53秒,集群:4分27秒;
单机data_platform 单机,运行结果:
nF_AGG_STOCK:2022-08-31(更新)
nF_AGG_STOCK:2022-08-31(修复)

nF_AGG_STOCK:9 月份(更新)

nF_AGG_STOCK: 9 月份(修复)

nF_AGG_STOCK: 8 月份(更新)

nF_AGG_STOCK: 8 月份(修复)

集群_db,运行结果:

nF_AGG_STOCK:2022-08-31(更新)

nF_AGG_STOCK:2022-08-31(修复)

nF_AGG_STOCK:9 月份(更新)

nF_AGG_STOCK: 9 月份(修复)
nF_AGG_STOCK: 8 月份(更新![请添加图片描述](https://img-blog.csdnimg.cn/be5896a2af6642b6b52c1b003f2b3d5b.jpenF_AGG_STOCK: 8 月份(


数据写入处理:

结论:源表(18 亿),加载 2 百 7 万,单机:平均 6 分 37 秒,集群:1 分 16 秒; 加载 6 千万左右,平均 14 分 30 秒,集群:2 分 8 秒;

单机data_platform 单机,运行结果:

nF_AGG_STOCK_VERIFY:2022 年 9 月份

nF_AGG_STOCK_VERIFY:2022 年 8 月份

nF_AGG_STOCK_VERIFY:2022 年 7 月份

nF_AGG_STOCK_VERIFY:2022 年 6 月份

nF_AGG_STOCK_VERIFY:2022 年 5 月份

/635aa53c9a5d46da922a6abe0a50dde7.jpeg
nF_AGG_STOCK_VERIFY:2022 年 4 月份
集群_db 运行结果:

nF_AGG_STOCK_VERIFY:2022 年 9 月

nF_AGG_STOCK_VERIFY:2022 年 8 月份

nF_AGG_STOCK_VERIFY:2022 年 7 月份

nF_AGG_STOCK_VERIFY:2022 年 6 月份

nF_AGG_STOCK_VERIFY:2022 年 5 月份

/ba94d93572324ade80033c3591f24d7f.jpeg
nF_AGG_STOCK_VERIFY:2022 年 4 月份
单机data_platform 单机,运行结果:

nF_AGG_STOCK_VERIFY:2022 年 3 月份

nF_AGG_STOCK_VERIFY:2022 年 2 月份
nF_AGG_STOCK_VERIFY:2022 年 1 月份

集群_db 运行结果:

nF_AGG_STOCK_VERIFY:2022 年 3 月份

nF_AGG_STOCK_VERIFY:2022 年 2 月份

nF_AGG_STOCK_VERIFY:2022 年 1 月份

性能压测报告

...明二、调优1、slb2、内核3、nginx4、php三、盘古单节点压测数据四、盘古单代理节点压测数据五、集群压测数据1、每秒2000并发,总计5分钟压测数据2、每秒3000并发,总计5分钟压测数据六、结论1、说明2、结果3、瓶颈业务... 查看详情

如何将数据库转储还原到 Citus 集群?

】如何将数据库转储还原到Citus集群?【英文标题】:HowdoIrestoreadatabasedumptoaCituscluster?【发布时间】:2015-10-1411:03:05【问题描述】:在恢复(pg_dump-produced)数据库转储时,我收到以下错误:无法在主节点上的分布式表上执行COPYFROM... 查看详情

支付宝lr集群压测报告

支付宝压力测试报告 时间:2016-03-23                            &nbs 查看详情

报告分享2021中国数据中台研究报告.pdf(附下载链接)

...院联合发布的报告《2021中国中台市场研究报告.pdf》,关注数据中台、数字化的伙伴别错过了,在小程序省时查报告中搜索“中台”、“数字化”等可以查看并下载海量相关干货资料。我们也搭建了行业交流社群,涵盖人... 查看详情

centos7下pgsql9.6之citus集群搭建

...192.168.1.236。执行命令如下图,成功后也如图所示,代表集群创建成功。 查看详情

centos7citus9.5集群安装及管理

 1所有节点配置 #------服务安装服务yumupdate-y#------扩展依赖安装yuminstall-yepel-release&&yumupdate-y#------AddCitusrepositoryforpackagemanagercurlhttps://install.citusdata.com/community/rpm.sh|sudoba 查看详情

国际新闻|citus11forpostgres完全开源,可从任何节点查询(代码片段)

...01;Citus是一个PostgreSQL扩展,它为PostgreSQL添加了分布式数据库的超能力。使用Citus,您可以创建跨PostgreSQL节点集群透明分布或复制的表。Citus11.0是一个新的主要版本,这意味着它带有一些非常令人兴奋的新功能,可... 查看详情

国际新闻|citus11forpostgres完全开源,可从任何节点查询(代码片段)

...01;Citus是一个PostgreSQL扩展,它为PostgreSQL添加了分布式数据库的超能力。使用Citus,您可以创建跨PostgreSQL节点集群透明分布或复制的表。Citus11.0是一个新的主要版本,这意味着它带有一些非常令人兴奋的新功能,可... 查看详情

将数据从 Citus 迁移到 RDS

】将数据从Citus迁移到RDS【英文标题】:MigratedatafromCitustoRDS【发布时间】:2021-10-1914:14:40【问题描述】:由于Citus不会在AWS中作为托管服务提供,我正在尝试将数据库移动到RDS(不是整个历史记录,而只是作为OLTP的事务部分)。... 查看详情

读书笔记:压测与预案

...,很难进行全链路压测,适合组件级的压测,数据只能作为参考。线上压测的方式非常多:读压测、写压测、混合压测、仿真压测、隔离集群压测、单机压测、离散数据压测、全链路压测等。系统优化在进行系统... 查看详情

es实战rally离线使用实现自定义track压测(代码片段)

...准测试场景的描述。例如,它定义了所涉及的索引、数据文件以及所调用的操作。用esrallylisttracks列出可用的轨迹。尽管Rally开箱即有一些轨道,但你通常应该根据自己的数据创建自己的轨道。基准测试场景的基础组成数... 查看详情

有赞全链路压测实战

...都都已有很成熟的技术,主要就是压测流量的制造、压测数据的构造、压测流量的识别以及压测数据流向的处理;直接看下有赞压测的整体设计:大流量下发器:其实就是模拟海量的用户去使用我们的系统,提供压测的流量,产... 查看详情

数据中台应用实战50篇-带你概览bi数据仓库数据湖与数据中台之间有什么关联关系?(建议收藏)

前言数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定... 查看详情

数据中台应用实战50篇-带你概览bi数据仓库数据湖与数据中台之间有什么关联关系?(建议收藏)

前言数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定... 查看详情

kafka压测—搞垮kafka的方法(转)(代码片段)

...梳理逻辑关系:单点硬件故障→单点进程故障类型→集群影响→集群故障场景第三方依赖故障→集群依赖关系→集群影响→集群故障场景业务场景→集群负载/错误影响→集群故障场景Kafka故障场景Kafka故障的定... 查看详情

jmeter3.1压测

压测目标:error为0,线程起到250,服务器配置达到最大一.Jmeter3.1压测JMeter3.1提供一个用于生成HTML页面格式图形化报告的扩展模块。该模块支持通过两种方式生成多维度图形化测试报告:在JMeter性能测试结束时,自动生成本次测试... 查看详情

将压测结果生成多维度图形化html测试报告

需要在bin目录下面建一个result目录用来存放测试报告压测命令:jmeter-n-t/usr/local/software/jmeter/temp/linux_users_api.jmx-l/usr/local/software/jmeter/temp/jtl/result.jtl-e-o/usr/local/software/jmeter/temp/result注:-n非GUI界面-e禁用监 查看详情

jmeter压测数据库

压测数据库时需要添加一个jar包,自己在网上下载就好了,将下载的jar包放到jmeter文件下  在测试计划中导入添加的jar包1.添加线程组2.添加取样器-->JDBCRequest     3.点击JDBCRequest,添加配置元件,JDBCconn... 查看详情