火山引擎云原生数据仓库bytehouse技术白皮书v1.0(ⅳ)

字节跳动数据平台 字节跳动数据平台     2023-04-20     419

关键词:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

 近日,《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。白皮书简述了 ByteHouse 基于 ClickHouse 引擎的发展历程,首次详细展现 ByteHouse 的整体架构设计及自研核心技术,为云原生数据仓库发展,及企业数字化转型实战运用提供最新的参考和启迪。

以下为 ByteHouse 技术白皮书【数据导入导出】版块摘录。

技术白皮书(Ⅰ)(Ⅱ)(Ⅲ)精彩回顾:

https://xie.infoq.cn/article/5c9471c7adb58e4bb43b69c4d

https://xie.infoq.cn/article/086b4e706965a6bd81f6a6ff2

https://xie.infoq.cn/article/a0dceef1588fe6c58247d3b37

ByteHouse 数据导入导出

ByteHouse 包括一个数据导入导出(Data Express)模块,负责数据的导入导出工作。

 

Data Express 模块架构图

Data Express 为数据导入/导出作业提供工作流服务和快速配置模板,用户可以从提供的快速模板创建数据加载作业。

DataExpress 利用 Spark 来执行数据迁移任务。

主要模块:

  • JobServer

  • 导入模板

  • 导出模板

JobServer 管理所有用户创建的数据迁移作业,同时运行外部事件触发数据迁移任务。

启动任务时,JobServer 将相应的作业提交给 Spark 集群,并监控其执行情况。作业执行状态将保存在我们的元存储中,以供 Bytehouse 进一步分析。

ByteHouse 支持离线数据导入和实时数据导入。

离线导入

离线导入数据源:

  • Object Storage:S3、OSS、Minio

  • Hive (1.0+)

  • Apache Kafka /Confluent Cloud/AWS Kinesis

  • 本地文件

  • RDS

离线导入适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景,根据是否对目标数据表进行分区,ByteHouse 提供了不同的加载模式:

  • 全量加载:全量将用最新的数据替换全表数据。

  • 增量加载:增量加载将根据其分区将新的数据添加到现有的目标数据表。ByteHouse 将替换现有分区,而非进行合并。

支持的文件类型

ByteHouse 的离线导入支持以下文件格式:

  • Delimited files (CSV, TSV, etc.)

  • Json (multiline)

  • Avro

  • Parquet

  • Excel (xls)

实时导入

ByteHouse 能够连接到 Kafka,并将数据持续传输到目标数据表中。与离线导入不同,Kafka 任务一旦启动将持续运行。ByteHouse 的 Kafka 导入任务能够提供 exactly-once 语义。您可以停止/恢复消费任务,ByteHouse 将记录 offset 信息,确保数据不会丢失。

支持的消息格式

ByteHouse 在流式导入中支持以下消息格式:

  • Protobuf

  • JSON

更多的导入数据源以及导出功能正在不断完善中。

点击链接,立即下载完整版白皮书

火山引擎云原生数据仓库bytehouse技术白皮书v1.0(ⅴ)

...交流群 近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数据仓库发展,及企业数字化转型... 查看详情

火山引擎云原生数据仓库bytehouse技术白皮书v1.0(ⅵ)

...官方交流群近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数据仓库发展,及企业数字化转型... 查看详情

bytehouse技术白皮书正式发布,云数仓核心技术能力首次全面解读(内附下载链接)

...交流群 近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。在数字化浪潮下,伴随着公有云的广泛普及,生于云、长于云、基于云原生架构的数据仓库百花齐放,快速迭代。相比起传统数仓,云原生数据仓库凭... 查看详情

助力企业数据飞轮转起来!火山引擎云原生数仓bytehouse全面大促中

...“数据多样融合”环节的必要步骤之一。云原生数据仓库ByteHouse是火山引擎旗下基于开源ClickHouse的企业级分析型数据库,在字节跳动内部沉淀迭代多年后,凭借新一代的云原生架构,高效方便的运维模式,以及高性能更灵活的... 查看详情

从clickhouse到bytehouse:实时数据分析场景下的优化实践

...跳动旗下的企业级技术服务平台火山引擎正式对外发布了ByteHouse。在打造ClickHouse企业版ByteHouse的过程中,我们经过了多年的探索与沉淀,今天和大家分享字节跳动过去使用ClickHouse的两个典型应用于优化案例。近日,... 查看详情

apachepulsar在火山引擎emr的集成与场景(代码片段)

...用,其应用场景和客户案例也在不断地丰富与扩充。 火山引擎是字节跳动的企业服务品牌,主要面向ToB业务场景。火山引擎中Stateless云原生开源大数据平台E-MapReduce(简称EMR)为用户提供了云上的端到端的大数据解决方案。... 查看详情

助力极致体验,火山引擎边缘计算最佳实践

导读IDC发布的《超视频时代视频云演进趋势》白皮书提出,超视频时代用户的三大核心需求是:更加高清、更加交互、更加沉浸。在这样的需求下,用户的体验变得至关重要。近期,在“面向体验的视频云火山引... 查看详情

4月22日丨云数据库技术沙龙技术进化,让数据更智能

...一起来看看MySQLxClickHouse会碰撞出怎样的火花。议题一:ByteHouse云数仓版查询性能优化和MySQL生态完善游致远|火山引擎ByteHouse资深研发工程师嘉宾简介:火山引擎资深研发工程师,负责By 查看详情

如何构建面向海量数据高实时要求的企业级olap数据引擎?

...储计算分离、多租户管理等能力,推出了云原生数据仓库ByteHouse。在性能、可扩 查看详情

云原生数据湖应用洞察白皮书

内容整理自:艾瑞咨询《中国云原生数据湖应用洞察白皮书》概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有「数据多源异构、统一存储管理、多范式计算、schema后... 查看详情

云原生数据湖应用洞察白皮书

内容整理自:艾瑞咨询《中国云原生数据湖应用洞察白皮书》概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有「数据多源异构、统一存储管理、多范式计算、schema后... 查看详情

火山引擎进军云市场,计划未来三年服务十万客户

12月2日,火山引擎在升级为字节跳动企业级技术服务业务板块之后,首次亮相就正式发布全系云产品,包括云基础、视频及内容分发、数据中台、开发中台、人工智能等五大类、共计78项服务。火山引擎云产品是字节... 查看详情

助力企业数字化升级,火山引擎发布云上增长解决方案

7月20日,2022火山引擎原动力大会在京举办。会上,火山引擎发布全新Slogan“云上增长新动力”,并推出以云为底座的一系列产品解决方案,包括企业上云和智能营销通用方案,以及覆盖金融、汽车、消费、文... 查看详情

面向视频原生,火山引擎发布视频云与边缘云软硬一体的新云解决方案

12月2日,火山引擎在上海举办云产品发布会。除了推出计算、存储和网络的产品外,火山引擎也发布了视频云与边缘云软硬一体的新云解决方案,即云边端一体化边缘云基础设施,为用户体验而生的视频云服务... 查看详情

火山引擎视频云:从toc到tob,如何将最好的技术开放出去

 火山引擎总经理谭待6月10日,火山引擎召开品牌发布会。在发布会上的演讲中,火山引擎总经理谭待提到要把字节跳动最好的技术开放出去,而经过抖音、西瓜等产品的千锤百炼,服务过数亿用户的火山引擎视... 查看详情

火山引擎视频云:坚持基础技术创新,打造极致用户体验

...我们从toC到toB,作为抖音背后的视频技术中台,火山引擎视频云经历了哪些转变和挑战?对于国际标准的制定,它是如何实现从跟随者到参与者的跨越?视频盗版问题泛滥,火山引擎视频云又有哪些应对措... 查看详情

以100gbssb性能测试为例,通过bytehouse云数仓开启你的数据分析之路(代码片段)

...化利用资源,从而达到Payasyougo按实际用量付费的模式。ByteHouse作为云原生的数据平台,从架构层面入手,通过存储和计算分离的云原生架构完美适配云上基础设施。在字节跳动内部,ByteHouse已经支持80%的分析应用场景,包括用... 查看详情

云原生数据库白皮书,发布!

...计算与大数据研究所共同发布了业界首个《云原生数据库白皮书》,梳理云原生数据库全流程概念及方法。本文分享自华为云社区《发布了!业界首个《云原生数据库白皮书》》,作者: 华为云头条。8月18日ÿ... 查看详情