arctic开源!网易数帆x华泰证券,推动湖仓一体落地

CSDN资讯 CSDN资讯     2022-11-30     336

关键词:

数字化转型趋势下,各行业对数据生产力的探索与追求逐步进入深水区。现实的问题是,企业数据仓库存储、数据湖多种技术并存的局面将长期存在,如何才能摆脱技术协同的内耗,让大数据直通生产力的彼岸?

8月11日下午,网易数帆与华泰证券携手于线上举办企业级流式湖仓服务Arctic开源发布会,宣布以开源的Arctic完善现有数据湖底座,拓展数据平台的边界,改善产品、数据孤岛和流程规范割裂带来的低效和成本浪费,推动湖仓一体、流批融合落地,实现数据生产力,驱动业务价值。

Arctic开源:不魔改,不封闭,推动数据生产力落地

面对网易的多元化业务、多元化技术,网易数帆在推动数据生产力时遇到了文章开头提到的问题,但网易数帆从基础设施、数据研发、数据中台到数据产品,建设了一套完善的大数据技术体系,并推广应用到金融、零售、流通、制造等行业三百余家客户。

网易数帆大数据产品线总经理余利华表示,这成果得益于网易数帆构建大数据体系时的两大技术原则:开放式架构和开源。开放式架构采用模块化设计和大量开源组件实现,这使得该体系能力全面、生命力强,同时建设成本低。当然这也带来了使用复杂、维护复杂的问题,而网易数帆通过融入开源社区解决这个问题,典型的如通过开源Apache Kyuubi构建统一SQL网关,为数据湖提供统一的入口。


网易数帆大数据产品线总经理 余利华

参与到金融行业数字化转型,让网易数帆发现了新的挑战:金融企业希望融合实时数据湖与数据仓库,打造实时数据中台支撑其数字化业务创新。这本质上正是湖仓一体的思路,但目前的主流数据湖技术等只解决了更新、大表访问性能、流式消费等问题,仍然遗留小文件导致性能损耗、兼容性和流失更新等性能和易用性相关问题,而开源社区尚未出现对应的解决方案。这就是网易数帆研发并开源流式湖仓服务Arctic项目的直接原因。

Arctic 是搭建在 Apache Iceberg之上的流式湖仓服务(Streaming LakeHouse Service)。通过 Arctic,用户可以在 Flink、Spark、Trino 等引擎上实现更加优化的 CDC、流式更新、OLAP 等功能, 结合数据湖高效的离线处理能力,Arctic 能够服务于更多流批混用的场景;同时,Arctic 的结构自优化、并发冲突解决以及标准化的湖仓管理功能,可以有效减少用户在数据湖管理和优化上的负担。

余利华表示,秉承开放式架构原则,Arctic立足开源数据湖,拒绝魔改,不绑定计算引擎,注重与传统数仓Hive的兼容。这是继SQL统一入口之后,网易数帆大数据体系再次在存储层面实现统一,这使得数据中台体系可以无缝扩展到实时场景,企业数据生产力的发挥将不再被孤岛所困扰。金融行业的应用实践,也验证了这一思路的价值。

Arctic设计:重塑成本、性能和数据新鲜度的平衡

网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进进一步介绍了Arctic项目的目标、特性、规划以及给开源用户带来的价值。

马进表示,Arctic的定位是流式湖仓服务,流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。


网易数帆大数据实时计算技术专家、湖仓一体项目负责人 马进

当前数据湖技术虽多,提供的都是各种数据湖格式,而非真正的湖仓一体平台。这些格式已经存在于企业环境,Arctic作为服务可以去适配不同的数据湖格式,使得企业无需担心数据湖技术的选型问题,持续优化数据分析能力,也让数据流管理变得简单。

在能力上,Arctic不仅提供了基于主键高效地流式更新,数据自动分桶、结构自优化的特性,还支持将数据湖和消息队列封装成统一的表,实现比传统方案更低延迟的流批一体,从根本上优雅地解决性能问题。另一方面,Arctic还提供流式数仓标准化的度量,dashboard 和相关管理工具,并为流批并发写入提供事务性保障。

在架构上,Arctic设计简洁,只有AMS、optimizer和dashboard三个组件,在数据湖和计算引擎之间提供湖仓一体落地所需的能力,但却支持Spark和Flink读写、Trino查询,百分百兼容Iceberg/Hive的表格式和语法,这使得它的使用成本很低。

马进还强调了Arctic定位的深层意义:“当我们将数据湖的能力拓展到实时场景,成本、性能和数据新鲜度三者的关系将呈现更为复杂和微妙的状态,Arctic的服务和管理功能,将为用户和上层平台理清这个三角关系。”

华泰证券:Arctic助力金融数智中台实时湖仓完善

华泰证券大数据流计算技术专家陈丰介绍了Arctic在华泰数智中台实时湖仓建设中发挥的作用。实时湖仓在华泰证券日内数据离线加工、实时关联大量历史数据、金融数据频繁修正、统一埋点加工链路等方面具有极大的价值,然而当前数仓建设面临流批链路分开建设、纯实时业务逻辑复杂、数据存储不统一、数据更新复杂以及演进难等五大问题。

华泰证券大数据流计算技术专家 陈丰

“业界给出了Iceberg、Hudi等解决方案,但我们业务、平台需要的不仅仅是单一的开源数据湖组件。”陈丰说,华泰证券对实时数据湖建设设定了流批一体、高性能低延迟、兼容现有Hive/Impala等多重目标。
华泰证券与网易数帆合作,引入Arctic实现实时湖仓,并在融资融券、埋点日志运营等场景实现了良好的应用和出色的性能。例如融资融券场景包括了大量历史数据联合计算,使用流式计算实现逻辑复杂。从离线架构到实时架构,再到实时湖仓架构的升级后,整体实现逻辑明了,且端到端延迟时间从T+1天缩短到了T+20分钟。

社区规划:欢迎所有成员贡献、分享、协作

马进还介绍了Arctic开源社区的规划,将为开发者、用户等成员建立一个公开、自由的全球数据湖技术交流社区,所有成员可通过贡献、分享、协作的方式参与社区。

共建企业参与计划同步启动,华泰证券作为 Arctic 开源社区的首家共建单位,在 Arctic 项目开源之初率先了加入社区参与建设,不仅作为用户结合业务场景提供真实的使用反馈,也作为开发力量共同持续探索流式湖仓技术领域创新性功能。

未来,华泰证券将进一步繁荣 Arctic 社区生态,与Arctic 社区小伙伴一起,共同打造一款全球领先的流式湖仓服务创新产品,构建繁荣的数据湖仓生态圈。

在此,网易数帆也欢迎更多的个人和企业参与到Arctic社区。

• Arctic 文档地址:https://arctic.netease.com/ch/
• GitHub 地址:https://github.com/NetEase/arctic

dataops-数据开发治理一体化之网易数帆数据治理2.0实践分享

文章目录前言导读0X01网易数帆大数据1.网易数帆大数据的发展历史2.网易数帆大数据产品矩阵3.网易数帆大数据商业化定位4.用户案例墙0X02为什么数据治理项目经常失败1.我们为什么要做数据治理2.网易数帆数据生产力架构3.传统... 查看详情

现代数据治理如何在网易数帆成功落地?

导读:本文将分享网易数帆数据治理的发展过程,以及对现代数据治理的概念和理念的理解,提出现代数据治理应该与数据开发和消费很好地衔接,具备开发治理一体化、形成治理的闭环、仓内仓外统一治理和建立数据资产门户... 查看详情

网易数帆发布轻舟低代码平台2.0,聚焦中等复杂度企业级应用

...SDN云计算头图|轻舟低代码平台2.0发布会现场8月26日,网易数帆正式发布轻舟低代码应用开发平台2.0版本(以下简称“轻舟低代码平台”),以全新的可视化编程语言为特色,针对中等复杂度的企业级应用场景&... 查看详情

maxcompute湖仓一体介绍

简介:本篇内容分享了MaxCompute湖仓一体介绍。分享人:孟硕阿里云MaxCompute产品专家 视频链接:数据智能实战营-北京站专题回顾正文:本篇内容将通过两个部分来介绍MaxCompute湖仓一体。一、什么是MaxCompute湖仓一... 查看详情

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

...研究员林伟:阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。林... 查看详情

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

...研究员林伟:阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。林... 查看详情

我们怎么做开源

图:数帆开源全景图今年数字+大会上我们第一次比较系统的推出了我们的开源计划(https://sf.163.com/opensource),将“架构开放、内核开源”作为我们的核心战略,尽可能的减少客户绑定,引起媒体的广... 查看详情

湖仓一体数据平台架构

...库、Hadoop、对象存储、Hudi等各种数据技术不断涌现,湖仓一体概念逐步被人们所关注,在国际知名机构Gartner发布的《HypeCycleforDataManagement2021》中,湖仓一体被正式纳入到技术成熟度曲线中。最近有很多朋友都在讲 查看详情

相聚「1024」:湖仓一体,释放全量数据价值

...员节”盛大开启。本届1024程序员节以“算力新时代,开源创未来”为主题,作为企业级基础软件厂商,同时也是金融级分布式数据库市场的领导者,巨杉数据库受邀在数据库技术及应用实践论坛中做主题分享。巨... 查看详情

阿里云云原生一体化数仓—湖仓一体新能力解读

一、基于MaxCompute的湖仓一体架构更新基于MaxCompute云数据仓库的湖仓一体架构近期进行架构升级。了解MaxCompute的同学可能比较清楚,MaxCompute有两层结构,需要先创建Project,在Project里面创建表、资源等。传统数据库&#x... 查看详情

湖仓一体电商项目:项目背景和架构介绍

...果项目背景和架构介绍一、​​​​​​​项目背景介绍湖仓一体实时电商项目是基于某宝商城电商项目的电商数据分析平台,本项目在技术方面涉及大数据技术组件搭建,湖仓一体分层数仓设计、实时到离线数据指标... 查看详情

现在的湖仓一体像是个伪命题

文章目录开放的计算引擎SPL助力湖仓一体开放且完善的计算能力多数据源混合计算文件计算支持完善的计算能力直接访问源数据数据整理后的高性能计算SPL资料从一体机、超融合到云计算、HTAP,我们不断尝试将多种应用场景... 查看详情

数据湖及湖仓一体化项目学习框架

文章目录数据湖及湖仓一体化项目学习框架前言一、数据湖基础知识介绍1、数据湖技术Hudi2、数据湖技术Iceberg二、湖仓一体化项目数据湖及湖仓一体化项目学习框架前言利用框架的力量,看懂游戏规则,才是入行的前提... 查看详情

湖仓一体电商项目:内网穿透工具-网云穿

文章目录内网穿透工具-网云穿一、首先下载网云穿工具二、添加隧道 查看详情

湖仓一体电商项目:编写写入dws层业务代码

文章目录编写写入DWS层业务代码一、代码编写二、创建Iceberg-DWS层表 查看详情

汽车之家基于flink+iceberg的湖仓一体架构实践

...星在4月17日上海站Meetup分享的,基于Flink+Iceberg的湖仓一体架构实践,内容包括:数据仓库架构升级的背景基于Iceberg的湖仓一体架构实践总结与收益后续规划Tips:点击文末「阅读原文」即可查看原文视频~... 查看详情

湖仓一体电商项目:业务需求和分层设计及流程图

文章目录业务需求和分层设计及流程图一、业务需求 查看详情

湖仓一体电商项目(十三):数据发布接口和可视化

 文章目录数据发布接口和可视化一、数据发布接口 查看详情