走好数据中台最后一公里,为什么说数据服务api是数据中台的标配?
原文链接:走好数据中台最后一公里,数据服务 API 是数据中台的标配
视频回顾:点击这里
课件获取:点击这里
一、数据服务 API 建设背景
在数字化转型的时代背景下,新需求的大量增长、新技术的不断迭代,“互联网化、数字化” 进程的不断深入,越来越多的业务被迁移到互联网上,产生大量的业务交互和对外服务需求,对 API 接口的需求与日俱增,如何快速提升企业数据开放共享能力,是企业面临数字化转型的关键命题。
传统的方式如后端开发人员通过 Java 或 Python 等语言进行编写来生成 API 接口,开发周期过长,运维成本太高,已经不能满足企业的需求。企业在数字化转型过程往往面临诸多难题:
为了更多的解决这些问题,我们在企业开放、共享数据过程中需要确定以下目标:
- 快速构建 API
- 系统稳定、数据安全
- 易于集成使用
- 授权交付
- 低成本运维
二、数据服务平台建设方法论
在分享数据服务平台建设方法论之前,我们先了解一下常见的数据中台应用架构:
数据服务层作为数据中台整体应用架构中处于中间地位,将数据计算层的结果通过数据 API 的形式对外共享给数据应用层。数据服务层主要有 3 个作用:
1、当数据已被整合和计算好之后,需要提供给产品和应用进行数据消费;
2、为了有更好的性能和体验,构建数据服务层,通过接口服务化方式对外提供数据服务;
3、满足应用各种复杂的数据服务需求(简单数据查询服务、复杂数据查询服务、实时数据推送)
而在数据服务层对外提供服务的过程中,经历了从 **“DWSOA” 到 “OneService”** 的演变过程。
从 “OneService” 数据服务本身来说,主要是解决异构数据源、重复建设、审计运维困难、理解困难这 4 个问题,通过 “OneService” 服务,实现主题式数据服务、统一且多样化数据服务、跨源数据服务的服务目标。
因此,若想构建一个完整的数据服务平台,需要具备以下 6 个要素:
- 便捷开发,具备低代码化的开发能力
- 易于管理,API 管理操作可视化查询 API
- 易于使用,具备规范化的文档描述信息
- 安全稳定,服务调用追踪监控、服务使用审计、鉴权等
- 易于运维,测试、纠查、问题规则配置
- 性能,负载均衡、高并发
三、基于 OneService 构建数据体系
了解完 “OneService” 理论,接下来为大家分享如何基于 OneService 构建数据体系,主要遵循以下步骤:
● 第一步:API 定义
API 的定义包括:快速配置参数、选择排序字段、API 类型多样性、数据预览、复制字段等方面。
API 的类型又包括生成 API、注册 API、服务分组及服务编排这 4 个方面。
● 第二步:API 发布
API 的发布包括测试、提交至 API 网关、发布至 API 市场、版本管理这几个方面。
● 第三步:API 调用
API 调用包括数据预览、API 申请、审批、下载接口文档、正式调用这几个方面。
● 第四步:调用监控
业务上:对 API 调用的统计数据进行深入的分析,进而得出关键信息;
技术上:通过 API 调用的统计图表进行分析可以发现,哪些 API 最受欢迎;而哪些几乎无人问津,应该被淘汰;
安全上:对调用 IP、调用次数进行监控,对调用者进行溯源。
● 第五步:数据安全
数据安全包括:统一认证鉴权、传输加密、安全组、角色分配、行级权限、调用审批等。
上述的数据服务 API 的建设过程,其实正是袋鼠云自研的数栈数据服务 EasyAPI 产品的落地实践过程。
数据服务(EasyAPI),高效的企业级数据服务产品,通过双模式可视化配置生成与注册 API,快速构建 OneService 数据共享服务,形成企业级的 API 市场和 API 服务管理平台,提高数据开放与共享效率。
同时产品具备以下特点:
- 快速构建
配置即开发,支持 0 代码、低代码快速构建 API
- 安全性高
用户认证、监控、传输加密、API 级别安全策略、行级权限、角色分配、调用申请审批、调用周期次数的限制、黑白名单
- 灵活度高
“服务编排 “可对不同的 API 进行组合,支持集成 python 进行数据处理、支持 “条件判断” 节点,选择符合条件的分支
- 配置灵活
横向拓展 API 网关、缓存
- 低成本运维
采用 Serverless 架构,只需关注 API 本身的业务逻辑,很少考虑运行环境等基础设施
四、API 实施落地案例
接下来我们分享三个使用客户的实际案例,为大家介绍 EasyAPI 如何切实的帮助客户解决问题。
● 金融:某证券公司应用数据服务
● 学校:某大学应用数据服务
● 零售:某网络公司应用数据服务
袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack
相关内容
数据湖和数据中台的区别?
一、数据湖的定义
维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。
二、数据中台的定义
关于数据中台,笔者查阅了很多资料,也没有找到对于它的确切和标准定义。事实上也是如此,实际上,数据中台是一个具有“中国特色”的概念,在国外并没有太多人谈论数据中台。
通俗来讲,数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。
三、数据湖与数据中台的关系,数据湖和数据中台的区别
大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。
数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。
数据湖和数据中台的区别?
数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。
数据湖更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。
以上就是思迈特软件今天分享的数据湖与数据中台的相关知识。
感谢您的阅读,更多知识,请继续关注我们,下期再见!
广州思迈特软件有限公司(简称:思迈特软件Smartbi)是国家认定的“高新技术企业”,专注于商业智能(BI)与大数据分析软件产品和服务。我们在BI领域具有15年以上产品研发经验,提供完整的大数据分析软件产品、解决方案、以及配套的咨询、实施、培训及维护服务。