关键词:
2017年,美国信用评级机构 Equifax 遭受黑客攻击,导致1.4亿个人的敏感信息泄露;
2020年,发生了 SolarWinds 公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家;
2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企业敲响数据安全警钟。
近年来,数据安全正在快速成为当今信息化时代一个备受关注的话题。在数字化快速发展的今天,各个领域都离不开数据的支撑,而数据安全问题也随之成为了一项重要的任务。企业、政府、学术机构等各种组织和个人都需要保护自己的数据免于泄露、丢失、篡改或被滥用等风险。
Hadoop 作为进入大数据领域的必备技术,由于自身的业务特点,一般都是部署在用户内网中,所以在早期设计的时候不是太注重安全方面的设计,而更多的专注于实现业务的功能。
作为领先的数字化基础软件与应用服务商袋鼠云,一直以来也高度重视数据安全问题,2022年12月,在自研的大数据计算引擎 EasyMR 上新增了一站式大数据应用安全防控以及数据权限管控能力。
基于此,EasyMR 可以实现一键部署安全管控服务,一键开启大数据集群组件的安全认证、用户管理以及权限管控服务。
本文就为大家展开介绍一下 EasyMR 具体是如何管理 Hadoop 数据安全的。
Hadoop 的安全问题
最早部署 Hadoop 集群时并没有考虑安全问题,未开启安全认证时,Hadoop 是以客户端提供的用户名作为用户凭证, 一般就是发起任务的 Unix 用户。线上机器部署服务通常会采用统一账号,当以统一账号部署集群时,所有执行 Hadoop 任务的用户都是集群的超级管理员,非常容易发生误操作。
即便是以管理员账号部署集群,恶意用户在客户端仍然可以冒充管理员账号执行。随着集群的不断扩大, 各部门对集群的使用需求增加,集群安全问题就显得颇为重要。Hadoop 的安全问题,一般包括以下两个方面:
· 用户认证(Authentication) 即是对用户身份进行核对, 确认用户是其声明的身份, 这里包括用户和服务的认证。
· 用户授权(Authorization) 即是权限控制,对特定资源,特定访问用户进行授权或拒绝访问,用户授权是建立在用户认证的基础上, 没有可靠的用户认证谈不上用户授权。
EasyMR 如何接管 Hadoop 安全
EasyMR Hadoop 的安全认证是基于 Kerberos 实现的,集成 LDAP 用户体系。 Kerberos 是一个网络身份验证协议,用户只需输入身份验证信息,验证通过获取票据即可访问多个接入 Kerberos 的服务,机器的单点登录也可以基于此协议完成。
Hadoop 本身并不创建用户账号,而是使用 Kerberos 协议来进行用户身份验证,从 Kerberos 凭证中的用户信息获取用户账号, 这样一来就跟实际用户运行的账号无关。
EasyMR 接管 Hadoop 安全主要使用以下两种账号管理方式:
集群账号管理
原先我们使用单一账号作为集群管理员,且这一账号为线上统一登录账号, 这存在极大的安全隐患,我们需要使用特殊账号来管理集群。这里涉及的问题是,我们需要几个运维账号呢? 一种简单的做法是使用一个特殊运维账号, CDH 和 Apache官方也都推荐按服务划分账号来启动集群。
考虑到精细化控制可以有效避免误操作,EasyMR 遵循官方的建议使用多账号,使用 Hadoop 作为同一用户组,每个组件使用单独的用户。如果是从单一运维账号迁移到多个账号部署时,则需要考虑相关文件权限问题,包括本地以及 HDFS 两部分,可以在安全部署上线时完成相应改动。
EasyMR 组件服务运行的用户信息可以配置在产品包服务层级下,下图以服务 hdfs_namenode 为例:
用户账号管理
考虑到每个团队下会有不同的小组,每个小组都有使用 Hadoop 来进行大数据处理需求,所以需要一定程度的多租户环境, 这里主要考虑其中的数据和操作的权限问题,EasyMR 集成了 LdapServer 目录服务系统,其功能优势具体体现如下:
• LdapServer 能够减少用户账户管理人员在面对用户数量大、增长快等问题的情况下对账号的创建、回收、权限管理、安全审计等一系列复杂而繁琐工作的压力。
• LdapServer 能够解决多层次、多类型系统、数据库的安全访问难题,所有与账号相关的管理策略均配置在服务端,实现了账号的集中维护和管理。
• LdapServer 能够充分继承和利用平台组织中现有的账户管理系统的身份认证功能,并实现了账户管理与访问控制管理的分离,提高了大数据平台访问认证的安全性。
EasyMR 如何部署 Hadoop 安全
EasyMR 可以支持 Hadoop,Hive,Spark,Ranger 组件开启Kerberos功能,每个组件的开启操作基本一致。下面以开启Hadoop Kerberos 功能为例为大家介绍EasyMR 具体是如何部署 Hadoop 安全的。
准备产品包
安装产品包
● 安装 zookeeper、openldap、kdc、Hadoop 服务
以安装 Hadoop 服务为例,选中需要安装的服务,点击下一步;
指定每个服务需要部署的节点,点击执行部署;
部署完成后,可以在节点检查目录的权限及组件的启动用户。
开启 Kerberos 安全
部署完服务后,需要按照 Kerberos 开启顺序依次开启。
● zookeeper 开关
首先在服务页面,选择 zookeeper 服务,在部署配置里面找到 Switch 开关项,切换开关状态,等待开关开启结果。
● Hadoop 开关
在服务页面,选择 hadoop pkg 服务,在部署配置里面找到 Switch 开关项,切换开关状态,等待开关开启结果,开启成功后,hadoop Kerberos 功能就成功启用了。
应用授权
授权一般来说是由应用来决定的,通过在 LDAP 数据库中配置一些属性可以让应用程序来进行授权判断。EasyMR 在部署完 LdapServer 后,平台管理里面将会自动关联 LdapServer 的连接信息,用户只需选中对应的 LdapServer 连接,在对应的用户下点击下载票据即可。
《数据治理行业实践白皮书》下载地址:https://fs80.cn/380a4b
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack
指数级暴增场景复杂下,揭秘百度云原生湖仓架构等系列数据产品
...0c;企业如何运用云智技术打造满足数字化、智能化转型的安全可靠的数据基础设施和价值挖掘平台,发挥数据资产的核心价 查看详情
大数据计算引擎easymr:拥抱开源,引领技术创新
...础平台建设的影响,并结合袋鼠云自研的大数据计算引擎EasyMR的实践经历进行分享。开源组件在大数据领域,开源组件已经成为了构建大数据平台的重要基石。例如Hadoop、Spark、Hive、HBase、Kafka、Storm、Flink等开源软件已经成为了... 查看详情
数栈v6.0全新产品矩阵发布,数据底座easymr焕新升级
...点发布了企业级数据计算与存储平台——自研大数据引擎EasyMR。今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、... 查看详情
火山引擎dataleap:揭秘字节跳动数据血缘架构演进之路
...帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能... 查看详情
如何架构大数据系统hadoop
...及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力,给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构,围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程,开发使... 查看详情
gaussdb(formysql)如何快速创建索引?华为云数据库资深架构师为您揭秘
摘要:云服务环境下,如何解决客户基于大量数据创建索引的性能问题,成为云服务厂商的一个挑战。华为云GaussDB(forMySQL)通过引入并行创建索引技术,很好地解决了批量索引创建和临时添加索引等性能瓶颈问题... 查看详情
如何架构大数据系统hadoop
...及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力,给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构,围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程,开发使... 查看详情
揭秘双11“某东”背后的架构实战
...x-width:100%;height:auto!important">对于不少开发人员来说,成为架构或技术管理者是职业生涯的目标之中的一个,可是怎样成为这种角色却没有统一的教科书,原京东拍拍技术负责人Andy在本次沙龙中将分享了自己在京东的开发和管理... 查看详情
大数据之数据治理架构——atlas(代码片段)
...组织和管理数据资源的过程,旨在确保数据的质量、安全性、可靠性、可访问性和合规性,以支持企业决策和运营需求。数据治理涉及制定和执行数据管理策略、规则和流程,包括数据分类、数据质量管理、数据安全... 查看详情
初步掌握hdfs的架构及原理
目录HDFS是做什么的HDFS从何而来为什么选择HDFS存储数据HDFS如何存储数据HDFS如何读取文件HDFS如何写入文件HDFS副本存放策略Hadoop2.x新特性1、HDFS是做什么的 HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是分布式计算... 查看详情
springboot揭秘与实战数据存储篇-声明式事务管理
文章目录1. 声明式事务2. SpringBoot默认集成事务3. 实战演练4. 源代码3.1. 实体对象3.2. DAO相关3.3. Service相关3.4. 测试,测试本文讲解SpringBoot如何使用声明式事务管理。声明式事务Spring支持声明式事务,... 查看详情
简述如何利用sdn技术解决网络安全问题?
...是SDN的核心特征。网络可视性将确保更好的网络监控。以安全为中心的SDN的范式包含五个基本属性,从数据平面解耦安全、监控和交换元件,这将允许企业更好地控制流经网络的流量。网络可视性将确保更好的网络监控。简化的... 查看详情
如何通过iam打造零信任安全架构
万物互联时代来临,面对越来越严峻的企业网络安全及复杂的(如微服务,容器编排和云计算)开发、生产环境,企业IT急需一套全新的身份和访问控制管理方案。为了满足企业需求,更好的服务企业用户,青云QingCloud推出了IAM... 查看详情
架构决定一切电源拓扑结构大揭秘
架构决定一切电源拓扑结构大揭秘 第1页:电源拓扑结构大揭秘第2页:电源是如何工作的第3页:经典的半桥结构第4页:入门级正激结构第5页:最流行的正激第6页:完全体的正激第7页:LLC谐振拓扑结构第8页:拓扑结构影响... 查看详情
hadoop:是啥,如何工作,可以用来做啥
...储文件。2、将数据分成大量的block块。3、为保证数据的安全,对数据进行备份,一般备份3份。当其中的一份出现问题时,将由其他的备份来对数据进行恢复。MapReduce主要也是一个主节点JOPtracker和testtra 查看详情
hdfs2.x架构及工作原理
1HDFS简介1.1Hadoop2.0介绍Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算。Hadoop2.0即第二代Hadoop系统,其框架最核心的设计是HDFS、MapReduce和YARN。其中,HDFS为海量数据提供存储,MapReduce用于分布式计算,YARN... 查看详情
serverless安全揭秘:架构风险与防护措施
Serverless简介Serverless(又称为无服务器)架构是一种全新的云计算模式,它是在容器技术和当前服务模式基础之上发展起来的,它更多的是强调后端服务与函数服务相结合,使开发者无需关注后端服务具体实现... 查看详情
oschina大数据开源软件
...平台RedHadoop大数据查询引擎PrestoDBHadoop集群监控工具HTools安全大数据分析框架OpenSOC分布式数据仓库系统ApacheTajo数据管道服务Suro开源大数据工具LuigiC++的MapReduce?框架MR4CHadoop数据管理平台ApacheFalcon分布式系统基础架构Hadoop分布 查看详情