关键词:
大数据运维的挑战—如何保证集群稳定与运行效率
企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。
集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。
对于大数据集群,管理员以及 CIO 等更关注以下的内容:
- 集群内的节点的运行状态和资源使用状况;
- 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
- 计算任务运行情况和执行效率;
- 整体集群的健康程度和如何改进。
面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)
为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。
如何使用 EMR Doctor
- 进入 EMR 控制台健康检查页面。
- 登录 EMR on ECS 控制台。
- 在顶部菜单栏处,根据实际情况选择地域和资源组。
- 在集群管理页面,单击目标集群的集群ID。
- 单击上方的健康检查页签。
- 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。
3.健康检查报告中包含集群计算资源的总体分析
4.健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议
5.健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析
6.健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告
计算资源分析 | 概述 | 状态概述 |
需要关注的问题 | ||
计算基础信息 | 集群计算评分 | |
集群算力内存时 | ||
集群算力CPU时 | ||
计算引擎内存算力时 | ||
计算任务信息 | 计算任务算力内存时分析 | |
计算任务评分排行榜 | ||
Spark | Spark任务算力分析及调优建议 | |
Tez | Tez任务算力分析及调优建议 | |
MapReduce | MapReduce任务算力分析及调优建议 | |
HDFS存储资源分析 (需开启存储资源信息采集开关) | 概述 | 状态概述 |
需要关注的问题 | ||
HDFS基础信息 | HDFS存储资源使用趋势 | |
文件总数随时间变化趋势 | ||
评分趋势 | ||
HDFS文件大小分布 | HDFS文件大小比例 | |
一级目录空文件个数Top10 | ||
一级目录极小文件个数Top10 | ||
一级目录小文件个数Top10 | ||
一级目录中等文件个数Top10 | ||
一级目录大文件个数Top10 | ||
HDFS冷热数据分布 | HDFS冷热数据 | |
一级目录极冷数据大小Top10 | ||
一级目录冷数据大小Top10 | ||
一级目录温数据大小Top10 | ||
一级目录热数据大小Top10 | ||
HIVE存储资源分析 (需开启存储资源信息采集开关) | 概述 | 状态概述 |
需要关注的问题 | ||
Hive基础信息 | 存储趋势 | |
文件数量趋势 | ||
评分趋势 | ||
Hive库信息 | 库存储排名 | |
库文件总数排名 | ||
库评分 | ||
Hive表文件大小分布 | Hive表文件大小分布比例 | |
Hive表空文件个数Top10 | ||
Hive表极小文件个数Top10 | ||
Hive表小文件个数Top10 | ||
Hive中等文件个数Top10 | ||
Hive大文件个数Top10 | ||
Hive冷热数据分布 | Hive冷热数据分布 | |
Hive表极冷数据大小Top10 | ||
Hive表冷数据大小Top10 | ||
Hive表温数据大小Top10 | ||
Hive表热数据大小Top10 | ||
Hive表存储格式分布 | Hive表存储格式分布 | |
Hive表TextFile/Parquet/ORC格式文件分析 |
本文为阿里云原创内容,未经允许不得转载。
重磅发布|新一代云原生数据仓库analyticdb「sql智能诊断」功能详解
简介:AnalyticDBForMySQL为用户提供了高效、实时、功能丰富并且智能化的「SQL智能诊断」和「SQL智能调优」功能,提供用户SQL性能调优的思路、方向和具体的方法,降低用户使用成本,提高用户使用ADB的效率SQL是一... 查看详情
万物智联时代的终端智能「管家」重磅升级:混合云iot一体机
简介:「混合云IoT一体机」边缘部署、开箱即用、安全稳定、智管易用,通过定制软件和硬件相结合,预先定制、集成、测试和优化,实现快速部署和远程运维,并提升后续系统可用性和运维效率,是万物... 查看详情
腾讯云官方课:emr数仓全套教程重磅首发
...社区带着干货来了腾讯云×尚硅谷大数据研究院强强联手重磅推出新年第一弹腾讯云EMR数仓教程发布腾讯云开发者社区“公开课”直达:https://m 查看详情
万物智联时代的终端智能「管家」重磅升级:混合云iot一体机
简介: 「混合云IoT一体机」边缘部署、开箱即用、安全稳定、智管易用,通过定制软件和硬件相结合,预先定制、集成、测试和优化,实现快速部署和远程运维,并提升后续系统可用性和运维效率,是万... 查看详情
阿里云堡垒机v3版重磅发布,和运维失误sayno!
...胁防范该如何进行呢?近日,阿里云运维管理与审计产品重磅发布堡垒机V3版本,这是一款能够帮助用户拥有全方位运维风险控制与事件追溯能力的产品。近些年,网络安全事件频发,企业不仅要抵御外部***,还要防止内部管理... 查看详情
重磅发布,阿里云全链路数据湖开发治理解决方案
阿里云重磅更新全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR)+一站式大数据数据开发治理平台DataWorks+数据湖构建DLF+对象存储OSS等核心产品。近日,阿里云EMR重磅推出新版数据湖Datalake,100%兼容社区大数据开源... 查看详情
腾讯云官方课:emr数仓全套教程重磅首发
...社区带着干货来了腾讯云×尚硅谷大数据研究院强强联手重磅推出新年第一弹腾讯云EMR数仓教程发布腾讯云开发者社区“公开课”直达:https://mc.tencent.com/JLIcWlY0扫码加入“腾讯云大数据EMR交流群”免费获取全套教程群内提供... 查看详情
新品发布|混合云一体机重磅升级
随着边缘计算时代的到来,边缘设备和数据计算呈现爆发式增长,将云计算的能力下沉到边缘侧、设备侧,并通过中心进行统一交付、运维、管控,这已然成为云计算的发展趋势;IDC预测2023年全球超过50%的... 查看详情
运维智能化的三大关键技术
...的产品作为基础,也有方法学作为参考。相比之下,应用智能运维系统更贴近企业多样化的应用系统、业务流程和用户场景,没有开箱即用的工具平台和普遍适用的方法学参考。因此,其对扩展性和可定制化能力的要求较高,往... 查看详情
阿里云大学linux学习路线图(学+测)重磅上线!
推荐:阿里云大学—Linux运维学习路线(点击获取免费课程) 全新“学+测”模式每阶段包含初、中、高三个难度等级考试,学完即测,找准短板,助您全方位自测掌握程度课程系统全面课程体系涵盖从Linux运维到云... 查看详情
概述构建应用智能运维系统的核心能力
...生产、数字化管理等战略就是空谈。建设具备全景监控、智能运维能力的应用性能管理系统,保障用户数字体验,提升应用可用性,已成为企业必然的选择。随着信息系统的快速演进,政府、企业对数字信息系统应用的依赖持续... 查看详情
阿里云容器服务多项重磅发布:高效智能安全无界的新一代平台
简介:在云原生带来的云计算未来趋势下,容器已经成为用户使用云的新界面。阿里云容器产品发布近7年以来,已成长发展为企业的云原生操作系统,技术和服务能力日趋成熟,但创新从未止步。日前,... 查看详情
智能化运维场景分析
传统的系统运维是一项存在大量重复和复杂、烦琐的工作,靠的是运维人员的人海战术,每个人或每个小组负责一块,等待预警和报障,被动处理。尽管系统运维技术在不断进步,但实现上IT运维人员并未真正解放,目前,许多... 查看详情
智能化运维六大场景
传统的系统运维是一项存在大量重复和复杂、烦琐的工作,靠的是运维人员的人海战术,每个人或每个小组负责一块,等待预警和报障,被动处理。尽管系统运维技术在不断进步,但实现上IT运维人员并未真正解放,目前,许多... 查看详情
apachepulsar在火山引擎emr的集成与场景(代码片段)
...业,提供云基础、视频与内容分发、数智平台VeDI、人工智能、开发与运维等服务,帮助企业在数字 查看详情
论文铁路综合视频监控系统图像质量诊断技术研究
...下,图像处理技术水平日益提高,尤其是在图像智能分析技术的基础上,图像质量诊断技术在各个领域受到越来越多的重视,特别是在视频网管系统中发挥了重要作用,这种新的运维管理方式提高了综合视频... 查看详情
储留香:一个智能运维系统就是一个中枢神经系统,我说的!
...进行有效规避。而日志服务SLS凭借出色的数据统一采集、智能分析告警、风险预测等能力,已经成为企业智能运维场景下不可或缺的神经系统。原文链接 查看详情
重磅里程碑事件:filecoin将发布虚拟机,实现智能合约功能!
Filecoin主网一周年庆典上胡安发言:Filecoin将发布虚拟机,实现智能合约功能。达到每秒万亿次交易处理能力,打造全球互联网建设工程,生态应用大爆发即将到来!Filecoin作为包括区块链在内的互联网存储基... 查看详情