火山引擎dataleap推出全链路智能监控报警平台

字节跳动数据平台 字节跳动数据平台     2023-04-12     808

关键词:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

 随着大数据开发场景下需要运维管理的任务越来越多,在日常运维中开发者经常会面临以下几个问题:

  1. 任务多,依赖关系复杂:很难查找到重要任务的所有上游任务并进行监控。如果监控所有任务,又会产生很多无用报警,导致有用报警被忽视;

  2. 配置运维成本高:每个任务的运行情况不一样,承诺完成时间不一样,如果单独对每个任务设置监控,分析及人工对齐任务服务级别协议(SLA)成本非常高;

  3. 报警形式多样性:对于小时级的任务,不同时段的报警及时性要求不同,普通监控无法满足不同时段多样的报警需求。

为了帮助企业开发者更好地解决这一问题,及时平稳完成日常运维、高效保障数据质量,字节跳动数据平台开发套件数据开发团队自研了基于依赖关系的全链路智能监控报警——基线监控,它能根据任务运行情况,智能决策是否报警、何时报警、如何报警以及向谁报警,贯穿整条任务产出链路,避免出现环节缺失,保障链路完整性。目前基线监控已在字节跳动内部得到广泛使用,覆盖抖音、电商、广告等 100+个项目,服务级别协议(SLA)任务的基线监控覆盖率超过 80%。

当前,该能力已通过火山引擎 DataLeap 向企业开放。企业可以通过火山引擎 DataLeap 的基线监控功能,有效降低监控配置成本、避免无效报警及报警泛滥。

 

图:火山引擎 DataLeap 监控范围

 火山引擎 DataLeap 默认监控的范围包括:基线保障任务及保障任务上游的所有任务。如上图所示,保障任务 D,E 及它们所有的上游节点都会纳入基线监控范围,而任务 C,F 不受基线监控。值得一提的是,火山引擎 DataLeap 的基线监控允许用户配置基线监控只覆盖“指定项目”下的任务,此时基线监控的范围就只包含了保障任务及这些项目下的上游任务。

 

图:火山引擎 DataLeap 基线监控整体架构

 

火山引擎 DataLeap 基线监控整体架构基线管理模块、基线实例生成、基线埋点检测等构成,各模块详细来看:

  1. 基线管理模块:负责基线创建、更新、删除等操作,管理基线元信息,包括保障任务,承诺时间,余量及报警配置等;

  2. 基线实例生成:火山引擎 DataLeap 每天定时触发生成基线实例,生成实例的同时根据保障任务,由下而上逐层遍历 (BFS)所有上游任务并生成基线监控埋点。

生成基线监控埋点的过程中,火山引擎 DataLeap 会计算每个任务节点的预测运行时长,承诺时间,预警时间,预警最晚开始时间,承诺最晚开始时间。此外,火山引擎 DataLeap 会给基线监控任务添加基线出错/变慢报警规则,当任务执行触发规则后,通过基础报警服务发送基线报警事件;

  1. 监控埋点校验:系统维护一个延迟队列,火山引擎 DataLeap 会根据校验时间点(预警最晚开始时间,承诺最晚开始时间以及破线加剧时间校验点),同时火山引擎 DataLeap 会定时触发监控埋点校验任务实例运行状态,如果在时间点实例未运行成功,产生基线预警/破线报警事件,发送报警。

 

未来,火山引擎 DataLeap 的研发人员将继续针对基线监控进行优化,如基线关键路径分析、基线实例生成效率优化等,不断提高基线监控算法性能,完善基线链路分析能力,提升用户体验,向企业级市场提供更强大的全链路监控运营服务。

 

点击跳转 大数据研发治理DataLeap 了解更多

火山引擎dataleap:揭秘字节跳动数据血缘架构演进之路

...节跳动数据平台微信公众号,回复【1】进入官方交流群DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维... 查看详情

数据丢失不用怕,火山引擎dataleap提供排查解决方案

...这一问题,火山引擎数智平台推出的大数据研发治理套件DataLeap,可以为企业提供完整解决方案,帮助解决MQdump在极端场景中遇到的数据丢失问题。例如,当HDFS(一种分布式文件系统)集群某个元数据节点由于硬件故障而宕机。... 查看详情

火山引擎dataleap通过中国信通院测评,数据管理能力获官方认可!

 近日,火山引擎大数据研发治理套件DataLeap通过中国信通院第十五批“可信大数据”测评,在数据管理平台基础能力上获得认证。 “可信大数据”产品能力评测体系由中国信通院发起,是国内首个面向大数据产品的权威... 查看详情

火山引擎dataleap一招教你避坑“数据开发”中的资源隔离问题

...成为很多企业数仓研发团队的痛点之一。近期,火山引擎DataLeap推出“项目参数管理”能力,即通过自定义项目参数分别设置开发、生产环境参数值,参数支持配置多种类型,包括Region、DB、shecma、table、date以及自定义等,且支... 查看详情

火山引擎dataleap:3个关键步骤,复制字节跳动一站式数据治理经验

DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支... 查看详情

基线监控:基于依赖关系的全链路智能监控报警

...开发套件数据开发团队自研了基于依赖关系的全链路智能监控报警——基线监控,目前已在字节跳动内部得到广泛使用,覆盖抖音、电商、广告等100+个项目,SLA任务的基线监控覆盖率超过80%。随着 查看详情

火山引擎发布数智平台vedi,全面开放字节跳动数据技术能力

...新石油”,经过提炼加工才能创造价值。9月2日,火山引擎数据智能科技峰会在杭州举办。会上,火山引擎发布新一代企业级数据产品——数智平台VeDI(VolcengineDataIntelligence),包括数据引擎、数据建设和... 查看详情

火山引擎dataleap:在数据研发中,如何提升效率?

...,满足实时调用需求。 目前,任务模板已是火山引擎DataLeap研发治理能力之一,主要用于管理常用的任务逻辑,以此降低常用代码的运维成本。在产品功能上,DataLeap任务模板支持丰富的引擎能力,包括LAS/EMRHSQL、LAS/EMRJavaFlin... 查看详情

电商流量分析怎么做?试试这款数据工具dataleap!

...数据指标。在亿级数据体量下,某电商平台基于火山引擎DataLeap、DataFinder等产品组合,通过以下三个步骤,实现从北极星指标、用户增长指标到转化漏斗等核心数据监测和分析。本文将聚焦在货架场景,揭秘电商平台流量分析背... 查看详情

火山引擎datatester3大功能升级:聚焦敏捷智能与易用,帮助企业降本增效

...数据平台微信公众号,回复【1】进入官方交流群近日,火山引擎数智平台(VeDI)全面升级旗下A/B测试产品DataTester,发布全新功能“MAB智能调优实验”、升级“智能发布平台FeatureFlag”,同时还推出“可视化数据集成”及“集成... 查看详情

火山引擎发布新一代数智平台vedi,以数据驱动企业数字化增长

...新石油”,经过提炼加工才能创造价值。9月2日,火山引擎数据智能科技峰会在杭州举办。会上,火山引擎发布新一代企业级数据产品——数智平台VeDI(VolcengineDataIntelligence),包括数据引擎、数据建设和... 查看详情

一年实现降本60%,货拉拉全链路监控演进史

...的专家经验,然后形成一套规则,根据这些规则构建规则引擎,不同的场景参数会匹配到特定的规则或一些规则,通过规则引擎计算得出对应的一些处理手段,比如说报警或者给出一些建议提示,更进一步的话还可以做到自动化... 查看详情

对话抖音电商:量级庞大参差不齐,“数据质量治理”有妙招!

...便捷实现数据质量监控,抖音电商数据团队引入火山引擎DataLeap数据质量平台,通过数据波动监控、异常报警、数据内容探查及差异对比工具等功能,保证数据在生产及使用流程中的可靠性和合理性,避免因为数据质量导致的数... 查看详情

火山引擎端云一体化服务:打造面向体验的视频云

12月2日,在「新云·共未来」云产品发布会上,火山引擎点播基础技术负责人马茜进行了主题为《火山引擎视频点播:端云一体化服务打造极致播放体验》的演讲。她以视频点播为例,分享了火山引擎视频云团队... 查看详情

火山引擎datatester推出可视化数据集成方案

...快速将A/B测试平台嵌入业务成为很多企业的痛点。近期,火山引擎DataTester 推出可视化数据集成能力,可以帮助企业实现对历史数据资产的直接复用。为了更低成本支持数据集成的需求,DataTester 还采用了可视化数据集成... 查看详情

一文快速了解火山引擎a/b测试平台

...esting作为因果推断的「黄金标准」,是效果评估的利器。火山引擎A/B测试(DataTester)是一站式大规模的在线A/BTesting和智能调优平台,它基于稳定可靠的分流能力、科学完善的统计引擎、智能的调优算法,提供了从制定优化目标... 查看详情

字节跳动推荐平台技术公开,项亮:底层架构有时比上层算法更重要

...I字节跳动已正式吹响进军云计算市场号角。12月2日,火山引擎全系列云产品亮相,共推出了78项云产品服务,涵盖云基础、视频及内容分发、数据中台、开发中台、人工智能等五大类。火山引擎云产品以性价比、提升... 查看详情

一:技术选型之路

...显然,做数据开发,只有Notebook是不够的。目前火山引擎DataLeap数据研发平台提供了任务开发、发布调度、监控运维等一系列能力。研发团队将Notebook作为一种任务类型,加入了火山引擎DataLeap数据研发平台,使用户既能拥有Noteboo... 查看详情