论文解读系列-分布式数据流的轻量级异步快照

@SmartSi @SmartSi     2022-10-23     322

关键词:

1. 概述

分布式有状态流处理支持在云中部署和执行大规模连续计算,目标是实现低延迟和高吞吐量。这种模式的最大挑战就是在可能失败情况下如何提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传输中的记录以及算子状态,这会导致比所需的快照要更大。

因此,提出了一种新的分布式快照的算法,即在 Apache Flink 中的异步屏障快照(Asynchronous Barrier Snapshotting (ABS))。这是一种适用于现代数据流执行引擎的轻量级算法,可最大限度地减少空间需求,让快照发生时对系统的影响降到最低。这种算法不会停止流处理,它只会引入很少的运行时间开销,而且对于整个无环图的拓扑结构,只对有状态的算子进行快照,因此快照的大小只会占用很小的空间。该算法不会对执行产生重大影响,保证线性可伸缩性,并且可以在频繁的快照下正常运行。

这里所说的新型的快照算法,既适用于有向无环图,也适用于有向有环图。本文重点关注在有向无环图中的应用。

2. Apache Flink System

Apache Flink 围绕通用运行时引擎进行架构,可以统一处理批处理和流式作业。Flink 中的作业被编译成任务的有向图。数据元素从外部数据源获取,并以流水线方式通过任务图。基于接收到的输入,任务不断操作其内部状态,并产生新的输出。

flink——exactly-once

...内存计算。强大高效的反压机制和内存管理,基于轻量级分布式快照checkpoint机制,从而自动实现了Exactly-Once一致性语义。1.数据源端支持可靠的数据源(如kafka),数据可重读ApacheFlink内置FlinkKafkaConsumer010类,不依赖于kafka内置的消费... 查看详情

论文解读系列ner方向:fgn(2020)

...信息进行编码外,该方法可以通过融合机制提取字符分布式表示和字形表示之间的交互信息。FGN主要有2个创新点:(1)FGN提出一种新型的CNN结构,即CGS-CNN,以获取字形信息和相邻图之间的交互信息。(2)提出一种滑... 查看详情

essd技术解读-01云原生时代,阿里云块存储essd快照服务如何被企业级数据保护所集成?

...于云计算的虚拟化、弹性扩展及蓬勃发展的云原生技术的分布式框架,容器技术、编排系统、持续交付及快速迭代,构建起大规模、弹性扩展强、丰富的云上分布式业务场景。企业应用的部署 查看详情

resnet论文解读/总结

此文章为深度学习在计算机视觉领域的图片分类经典论文ResNet(DeepResidualLearningforImageRecognition)论文总结。此系列文章是非常适合深度学习领域的小白观看的图像分类经典论文。系列文章如下: AlexNet:AlexNet论文... 查看详情

微软automl框架之flaml|论文解读

...andLightweightAutoMLLibrary),是由微软主推的一个全新的高效轻量级自动化机器学习框架。论文arXiv地址|FLAML:AFastandLightweightAutoMLLibraryFLAMLGithub项目地址|AFastLibraryforAutomatedMachineLearning&Tunin 查看详情

flink1.11非对齐检查点unalignedcheckpoint简介

...读本文之前,建议先阅读这两篇文章:Chandy-Lamport分布式快照算法小记与分布式数据流的轻量级异步快照。2.Barrier对齐的风险在Flink的检查点机制中,CheckpointBarrier是划分Checkpoint的边界。在启用ExactlyOnce语义的条件下&#x... 查看详情

论文解读系列ner方向:fgn(2020)

...型结构****表示阶段****融合阶段****序列标注阶段**FGN(2020)论文地址:https://arxiv.org/abs/2001.05272论文代码:FGN摘要汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将字形信息融入网络结构的... 查看详情

essd技术解读-01云原生时代,阿里云essd快照服务助力企业级数据保护

简介:本文以云原生为时代背景,介绍了阿里云块存储快照服务如何基于高性能ESSD云盘提升快照服务性能,提供轻量、实时的用户体验及揭秘背后的技术原理。依据行业发展及云上数据保护场景,为企业用户及备... 查看详情

论文解读系列ner方向:markbert(2022)(代码片段)

文章目录简介模型结构实验结果讨论简介论文地址:https://arxiv.org/abs/2203.06378论文代码:https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将词的边界信... 查看详情

论文解读系列ner方向:markbert(2022)(代码片段)

文章目录简介模型结构实验结果讨论简介论文地址:https://arxiv.org/abs/2203.06378论文代码:https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将词的边界信... 查看详情

论文解读系列ner方向:latticelstm(acl2018)

文章目录简介模型结构LSTM结构Character-BasedModelWord-BasedModelLatticeModelDecoding和Training缺点:简介LatticeLSTM出自于ACL2018中的ChineseNERUsingLatticeLSTM。论文地址:https://arxiv.org/abs/1805.02023有多个版本的代码࿱ 查看详情

论文解读系列ner方向:latticelstm(acl2018)

文章目录简介模型结构LSTM结构Character-BasedModelWord-BasedModelLatticeModelDecoding和Training缺点:简介LatticeLSTM出自于ACL2018中的ChineseNERUsingLatticeLSTM。论文地址:https://arxiv.org/abs/1805.02023有多个版本的代码࿱ 查看详情

虚机快照解读

一、什么是快照?快照可保存虚拟机在特定时刻的状态和数据。状态包括虚拟机的电源状态(例如,打开电源、关闭电源、挂起)。数据包括组成虚拟机的所有文件。这包括磁盘、内存和其他设备(例如虚拟网络接口卡)。虚拟... 查看详情

flink新特性之非对齐检查点(unalignedcheckpoint)简介

...文之前,建议看官先充分食用这两篇文章:《Chandy-Lamport分布式快照算法小记》与《深入理解Flink的轻量级异步屏障快照(ABS)算法》。在Flink的检查点机制中,屏障(barrier)是划分快照(状态)的边界。在启用exactlyonce语义的条... 查看详情

agv调度优化系列论文解读与汇总

        这篇博文主要用于记录AGV调度优化的相关文章,包括机器与AGV联合调度及各类车间或其他场景的AGV调度,此处主要总结中文文献,英文文献可见专栏AGV。由于中文文献大多较为简单,所以以下文献皆为... 查看详情

essd技术解读云原生时代,阿里云块存储essd快照服务如何被企业级数据保护所集成?

简介:本文描述了阿里云块存储快照服务基于高性能ESSD云盘提升快照服务性能,提供轻量、实时的用户体验及揭秘背后的技术原理。依据行业发展及云上数据保护场景,为企业用户及备份厂商提供基于快照高级特性... 查看详情

vggnet论文解读/总结

... 为此文章为深度学习在计算机视觉领域的图片分类经典论文VGGNet(VERYDEEPCONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION)论文总结。   此篇论文也是非常适合深度学习领域的小白观看的经典论文,本文为在学习论文期间... 查看详情

论文解读系列ner方向:flat(acl2020)(代码片段)

...FLAT(2020)FLAT出自ACL2020FLAT:ChineseNERUsingFlat-LatticeTransformer。论文地址:https://arxiv.org/abs/2004.11795论文代码:FlatLattice中文NER通常以字符为单位进行序列标注建模,即一般使用c 查看详情