一篇文章搞懂数据埋点与数据同步

<一蓑烟雨任平生> <一蓑烟雨任平生>     2023-02-21     132

关键词:

(1)到底什么是埋点

埋点的概念:
埋点是数据采集中的一个统称,通常也叫做事件追踪(Event Tracking),它主要针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。埋点是为了满足快捷、高效、丰富的数据应用而做的用户行为过程及结果记录。数据埋点是一种常用的数据采集的方法。埋点是数据的来源,采集的数据可以分析网站/APP的使用情况,用户行为习惯等,是建立用户画像、用户行为路径等数据产品的基础。

埋点的作用:

  • 精准运营
  • 用户画像
  • 数据分析与挖掘

埋点的分类:
1、客户端埋点:需要接入客户端的埋点SDK, 将实际的埋点代码嵌入到用户实际访问的页面中,一般用于采集用户的行为流等等,比如点击按钮,访问页面等等。

2、服务端埋点:服务端埋点的原理和客户端埋点大体类似,只不过将埋点的主体放到了服务端,通过接入服务端的SDK后,在服务端代码中调用埋点API进行相关的埋点。两种分类各有各的好处和缺点,可以结合实际的需求来选择哪一种方式埋点。

埋点方式:

(2)企业数据埋点方案

企业方案:

  • 代码埋点,企业自研埋点流程。
  • 使用第三方工具,如GA、MP、GIO、SD。

埋点分类:

客户端浏览器数据埋点流程:

App端的数据埋点流程:

H5日志与Native日志归一方式:

第三方工具埋点方案:

埋点注意事项:

  • 埋点方案提前设计,与开发同步
  • 做好测试,避免白埋
  • 确定埋点标识唯一性,避免数据重复

(3)企业数据同步方案

数据同步方式

  • 直连同步
  • 数据文件同步
  • 数据文件解析

直连同步:
规定统一规范的标准接口,不同数据库基于这套标准接口提供规范的驱动,支持完全相同的函数调用和SQL实现。

数据文件同步:
数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如FTP服务器传输到目标系统后,加载到目标数据库系统中。

数据库日志解析同步:
解析数据库日志文件获取发生变更的数据,从而满足增量数据同步的需求。

数据库日志解析同步:
数据库日志抽取一般是获取所有的数据记录的变更(增、删、该),落地到目标表时我们需要根据主键去重按照日志时间倒排序获取最后状态的变化情况。


针对删除数据这种变更,主要有三种方式

  • 第一种方式:不过滤删除流水。不管是否是删除操作,都获取同一主键最后变更的那条流水
  • 第二种方式:过滤最后一条删除流水。如果同一主键变更的那条流水是删除操作,就获取倒数第二条流水。
  • 第三种方式:过滤删除流水和之前的流水。

实时数据基于增量同步的时候,一般情况下,可以采用不过滤的方式来处理。如: flink-connector-kafka中的upsert。

日志解析同步方式的一些缺陷:

  • 投入较大
  • 数据漂移和遗漏

(4)数据漂移场景及处理方案

数据漂移是指ODS表的同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。

由于ODS需要承接面向历史的细节数据查询需求,这就要物理落地到数据仓库的ODS表按照时间段来切分进行分区存储,通常的做法是按某些时间字段类切分,而实际上往往由于时间戳字段的准确性问题导致发生数据漂移。


上面的数据是订单的数据,那么下面数据映射过来是要写入ODS表的数据,对于4000订单号,它的下单时间、支付时间、完成时间都是不一样的,如果是按照支付时间分区,那就分成了不同的区。这时候需要按照下单时间进行分区,对于分区要特别注意,对于分区的选择一定要讲同一个订单或者某一个订单放在同一个区。那么对于订单的这个流程为什么要放在同一个分区:一是为了顺序性,下游在处理的时候是可以放在一起的,二是对于下游处理提高性能。


以上内容仅供参考学习,如有侵权请联系我删除!
如果这篇文章对您有帮助,左下角的大拇指就是对博主最大的鼓励。
您的鼓励就是博主最大的动力!

搞懂数据埋点与数据同步

目录(1)到底什么是埋点(2)企业数据埋点方案(3)企业数据同步方案(4)数据漂移场景及处理方案(1)到底什么是埋点埋点的概念:埋点是数据采集中的一个统称,通常也叫做事件... 查看详情

搞懂数据埋点与数据同步

目录(1)到底什么是埋点(2)企业数据埋点方案(3)企业数据同步方案(4)数据漂移场景及处理方案(1)到底什么是埋点埋点的概念:埋点是数据采集中的一个统称,通常也叫做事件... 查看详情

搞懂数据埋点与数据同步

目录(1)到底什么是埋点(2)企业数据埋点方案(3)企业数据同步方案(4)数据漂移场景及处理方案(1)到底什么是埋点埋点的概念:埋点是数据采集中的一个统称,通常也叫做事件... 查看详情

彻底搞懂etcdraft选举数据同步

 etcdraft选举机制etcd是一个分布式的k/V存储系统。核心使用了RAFT分布式一致性协议。一致性这个概念,它是指多个服务器在状态达成一致,但是在一个分布式系统中,因为各种意外可能,有的服务器可能会崩溃或变得不可靠... 查看详情

数据运营系统

手游精细化运营与数据运营系统(一):埋点https://www.gameres.com/859330.html手游精细化运营与数据运营系统(二):埋点与报表https://bbs.gameres.com/thread_859983_1_1.html 游戏盈利策略(一):多渠道增加营收https://www.gameres.com/842293.ht... 查看详情

一篇文章让你搞懂mysqlinnodb内存结构(代码片段)

前言我们都熟悉mysql数据库服务架构,也清楚SQL的执行顺序,Mysql的数据在磁盘和内存中的存储结构是采用B+树的数据结构,但是在InnoDB引擎中,数据在内存和磁盘中的展示形式以及怎么和Mysql的服务架构建立联... 查看详情

一篇文章带你搞懂慢sql以及优化的策略(代码片段)

文章目录一、什么是慢SQL?二、为什么要对慢SQL进行优化?三、数据库性能1.最大数据量2.最大并发数3.查询耗时0.5秒4.具体实施四、数据库表的设计1.数据类型2.避免空值3.text类型优化五、索引优化1.索引分类2.索引优化六... 查看详情

一篇文章搞懂hbase的内部原理(代码片段)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文... 查看详情

一篇文章快速搞懂javascript事件循环(微任务宏任务),同步异步和阻塞非阻塞(代码片段)

⭐⭐⭐目录⭐⭐⭐🔄事件循环🔄🔞JavaScript代码执行顺序🈲🔴IO阻塞和🟢非阻塞,👣同步和🦿异步的区别🔄事件循环🔄事件循环可以理解为我们编写的JavaScript代码和浏览器或者node... 查看详情

1数据采集和同步

目录:1、行为数据埋点设计  1.1、用户标识体系建立  1.2、多屏用户标识打通  1.3、埋点方案设计2、数据采集方案设计 通常数据分为两类:  业务数据:核心业务相关,如业务流转中产生的交易,状态流转,用户... 查看详情

aspectjxandroid中快速集成使用一款aop框架并附加数据埋点解决方案实现(代码片段)

...么是AOPAspectJX集成使用具体配置Demo中使用拓展实现:数据埋点解决方案准备工作完整代码实现参考文章背景主要是记录学习AOP编程思想。项目中数据埋点统一方案有使用到,也是一次加深学习理解的过程。什么是AOPAOP是As... 查看详情

aspectjxandroid中快速集成使用一款aop框架并附加数据埋点解决方案实现(代码片段)

...么是AOPAspectJX集成使用具体配置Demo中使用拓展实现:数据埋点解决方案准备工作完整代码实现参考文章背景主要是记录学习AOP编程思想。项目中数据埋点统一方案有使用到,也是一次加深学习理解的过程。什么是AOPAOP是As... 查看详情

aspectjxandroid中快速集成使用一款aop框架并附加数据埋点解决方案实现(代码片段)

...么是AOPAspectJX集成使用具体配置Demo中使用拓展实现:数据埋点解决方案准备工作完整代码实现参考文章背景主要是记录学习AOP编程思想。项目中数据埋点统一方案有使用到,也是一次加深学习理解的过程。什么是AOPAOP是As... 查看详情

⭐一篇文章帮你搞懂java之内部类⭐(代码片段)

内部类(innerclass)是定义在另一个类中的类。为什么要使用内部类呢?主要有两个原因:1.内部类可以对同一个包中的其他类隐藏。2.内部类方法可以访问定义这个类的作用域中的数据,包括原本私有的数据。... 查看详情

一篇文章彻底搞懂snowflake算法及百度美团的最佳实践(代码片段)

写在前面的话一提到分布式ID自动生成方案,大家肯定都非常熟悉,并且立即能说出自家拿手的几种方案,确实,ID作为系统数据的重要标识,重要性不言而喻,而各种方案也是历经多代优化,请允许我用这个视角对分布式ID自动... 查看详情

一篇文章搞懂apachekylin4.x的技术架构(代码片段)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文... 查看详情

数据分析——埋点

一、埋点如何做  数据的收集可以通过外部的工具比如:友盟和talkingdata等,不过部分深层次的用户行为数据还是需要做埋点收集的  做埋点时,一般需要两个表,一个是埋点事件表,一个是埋点统计表  1、埋点事件表:... 查看详情

一篇文章搞懂到底什么是渲染流水线

本文实际上是《UnityShader入门精要》一书的读书笔记,书中关于渲染流水线的讲解清楚易懂,非常适合作为Shader学习的入门书籍。自知好记性不如烂笔头,遂将相关内容再结合自己的一些理解写作这篇博客记录下来。我们将图像... 查看详情