正文

雪花算法原理和实现

androidstarjack  androidstarjack  2023-01-06  760

关键词：

设为“星标”，和你一起掌握更多数据库知识

出处：https://blog.csdn.net/lq18050010830/article/details/89845790

SnowFlake 算法，是 Twitter 开源的分布式 id 生成算法。其核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 id。在分布式系统中的应用十分广泛，且ID 引入了时间戳，基本上保持自增的，后面的代码中有详细的注解。

这 64 个 bit 中，其中 1 个 bit 是不用的，然后用其中的 41 bit 作为毫秒数，用 10 bit 作为工作机器 id，12 bit 作为序列号。

img

给大家举个例子吧，比如下面那个 64 bit 的 long 型数字：

第一个部分，是 1 个 bit：0，这个是无意义的。
第二个部分是 41 个 bit：表示的是时间戳。
第三个部分是 5 个 bit：表示的是机房 id，10001。
第四个部分是 5 个 bit：表示的是机器 id，1 1001。
第五个部分是 12 个 bit：表示的序号，就是某个机房某台机器上这一毫秒内同时生成的 id 的序号，0000 00000000。

①1 bit：是不用的，为啥呢？

因为二进制里第一个 bit 为如果是 1，那么都是负数，但是我们生成的 id 都是正数，所以第一个 bit 统一都是 0。

②41 bit：表示的是时间戳，单位是毫秒。

41 bit 可以表示的数字多达 2^41 - 1，也就是可以标识 2 ^ 41 - 1 个毫秒值，换算成年就是表示 69 年的时间。

③10 bit：记录工作机器 id，代表的是这个服务最多可以部署在 2^10 台机器上，也就是 1024 台机器。

但是 10 bit 里 5 个 bit 代表机房 id，5 个 bit 代表机器 id。意思就是最多代表 2 ^ 5 个机房（32 个机房），每个机房里可以代表 2 ^ 5 个机器（32 台机器），也可以根据自己公司的实际情况确定。

④12 bit：这个是用来记录同一个毫秒内产生的不同 id。

12 bit 可以代表的最大正整数是 2 ^ 12 - 1 = 4096，也就是说可以用这个 12 bit 代表的数字来区分同一个毫秒内的 4096 个不同的 id。

简单来说，你的某个服务假设要生成一个全局唯一 id，那么就可以发送一个请求给部署了 SnowFlake 算法的系统，由这个 SnowFlake 算法系统来生成唯一 id。

这个 SnowFlake 算法系统首先肯定是知道自己所在的机房和机器的，比如机房 id = 17，机器 id = 12。

接着 SnowFlake 算法系统接收到这个请求之后，首先就会用二进制位运算的方式生成一个 64 bit 的 long 型 id，64 个 bit 中的第一个 bit 是无意义的。

接着 41 个 bit，就可以用当前时间戳（单位到毫秒），然后接着 5 个 bit 设置上这个机房 id，还有 5 个 bit 设置上机器 id。

最后再判断一下，当前这台机房的这台机器上这一毫秒内，这是第几个请求，给这次生成 id 的请求累加一个序号，作为最后的 12 个 bit。

最终一个 64 个 bit 的 id 就出来了，类似于：

img

这个算法可以保证说，一个机房的一台机器上，在同一毫秒内，生成了一个唯一的 id。可能一个毫秒内会生成多个 id，但是有最后 12 个 bit 的序号来区分开来。

下面我们简单看看这个 SnowFlake 算法的一个代码实现，这就是个示例，大家如果理解了这个意思之后，以后可以自己尝试改造这个算法。

总之就是用一个 64 bit 的数字中各个 bit 位来设置不同的标志位，区分每一个 id。

SnowFlake 算法的实现代码如下：

public class IdWorker 
 
 //因为二进制里第一个 bit 为如果是 1，那么都是负数，但是我们生成的 id 都是正数，所以第一个 bit 统一都是 0。
 
 //机器ID  2进制5位  32位减掉1位 31个
 private long workerId;
 //机房ID 2进制5位  32位减掉1位 31个
 private long datacenterId;
 //代表一毫秒内生成的多个id的最新序号  12位 4096 -1 = 4095 个
 private long sequence;
 //设置一个时间初始值    2^41 - 1   差不多可以用69年
 private long twepoch = 1585644268888L;
 //5位的机器id
 private long workerIdBits = 5L;
 //5位的机房id
 private long datacenterIdBits = 5L;
 //每毫秒内产生的id数 2 的 12次方
 private long sequenceBits = 12L;
 // 这个是二进制运算，就是5 bit最多只能有31个数字，也就是说机器id最多只能是32以内
 private long maxWorkerId = -1L ^ (-1L << workerIdBits);
 // 这个是一个意思，就是5 bit最多只能有31个数字，机房id最多只能是32以内
 private long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);
 
 private long workerIdShift = sequenceBits;
 private long datacenterIdShift = sequenceBits + workerIdBits;
 private long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;
 private long sequenceMask = -1L ^ (-1L << sequenceBits);
 //记录产生时间毫秒数，判断是否是同1毫秒
 private long lastTimestamp = -1L;
 public long getWorkerId()
  return workerId;
 
 public long getDatacenterId() 
  return datacenterId;
 
 public long getTimestamp() 
  return System.currentTimeMillis();
 
 
 
 
 public IdWorker(long workerId, long datacenterId, long sequence) 
 
  // 检查机房id和机器id是否超过31 不能小于0
  if (workerId > maxWorkerId || workerId < 0) 
   throw new IllegalArgumentException(
     String.format("worker Id can't be greater than %d or less than 0",maxWorkerId));
  
 
  if (datacenterId > maxDatacenterId || datacenterId < 0) 
 
   throw new IllegalArgumentException(
     String.format("datacenter Id can't be greater than %d or less than 0",maxDatacenterId));
  
  this.workerId = workerId;
  this.datacenterId = datacenterId;
  this.sequence = sequence;
 
 
 // 这个是核心方法，通过调用nextId()方法，让当前这台机器上的snowflake算法程序生成一个全局唯一的id
 public synchronized long nextId() 
  // 这儿就是获取当前时间戳，单位是毫秒
  long timestamp = timeGen();
  if (timestamp < lastTimestamp) 
 
   System.err.printf(
     "clock is moving backwards. Rejecting requests until %d.", lastTimestamp);
   throw new RuntimeException(
     String.format("Clock moved backwards. Refusing to generate id for %d milliseconds",
       lastTimestamp - timestamp));
  
 
  // 下面是说假设在同一个毫秒内，又发送了一个请求生成一个id
  // 这个时候就得把seqence序号给递增1，最多就是4096
  if (lastTimestamp == timestamp) 
 
   // 这个意思是说一个毫秒内最多只能有4096个数字，无论你传递多少进来，
   //这个位运算保证始终就是在4096这个范围内，避免你自己传递个sequence超过了4096这个范围
   sequence = (sequence + 1) & sequenceMask;
   //当某一毫秒的时间，产生的id数 超过4095，系统会进入等待，直到下一毫秒，系统继续产生ID
   if (sequence == 0) 
    timestamp = tilNextMillis(lastTimestamp);
   
 
   else 
   sequence = 0;
  
  // 这儿记录一下最近一次生成id的时间戳，单位是毫秒
  lastTimestamp = timestamp;
  // 这儿就是最核心的二进制位运算操作，生成一个64bit的id
  // 先将当前时间戳左移，放到41 bit那儿；将机房id左移放到5 bit那儿；将机器id左移放到5 bit那儿；将序号放最后12 bit
  // 最后拼接起来成一个64 bit的二进制数字，转换成10进制就是个long型
  return ((timestamp - twepoch) << timestampLeftShift) |
    (datacenterId << datacenterIdShift) |
    (workerId << workerIdShift) | sequence;
 
 
 /**
  * 当某一毫秒的时间，产生的id数 超过4095，系统会进入等待，直到下一毫秒，系统继续产生ID
  * @param lastTimestamp
  * @return
  */
 private long tilNextMillis(long lastTimestamp) 
 
  long timestamp = timeGen();
 
  while (timestamp <= lastTimestamp) 
   timestamp = timeGen();
  
  return timestamp;
 
 //获取当前时间戳
 private long timeGen()
  return System.currentTimeMillis();
 
 
 /**
  *  main 测试类
  * @param args
  */
 public static void main(String[] args) 
  System.out.println(1&4596);
  System.out.println(2&4596);
  System.out.println(6&4596);
  System.out.println(6&4596);
  System.out.println(6&4596);
  System.out.println(6&4596);
//  IdWorker worker = new IdWorker(1,1,1);
//  for (int i = 0; i < 22; i++) 
//   System.out.println(worker.nextId());
//

SnowFlake算法的优点：

（1）高性能高可用：生成时不依赖于数据库，完全在内存中生成。

（2）容量大：每秒中能生成数百万的自增ID。

（3）ID自增：存入数据库中，索引效率高。

SnowFlake算法的缺点：

依赖与系统时间的一致性，如果系统时间被回调，或者改变，可能会造成id冲突或者重复。

实际中我们的机房并没有那么多，我们可以改进改算法，将10bit的机器id优化，成业务表或者和我们系统相关的业务。

回复 【idea激活】即可获得idea的激活方式

回复 【Java】获取java相关的视频教程和资料

回复 【SpringCloud】获取SpringCloud相关多的学习资料

回复 【python】获取全套0基础Python知识手册

回复 【2020】获取2020java相关面试题教程

回复 【加群】即可加入终端研发部相关的技术交流群

用 Spring 的 BeanUtils 前，建议你先了解这几个坑！

lazy-mock ，一个生成后端模拟数据的懒人工具

在华为鸿蒙 OS 上尝鲜，我的第一个“hello world”，起飞！

字节跳动一面：i++ 是线程安全的吗？

一条 SQL 引发的事故，同事直接被开除！！

太扎心！排查阿里云 ECS 的 CPU 居然达100%

一款vue编写的功能强大的swagger-ui，有点秀（附开源地址）

相信自己，没有做不到的，只有想不到的

在这里获得的不仅仅是技术！

喜欢就给个“在看”

雪花算法的原理和java实现

点击上方关注“终端研发部”设为“星标”，和你一起掌握更多数据库知识转自：雨夜青草，链接：topurl.cn/4AVSnowFlake算法，是Twitter开源的分布式ID生成算法。其核心思想就是：使用一个64bit的long型的数字... 查看详情

雪花算法的原理和java实现

《java知识应用》java雪花算法的原理和实现

SnowFlake算法，是Twitter开源的分布式id生成算法。其核心思想就是：使用一个64bit的long型的数字作为全局唯一id。在分布式系统中的应用十分广泛，且ID引入了时间戳，基本上保持自增的。这64个bit中，其中1个bit是不用的，然后用... 查看详情

雪花算法原理解析(代码片段)

...拆分，设置初始值和相同的自增步长。批量申请自增ID。雪花算法。百度UidGenerator算法(基于雪花算法实现自定义时间戳)。美团Leaf算法(依赖于数据库，ZK)。　　本文主要介绍SnowFlake算法，是Twitter开源的分布式id生成算法。　　其... 查看详情

java实现雪花算法（snowflake）-生成永不重复的id（源代码+工具类）使用案例(代码片段)

雪花算法是由Twitter公司开源的snowflake(雪花）算法。1、雪花算法的原理雪花算法会生成一个64位的二进制数据，为一个Long型。(转换成字符串后长度最多19)，其基本结构:第一位:为未使用第二部分:41位为毫秒级时间(41位... 查看详情

java实现雪花算法（snowflake）-生成永不重复的id（源代码+工具类）使用案例(代码片段)

id生成算法-雪花算法（snowflake）及代码实现(代码片段)

文章目录前言一、ID生成算法对比二、雪花算法原理三、java实现结尾前言唯一ID可以标识数据的唯一性，在分布式系统中生成唯一ID的方案有很多，常见的方式大概有以下三种：依赖数据库，使用如MySQL自增列或Orac... 查看详情

id生成器雪花算法和雪花算法的sony实现(代码片段)

1雪花算法首先确定我们的数值是64位，int64类型，被划分为四部分，不含开头的第一个bit，因为这个bit是符号位。用41位来表示收到请求时的时间戳，单位为毫秒，然后五位来表示数据中心的id，然后再五位来表示机器的实例id，... 查看详情

分布式id理解snowflake算法的实现原理(代码片段)

...个视频讲解：【分布式ID】键高并发分布式全局唯一ID雪花算法snowflake2.前提#Snowflake（雪花）是Twitter开源的高性能ID生成算法（服务）。上图是Snowflake的Github仓库，mas 查看详情

编程实践golang实现雪花算法

1.雪花算法1.1.1.关于雪花雪花(snowflake)在自然界中，是极具独特美丽，又变幻莫测的东西：1.雪花属于六方晶系，它具有四个结晶轴，其中三个辅轴在一个基面上，互相以60度的角度相交，第四轴(主晶轴)与三个辅轴所形成的基面... 查看详情

雪花算法snowflake分布式id生成原理详解，以及对解决时钟回拨问题几种方案讨论(代码片段)

文章目录一、前言二、雪花算法snowflake1、基本定义2、snowflake的优缺点三、Java代码实现snowflake1、组装生成id2、计算最大值的几种方式3、反解析ID4、ID生成器使用方式四、时钟回拨问题和解决方案讨论1、时间戳自增彻底解决时钟... 查看详情

php实现生成唯一id的雪花算法

参考技术A公司需求.生成唯一id用作兑换卡的id,所以就想用雪花算法,写了一个乞丐版的雪花算法,做个记载查看详情

厉害了，美女同事用单例模式实现了雪花算法！(代码片段)

点击关注公众号，Java干货及时送达雪花算法雪花算法适用于生成全局唯一的编号，比如数据库主键id，订单编号等至于为什么叫雪花算法，是因为科学家通过研究认为自然界中不存在两片完全相同的雪花，所... 查看详情

golang实现twitter雪花算法(代码片段)

1/*2*twitter雪花算法golang实现,生成唯一趋势自增id3*保留位:63位4*毫秒时间戳:[62-20]43位,时间范围[1970-01-0100:00:00.000,2248-09-2615:10:22.207]5*机器id:[19-12]8位,十进制范围[0,255]6*序列号:[11-0]12位,十进制范围[0,4095]7*bobo8*/910packagetest1112i 查看详情

snowflake雪花算法详解与实现(代码片段)

...avaLib」关注第一时间阅读最新文章。文章目录背景SnowFlake雪花算法算法实现算法验证算法优缺点注意事项背景现在的服务基本是分布式，微服务形式的，而且大数据量也导致分库分表的产生，对于水平分表就需要保证... 查看详情

分布式全局唯一id解决方案（雪花算法）(代码片段)

...自增ID机制适合作分布式ID吗Redis集群实现分布式ID的利弊雪花算法(SonwFlake)使用糊涂工具包实现雪花算法优缺点：为什么需要分布式全局唯一ID以及分布式ID的业务需求在复杂分布式系统中，往往需要对大量的数据和消息进... 查看详情

机器学习算法：boosting集成原理和实现过程

...;每新加入一个弱学习器，整体能力就会得到提升代表算法：Adaboost，GBDT，XGBoost1.2实现过程：1.训练第一个学习器 2 查看详情

贝叶斯算法的基本原理和算法实现

...叶斯公式推导　　朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素是因为其思想基础的简单性：就文本分类而言，它认为词袋中的两两词之间的关系是相互独立的，即一个对象的特征向量中每个维度都是相互独立的。例如... 查看详情