正文

[转]深入浅出数据库索引原理

带你撸出一手好代码  带你撸出一手好代码  2022-11-21  404

关键词：

前段时间，公司一个新上线的网站出现页面响应速度缓慢的问题，一位负责这个项目的但并不是搞技术的妹子找到我，让我想办法提升网站的访问速度，因为已经有很多用户来投诉了。我第一反应觉的是数据库上的问题，假装思索了一下，摆着一副深沉炫酷的模样说：“是不是数据库查询上出问题了，给表加上索引吧”，然后妹子来了一句：“现在我们网站访问量太大，加索引有可能导致写入数据时性能下降，影响用户使用的”。当时我就楞了一下，有种强行装逼被拆穿的感觉，在自己的专业领域居然被非专业的同学教育，面子上真有点挂不住。

其实，我说这个例子并不是为展现我们公司的同事们专业能力的强大、做的产品棒、安全性高、性能牛逼，连非技术的同事也懂得技术上的细节。事实上我只是想说明，「数据库」和「数据库索引」这两个东西是在服务器端开发领域应用最为广泛的两个概念，熟练使用数据库和数据库索引是开发人员在行业内生存的必备技能，而整天和技术人员打交道的非技术人员们，由于耳濡目染久了，自然也就能讲个头头是道了。

使用索引很简单，只要能写创建表的语句，就肯定能写创建索引的语句，要知道这个世界上是不存在不会创建表的服务器端程序员的。然而，会使用索引是一回事，而深入理解索引原理又能恰到好处使用索引又是另一回事，这完全是两个天差地别的境界（我自己也还没有达到这层境界）。很大一部份程序员对索引的了解仅限于到“加索引能使查询变快”这个概念为止。

为什么要给表加上主键？
为什么加索引后会使查询变快？
为什么加索引后会使写入、修改、删除变慢？
什么情况下要同时在两个字段上建索引？

这些问题他们可能不一定能说出答案。知道这些问题的答案有什么好处呢？如果开发的应用使用的数据库表中只有1万条数据，那么了解与不了解真的没有差别，然而，如果开发的应用有几百上千万甚至亿级别的数据，那么不深入了解索引的原理，写出来程序就根本跑不动，就好比如果给货车装个轿车的引擎，这货车还能拉的动货吗？

接下来就讲解一下上面提出的几个问题，希望对阅读者有帮助。

网上很多讲解索引的文章对索引的描述是这样的「索引就像书的目录，通过书的目录就准确的定位到了书籍具体的内容」，这句话描述的非常正确，但就像脱了裤子放屁，说了跟没说一样，通过目录查找书的内容自然是要比一页一页的翻书找来的快，同样使用的索引的人难到会不知道，通过索引定位到数据比直接一条一条的查询来的快，不然他们为什么要建索引。

想要理解索引原理必须清楚一种数据结构「平衡树」(非二叉)，也就是b tree或者 b+ tree，重要的事情说三遍：“平衡树，平衡树，平衡树”。当然，有的数据库也使用哈希桶作用索引的数据结构，然而，主流的RDBMS都是把平衡树当做数据表默认的索引数据结构的。

我们平时建表的时候都会为表加上主键，在某些关系数据库中，如果建表时不指定主键，数据库会拒绝建表的语句执行。事实上，一个加了主键的表，并不能被称之为「表」。一个没加主键的表，它的数据无序的放置在磁盘存储器上，一行一行的排列的很整齐，跟我认知中的「表」很接近。如果给表上了主键，那么表在磁盘上的存储结构就由整齐排列的结构转变成了树状结构，也就是上面说的「平衡树」结构，换句话说，就是整个表就变成了一个索引。没错，再说一遍，整个表变成了一个索引，也就是所谓的「聚集索引」。这就是为什么一个表只能有一个主键，一个表只能有一个「聚集索引」，因为主键的作用就是把「表」的数据格式转换成「索引（平衡树）」的格式放置。

上图就是带有主键的表（聚集索引）的结构图。图画的不是很好，将就着看。其中树的所有结点（底部除外）的数据都是由主键字段中的数据构成，也就是通常我们指定主键的id字段。最下面部分是真正表中的数据。假如我们执行一个SQL语句：

select * from table where id = 1256;

首先根据索引定位到1256这个值所在的叶结点，然后再通过叶结点取到id等于1256的数据行。这里不讲解平衡树的运行细节，但是从上图能看出，树一共有三层，从根节点至叶节点只需要经过三次查找就能得到结果。如下图

假如一张表有一亿条数据，需要查找其中某一条数据，按照常规逻辑，一条一条的去匹配的话，最坏的情况下需要匹配一亿次才能得到结果，用大O标记法就是O(n)最坏时间复杂度，这是无法接受的，而且这一亿条数据显然不能一次性读入内存供程序使用，因此，这一亿次匹配在不经缓存优化的情况下就是一亿次IO开销，以现在磁盘的IO能力和CPU的运算能力，有可能需要几个月才能得出结果。如果把这张表转换成平衡树结构（一棵非常茂盛和节点非常多的树），假设这棵树有10层，那么只需要10次IO开销就能查找到所需要的数据，速度以指数级别提升，用大O标记法就是O(log n)，n是记录总树，底数是树的分叉数，结果就是树的层次数。换言之，查找次数是以树的分叉数为底，记录总数的对数，用公式来表示就是

用程序来表示就是Math.Log(100000000,10)，100000000是记录数，10是树的分叉数（真实环境下分叉数远不止10），结果就是查找次数，这里的结果从亿降到了个位数。因此，利用索引会使数据库查询有惊人的性能提升。

然而，事物都是有两面的，索引能让数据库查询数据的速度上升，而使写入数据的速度下降，原因很简单的，因为平衡树这个结构必须一直维持在一个正确的状态，增删改数据都会改变平衡树各节点中的索引数据内容，破坏树结构，因此，在每次数据改变时， DBMS必须去重新梳理树（索引）的结构以确保它的正确，这会带来不小的性能开销，也就是为什么索引会给查询以外的操作带来副作用的原因。

讲完聚集索引，接下来聊一下非聚集索引，也就是我们平时经常提起和使用的常规索引。

非聚集索引和聚集索引一样，同样是采用平衡树作为索引的数据结构。索引树结构中各节点的值来自于表中的索引字段，假如给user表的name字段加上索引，那么索引就是由name字段中的值构成，在数据改变时， DBMS需要一直维护索引结构的正确性。如果给表中多个字段加上索引，那么就会出现多个独立的索引结构，每个索引（非聚集索引）互相之间不存在关联。如下图

每次给字段建一个新索引，字段中的数据就会被复制一份出来，用于生成索引。因此，给表添加索引，会增加表的体积，占用磁盘存储空间。

非聚集索引和聚集索引的区别在于，通过聚集索引可以查到需要查找的数据，而通过非聚集索引可以查到记录对应的主键值，再使用主键的值通过聚集索引查找到需要的数据，如下图

不管以任何方式查询表，最终都会利用主键通过聚集索引来定位到数据，聚集索引（主键）是通往真实数据所在的唯一路径。

然而，有一种例外可以不使用聚集索引就能查询出所需要的数据，这种非主流的方法称之为「覆盖索引」查询，也就是平时所说的复合索引或者多字段索引查询。文章上面的内容已经指出，当为字段建立索引以后，字段中的内容会被同步到索引之中，如果为一个索引指定两个字段，那么这个两个字段的内容都会被同步至索引之中。

先看下面这个SQL语句

//建立索引

create index index_birthday on user_info(birthday);

//查询生日在1991年11月1日出生用户的用户名

select user_name from user_info where birthday = \'1991-11-1\'

这句SQL语句的执行过程如下

首先，通过非聚集索引index_birthday查找birthday等于1991-11-1的所有记录的主键ID值

然后，通过得到的主键ID值执行聚集索引查找，找到主键ID值对就的真实数据（数据行）存储的位置

最后，从得到的真实数据中取得user_name字段的值返回，也就是取得最终的结果

我们把birthday字段上的索引改成双字段的覆盖索引

create index index_birthday_and_user_name on user_info(birthday, user_name);

这句SQL语句的执行过程就会变为

通过非聚集索引index_birthday_and_user_name查找birthday等于1991-11-1的叶节点的内容，然而，叶节点中除了有user_name表主键ID的值以外， user_name字段的值也在里面，因此不需要通过主键ID值的查找数据行的真实所在，直接取得叶节点中user_name的值返回即可。通过这种覆盖索引直接查找的方式，可以省略不使用覆盖索引查找的后面两个步骤，大大的提高了查询性能，如下图

数据库索引的大致工作原理就是像文中所述，然而细节方面可能会略有偏差，这但并不会对概念阐述的结果产生影响。

最后，推荐三本关系数据库方面的书籍，文中所讲解的概念内容都是来自于此。

《SQL Server2005技术内幕之T-SQL查询》

这本书虽然是针对SQL Server写的，但是里面的大部份内容同样适用于其它关系数据库，此书对查询编写的技巧和优化讲解的非常透彻。

《关系数据库系统概论》第四版

王珊和萨师煊写的那本，是大学计算机教材，讲的通俗易懂，在国内计算机书图书出版领域质量是排的上号的。

《数据库系统概念》

这本书在数据库领域非常出名，被称之为帆船书，书中内容博大精深，非一朝一夕可参透的。

深入浅出数据库索引原理

前段时间，公司一个新上线的网站出现页面响应速度缓慢的问题，一位负责这个项目的但并不是搞技术的妹子找到我，让我想办法提升网站的访问速度，因为已经有很多用户来投诉了。我第一反应觉的是数据库上的问题，假装思... 查看详情

深入浅出数据库索引原理

从原理到优化，深入浅出数据库索引(代码片段)

MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。数据库查询是数据库的最主要功能之一，我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化，这篇文章... 查看详情

深入解析数据库索引原理

...速度，因为已经有很多用户来投诉了。我第一反应觉的是数据库上的问题，假装思索了一下，摆着一副深沉炫酷的模样说：“是不是数据库查询上出问题了，给表加上索引吧”，然后妹子来了一句：“现在我们网站访问... 查看详情

mysql(11)—btree索引的数据结构以及具体实现原理深入解析(代码片段)

深入解析了Mysql的B+Tree索引底层数据结构，以及MyISAM和InnoDB存储引擎的索引底层原理。上一篇文章中，我们介绍了索引的概念以及MySQL常见索引类型：索引的概念以及MySQL七种索引类型。下面我们来看看常见的索引... 查看详情

掌握查询利器深入理解postgresql索引原理与优化(代码片段)

...的重要性一、前言1.1PostgreSQL索引的重要性PostgreSQL索引是数据库性能优化中很重要的一个方向，合理使用索引可以有效提升数据库的查询效率。在PostgreSQL中，索引机制是为了更快地寻找某个值而构建的。PostgreSQL索引可加... 查看详情

53.docvalue机制内核级原理深入探秘

...nbsp; PUT/POST的时候，就会生成docvalue数据，也就是正排索引 2、核心原理与倒排索引类似正排索引，也会写入磁盘文件查看详情

kafka原理深入研究（转)(代码片段)

一、为什么需要消息系统1.解耦：　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.冗余：　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多... 查看详情

[转]mysql索引原理及慢查询优化

...丰富的资源，已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色，但所谓“好马配好鞍”，如何能够更好的使用它，已经成为开发工程师的必修课，我们经常会从职位描述上看到诸如“精通MySQL”、&ld... 查看详情

数据库索引原理

使用索引很简单，只要能写创建表的语句，就肯定能写创建索引的语句，要知道这个世界上是不存在不会创建表的服务器端程序员的。然而，会使用索引是一回事，而深入理解索引原理又能恰到好处使用索引又是另一回事，这完... 查看详情

mysql深入理解mysql索引优化器原理（mysql专栏启动）(代码片段)

...文目录本文导读一、MySQL优化器是如何选择索引的1、MySQL数据库组成2、MySQL数据库成本计算二、MySQL查询成本三、SELECT执行过程总结本文导读本文将解读MySQL数据库查询优化器（CBO）的工作原理。简单介绍了MySQLServer的组成... 查看详情

一文总结分析聚集索引非聚集索引覆盖索引的工作原理！

「数据库」和「数据库索引」这两个东西是在服务器端开发领域应用最为广泛的两个概念，熟练使用数据库和数据库索引是开发人员在行业内生存的必备技能。使用索引很简单，只要能写创建表的语句，就肯定能写创建索引的语... 查看详情

mysqlmvcc原理深入探索(代码片段)

...数据如何正确访问——ReadView访问规则3.3.1ReadView3.3.2覆盖索引下查看详情

深入理解浏览器工作原理（转）(代码片段)

...需要直接与浏览器打交道。本文将详细介绍浏览器的工作原理组成　　浏览器的组查看详情

504|深入浅出索引（上）(代码片段)

提到数据库索引，我想你并不陌生，在日常工作中会经常接触到。比如某一个SQL查询比较慢，分析完原因之后，你可能就会说“给某个字段加个索引吧”之类的解决方案。但到底什么是索引，索引又是如何工作的呢？今天就让我... 查看详情

深入理解mysql的联合索引

参考技术A最近在学习MySQL的存储引擎和索引的知识。看了许多篇介绍MyISAM和InnoDB的索引的例子，都能理解。像这张索引图：PS:该图来自大神张洋的《MySQL索引背后的数据结构及算法原理》一文。但许多文章讲述的都是单列索引，... 查看详情

mysql进阶-10深入理解redolog，undolog和binlog的底层原理(代码片段)

MySql系列整体栏目内容链接地址【一】深入理解mysql索引本质https://blog.csdn.net/zhenghuishengq/article/details/121027025【二】深入理解mysql索引优化以及explain关键字https://blog.csdn.net/zhenghuishengq/article/details/124552080【三】深入理解mysql的索引... 查看详情

es&&lecence介绍［转］

...ucene介绍为了更深入地理解ElasticSearch的工作原理，特别是索引和查询这两个过程，理解Lucene的工作原理至关重要。本质上，ElasticSearch是用Lucene来实现索引的查询功能的。1.1定义Lucene是一个成熟的、高性能的、可扩展的、轻量级... 查看详情