索引

概念

索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构==(B+树)==,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。

底层数据结构——B+树

其他树相关的数据结构

只要是二叉树,最好的搜索时间复杂度就是O(log2n),如果一张表的数据量有一千万,那么依旧要很长时间,一般都是几十秒。

B-Tree,B树是一种多叉平衡查找树,相对于二叉树,B树每个节点可以有多个分支,即多叉。其每个节点上都存储数据和指针。 以一颗最大度数(max-degree)为5(5阶)的b-tree为例,那这个B树每个节点最多存储4个key,那么其搜索时间复杂度就是O(log4n)

B+树

B+Tree是在BTree基础上的一种优化,使其更适合实现外存储索引结构。 不同的是,B+树只有叶子节点才存储数据,非叶子节点不存储数据,只存储指针,使得存储更少,查询效率更稳定。 且叶子节点之间使用双向指针连接,相当于叶子节点形成了一个有序链表,通过首尾节点可以直接定位范围查询的起点和终点,而不需要像B树那样进行中序遍历。这样更方便扫库和区间查询。 B树与B+树对比: ①:磁盘读写代价B+树更低;②:查询效率B+树更加稳定;③:B+树便于扫库和区间查询

索引分类(聚集索引和二级索引)

聚集索引选取规则:

如果存在主键,主键索引就是聚集索引。如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引。如果表没有主键,或没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引。

回表查询

通过二级索引找到对应的主键值,到聚集索引中查找整行数据,这个过程就是回表。

覆盖索引

覆盖索引是指查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到 。 (我真的觉得覆盖索引这个词用的不好,搞得像聚集索引和二级索引一样像是索引分类的一种,但实际上它更像是回表查询之类的查询分类,我自己就是把覆盖索引当作覆盖查询来记得)

举例如下:

超大分页查询

在数据量比较大时,如果进行limit分页查询,在查询时,越往后,分页查询效率越低。 为此我们可以通过覆盖索引加子查询形式进行优化。

select

*

from

tb_sku t,

(select id from tb_sku order by id limit 9000000,10) a

where

t.id = a.id;

效率如下: 覆盖索引加子查询的方式之所以比limit要快的原因:待更 可以先看看其他资料: https://cloud.tencent.com/developer/article/2026751

索引创建原则

1). 针对于数据量较大,且查询比较频繁的表建立索引。 2). 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引。 3). 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高。 4). 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引。 5). 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率。 6). 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增删改的效率。 7). 如果索引列不能存储NULL值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时,它可以更好地确定哪个索引最有效地用于查询。

建立索引

mysql中使用create index创建索引

-- 创建单列索引

CREATE INDEX index_name ON table_name (column1);

-- 创建联合索引

CREATE INDEX index_name ON table_name (column1, column2, ...);

相关面试题回答模板

面试官: 了解过索引吗?(什么是索引)

候选人: 嗯,索引在项目中还是比较常见的,它是帮助MySQL高效获取数据的数据结构,主要是用来提高数据检索的效率,降低数据库的IO成本,同时通过索引列对数据进行排序,降低数据排序的成本,也能降低了CPU的消耗

面试官: 索引的底层数据结构了解过嘛 ?

候选人: MySQL的默认的存储引擎InnoDB采用的B+树的数据结构来存储索引,选择B+树的主要的原因是:第一阶数更多,路径更短,第二个磁盘读写代价B+树更低,非叶子节点只存储指针,叶子阶段存储数据,第三是B+树便于扫库和区间查询,叶子节点是一个双向链表

面试官: B树和B+树的区别是什么呢?

候选人: 第一:在B树中,非叶子节点和叶子节点都会存放数据,而B+树的所有的数据都会出现在叶子节点,在查询的时候,B+树查找效率更加稳定

第二:在进行范围查询的时候,B+树效率更高,因为B+树都在叶子节点存储,并且叶子节点是一个双向链表

面试官: 什么是聚簇索引什么是非聚簇索引 ?

候选人:

好的~,聚簇索引主要是指数据与索引放到一块,B+树的叶子节点保存了整行数据,有且只有一个,一般情况下主键在作为聚簇索引的

非聚簇索引值的是数据与索引分开存储,B+树的叶子节点保存对应的主键,可以有多个,一般我们自己定义的索引都是非聚簇索引

面试官: 知道什么是回表查询嘛 ?

候选人: 嗯,其实跟刚才介绍的聚簇索引和非聚簇索引是有关系的,回表的意思就是通过二级索引找到对应的主键值,然后再通过主键值找到聚集索引中所对应的整行数据,这个过程就是回表

【备注:如果面试官直接问回表,则需要先介绍聚簇索引和非聚簇索引】

面试官: 知道什么叫覆盖索引嘛 ?

候选人: 嗯~,清楚的

覆盖索引是指select查询语句使用了索引,在返回的列,必须在索引中全部能够找到,如果我们使用id查询,它会直接走聚集索引查询,一次索引扫描,直接返回数据,性能高。

如果按照二级索引查询数据的时候,返回的列中没有创建索引,有可能会触发回表查询,尽量避免使用select *,尽量在返回的列中都包含添加索引的字段

面试官: MYSQL超大分页怎么处理 ?

候选人: 嗯,超大分页一般都是在数据量比较大时,我们使用了limit分页查询,并且需要对数据进行排序,这个时候效率就很低,我们可以采用覆盖索引和子查询来解决

先分页查询数据的id字段,确定了id之后,再用子查询来过滤,只查询这个id列表中的数据就可以了

因为查询id的时候,走的覆盖索引,所以效率可以提升很多

面试官: 索引创建原则有哪些?

候选人: 嗯,这个情况有很多,不过都有一个大前提,就是表中的数据要超过10万以上,我们才会创建索引,并且添加索引的字段是查询比较频繁的字段,一般也是像作为查询条件,排序字段或分组的字段这些。

还有就是,我们通常创建索引的时候都是使用复合索引来创建,一条sql的返回值,尽量使用覆盖索引,如果字段的区分度不高的话,我们也会把它放在组合索引后面的字段。

如果某一个字段的内容较长,我们会考虑使用前缀索引来使用,当然并不是所有的字段都要添加索引,这个索引的数量也要控制,因为添加索引也会导致新增改的速度变慢。

好文阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。