一文搞懂MySQL索引页结构

1. 前言

「页」是innodb管理存储空间的基本单位,也是内存和磁盘交互的基本单位。也就是说,哪怕你需要1字节的数据,innodb也会读取整个页的数据,下次读取的数据如果恰巧也在这个页里,就能命中缓存了。写也是一样的,写数据前要先把页加载到内存,然后在内存中修改,该页被记为「脏页」,脏页淘汰之前必须刷盘。

innodb有很多类型的页,它们的用处也各不相同。比如:有存放undo日志的页、有存放inode信息的页、有存放change buffer信息的页、存放用户记录数据的页等等。今天我们要聊的,就是最基础也是最重要的,存放用户记录数据的「索引页」。

2. 索引页结构

innodb默认的页大小是16kb,在初始化表空间之前可以在配置文件中进行配置,一旦初始化完成就不可再变更了。查看页大小的命令如下,显示的是字节数。

索引页结构如下图所示:

索引页由七部分组成,其中infimum和supremum也属于记录,只不过是虚拟记录,这里为了与用户记录区分开,还是决定将两者拆开。

名称 大小 描述
file header 38字节 所有页的通用文件头信息
page header 56字节 索引页特有的页头信息
infimum+supremum 26字节 页中虚拟的最小、最大记录
user records 变长 用户记录数据
free space 变长 空闲空间
page directory 变长 页目录,加速页内数据检索效率
file trailer 8字节 所有页的通用文件尾信息,校验页是否完整

2.1 file header

file header是所有页都有的一个通用的结构,占用固定的38字节,它记录了页的一些通用的状态信息,例如:页的页号、checksum、把页串联成双向链表的指针、页的类型等等。

名称 大小 描述
fil_page_space_or_checksum 4字节 新版本中代表页的校验和checksum
fil_page_offset 4字节 页号
fil_page_prev 4字节 上一个页的页号
fil_page_next 4字节 下一个页的页号
fil_page_lsn 8字节 页面最后被修改时的lsn值
fil_page_type 2字节 页的类型
fil_page_file_flush_lsn 8字节 仅在系统表空间的第1个页中使用,代表文件至少被刷新到了对应的lsn值
fil_page_arch_log_no_or_space_id 4字节 页数据哪个表空间

fil_page_space_or_checksum

基于当前页计算出的校验和(checksum),可以把它看作是哈希值,校验和不同,则两个页数据肯定不同。它的作用是innodb在脏页刷盘时,有可能会遇到页刷到一半断电的情况,页的头和尾部分分别记录校验和,只有当头尾的校验和一致的时候,才代表磁盘上的页是完整的,否则就是一个损坏的页。

fil_page_offset

页号,页的唯一标识,全局递增的数字,innodb通过页号来定位唯一的一个页。4字节存储,意味着一个表空间最多可以有232个页,按照一个页16kb计算,则一个表空间最多支持64tb的数据。

fil_page_prev & fil_page_next

一个页大小才16kb,一张表数据其实是由n多个页构成的,页与页之间在物理上可以是不连续的,但是逻辑上要连续,fil_page_prev和fil_page_next分别指向当前页的上一个页和下一个页的页号,通过这两个指针将索引页串联成了一个双向链表。记录与记录之间是单向的,页与页之间是双向的!

fil_page_lsn

页面最后被修改时,对应的lsn值。lsn的全称是log sequence number,日志序列号。它是一个递增的数字,和事务相关,这里不作赘述。

fil_page_type

当前页的类型,innodb为了不同的目的设计了很多不同类型的页,索引页的固定值是0x45bf

fil_page_file_flush_lsn

仅在第1个页中使用,用来判断数据库是正常关闭还是异常宕机。

fil_page_arch_log_no_or_space_id

仅记录当前页数据哪个表空间。

2.2 page header

page header是索引页特有的结构,占用固定的56字节,它记录了索引页中记录相关的状态信息。

名称 大小 描述
page_n_dlr_slots 2字节 页目录中的槽数量
page_heap_top 2字节 未使用的空间最小地址,user records和free space分界点
page_n_heap 2字节 本页中的记录的数量(包括虚拟记录和删除记录)
page_free 2字节 第一个删除的记录地址,后续删除的记录会形成链表。
page_garbage 2字节 已删除记录占用的字节数
page_last_insert 2字节 最后插入记录的位置
page_direction 2字节 记录插入的方向
page_n_direction 2字节 同一个方向连续插入的记录数量
page_n_recs 2字节 该页中记录的数量(不包括虚拟记录和删除记录)
page_max_trx_id 8字节 修改当前页的最大事务id,仅在二级索引中使用
page_level 2字节 当前页在b+树中所处的层级
page_index_id 8字节 索引id,表示当前页属于哪个索引
page_btr_seg_leaf 10字节 b+树叶子段的头部信息,仅在b+树的root页定义
page_btr_seg_top 10字节 b+树非叶子段的头部信息,仅在b+树的root页定义

不用每个属性都了解,我们挑几个比较重要的看看。

page_n_dlr_slots

一个页内可能有上千条记录,挨个遍历的话效率太慢了。为了提高页内记录的检索效率,innodb将页内的记录划分为多个组,组里最大的那条记录相较于页的地址偏移量会记录到「page directory」部分,每个组都对应一个槽,槽的大小是固定的2字节。该属性记录的就是页内槽的数量。

page_heap_top

free space的起始位置,它是user records和free space分界点。一个全新的页一开始是没有user records部分的,每插入一条记录,都要向free space申请空间,free space耗尽就代表页满了。

page_free

delete命令删除记录时,innodb并不会真的将记录从磁盘中删除,而是在记录的头信息里打个标记,然后将其加入到「垃圾链表」中。page_free指向的就是垃圾链表的表头记录。后面删除的记录,也会自动加入到链表里。

page_direction & page_n_direction

page_direction表示最后一条记录插入的方向,比上一条记录值大则记为右边,反之则是左边。page_n_direction表示同一方向连续插入的记录数,方向变了该值就会重置。

page_level

innodb组织数据的形式就是b+树,树中的节点就是索引页,page_level代表当前页在b+树中所处的层级。innodb规定,叶子节点层级为0,然后向上递增。

2.3 user records

infimum和supremum也属于记录,只是为了与用户记录区分开才划分成了两部分,我们先看user records。

用户记录存放在user records部分,一个全新的页一开始全是free space,是没有user records部分的。每插入一条记录都需要到free space申请一块空间,并将其划分到user records用来存放用户记录。当free space耗尽也就代表当前页已经用完了,再有新记录需要插入,就需要申请一个新的页了。

还记得mysql的行格式吗?它决定了记录在磁盘里的存储格式。以compact为例,存储格式如下图:

记录头信息里的字段比较关键,以防大家忘记,我这里再贴一下:

名称 大小(bit) 说明
预留位1 1 没有使用
预留位2 1 没有使用
deleted_flag 1 记录删除标记
min_rec_flag 1 b+树非叶子节点的最小目录项标记
n_owned 4 同一页内同一组里最大的记录会记录组里的记录数量,其余记录该值为0
heap_no 13 当前记录在页面堆里的相对位置
record_type 3 记录类型。0:普通记录,1:b+树非叶子节点目录项记录,2:infimum记录,3:supremum记录.
next_record 16 下一条记录的相对位置

记录头信息的最后2字节用来连接下一条记录,将页内所有记录串联成一个单向链表。所以我们隐藏变长字段长度列表和null值列表,记录的格式应该是这样的:

记录是怎么排序的?
我们已经知道,页内的记录会自动串联成一个单向链表。那这个链表的编排顺序是什么呢?是按照记录的插入时间排序的吗?其实不是的,如果表有主键,会根据主键排序;没主键有唯一非空索引,会根据该索引排序;两者都没有,innodb会自动生成一个row_id列并根据该列进行排序。

若无特殊说明,本文均假定表有主键。

2.4 infimum & supremum

infimum和supremum是索引页内的两条虚拟记录,innodb规定所有索引页都会有这两条记录,而且所有的用户记录都比infimum大,都比supremum小。
记录头信息里的heap_no代表记录在堆里的相对位置,该值越小代表记录越靠前。细心的同学会发现,上图中的用户记录heap_no值是从2开始的,那0和1呢?不说你也肯定猜到了,就是被infimum和supremum占用了。infimum和supremum的heap_no值分别是0和1,它俩在所有用户记录的最前面。

infimum和supremum结构非常的简单,和用户记录一样也有头信息,真实数据部分是固定的字符串,如下图所示:

我们把这两条虚拟记录也加入到记录里面,完整的结构就是下面这样的:

supremum记录的next_record属性为0,代表它已经没有下一条记录了。

2.5 page directory

free space没什么好说的,就是一块未被使用的空闲空间。

page directory也叫作「页目录」,它的目的是提高页内记录的检索效率。相较于一张表几千万的记录来说,一个页内几百上千条记录已经是很少很少了。可即便如此,它也有几百上千条啊,如果页内检索记录只能挨个遍历的话,那也太低效了。别忘了,页内的记录是根据索引值排好序的,我们可以巧用「二分法」来快速查找。

具体做法是:将页内所有非删除的记录划分为n个组,每个组里最后一条记录(即主键最大的记录)称作“大哥”,其余记录是“小弟”,“大哥”的n_owned属性记录了组内的记录数量。将“大哥”在页内的地址偏移量提取出来,按顺序依次从file trailer部分往前写,每个地址偏移量占用2字节,称作一个「槽」,page directory就是由这些槽构成的。
innodb对于分组内的记录数量有一些规定:

  • infimum记录所在分组,只能有一条记录。
  • supremum记录所在分组,允许有1~8条记录。
  • 其余分组,允许有4~8条记录。

由此可见,一个组里最多有8条记录,只要通过二分法快速定位到组,innodb也只需要遍历这8条记录,相较于遍历页内所有记录,效率要高的多。

2.6 file trailer

file trailer是所有页都有的通用结构,占用固定的8字节,它的主要作用就是为了校验页的完整性。磁盘的速度实在是太慢了,innodb不会每次写点数据都直接刷新到磁盘上,那样mysql会慢死。而是将页作为刷盘的基本单位,数据修改时,先改内存里的页,稍后再将整个页的数据一次性刷新到磁盘里。但是这会带来一个问题,一个页16kb,刷到第10kb的时候磁盘断电了怎么办?重启后innodb如何判断磁盘里的页数据是完整的?

innodb是这么处理的,刷盘前根据页数据计算出一个checksum,在页头和页尾都写一份。页刷盘的时候,先刷页头再刷页尾,当头尾两个checksum值一致的时候,代表磁盘里的页是完整的,否则就表示页头刷了页尾没刷,那肯定是刷到一半出错了。

大小 说明
4字节 页的校验和checksum
4字节 页最后被修改时对应的lsn的后4个字节,正常情况下应该与file header里的fil_page_lsn的后4个字节相同。

3. 总结

页是innodb存取数据的基本单位,默认页大小是16kb,innodb为了不同的目的设计了很多不同类型的页,本文重点分析了存放用户记录的索引页。页的头尾部分file header和file trailer是所有页都有的一个通用结构,它们记录了页的一些通用状态信息,和checksum用来验证页的完整性。page header是索引页特有的结构,它记录了页内用户记录相关的状态信息。user records部分用来存放用户记录。另外,由于页内的记录数量也不少,为了提高页内记录的检索效率,innodb在索引页中加入了page directory,它通过将记录分组,将组里最大的记录的地址偏移量形成一个个槽,page directory就是由这些槽构成的。检索数据时,使用二分法快速定位到槽所在的组,就可以避免遍历所有组的记录了。

到此这篇关于mysql索引页结构的文章就介绍到这了,更多相关mysql索引页结构内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com!

(0)
上一篇 2022年3月21日
下一篇 2022年3月21日

相关推荐