非聚集索引,这个是大家都非常熟悉的一个东西,有时候我们由于业务原因,sql写的非常复杂,需要join很多张表,然后就泪流满面了。。。这时候就有dba或者资深的开发给你看这个猥琐的sql,通过执行计划一分析。。。或许就看出了不该有的表扫描。。。万恶之源。。。然后给你在关键的字段加上非聚集索引后。。。才发现提速比阿斯顿马丁还要快。。。那么一个问题来了,为什么非聚集索引能提速这么快。。。怎么做到的???是不是非常的好奇???
这篇我们来解开神秘面纱。
一:现象
先让我们一睹非聚集索引的真容,看看到底在执行计划看来是个什么玩意。。。我这里有个product表,里面灌了8w多数据,然后在name列上建立
一个非聚集索引,就像下图一样:
从上图中看到了两个好玩的东西,一个就是我想看到的“索引查找[nonclustered]”,这个大家很熟悉,也是这篇要说的,然后我们还看到了一个“rid查找”,乍一看这是什么鸡巴玩意。。。非聚集索引跟它扯上什么关系了???
二:什么是rid
通过前面几篇,我想大家都知道了数据页中的记录是如何寻找的?秘密就是通过slot槽位中的偏移量决定的,那问题来了,如果上升到数据页层面,我只需要(pageid:slotid)就可以找到记录了,对不对?那如果我上升了文件层面,那是不是只需要知道(fileid:pageid:slotid)就可以找到数据页中的 记录了?其实这里的rid就是站在文件的高度通过(fileid:pageid:slotid)找到表记录的。。。既rid=rowid=(fileid:pageid:slotid),如果你非要眼见实的话,在sq中l还真提供了这么个函数(sys.fn_physlocformatter(%%physloc%%)),我们看下图:
看了上面的图,是不是很兴奋,一目了然,比如productid=18088这条记录,然来是在1号文件,34941号数据页,0号槽位上,productid=18089是在1号槽位上,好了,当你知道rid是个什么东西的时候,我想你已经离彻底理解非聚集索引不远啦。。。
三:非聚集索引
有一点我们肯定知道,就是非聚集索引是可以加速查找的,要是跟表扫描那样的龟速,那也就失去了索引的目的,既然能加速,是因为它和聚集索引一样,在底层都玩起了b树,首先我们插入一些样例数据。
drop table dbo.person create table person(id int identity,name char(900)) create index idx_person_name on dbo.person(name) declare @ch as int=97 while @ch<=122 begin insert into dbo.person values(replicate(char(@ch),5)) set @ch=@ch+1 end
上面的sql,我故意在name列设置为900个char,这也是索引的上限值,这样的话,我dbcc就可以导出很多数据页和索引页了。
可以看到,当我dbcc ind 的时候,发现person表中已经有4个数据页,5个索引页,其中151号数据页是表跟踪页,174号为索引跟踪页,这也就说明当我建立索引后,引擎给我们分配了专门的索引页来存放我们建立的name索引,那下一步就是我们来看看这些索引中都存放着什么,这也是我非常关心的,接下来我导出173号索引页。
复制代码 代码如下:
dbcc page(ctrip,1,173,1)
slot 0, offset 0x60, length 912, dumpstyle byte record type = index_record record attributes = null_bitmap record size = 912 memory dump @0x000000000ef1c060 0000000000000000: 16616161 61612020 20202020 20202020 †.aaaaa 0000000000000010: 20202020 20202020 20202020 20202020 † 0000000000000020: 20202020 20202020 20202020 20202020 † 0000000000000030: 20202020 20202020 20202020 20202020 † 0000000000000040: 20202020 20202020 20202020 20202020 † 0000000000000050: 20202020 20202020 20202020 20202020 † 0000000000000060: 20202020 20202020 20202020 20202020 † 0000000000000070: 20202020 20202020 20202020 20202020 † 0000000000000080: 20202020 20202020 20202020 20202020 † 0000000000000090: 20202020 20202020 20202020 20202020 † 00000000000000a0: 20202020 20202020 20202020 20202020 † 00000000000000b0: 20202020 20202020 20202020 20202020 † 00000000000000c0: 20202020 20202020 20202020 20202020 † 00000000000000d0: 20202020 20202020 20202020 20202020 † 00000000000000e0: 20202020 20202020 20202020 20202020 † 00000000000000f0: 20202020 20202020 20202020 20202020 † 0000000000000100: 20202020 20202020 20202020 20202020 † 0000000000000110: 20202020 20202020 20202020 20202020 † 0000000000000120: 20202020 20202020 20202020 20202020 † 0000000000000130: 20202020 20202020 20202020 20202020 † 0000000000000140: 20202020 20202020 20202020 20202020 † 0000000000000150: 20202020 20202020 20202020 20202020 † 0000000000000160: 20202020 20202020 20202020 20202020 † 0000000000000170: 20202020 20202020 20202020 20202020 † 0000000000000180: 20202020 20202020 20202020 20202020 † 0000000000000190: 20202020 20202020 20202020 20202020 † 00000000000001a0: 20202020 20202020 20202020 20202020 † 00000000000001b0: 20202020 20202020 20202020 20202020 † 00000000000001c0: 20202020 20202020 20202020 20202020 † 00000000000001d0: 20202020 20202020 20202020 20202020 † 00000000000001e0: 20202020 20202020 20202020 20202020 † 00000000000001f0: 20202020 20202020 20202020 20202020 † 0000000000000200: 20202020 20202020 20202020 20202020 † 0000000000000210: 20202020 20202020 20202020 20202020 † 0000000000000220: 20202020 20202020 20202020 20202020 † 0000000000000230: 20202020 20202020 20202020 20202020 † 0000000000000240: 20202020 20202020 20202020 20202020 † 0000000000000250: 20202020 20202020 20202020 20202020 † 0000000000000260: 20202020 20202020 20202020 20202020 † 0000000000000270: 20202020 20202020 20202020 20202020 † 0000000000000280: 20202020 20202020 20202020 20202020 † 0000000000000290: 20202020 20202020 20202020 20202020 † 00000000000002a0: 20202020 20202020 20202020 20202020 † 00000000000002b0: 20202020 20202020 20202020 20202020 † 00000000000002c0: 20202020 20202020 20202020 20202020 † 00000000000002d0: 20202020 20202020 20202020 20202020 † 00000000000002e0: 20202020 20202020 20202020 20202020 † 00000000000002f0: 20202020 20202020 20202020 20202020 † 0000000000000300: 20202020 20202020 20202020 20202020 † 0000000000000310: 20202020 20202020 20202020 20202020 † 0000000000000320: 20202020 20202020 20202020 20202020 † 0000000000000330: 20202020 20202020 20202020 20202020 † 0000000000000340: 20202020 20202020 20202020 20202020 † 0000000000000350: 20202020 20202020 20202020 20202020 † 0000000000000360: 20202020 20202020 20202020 20202020 † 0000000000000370: 20202020 20202020 20202020 20202020 † 0000000000000380: 20202020 20940000 00010000 00020000 † ...........
复制代码 代码如下:
row – offset
7 (0x7) – 6480 (0x1950)
6 (0x6) – 5568 (0x15c0)
5 (0x5) – 4656 (0x1230)
4 (0x4) – 3744 (0xea0)
3 (0x3) – 2832 (0xb10)
2 (0x2) – 1920 (0x780)
1 (0x1) – 1008 (0x3f0)
0 (0x0) – 96 (0x60)
从上面至少可以发现三个有趣的现象:
<1>:173号索引页中slot0和slot1槽位指向记录的内容已经有序了,比如:aaaaa,bbbbb。。。。这样。。。。原来非聚集索引也是有序呀。。。
<2>:6161616161就是16进制的aaaaa。
9400000001000000 :这几个数字非常重要,因为是16进制表示,所以2位16进制表示一个字节,所以可以这么解释,前面4个字节表示
pageid,中间2个字节表示fileid,后面2个字节表示slot,看到这里你是不是想起了rid。。。因为rid就是这三样的组合。。。原来非聚集索
引的记录存放的就是“key+rowid”呀。。。。
<3>:通过最后的槽位列表,可以得知173号索引页上存放着8条索引记录。
好了,看完了叶子节点,我们再看分支节点,也就是indexlevel=1的那条索引数据页,也就是78号。ok,dbcc看看吧。
当看到这个列表的时候,不知道你脑子里面是不是有一幅图出来了,就像上一篇看到聚集索引一样,因为它的结构和聚集索引非常像,只不过非聚集索引这里多了一个rid而已。。。最后我也把图贡献一下。
总结一下:在走非聚集索引的时候,比如你的条件是where name=’jjjjj’ 时,它的逻辑是这样的,根据78号索引数据页的key的范围,然后通过rowid走到了79号索引数据页,然后在79号索引数据页中顺利的找到了jjjjj,这时候就可以拿出jjjjj的rowid去表数据页中直接定位记录,最后输出。。。。。这个也就是博客开头的地方为什么会出现rid的查找。。。