目录
- 一、简介
- 二、string(字符串)
- 1、string(字符串)相关介绍
- 1.1 string(字符串)的内部结构
- 1.2 string(字符串)的扩容
- 2、string(字符串)的指令
- 2.1 单个键值对增删改查操作
- 2.2 批量键值对
- 2.3 过期set命令
- 2.4 不存在创建存在不更新
- 2.5计数
- 三、list(列表)
- 1、list(列表)相关介绍
- 1.1 list(列表)的内部结构
- 1.2 list(列表)的使用场景
- 2、list(列表)的指令
- 2.1 右进左出—队列
- 2.2 右进右出——栈
- 2.3 慢操作
- 3、list(列表)深入理解
- 3.1 常见的链表结构示意图
- 3.2 ziplist示意图
- 3.3 quicklist示意图
- 四、hash(字典)
- 1、hash(字典)相关介绍
- 1.1 hash(字典)的内部结构
- 1.2 hash(字典)扩容
- 1.3 hash(字典)的相关使用场景
- 2 hash(字典)相关指令
- 2.1 hash(字典)常用指令
- 2.2 hash(字典)使用小技巧
- 五、set(集合)
- 1、set(集合)相关介绍
- 1.1 set(集合)的内部结构
- 1.2 set(集合)的使用场景
- 2、set(集合)相关指令
- 六、zset(有序集合)
- 1、zset(有序集合)相关介绍
- 1.1 zset(有序集合)的内部结构
- 1.2 zset(有序集合)的相关使用场景
- 2、zset(有序集合)相关指令
- 七、skip list
- 1、简介
- 2、skip list算法分析
- 2.1 skip list论文
- 2.2 skip list动态图
- 2.3 skip list算法性能分析
- 3、skip list特性及其实现
- 2.1 skip list特性
- 2.2 skip list查询
- 2.3 skip list插入
- 2.4 skip list删除
- 4、手写实现一个简单skip list
- 3.1 定义node节点
- 3.2 skiplist节点元素的操作类
一、简介
redis中所有的的数据结构都是通过一个唯一的字符串key来获取相应的value数据。
redis有5种基础数据结构,分别是:
- string(字符串)
- list(列表)
- hash(字典)
- set(集合)
- zset(有序集合)
其中list、set、hash、zset这四种数据结构是容器型数据结构,它们共享下面两条通用规则:
- create if not exists:容器不存在则创建
- drop if no elements:如果容器中没有元素,则立即删除容器,释放内存
本文将详细讲述的是redis的5种基础数据结构。
二、string(字符串)
1、string(字符串)相关介绍
1.1 string(字符串)的内部结构
string(字符串)是redis最简单也是使用最广泛的数据结构,它的内部是一个字符数组。如图所示:
redis中string
(字符串)是动态字符串,允许修改;它在结构上的实现类似于java中的arraylist
(默认构造一个大小为10的初始数组),这是冗余分配内存的思想,也称为预分配;这种思想可以减少扩容带来的性能消耗。
1.2 string(字符串)的扩容
当string(字符串)的大小达到扩容阈值时,将会对string
(字符串)进行扩容,string(字符串)的扩容主要有以下几个点:
- 长度小于1mb,扩容后为原先的两倍; length = length * 2
- 长度大于1mb,扩容后增加1mb; length = length + 1mb
- 字符串的长度最大值为 512mb
2、string(字符串)的指令
2.1 单个键值对增删改查操作
set -> key 不存在则新增,存在则修改
set key value
get -> 查询,返回对应key的value,不存在返回(nil)
get key
del -> 删除指定的key(key可以是多个)
del key [key …]
示例:
1127.0.0.1:6379> set name liziba 2ok 3127.0.0.1:6379> get name 4"liziba" 5127.0.0.1:6379> set name liziba001 6ok 7127.0.0.1:6379> get name 8"liziba001" 9127.0.0.1:6379> del name 10(integer) 1 11127.0.0.1:6379> get name 12(nil)
2.2 批量键值对
批量键值读取和写入最大的优势在于节省网络传输开销
mset -> 批量插入
mset key value [key value …]
mget -> 批量获取
mget key [key …]
示例:
1127.0.0.1:6379> mset name1 liziba1 name2 liziba2 name3 liziba3 2ok 3127.0.0.1:6379> mget name1 name2 name3 41) "liziba1" 52) "liziba2" 63) "liziba3"
2.3 过期set命令
过期set是通过设置一个缓存key的过期时间,使得缓存到期后自动删除从而失效的机制。
方式一:
expire key seconds
示例:
1127.0.0.1:6379> set name liziba 2ok 3127.0.0.1:6379> get name 4"liziba" 5127.0.0.1:6379> expire name 10 # 10s 后get name 返回 nil 6(integer) 1 7127.0.0.1:6379> get name 8(nil)
方式二:
setex key seconds value
示例:
1127.0.0.1:6379> setex name 10 liziba # 10s 后get name 返回 nil 2ok 3127.0.0.1:6379> get name 4(nil)
2.4 不存在创建存在不更新
上面的set操作不存在创建,存在则更新;此时如果需要存在不更新的场景,那么可以使用如下这个指令
setnx -> 不存在创建存在不更新
setnx key value
示例:
1127.0.0.1:6379> get name 2(nil) 3127.0.0.1:6379> setnx name liziba 4(integer) 1 5127.0.0.1:6379> get name 6"liziba" 7127.0.0.1:6379> setnx name liziba_98 # 已经存在再次设值,失败 8(integer) 0 9127.0.0.1:6379> get name 10"liziba"
2.5计数
string(字符串)也可以用来计数,前提是value是一个整数,那么可以对它进行自增的操作。自增的范围必须在signed long的区间访问内,[-9223372036854775808,9223372036854775808]
incr -> 自增1
incr key
示例:
1127.0.0.1:6379> set fans 1000 2ok 3127.0.0.1:6379> incr fans # 自增1 4(integer) 1001
incrby -> 自定义累加值
1127.0.0.1:6379> set fans 1000 2ok 3127.0.0.1:6379> incr fans 4(integer) 1001 5127.0.0.1:6379> incrby fans 999 6(integer) 2000
测试value为整数的自增区间
最大值:
1127.0.0.1:6379> set fans 9223372036854775808 2ok 3127.0.0.1:6379> incr fans 4(error) err value is not an integer or out of range
最小值:
1127.0.0.1:6379> set money -9223372036854775808 2ok 3127.0.0.1:6379> incrby money -1 4(error) err increment or decrement would overflow
三、list(列表)
1、list(列表)相关介绍
1.1 list(列表)的内部结构
redis的列表相当于java语言中的linkedlist,它是一个双向链表数据结构(但是这个结构设计比较巧妙,后面会介绍),支持前后顺序遍历。链表结构插入和删除操作快,时间复杂度o(1),查询慢,时间复杂度o(n)。
1.2 list(列表)的使用场景
根据redis双向列表的特性,因此其也被用于异步队列的使用。实际开发中将需要延后处理的任务结构体序列化成字符串,放入redis的队列中,另一个线程从这个列表中获取数据进行后续处理。其流程类似如下的图:
2、list(列表)的指令
2.1 右进左出—队列
队列在结构上是先进先出(fifo)的数据结构(比如排队购票的顺序),常用于消息队列类似的功能,例如消息排队、异步处理等场景。通过它可以确保元素的访问顺序。
lpush -> 从左边边添加元素
lpush key value [value …]
rpush -> 从右边添加元素
rpush key value [value …]
llen -> 获取列表的长度
llen key
lpop -> 从左边弹出元素
lpop key
1127.0.0.1:6379> rpush code java c python # 向列表中添加元素 2(integer) 3 3127.0.0.1:6379> llen code # 获取列表长度 4(integer) 3 5127.0.0.1:6379> lpop code # 弹出最先添加的元素 6"java" 7127.0.0.1:6379> lpop code 8"c" 9127.0.0.1:6379> lpop code 10"python" 11127.0.0.1:6379> llen code 12(integer) 0 13127.0.0.1:6379> lpop code 14(nil)
2.2 右进右出——栈
栈在结构上是先进后出(filo)的数据结构(比如弹夹压入子弹,子弹被射击出去的顺序就是栈),这种数据结构一般用来逆序输出。
lpush -> 从左边边添加元素
lpush key value [value …]
rpush -> 从右边添加元素
rpush key value [value …]
rpop -> 从右边弹出元素
rpop code
1127.0.0.1:6379> rpush code java c python 2(integer) 3 3127.0.0.1:6379> rpop code # 弹出最后添加的元素 4"python" 5127.0.0.1:6379> rpop code 6"c" 7127.0.0.1:6379> rpop code 8"java" 9127.0.0.1:6379> rpop code 10(nil)
2.3 慢操作
列表(list)是个链表数据结构,它的遍历是慢操作,所以涉及到遍历的性能将会遍历区间range的增大而增大。注意list的索引运行为负数,-1代表倒数第一个,-2代表倒数第二个,其它同理。
lindex -> 遍历获取列表指定索引处的值
lindex key ind
lrange -> 获取从索引start到stop处的全部值
lrange key start stop
ltrim -> 截取索引start到stop处的全部值,其它将会被删除
ltrim key start stop
1127.0.0.1:6379> rpush code java c python 2(integer) 3 3127.0.0.1:6379> lindex code 0 # 获取索引为0的数据 4"java" 5127.0.0.1:6379> lindex code 1 # 获取索引为1的数据 6"c" 7127.0.0.1:6379> lindex code 2 # 获取索引为2的数据 8"python" 9127.0.0.1:6379> lrange code 0 -1 # 获取全部 0 到倒数第一个数据 == 获取全部数据 101) "java" 112) "c" 123) "python" 13127.0.0.1:6379> ltrim code 0 -1 # 截取并保理 0 到 -1 的数据 == 保理全部 14ok 15127.0.0.1:6379> lrange code 0 -1 161) "java" 172) "c" 183) "python" 19127.0.0.1:6379> ltrim code 1 -1 # 截取并保理 1 到 -1 的数据 == 移除了索引为0的数据 java 20ok 21127.0.0.1:6379> lrange code 0 -1 221) "c" 232) "python"
3、list(列表)深入理解
redis底层存储list(列表)不是一个简单的linkedlist,而是quicklist ——“快速列表”。关于quicklist是什么,下面会简单介绍,具体源码我也还在学习中,后面大家一起探讨。
quicklist是多个ziplist(压缩列表)组成的双向列表;而这个ziplist(压缩列表)又是什么呢?ziplist指的是一块连续的内存存储空间,redis底层对于list(列表)的存储,当元素个数少的时候,它会使用一块连续的内存空间来存储,这样可以减少每个元素增加prev和next指针带来的内存消耗,最重要的是可以减少内存碎片化问题。
3.1 常见的链表结构示意图
每个node节点元素,都会持有一个prev->执行前一个node节点和next->指向后一个node节点的指针(引用),这种结构虽然支持前后顺序遍历,但是也带来了不小的内存开销,如果node节点仅仅是一个int类型的值,那么可想而知,引用的内存比例将会更大。
3.2 ziplist示意图
ziplist是一块连续的内存地址,他们之间无需持有prev和next指针,能通过地址顺序寻址访问。
3.3 quicklist示意图
quicklist是由多个ziplist组成的双向链表。
四、hash(字典)
1、hash(字典)相关介绍
1.1 hash(字典)的内部结构
redis的hash(字典)相当于java语言中的hashmap,它是根据散列值分布的无序字典,内部的元素是通过键值对的方式存储。
hash(字典)的实现与java中的hashmap(jdk1.7)的结构也是一致的,它的数据结构也是数组+链表组成的二维结构,节点元素散列在数组上,如果发生hash碰撞则使用链表串联在数组节点上。
1.2 hash(字典)扩容
redis中的hash(字典)存储的value只能是字符串值,此外扩容与java中的hashmap也不同。java中的hashmap在扩容的时候是一次性完成的,而redis考虑到其核心存取是单线程的性能问题,为了追求高性能,因而采取了渐进式rehash策略。
渐进式rehash指的是并非一次性完成,它是多次完成的,因此需要保理旧的hash结构,所以redis中的hash(字典)会存在新旧两个hash结构,在rehash结束后也就是旧hash的值全部搬迁到新hash之后,新的hash在功能上才会完全替代以前的hash。
1.3 hash(字典)的相关使用场景
hash(字典)可以用来存储对象的相关信息,一个hash(字典)代表一个对象,hash的一个key代表对象的一个属性,key的值代表属性的值。hash(字典)结构相比字符串来说,它无需将整个对象进行序列化后进行存储。这样在获取的时候可以进行部分获取。所以相比之下hash(字典)具有如下的优缺点:
- 读取可以部分读取,节省网络流量
- 存储消耗的高于单个字符串的存储
2 hash(字典)相关指令
2.1 hash(字典)常用指令
hset -> hash(字典)插入值,字典不存在则创建 key代表字典名称,field 相当于 key,value是key的值
hset key field value
hmset -> 批量设值
hmset key field value [field value …]
示例:
17.0.0.1:6379> hset book java "thinking in java" # 字符串包含空格需要""包裹 2(integer) 1 3127.0.0.1:6379> hset book python "python code" 4(integer) 1 5127.0.0.1:6379> hset book c "the best of c" 6(integer) 1 7127.0.0.1:6379> hmset book go "concurrency in go" mysql "high-performance mysql" # 批量设值 8ok
hget -> 获取字典中的指定key的value
hget key field
hgetall -> 获取字典中所有的key和value,换行输出
hgetall key
示例:
1127.0.0.1:6379> hget book java 2"thinking in java" 3127.0.0.1:6379> hgetall book 41) "java" 52) "thinking in java" 63) "python" 74) "python code" 85) "c" 96) "the best of c"
hlen -> 获取指定字典的key的个数
hlen key
举例:
1127.0.0.1:6379> hlen book 2(integer) 5
2.2 hash(字典)使用小技巧
在string(字符串)中可以使用incr和incrby对value是整数的字符串进行自加操作,在hash(字典)结构中如果单个子key是整数也可以进行自加操作。
hincrby -> 增对hash(字典)中的某个key的整数value进行自加操作
hincrby key field increment
1127.0.0.1:6379> hset liziba money 10 2(integer) 1 3127.0.0.1:6379> hincrby liziba money -1 4(integer) 9 5127.0.0.1:6379> hget liziba money 6"9"
注意如果不是整数会报错。
1127.0.0.1:6379> hset liziba money 10.1 2(integer) 1 3127.0.0.1:6379> hincrby liziba money 1 4(error) err hash value is not an integer
五、set(集合)
1、set(集合)相关介绍
1.1 set(集合)的内部结构
redis的set(集合)相当于java语言里的hashset,它内部的键值对是无序的、唯一的。它的内部实现了一个所有value为null的特殊字典。
集合中的最后一个元素被移除之后,数据结构被自动删除,内存被回收。
1.2 set(集合)的使用场景
set(集合)由于其特殊去重复的功能,我们可以用来存储活动中中奖的用户的id,这样可以保证一个用户不会中奖两次。
2、set(集合)相关指令
sadd -> 添加集合成员,key值集合名称,member值集合元素,元素不能重复
sadd key member [member …]
1127.0.0.1:6379> sadd name zhangsan 2(integer) 1 3127.0.0.1:6379> sadd name zhangsan # 不能重复,重复返回0 4(integer) 0 5127.0.0.1:6379> sadd name lisi wangwu liumazi # 支持一次添加多个元素 6(integer) 3
smembers -> 查看集合中所有的元素,注意是无序的
smembers key
1127.0.0.1:6379> smembers name # 无序输出集合中所有的元素 21) "lisi" 32) "wangwu" 43) "liumazi" 54) "zhangsan"
sismember -> 查询集合中是否包含某个元素
sismember key member
127.0.0.1:6379> sismember name lisi # 包含返回1 (integer) 1 127.0.0.1:6379> sismember name tianqi # 不包含返回0 (integer) 0
scard -> 获取集合的长度
scard key
1127.0.0.1:6379> scard name 2(integer) 4
spop -> 弹出元素,count指弹出元素的个数
spop key [count]
127.0.0.1:6379> spop name # 默认弹出一个 "wangwu" 127.0.0.1:6379> spop name 3 1) "lisi" 2) "zhangsan" 3) "liumazi
六、zset(有序集合)
1、zset(有序集合)相关介绍
1.1 zset(有序集合)的内部结构
zset(有序集合)是redis中最常问的数据结构。它类似于java语言中的sortedset和hashmap的结合体,它一方面通过set来保证内部value值的唯一性,另一方面通过value的score(权重)来进行排序。这个排序的功能是通过skip list(跳跃列表)来实现的。
zset(有序集合)的最后一个元素value被移除后,数据结构被自动删除,内存被回收。
1.2 zset(有序集合)的相关使用场景
利用zset的去重和有序的效果可以由很多使用场景,举两个例子:
- 存储粉丝列表,value是粉丝的id,score是关注时间戳,这样可以对粉丝关注进行排序
- 存储学生成绩,value使学生的id,score是学生的成绩,这样可以对学生的成绩排名
2、zset(有序集合)相关指令
1、zadd -> 向集合中添加元素,集合不存在则新建,key代表zset集合名称,score代表元素的权重,member代表元素
zadd key [nx|xx] [ch] [incr] score member [score member …]
127.0.0.1:6379> zadd name 10 zhangsan (integer) 1 127.0.0.1:6379> zadd name 10.1 lisi (integer) 1 127.0.0.1:6379> zadd name 9.9 wangwu (integer) 1
2、zrange -> 按照score权重从小到大排序输出集合中的元素,权重相同则按照value的字典顺序排序([lexicographical order])
超出范围的下标并不会引起错误。 比如说,当 start 的值比有序集的最大下标还要大,或是 start > stop 时, zrange 命令只是简单地返回一个空列表。 另一方面,假如 stop 参数的值比有序集的最大下标还要大,那么 redis 将 stop 当作最大下标来处理。
可以通过使用 withscores 选项,来让成员和它的 score 值一并返回,返回列表以 value1,score1, …, valuen,scoren 的格式表示。 客户端库可能会返回一些更复杂的数据类型,比如数组、元组等。
zrange key start stop [withscores]
127.0.0.1:6379> zrange name 0 -1 # 获取所有元素,按照score的升序输出 1) "wangwu" 2) "zhangsan" 3) "lisi" 127.0.0.1:6379> zrange name 0 1 # 获取第一个和第二个slot的元素 1) "wangwu" 2) "zhangsan" 127.0.0.1:6379> zadd name 10 tianqi # 在上面的基础上添加score为10的元素 (integer) 1 127.0.0.1:6379> zrange name 0 2 # key相等则按照value字典排序输出 1) "wangwu" 2) "tianqi" 3) "zhangsan" 127.0.0.1:6379> zrange name 0 -1 withscores # withscores 输出权重 1) "wangwu" 2) "9.9000000000000004" 3) "tianqi" 4) "10" 5) "zhangsan" 6) "10" 7) "lisi" 8) "10.1"
3、zrevrange -> 按照score权重从大到小输出集合中的元素,权重相同则按照value的字典逆序排序
其中成员的位置按 score 值递减(从大到小)来排列。 具有相同 score 值的成员按字典序的逆序(reverse lexicographical order)排列。 除了成员按 score 值递减的次序排列这一点外, zrevrange 命令的其他方面和 zrange key start stop [withscores] 命令一样
zrevrange key start stop [withscores]
127.0.0.1:6379> zrevrange name 0 -1 withscores 1) "lisi" 2) "10.1" 3) "zhangsan" 4) "10" 5) "tianqi" 6) "10" 7) "wangwu" 8) "9.9000000000000004"
4、zcard -> 当 key 存在且是有序集类型时,返回有序集的基数。 当 key 不存在时,返回 0
zcard key
127.0.0.1:6379> zcard name (integer) 4
5、zscore -> 返回有序集 key 中,成员 member 的 score 值,如果 member 元素不是有序集 key 的成员,或 key 不存在,返回 nil
zscore key member z
127.0.0.1:6379> zscore name zhangsan "10" 127.0.0.1:6379> zscore name liziba (nil)
6、zrank -> 返回有序集 key 中成员 member 的排名。其中有序集成员按 score 值递增(从小到大)顺序排列。
排名以 0 为底,也就是说,score 值最小的成员排名为 0
zrank key member
127.0.0.1:6379> zrange name 0 -1 1) "wangwu" 2) "tianqi" 3) "zhangsan" 4) "lisi" 127.0.0.1:6379> zrank name wangwu (integer) 0
7、zrangebyscore -> 返回有序集 key 中,所有 score 值介于 min 和 max 之间(包括等于 min 或 max )的成员。有序集成员按 score 值递增(从小到大)次序排列。
min 和 max 可以是 -inf 和 +inf ,这样一来,你就可以在不知道有序集的最低和最高 score 值的情况下,使用 [zrangebyscore]这类命令。
默认情况下,区间的取值使用闭区间,你也可以通过给参数前增加 ( 符号来使用可选的[开区间]小于或大于)
zrangebyscore key min max [withscores] [limit offset count]
127.0.0.1:6379> zrange name 0 -1 withscores # 输出全部元素 1) "wangwu" 2) "9.9000000000000004" 3) "tianqi" 4) "10" 5) "zhangsan" 6) "10" 7) "lisi" 8) "10.1" 127.0.0.1:6379> zrangebyscore name 9 10 1) "wangwu" 2) "tianqi" 3) "zhangsan" 127.0.0.1:6379> zrangebyscore name 9 10 withscores # 输出分数 1) "wangwu" 2) "9.9000000000000004" 3) "tianqi" 4) "10" 5) "zhangsan" 6) "10" 127.0.0.1:6379> zrangebyscore name -inf 10 # -inf 从负无穷开始 1) "wangwu" 2) "tianqi" 3) "zhangsan" 127.0.0.1:6379> zrangebyscore name -inf +inf # +inf 直到正无穷 1) "wangwu" 2) "tianqi" 3) "zhangsan" 4) "lisi" 127.0.0.1:6379> zrangebyscore name (10 11 # 10 < score <=11 1) "lisi" 127.0.0.1:6379> zrangebyscore name (10 (10.1 # 10 < socre < -11 (empty list or set) 127.0.0.1:6379> zrangebyscore name (10 (11 1) "lisi"
8、zrem -> 移除有序集 key 中的一个或多个成员,不存在的成员将被忽略
zrem key member [member …]
127.0.0.1:6379> zrange name 0 -1 1) "wangwu" 2) "tianqi" 3) "zhangsan" 4) "lisi" 127.0.0.1:6379> zrem name zhangsan # 移除元素 (integer) 1 127.0.0.1:6379> zrange name 0 -1 1) "wangwu" 2) "tianqi" 3) "lisi"
七、skip list
1、简介
跳表全称叫做跳跃表,简称跳表。跳表是一个随机化的数据结构,实质就是一种可以进行二分查找的有序链表。跳表在原有的有序链表上面增加了多级索引,通过索引来实现快速查找。跳表不仅能提高搜索性能,同时也可以提高插入和删除操作的性能。
skip list(跳跃列表)这种随机的数据结构,可以看做是一个二叉树的变种,它在性能上与红黑树、avl树很相近;但是skip list(跳跃列表)的实现相比前两者要简单很多,目前redis的zset实现采用了skip list(跳跃列表)(其它还有leveldb等也使用了跳跃列表)。
rbt红黑树与skip list(跳跃列表)简单对比:
rbt红黑树
- 插入、查询时间复杂度o(logn)
- 数据天然有序
- 实现复杂,设计变色、左旋右旋平衡等操作
- 需要加锁
skip list跳跃列表
- 插入、查询时间复杂度o(logn)
- 数据天然有序
- 实现简单,链表结构
- 无需加锁
2、skip list算法分析
2.1 skip list论文
这里贴出skip list的论文,需要详细研究的请看论文,下文部分公式、代码、图片出自该论文。
skip lists: a probabilistic alternative to balanced trees
https://www.cl.cam.ac.uk/teaching/2005/algorithms/skiplists.pdf
2.2 skip list动态图
先通过一张动图来了解skip list的插入节点元素的流程,此图来自维基百科。
2.3 skip list算法性能分析
2.3.1 计算随机层数算法
首先分析的是执行插入操作时计算随机数的过程,这个过程会涉及层数的计算,所以十分重要。对于节点他有如下特性:
- 节点都有第一层的指针
- 节点有第i层指针,那么第i+1层出现的概率为p
- 节点有最大层数限制,maxlevel
计算随机层数的伪代码:
论文中的示例
java版本
public int randomlevel(){ int level = 1; // random()返回一个[0...1)的随机数 while (random() < p && level < maxlevel){ level += 1; } return level; }
代码中包含两个变量p和maxlevel,在redis中这两个参数的值分别是:
1p = 1/4 2maxlevel = 64
2.3.2 节点包含的平均指针数目
skip list属于空间换时间的数据结构,这里的空间指的就是每个节点包含的指针数目,这一部分是额外的内内存开销,可以用来度量空间复杂度。random()是个随机数,因此产生越高的节点层数,概率越低(redis标准源码中的晋升率数据1/4,相对来说skip list的结构是比较扁平的,层高相对较低)。其定量分析如下:
- level = 1 概率为1-p
- level >=2 概率为p
- level = 2 概率为p(1-p)
- level >= 3 概率为p^2
- level = 3 概率为p^2(1-p)
- level >=4 概率为p^3
- level = 4 概率为p^3(1-p)
- ……
得出节点的平均层数(节点包含的平均指针数目):
所以redis中p=1/4计算的平均指针数目为1.33
2.3.3 时间复杂度计算
以下推算来自论文内容
假设p=1/2,在以p=1/2生成的16个元素的跳过列表中,我们可能碰巧具有9个元素,1级3个元素,3个元素3级元素和1个元素14级(这不太可能,但可能会发生)。我们该怎么处理这种情况?如果我们使用标准算法并在第14级开始我们的搜索,我们将会做很多无用的工作。那么我们应该从哪里开始搜索?此时我们假设skiplist中有n个元素,第l层级元素个数的期望是1/p个;每个元素出现在l层的概率是p^(l-1), 那么第l层级元素个数的期望是 n * (p^l-1);得到1 / p =n * (p^l-1)
1 / p = n * (p^l-1) n = (1/p)^l l = log(1/p)^n
所以我们应该选择maxlevel = log(1/p)^n
定义:maxlevel = l(n) = log(1/p)^n
推算skip list的时间复杂度,可以用逆向思维,从层数为i的节点x出发,返回起点的方式来回溯时间复杂度,节点x点存在两种情况:
- 节点x存在(i+1)层指针,那么向上爬一级,概率为p,对应下图situation c.
- 节点x不存在(i+1)层指针,那么向左爬一级,概率为1-p,对应下图situation b.
设c(k) = 在无限列表中向上攀升k个level的搜索路径的预期成本(即长度)那么推演如下:
c(0)=0 c(k)=(1-p)×(情况b的查找长度) + p×(情况c的查找长度) c(k)=(1-p)(c(k)+1) + p(c(k-1)+1) c(k)=1/p+c(k-1) c(k)=k/p
上面推演的结果可知,爬升k个level的预期长度为k/p,爬升一个level的长度为1/p。
由于maxlevel = l(n), c(k) = k / p,因此期望值为:(l(n) – 1) / p;将l(n) = log(1/p)^n 代入可得:(log(1/p)^n – 1) / p;将p = 1 / 2 代入可得:2 * log2^n – 2,即o(logn)的时间复杂度。
3、skip list特性及其实现
2.1 skip list特性
skip list跳跃列表通常具有如下这些特性
skip list包含多个层,每层称为一个level,level从0开始递增skip list 0层,也就是最底层,应该包含所有的元素每一个level/层都是一个有序的列表level小的层包含level大的层的元素,也就是说元素a在x层出现,那么 想x>z>=0的level/层都应该包含元素a每个节点元素由节点key、节点value和指向当前节点所在level的指针数组组成
2.2 skip list查询
假设初始skip list跳跃列表中已经存在这些元素,他们分布的结构如下所示:
此时查询节点88,它的查询路线如下所示:
从skip list跳跃列表最顶层level3开始,往后查询到10 < 88 && 后续节点值为null && 存在下层level2level2 10往后遍历,27 < 88 && 后续节点值为null && 存在下层level1level1 27往后遍历,88 = 88,查询命中
2.3 skip list插入
skip list的初始结构与2.3中的初始结构一致,此时假设插入的新节点元素值为90,插入路线如下所示:
查询插入位置,与skip list查询方式一致,这里需要查询的是第一个比90大的节点位置,插入在这个节点的前面, 88 < 90 < 100构造一个新的节点node(90),为插入的节点node(90)计算一个随机level,这里假设计算的是1,这个level时随机计算的,可能时1、2、3、4…均有可能,level越大的可能越小,主要看随机因子x ,层数的概率大致计算为 (1/x)^level ,如果level大于当前的最大level3,需要新增head和tail节点节点构造完毕后,需要将其插入列表中,插入十分简单步骤 -> node(88).next = node(90); node(90).prev = node(80); node(90).next = node(100); node(100).prev = node(90);
2.4 skip list删除
删除的流程就是查询到节点,然后删除,重新将删除节点左右两边的节点以链表的形式组合起来即可,这里不再画图
4、手写实现一个简单skip list
实现一个skip list比较简单,主要分为两个步骤:
- 定义skip list的节点node,节点之间以链表的形式存储,因此节点持有相邻节点的指针,其中prev与next是同一level的前后节点的指针,down与up是同一节点的多个level的上下节点的指针
- 定义skip list的实现类,包含节点的插入、删除、查询,其中查询操作分为升序查询和降序查询(往后和往前查询),这里实现的skip list默认节点之间的元素是升序链表
3.1 定义node节点
node节点类主要包括如下重要属性:
- score -> 节点的权重,这个与redis中的score相同,用来节点元素的排序作用
- value -> 节点存储的真实数据,只能存储string类型的数据
- prev -> 当前节点的前驱节点,同一level
- next -> 当前节点的后继节点,同一level
- down -> 当前节点的下层节点,同一节点的不同level
- up -> 当前节点的上层节点,同一节点的不同level
package com.liziba.skiplist; /** * <p> * 跳表节点元素 * </p> * * @author: liziba * @date: 2021/7/5 21:01 */ public class node { /** 节点的分数值,根据分数值来排序 */ public double score; /** 节点存储的真实数据 */ public string value; /** 当前节点的 前、后、下、上节点的引用 */ public node prev, next, down, up; public node(double score) { this.score = score; prev = next = down = up = null; } public node(double score, string value) { this.score = score; this.value = value; } }
3.2 skiplist节点元素的操作类
skiplist主要包括如下重要属性:
- head -> skiplist中的头节点的最上层头节点(level最大的层的头节点),这个节点不存储元素,是为了构建列表和查询时做查询起始位置的,具体的结构请看2.3中的结构
- tail -> skiplist中的尾节点的最上层尾节点(level最大的层的尾节点),这个节点也不存储元素,是查询某一个level的终止标志
- level -> 总层数
- size -> skip list中节点元素的个数
- random -> 用于随机计算节点level,如果 random.nextdouble() < 1/2则需要增加当前节点的level,如果当前节点增加的level超过了总的level则需要增加head和tail(总level)
package com.liziba.skiplist; import java.util.random; /** * <p> * 跳表实现 * </p> * * @author: liziba */ public class skiplist { /** 最上层头节点 */ public node head; /** 最上层尾节点 */ public node tail; /** 总层数 */ public int level; /** 元素个数 */ public int size; public random random; public skiplist() { level = size = 0; head = new node(null); tail = new node(null); head.next = tail; tail.prev = head; } /** * 查询插入节点的前驱节点位置 * * @param score * @return */ public node fidepervnode(double score) { node p = head; for(;;) { // 当前层(level)往后遍历,比较score,如果小于当前值,则往后遍历 while (p.next.value == null && p.prev.score <= score) p = p.next; // 遍历最右节点的下一层(level) if (p.down != null) p = p.down; else break; } return p; } /** * 插入节点,插入位置为fidepervnode(double score)前面 * * @param score * @param value */ public void insert(double score, string value) { // 当前节点的前置节点 node prenode = fidepervnode(score); // 当前新插入的节点 node curnode = new node(score, value); // 分数和值均相等则直接返回 if (curnode.value != null && prenode.value != null && prenode.value.equals(curnode.value) && curnode.score.equals(prenode.score)) { return; } prenode.next = curnode; prenode.next.prev = curnode; curnode.next = prenode.next; curnode.prev = prenode; int curlevel = 0; while (random.nextdouble() < 1/2) { // 插入节点层数(level)大于等于层数(level),则新增一层(level) if (curlevel >= level) { node newhead = new node(null); node newtail = new node(null); newhead.next = newtail; newhead.down = head; newtail.prev = newhead; newtail.down = tail; head.up = newhead; tail.up = newtail; // 头尾节点指针修改为新的,确保head、tail指针一直是最上层的头尾节点 head = newhead; tail = newtail; ++level; } while (prenode.up == null) prenode = prenode.prev; prenode = prenode.up; node copy = new node(null); copy.prev = prenode; copy.next = prenode.next; prenode.next.prev = copy; prenode.next = copy; copy.down = curnode; curnode.up = copy; curnode = copy; ++curlevel; } ++size; } /** * 查询指定score的节点元素 * @param score * @return */ public node search(double score) { node p = head; for (;;) { while (p.next.score != null && p.next.score <= score) p = p.next; if (p.down != null) p = p.down; else // 遍历到最底层 if (p.score.equals(score)) return p; return null; } } /** * 升序输出skip list中的元素 (默认升序存储,因此从列表head往tail遍历) */ public void dumpallasc() { node p = head; while (p.down != null) { p = p.down; } while (p.next.score != null) { system.out.println(p.next.score + "-->" + p.next.value); p = p.next; } } /** * 降序输出skip list中的元素 */ public void dumpalldesc() { node p = tail; while (p.down != null) { p = p.down; } while (p.prev.score != null) { system.out.println(p.prev.score + "-->" + p.prev.value); p = p.prev; } } /** * 删除skip list中的节点元素 * @param score */ public void delete(double score) { node p = search(score); while (p != null) { p.prev.next = p.next; p.next.prev = p.prev; p = p.up; } } }
到此这篇关于多维度深入分析redis的5种基本数据结构的文章就介绍到这了。希望对大家的学习有所帮助,也希望大家多多支持www.887551.com。