简单介绍SQL Server中的自旋锁

为什么我们需要自旋锁?
用闩锁同步多个线程间数据结构访问,在每个共享数据结构前都放置一个闩锁没有意义的。闩锁与此紧密关联:当你不能获得闩锁(因为其他人已经有一个不兼容的闩锁拿到),查询就会强制等待,并进入挂起(suspended)状态。查询在挂起状态等待直到可以拿到闩锁,然后就会进入可执行(runnable)状态。对于查询执行只要没有可用的cpu,查询就一直在可执行(runnable)状态。一旦cpu有空闲,查询会进入运行(running)状态,最后成功获取到闩锁,用它来保护访问的共享数据结构。下图展示了sqlos对协调线程调度实现的状态机。

因为太多关联的闩锁,对“忙碌”数据结构使用闩锁保护没有意义。因此sql server实现所谓自旋锁(spinlocks)。自旋锁就像一个闩锁,存储引擎使用的一个轻量级同步对象,用来同步对共享数据结构线程访问。和闩锁的主要区别是你积极等待自旋锁——不离开cpu。在自旋锁上的“等待”总会发生在运行(running)状态的cpu。在你闭合循环里旋转直到获得自旋锁。这就是所谓的忙碌等待(busy wait)。自旋锁的最大优点是当查询在自旋锁上等待时,不会涉及到上下文切换。另一方面忙碌等待浪费cpu周期,其他查询也许能对它们更有效的使用。

为了避免太多的cpu周期浪费,sql server 2008 r2及后续版本实现所谓的指数补偿机制(exponential backoff mechanism),那里在cpu上一些时间的休眠后,线程停止旋转。在线程进入休眠期间,增加了尝试获得自旋锁的超时。这个行为可以降低对cpu性能的影响。

(补充说明:spinlock中文可以称为自旋锁。它是一个轻量级的,用户态的同步对象,和critical section类似,但是粒度比前者小多了。它主要用来保护某些特定的内存对象的多线程并发访问。spinlock是排他性的。一次只能一个线程拥有。

spinlock的设计目标是非常快和高效率。spinlock内部如何工作呢?它首先试图获得某个对象的锁,如果目标被其它线程占有,就在那里轮询(spin)一定时间。如果还得不到锁,就sleep一小会,然后继续spin。反复这个过程直到得到对象的占有权。)

自旋锁与故障排除
对自旋锁故障排除的主要dmv是 sys.dm_os_spinlock_stats。这个dmv里返回的每一行都代表sql server里的一个自旋锁。sql server 2014实现了262个不同自旋锁。我们来详细看下这个dmv里的各个列:

name:自旋锁名称
collision:当尝试访问保护的数据结构时,被自旋锁阻塞的线程次数
spins:在循环里尝试获得自旋锁的自旋锁线程次数
spins_per_collision:旋转和碰撞之间的比率
sleep_time:因为退避线程休眠时间
backoffs:为了其他线程在cpu上继续,线程退避次数
在这个dmv里最重要的列是backoffs,对于特定的自旋锁类型,这列告诉你退避发生频率。高频率的退避会屈服于cpu消耗引起sql server里的自旋锁竞争(spinlock contention)。我就见过一个32核的sql server服务器,cpu运行在100%而不进行任何工作——典型的自旋锁竞争症状。

对自旋锁问题进行故障排除你可以使用扩展事件提供的sqlos.spinlock_backoff。当退避(backoff)发生时,就会触发这个扩展事件。如果你捕获了这个事件,你还要保证你使用非常好的选择性谓语,因为在sql server里退避会经常发生。一个好的谓语可以是特定的自旋锁类型,通过刚才提到的dmv你已经看到。下列代码给你展示了如何创建这样的扩展事件会话。

 -- retrieve the type value for the lock_hash spinlock.
 -- that value is used by the next xevent session
 select * from sys.dm_xe_map_values
 where name = 'spinlock_types'
 and map_value = 'lock_hash'
 go
 
 -- tracks the spinlock_backoff event
 create event session spinlockcontention on server 
 add event sqlos.spinlock_backoff
(
 action
 (
  package0.callstack
 )
  where
 (
  [type] = 129 -- <<< value from the previous query
 )
) 
add target package0.histogram
 (
  set source = 'package0.callstack', source_type = 1
 )
 go

从代码里可以看到,这里我在调用堆栈(callstack)上使用了直方图(histogram)目标来bucktize。因此对于特定的自旋锁,你可以可能到sql serve里生成的最高退避(backoffs)代码路径。你甚至可以通过启用3656跟踪标记(trace flag)来标识调用堆栈。这里你可以看到来自这个扩展会话的输出:

sqldk.dll!xesospkg::spinlock_backoff::publish+0x138
sqldk.dll!spinlockbase::sleep+0xc5
sqlmin.dll!spinlock<129,7,1>::spintoacquirewithexponentialbackoff+0x169
sqlmin.dll!lck_lockinternal+0x841
sqlmin.dll!xactworkspaceimp::getshareddblockfromlockmanager+0x18d
sqlmin.dll!xactworkspaceimp::getdblocklocal+0x15b
sqlmin.dll!xactworkspaceimp::getdblock+0x5a
sqlmin.dll!lockdb+0x4a sqlmin.dll!dbmgr::opendb+0x1ec
sqlmin.dll!sqlusedb+0xeb
sqllang.dll!usedb+0xb3
sqllang.dll!loginusedbhelper::usebymddatabaseid+0x93
sqllang.dll!loginusedbhelper::fdeterminesessiondb+0x3e1
sqllang.dll!fredologinimpl+0xa1b
sqllang.dll!fredologin+0x1c1
sqllang.dll!process_request+0x3ec
sqllang.dll!process_commands+0x4a3
sqldk.dll!sos_task::param::execute+0x21e
sqldk.dll!sos_scheduler::runtask+0xa8
sqldk.dll!sos_scheduler::processtasks+0x279
sqldk.dll!schedulermanager::workerentrypoint+0x24c
sqldk.dll!systemthread::runworker+0x8f
sqldk.dll!systemthreaddispatcher::processworker+0x3ab
sqldk.dll!schedulermanager::threadentrypoint+0x226

使用提供调用堆栈,不难找出自旋锁竞争发生的地方。在那个指定的笤俑堆栈里竞争发生在lock_hash自旋锁类型里,它是保护锁管理器的哈希表。每次在锁管理器里加锁或解锁被执行时,自旋锁必须在对应的哈希桶里获得。如你所见,在调用堆栈里,当从xactworkspacelmp类调用getshareddblockfromlockmanager函数时,自旋锁被获得。这表示当竞争到数据库时,共享数据库锁被尝试获取。最后在用很高的退避(backoffs)的lock_hash自旋锁里,这屈服于自旋锁竞争。

以上就是本文的全部内容,希望对大家的学习有所帮助。

(0)
上一篇 2022年3月21日
下一篇 2022年3月21日

相关推荐