在sql server中count(*)或者count(1)或者count([列])或许是最常用的聚合函数。很多人其实对这三者之间是区分不清的。本文会阐述这三者的作用,关系以及背后的原理。
往常我经常会看到一些所谓的优化建议不使用count(* )而是使用count(1),从而可以提升性能,给出的理由是count( *)会带来全表扫描。而实际上如何写count并没有区别。
count(1)和count(*)实际上的意思是,评估count()中的表达式是否为null,如果为null则不计数,而非null则会计数。比如我们看代码1所示,在count中指定null(优化器不允许显式指定null,因此需要赋值给变量才能指定)。
复制代码 代码如下:
declare @xx int
set @xx=null
select count(@xx) from [adventureworks2012].[sales].[salesorderheader]
代码清单1.count中指定null
由于所有行都为null,则结果全不计数为0,结果如图1所示。
图1.显而易见,结果为0
因此当你指定count(*) 或者count(1)或者无论count(‘anything’)时结果都会一样,因为这些值都不为null,如图2所示。
图2.只要在count中指定非null表达式,结果没有任何区别
那count列呢?
对于count(列)来说,同样适用于上面规则,评估列中每一行的值是否为null,如果为null则不计数,不为null则计数。因此count(列)会计算列或这列的组合不为空的计数。
那count(*)具体如何执行?
前面提到count( )有不为null的值时,在sql server中只需要找出具体表中不为null的行数即可,也就是所有行(如果一行值全为null则该行相当于不存在)。那么最简单的执行办法是找一列not null的列,如果该列有索引,则使用该索引,当然,为了性能,sql server会选择最窄的索引以减少io。
我们在adventureworks2012示例数据库的[person].[address]表上删除所有的非聚集索引,在modifydate这个数据类型为datetime的列上建立索引,我们看执行计划,如图3所示:
图3.使用了createdate的索引
我们继续在stateprovinceid列上建立索引,该列为int列,占4字节,相比之前8字节 datetime类型的列更短,因此sql server选择了stateprovinceid索引。如图4所示。
图4.选择了更短的stateprovinceid索引
因此,如果某个表上count(*)用的比较多时,考虑在一个最短的列建立一个单列索引,会极大的提升性能。