CategoryResourceRepost/极客时间专栏/SQL必知必会/第一章:SQL语法基础篇/08丨什么是SQL的聚集函数,如何利用它们汇总表的数据?.md
louzefeng d3828a7aee mod
2024-07-11 05:50:32 +00:00

186 lines
11 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<audio id="audio" title="08丨什么是SQL的聚集函数如何利用它们汇总表的数据" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/35/09/3537c5286d494ac21a3ba0a1cc12a509.mp3"></audio>
我们上节课讲到了SQL函数包括算术函数、字符串函数、日期函数和转换函数。实际上SQL函数还有一种叫做聚集函数它是对一组数据进行汇总的函数输入的是一组数据的集合输出的是单个值。通常我们可以利用聚集函数汇总表的数据如果稍微复杂一些我们还需要先对数据做筛选然后再进行聚集比如先按照某个条件进行分组对分组条件进行筛选然后得到筛选后的分组的汇总信息。
有关今天的内容,你重点需要掌握以下几个方面:
1. 聚集函数都有哪些能否在一条SELECT语句中使用多个聚集函数
1. 如何对数据进行分组,并进行聚集统计;
1. 如何使用HAVING过滤分组HAVING和WHERE的区别是什么。
## 聚集函数都有哪些
SQL中的聚集函数一共包括5个可以帮我们求某列的最大值、最小值和平均值等它们分别是
<img src="https://static001.geekbang.org/resource/image/d1/15/d101026459ffa96504ba3ebb85054415.png" alt="">
这些函数你可能已经接触过我们再来简单复习一遍。我们继续使用heros数据表对王者荣耀的英雄数据进行聚合。
如果我们想要查询最大生命值大于6000的英雄数量。
```
SQLSELECT COUNT(*) FROM heros WHERE hp_max &gt; 6000
```
运行结果为41。
如果想要查询最大生命值大于6000且有次要定位的英雄数量需要使用COUNT函数。
```
SQLSELECT COUNT(role_assist) FROM heros WHERE hp_max &gt; 6000
```
运行结果是 23。
需要说明的是有些英雄没有次要定位即role_assist为NULL这时`COUNT(role_assist)`会忽略值为NULL的数据行而COUNT(*)只是统计数据行数不管某个字段是否为NULL。
如果我们想要查询射手主要定位或者次要定位是射手的最大生命值的最大值是多少需要使用MAX函数。
```
SQLSELECT MAX(hp_max) FROM heros WHERE role_main = '射手' or role_assist = '射手'
```
运行结果为6014。
你能看到上面的例子里都是在一条SELECT语句中使用了一次聚集函数实际上我们也可以在一条SELECT语句中进行多项聚集函数的查询比如我们想知道射手主要定位或者次要定位是射手的英雄数、平均最大生命值、法力最大值的最大值、攻击最大值的最小值以及这些英雄总的防御最大值等汇总数据。
如果想要知道英雄的数量我们使用的是COUNT(*)函数求平均值、最大值、最小值以及总的防御最大值我们分别使用的是AVG、MAX、MIN和SUM函数。另外我们还需要对英雄的主要定位和次要定位进行筛选使用的是`WHERE role_main = '射手' or role_assist = '射手'`。
```
SQL: SELECT COUNT(*), AVG(hp_max), MAX(mp_max), MIN(attack_max), SUM(defense_max) FROM heros WHERE role_main = '射手' or role_assist = '射手'
```
运行结果:
<img src="https://static001.geekbang.org/resource/image/b9/9d/b9cbaa2af34e0b1eb74e76b60e7eaf9d.png" alt=""><br>
需要说明的是AVG、MAX、MIN等聚集函数会自动忽略值为NULL的数据行MAX和MIN函数也可以用于字符串类型数据的统计如果是英文字母则按照A—Z的顺序排列越往后数值越大。如果是汉字则按照全拼拼音进行排列。比如
```
SQLSELECT MIN(CONVERT(name USING gbk)), MAX(CONVERT(name USING gbk)) FROM heros
```
运行结果:
<img src="https://static001.geekbang.org/resource/image/e1/71/e1fa345ebcb78e686d3dd16cb075e871.png" alt=""><br>
需要说明的是我们需要先把name字段统一转化为gbk类型使用`CONVERT(name USING gbk)`然后再使用MIN和MAX取最小值和最大值。
我们也可以对数据行中不同的取值进行聚集先用DISTINCT函数取不同的数据然后再使用聚集函数。比如我们想要查询不同的生命最大值的英雄数量是多少。
```
SQL: SELECT COUNT(DISTINCT hp_max) FROM heros
```
运行结果为61。
实际上在heros这个数据表中一共有69个英雄数量生命最大值不一样的英雄数量是61个。
假如我们想要统计不同生命最大值英雄的平均生命最大值,保留小数点后两位。首先需要取不同生命最大值,即`DISTINCT hp_max`,然后针对它们取平均值,即`AVG(DISTINCT hp_max)`,最后再针对这个值保留小数点两位,也就是`ROUND(AVG(DISTINCT hp_max), 2)`。
```
SQL: SELECT ROUND(AVG(DISTINCT hp_max), 2) FROM heros
```
运行结果为6653.84。
你能看到如果我们不使用DISTINCT函数就是对全部数据进行聚集统计。如果使用了DISTINCT函数就可以对数值不同的数据进行聚集。一般我们使用MAX和MIN函数统计数据行的时候不需要再额外使用DISTINCT因为使用DISTINCT和全部数据行进行最大值、最小值的统计结果是相等的。
## 如何对数据进行分组,并进行聚集统计
我们在做统计的时候可能需要先对数据按照不同的数值进行分组然后对这些分好的组进行聚集统计。对数据进行分组需要使用GROUP BY子句。
比如我们想按照英雄的主要定位进行分组,并统计每组的英雄数量。
```
SQL: SELECT COUNT(*), role_main FROM heros GROUP BY role_main
```
运行结果6条记录
<img src="https://static001.geekbang.org/resource/image/6b/9c/6ba58294f85edbb37499d3f28f60719c.png" alt="">
如果我们想要对英雄按照次要定位进行分组,并统计每组英雄的数量。
```
SELECT COUNT(*), role_assist FROM heros GROUP BY role_assist
```
运行结果6条记录
<img src="https://static001.geekbang.org/resource/image/08/c0/0802ba993844e2875bd6cbbc3d4fa5c0.png" alt="">
你能看出如果字段为NULL也会被列为一个分组。在这个查询统计中次要定位为NULL即只有一个主要定位的英雄是40个。
我们也可以使用多个字段进行分组,这就相当于把这些字段可能出现的所有的取值情况都进行分组。比如,我们想要按照英雄的主要定位、次要定位进行分组,查看这些英雄的数量,并按照这些分组的英雄数量从高到低进行排序。
```
SELECT COUNT(*) as num, role_main, role_assist FROM heros GROUP BY role_main, role_assist ORDER BY num DESC
```
运行结果19条记录
<img src="https://static001.geekbang.org/resource/image/35/8f/3504fa2cf288a50eb39028d1768d5c8f.png" alt="">
## 如何使用HAVING过滤分组它与WHERE的区别是什么
当我们创建出很多分组的时候有时候就需要对分组进行过滤。你可能首先会想到WHERE子句实际上过滤分组我们使用的是HAVING。HAVING的作用和WHERE一样都是起到过滤的作用只不过WHERE是用于数据行而HAVING则作用于分组。
比如我们想要按照英雄的主要定位、次要定位进行分组并且筛选分组中英雄数量大于5的组最后按照分组中的英雄数量从高到低进行排序。
首先我们需要获取的是英雄的数量、主要定位和次要定位,即`SELECT COUNT(*) as num, role_main, role_assist`。然后按照英雄的主要定位和次要定位进行分组,即`GROUP BY role_main, role_assist`同时我们要对分组中的英雄数量进行筛选选择大于5的分组即`HAVING num &gt; 5`,然后按照英雄数量从高到低进行排序,即`ORDER BY num DESC`。
```
SQL: SELECT COUNT(*) as num, role_main, role_assist FROM heros GROUP BY role_main, role_assist HAVING num &gt; 5 ORDER BY num DESC
```
运行结果4条记录
<img src="https://static001.geekbang.org/resource/image/ca/61/ca9747ad58e8cf637fe352fb0cfd5761.png" alt=""><br>
你能看到还是上面这个分组只不过我们按照数量进行了过滤筛选了数量大于5的分组进行输出。如果把HAVING替换成了WHERESQL则会报错。对于分组的筛选我们一定要用HAVING而不是WHERE。另外你需要知道的是HAVING支持所有WHERE的操作因此所有需要WHERE子句实现的功能你都可以使用HAVING对分组进行筛选。
我们再来看个例子通过这个例子查看一下WHERE和HAVING进行条件过滤的区别。筛选最大生命值大于6000的英雄按照主要定位、次要定位进行分组并且显示分组中英雄数量大于5的分组按照数量从高到低进行排序。
```
SQL: SELECT COUNT(*) as num, role_main, role_assist FROM heros WHERE hp_max &gt; 6000 GROUP BY role_main, role_assist HAVING num &gt; 5 ORDER BY num DESC
```
运行结果2条记录
<img src="https://static001.geekbang.org/resource/image/7b/3a/7b62b2a12ec9e66675b3da8b5b54093a.png" alt="">
你能看到还是针对上一个例子的查询只是我们先增加了一个过滤条件即筛选最大生命值大于6000的英雄。这里我们就需要先使用WHERE子句对最大生命值大于6000的英雄进行条件过滤然后再使用GROUP BY进行分组使用HAVING进行分组的条件判断然后使用ORDER BY进行排序。
## 总结
今天我对SQL的聚集函数进行了讲解。通常我们还会对数据先进行分组然后再使用聚集函数统计不同组的数据概况比如数据行数、平均值、最大值、最小值以及求和等。我们也可以使用HAVING对分组进行过滤然后通过ORDER BY按照某个字段的顺序进行排序输出。有时候你能看到在一条SELECT语句中可能会包括多个子句用WHERE进行数据量的过滤用GROUP BY进行分组用HAVING进行分组过滤用ORDER BY进行排序……
**你要记住在SELECT查询中关键字的顺序是不能颠倒的它们的顺序是**
```
SELECT ... FROM ... WHERE ... GROUP BY ... HAVING ... ORDER BY ...
```
另外需要注意的是使用GROUP BY进行分组如果想让输出的结果有序可以在GROUP BY后使用ORDER BY。因为GROUP BY只起到了分组的作用排序还是需要通过ORDER BY来完成。
<img src="https://static001.geekbang.org/resource/image/3a/de/3aa2b0626f5cfc64b4a7175de938d1de.png" alt=""><br>
我今天对SQL的聚集函数以及SQL查询中的关键字顺序进行了讲解但你还是需要通过训练加深理解基于heros数据表请你写出下面2个SQL查询语句
1. 筛选最大生命值大于6000的英雄按照主要定位进行分组选择分组英雄数量大于5的分组按照分组英雄数从高到低进行排序并显示每个分组的英雄数量、主要定位和平均最大生命值。
1. 筛选最大生命值与最大法力值之和大于7000的英雄按照攻击范围来进行分组显示分组的英雄数量以及分组英雄的最大生命值与法力值之和的平均值、最大值和最小值并按照分组英雄数从高到低进行排序其中聚集函数的结果包括小数点后两位。
欢迎你在评论区与我分享你的答案,如果你觉得这篇文章有帮助,欢迎把它分享给你的朋友或者同事,一起切磋交流一下。