数据管理基础 Chapter 03

SQL概述

SQL(Structured Query Language)

结构化查询语言,是关系数据库的标准语言

SQL是一个通用的、功能极强的关系数据库语言

综合统一

高度非过程化

面向集合的操作方式

以同一种语法结构提供两种使用方法

语言简洁,易学易用

SQL特点

  1. 综合统一

    1. 集数据定义语言(DDL),数据操纵语言(DML),数据控制语言(DCL)功能于一体。

    2. 可以独立完成数据库生命周期中的全部活动:

      定义和修改、删除关系模式,定义和删除视图,插入数据,建立数据库;

      对数据库中的数据进行查询和更新;

      数据库重构和维护

      数据库安全性、完整性控制,以及事务控制

      嵌入式SQL和动态SQL定义

    3. 用户数据库投入运行后,可根据需要随时逐步修改模式,不影响数据库的运行。

    4. 数据操作符统一

  2. 高度非过程化

    1. 非关系数据模型的数据操纵语言“面向过程”,必须指定存取路径。
    2. SQL只要提出“做什么”,无须了解存取路径。
    3. 存取路径的选择以及SQL的操作过程由系统自动完成

    面向集合的操作方式

    1. 非关系数据模型采用面向记录的操作方式,操作对象是一条记录

    2. SQL采用集合操作方式

      操作对象、查找结果可以是元组的集合

      一次插入、删除、更新操作的对象可以是元组的集合

  3. 以同一种语法结构提供多种使用方式

    1. SQL是独立的语言,能够独立地用于联机交互的使用方式
    2. SQL又是嵌入式语言,能够嵌入到高级语言(例如C,C++,Java)程序中,供程序员设计程序时使用

    语言简洁,易学易用

    1. SQL功能极强,完成核心功能只用了9个动词:

      数据定义:CREATE,DROP,ALTER

      数据查询:SELECT

      数据操作:INSERT,UPDATE,DELETE

      数据控制:GRANT,REVOKE

SQL与关系数据库的三级模式

  1. 基本表
    1. 本身独立存在的表
    2. 一个关系对应一个基本表
    3. 一个(或多个)基本表对应一个存储文件
    4. 一个表可以带若干索引
  2. 存储文件
    1. 逻辑结构组成了关系数据库的内模式
    2. 物理结构对用户是隐蔽的
  3. 视图
    1. 从一个或几个基本表导出的表
    2. 数据库中只存放视图的定义而不存放视图对应的数据
    3. 视图是一个虚表
    4. 用户可以在视图上再定义视图

SQL数据定义

层次化的数据库对象命名机制

一个关系数据库管理系统的实例(Instance)中可以建立多个数据库

一个数据库中可以建立多个模式

一个模式下通常包括多个表、视图和索引等数据库对象

数据定义

SQL的数据定义功能:

  1. 模式定义
  2. 表定义
  3. 视图与索引的定义

定义模式

定义模式实际上定义了一个命名空间

在这个空间中可以定义该模式包含的数据库对象,例如基本表、视图、索引等。

在CREATE SCHEMA中可以接受CREATE TABLE,CREATE VIEW和GRANT子句。

CREATE SCHEMA <模式名> AUTHORIZATION <用户名> [<表定义子句>| <视图定义子句>|<授权定义子句>]

删除模式

DROP SCHEMA <模式名> <CASCADE|RESTRICT>

  1. CASCADE(级联)
    1. 删除模式的同时把该模式中所有的数据库对象全部删除
  2. RESTRICT(限制)
    1. 如果该模式中定义了下属的数据库对象(如表、视图等),则拒绝该删除语句的执行。
    2. 仅当该模式中没有任何下属的对象时才能执行。

例:DROP SCHEMA ZHANG CASCADE;

删除模式ZHANG

同时该模式中定义的表TAB1也被删除

定义基本表

CREATE TABLE <表名> (<列名> <数据类型>[ <列级完整性约束条件> ] [,<列名> <数据类型>[ <列级完整性约束条件>] ] … [,<表级完整性约束条件> ] )

  1. <表名>:所要定义的基本表的名字
  2. <列名>:组成该表的各个属性(列)
  3. <列级完整性约束条件>:涉及相应属性列的完整性约束条件
  4. <表级完整性约束条件>:涉及一个或多个属性列的完整性约束条件
  5. 如果完整性约束条件涉及到该表的多个属性列,则必须定义在表级上,否则既可以定义在列级也可以定义在表级。

例:

数据类型

  1. SQL中域的概念用数据类型来实现
  2. 定义表的属性时需要指明其数据类型及长度
  3. 选用哪种数据类型
    1. 取值范围
    2. 要做哪些运算

修改基本表

ALTER TABLE <表名>[ ADD[COLUMN] <新列名> <数据类型> [ 完整性约束 ] ]

[ ADD <表级完整性约束>]

[ DROP [ COLUMN ] <列名> [CASCADE| RESTRICT] ]

[ DROP CONSTRAINT<完整性约束名>[ RESTRICT | CASCADE ] ]

[ALTER COLUMN <列名><数据类型> ]

  1. <表名>是要修改的基本表
  2. ADD子句用于增加新列、新的列级完整性约束条件和新的表级完整性约束条件
  3. DROP COLUMN子句用于删除表中的列
    1. 如果指定了CASCADE短语,则自动删除引用了该列的其他对象
    2. 如果指定了RESTRICT短语,则如果该列被其他对象引用,关系数据库管理系统将拒绝删除该列
  4. DROP CONSTRAINT子句用于删除指定的完整性约束条件
  5. ALTER COLUMN子句用于修改原有的列定义,包括修改列名和数据类型

删除基本表

1
DROP TABLE <表名>[RESTRICT| CASCADE]
  1. RESTRICT:删除表是有限制的。
    1. 欲删除的基本表不能被其他表的约束所引用
    2. 如果存在依赖该表的对象,则此表不能被删除
  2. CASCADE:删除该表没有限制。
    1. 在删除基本表的同时,相关的依赖对象一起删除

索引

  1. 建立索引的目的:加快查询速度
    1. 由数据库管理员或表的拥有者建立
    2. 由关系数据库管理系统自动完成维护
    3. 关系数据库管理系统自动使用合适的索引作为存取路径,用户不必也不能显式地选择索引
  2. 关系数据库管理系统中常见索引
    1. 顺序文件上的索引
    2. B+树索引
    3. 散列(hash)索引
    4. 位图索引

建立索引

1
2
3
CREATE [UNIQUE] [CLUSTER] INDEX <索引名> 
ON <表名>(<列名>[<次序>][,<列名>[<次序>] ]…);

  1. <表名>:要建索引的基本表的名字
  2. 索引:可以建立在该表的一列或多列上,各列名之间用逗号分隔
  3. <次序>:指定索引值的排列次序,升序:ASC,降序:DESC。缺省值:ASC
  4. UNIQUE:此索引的每一个索引值只对应唯一的数据记录
  5. CLUSTER:表示要建立的索引是聚簇索引

修改/删除索引

1
ALTER INDEX <旧索引名> RENAME TO <新索引名>
1
DROP INDEX <索引名>;
  1. 删除索引时,系统会从数据字典中删去有关该索引的描述。

  2. [例] 删除Student表的Stusname索引

    DROP INDEX Stusname;

数据字典

数据字典是关系数据库管理系统内部的一组系统表,它记录了数据库中所有定义信息:

  1. 关系模式定义
  2. 视图定义
  3. 索引定义
  4. 完整性约束定义
  5. 各类用户对数据库的操作权限
  6. 统计信息等

关系数据库管理系统在执行SQL的数据定义语句时,实际上就是在更新数据字典表中的相应信息。

SQL数据查询

数据查询

1
2
3
4
5
SELECT [ALL|DISTINCT] <目标列表达式>[,<目标列表达式>] …
FROM <表名或视图名>[,<表名或视图名> ]…|(SELECT 语句)[AS]<别名>
[ WHERE <条件表达式> ]
[GROUP BY <列名1> [ HAVING <条件表达式> ] ]
[ORDER BY <列名2> [ ASC|DESC ] ];
  1. SELECT子句:指定要显示的属性列
  2. FROM子句:指定查询对象(基本表或视图)
  3. WHERE子句:指定查询条件
  4. GROUP BY子句:对查询结果按指定列的值分组,该属性列值相等的元组为一个组。通常会在每组中作用聚集函数。
  5. HAVING短语:只有满足指定条件的组才予以输出
  6. ORDER BY子句:对查询结果表按指定列值的升序或降序排序

选择表中的若干列

  1. 查询指定列

    [例] 查询全体学生的学号与姓名。

    SELECT Sno,Sname FROM Student;

  2. 查询全部列

    [例3] 查询全体学生的详细记录

    SELECT *FROM Student;

查询经过计算的值

SELECT子句的<目标列表达式>不仅可以为表中的属性列,也可以是表达式

[例3.19] 查全体学生的姓名及其出生年份。

1
2
SELECT Sname,2014-Sage          /*假设当时2014年*/
FROM Student;
Sname 2014-Sage
李勇 1994
刘晨 1995
王敏 1996
张立 1995

消除取值重复的行

指定DISTINCT关键词,去掉表中重复的行

  1. 如果没有指定DISTINCT关键词,则缺省为ALL

查询满足条件的元组

查询条件 谓词
比较 =, >, <, >=, <=, !=, <>, !>, !<; NOT+上述比较运算符
确定范围 BETWEEN AND, NOT BETWEEN AND
确定集合 IN, NOT IN
字符匹配 LIKE, NOT LIKE
空值 IS NULL, IS NOT NULL
多重条件(逻辑运算) AND, OR, NOT

比较大小

[例] 查询计算机科学系全体学生的名单。

1
SELECT Sname    FROM     Student    WHERE  Sdept=‘CS’; 

[例]查询所有年龄在20岁以下的学生姓名及其年龄。

1
SELECT Sname,Sage      FROM     Student         WHERE  Sage < 20;

确定范围

谓词: BETWEEN … AND …

​ NOT BETWEEN … AND …

[例] 查询年龄在20~23岁(包括20岁和23岁)之间的学生的姓名、系别和年龄

1
2
3
4
5
SELECT Sname, Sdept, Sage

FROM Student

WHERE Sage BETWEEN 20 AND 23;

确定集合

谓词:IN <值表>, NOT IN <值表>

[例]查询计算机科学系(CS)、数学系(MA)和信息系(IS)学生的姓名和性别。

1
2
3
4
5
SELECT Sname, Ssex	

FROM Student

WHERE Sdept IN ('CS','MA’,'IS' );

字符匹配

谓词: [NOT] LIKE ‘<匹配串>’ [ESCAPE ‘ <换码字符>’]

  1. <匹配串>可以是一个完整的字符串,也可以含有通配符%(任意长度(长度可以为0)的字符串)和 _(任意单个字符)

    1. 例如:a%b表示以a开头,以b结尾的任意长度的字符串
    2. 例如:a_b表示以a开头,以b结尾的长度为3的任意字符串
  2. 匹配串为固定字符串

    [例] 查询学号为201215121的学生的详细情况。

    1
    2
    3
    4
    5
    SELECT *         

    FROM Student

    WHERE Sno LIKE201215121';

    等价于:

    1
    2
    3
    4
    5
    SELECT  *       

    FROM Student

    WHERE Sno = '201215121';
  3. 匹配串为含通配符的字符串

    [例3.30] 查询所有姓刘学生的姓名、学号和性别。

    1
    2
    3
    4
    5
    SELECT Sname, Sno, Ssex      

    FROM Student

    WHERE Sname LIKE '刘%';
  4. 使用换码字符将通配符转义为普通字符

    ESCAPE ‘\’ 表示“ \” 为换码字符

涉及空值的查询

谓词: IS NULL 或 IS NOT NULL

  • “IS” 不能用 “=” 代替

[例3.36] 某些学生选修课程后没有参加考试,所以有选课记录,但没有考试成绩。查询缺少成绩的学生的学号和相应的课程号。

1
2
3
SELECT Sno,Cno      
FROM SC
WHERE Grade IS NULL

多重条件查询

逻辑运算符:AND和 OR来连接多个查询条件

  1. AND的优先级高于OR
  2. 可以用括号改变优先级

对查询结果排序

ORDER BY子句

  1. 可以按一个或多个属性列排序
  2. 升序:ASC;降序:DESC;缺省值为升序
  3. 对于空值,排序时显示的次序由具体系统实现来决定

[例]查询选修了3号课程的学生的学号及其成绩,查询结果按分数降序排列。

1
SELECT Sno, Grade        FROM    SC       WHERE  Cno= ' 3 '        ORDER BY Grade DESC;

聚集函数

聚集函数:

  1. 统计元组个数

    1
    COUNT(*)
  2. 统计一列中值的个数

    1
    COUNT([DISTINCT|ALL] <列名>)
  3. 计算一列值的总和(此列必须为数值型)

    1
    SUM([DISTINCT|ALL] <列名>)	
  4. 计算一列值的平均值(此列必须为数值型)

    1
    AVG([DISTINCT|ALL] <列名>)
  5. 求一列中的最大值和最小值

    1
    2
    3
    MAX([DISTINCT|ALL] <列名>)	

    MIN([DISTINCT|ALL] <列名>)

[例] 查询选修1号课程的学生最高分数。

1
SELECT MAX(Grade)   FROM SC   WHERE Cno='1';

对查询结果分组

GROUP BY子句分组:

  1. 细化聚集函数的作用对象
    1. 如果未对查询结果分组,聚集函数将作用于整个查询结果
    2. 对查询结果分组后,聚集函数将分别作用于每个组
    3. 按指定的一列或多列值分组,值相等的为一组
  2. HAVING短语与WHERE子句的区别:
    1. 作用对象不同
    2. WHERE子句作用于基表或视图,从中选择满足条件的元组
    3. HAVING短语作用于组,从中选择满足条件的组。

[例 ]查询平均成绩大于等于90分的学生学号和平均成绩

  • 因为WHERE子句中是不能用聚集函数作为条件表达式,下面的语句是不对的:
1
SELECT Sno, AVG(Grade)    FROM  SC    WHERE AVG(Grade)>=90    GROUP BY Sno;
  • 正确的查询语句应该是:

    1
    SELECT  Sno, AVG(Grade)    FROM  SC    GROUP BY Sno    HAVING AVG(Grade)>=90;

SQL数据查询(连接)

连接查询

  • 连接查询:同时涉及两个以上的表的查询

  • 连接条件或连接谓词:用来连接两个表的条件

  • 一般格式:

    1
    2
    [<表名1>.]<列名1>  <比较运算符>  [<表名2>.]<列名2>
    [<表名1>.]<列名1> BETWEEN [<表名2>.]<列名2> AND [<表名2>.]<列名3>
  • 连接字段:连接谓词中的列名称

    连接条件中的各连接字段类型必须是可比的,但名字不必相同

等值连接/自然连接查询

  • 等值连接:连接运算符为=

    [例] 查询每个学生及其选修课程的情况

    1
    SELECT  Student.*, SC.*FROM     Student, SCWHERE  Student.Sno = SC.Sno;
  • [例] 对上例用自然连接完成。

    1
    2
    3
    SELECT Student.Sno,Sname,Ssex,Sage,Sdept,Cno,Grade 
    FROM Student,SC
    WHERE Student.Sno = SC.Sno;

连续操作的执行过程

  • 嵌套循环法(NESTED-LOOP)
    1. 首先在表1中找到第一个元组,然后从头开始扫描表2,逐一查找满足连接件的元组,找到后就将表1中的第一个元组与该元组拼接起来,形成结果表中一个元组
    2. 表2全部查找完后,再找表1中第二个元组,然后再从头开始扫描表2,逐一查找满足连接条件的元组,找到后就将表1中的第二个元组与该元组拼接起来,形成结果表中一个元组。
    3. 重复上述操作,直到表1中的全部元组都处理完毕
  • 排序合并法(SORT-MERGE)
    1. 常用于=连接
    2. 首先按连接属性对表1和表2排序
    3. 对表1的第一个元组,从头开始扫描表2,顺序查找满足连接条件的元组,找到后就将表1中的第一个元组与该元组拼接起来,形成结果表中一个元组。当遇到表2中第一条大于表1连接字段值的元组时,对表2的查询不再继续
  • 索引连接(INDEX-JOIN)
    1. 对表2按连接字段建立索引
    2. 对表1中的每个元组,依次根据其连接字段值查询表2的索引,从中找到满足条件的元组,找到后就将表1中的第一个元组与该元组拼接起来,形成结果表中一个元组

同时进行选择和连接

一条SQL语句可以同时完成选择和连接查询,这时WHERE子句是由连接谓词和选择谓词组成的复合条件。

[例]查询选修2号课程且成绩在90分以上的所有学生的学号和姓名。

1
2
3
SELECT Student.Sno, Sname    
FROM Student, SC
WHERE Student.Sno=SC.Sno AND SC.Cno=' 2 ' AND SC.Grade>90;

执行过程:

  1. 先从SC中挑选出Cno='2’并且Grade>90的元组形成一个中间关系
  2. 再和Student中满足连接条件的元组进行连接得到最终的结果关系

自身连接

  • 自身连接:一个表与其自己进行连接
  • 需要给表起别名以示区别
  • 由于所有属性名都是同名属性,因此必须使用别名前缀

[例]查询每一门课的间接先修课(即先修课的先修课)

1
2
3
SELECT  FIRST.Cno, SECOND.Cpno    
FROM Course FIRST, Course SECOND
WHERE FIRST.Cpno = SECOND.Cno;

外连接

  • 外连接与普通连接的区别

    • 普通连接操作只输出满足连接条件的元组

    • 外连接操作以指定表为连接主体,将主体表中不满足连接条件的元组一并输出

      • 左外连接

        -列出左边关系中所有的元组

      • 右外连接

        -列出右边关系中所有的元组

多重连接

多表连接:两个以上的表进行连接

[例]查询每个学生的学号、姓名、选修的课程名及成绩

1
SELECT Student.Sno, Sname, Cname, Grade   FROM    Student, SC, Course    /*多表连接*/   WHERE Student.Sno = SC.Sno                   AND SC.Cno = Course.Cno;

SQL数据查询(嵌套)

嵌套查询概述

一个SELECT-FROM-WHERE语句称为一个查询块

将一个查询块嵌套在另一个查询块的WHERE子句或HAVING短语的条件中的查询称为嵌套查询

1
2
3
4
5
6
SELECT Sname	              /*外层查询/父查询*/
FROM Student
WHERE Sno IN
( SELECT Sno /*内层查询/子查询*/
FROM SC
WHERE Cno= ' 2 ');
  1. 上层的查询块称为外层查询或父查询
  2. 下层查询块称为内层查询或子查询
  3. SQL语言允许多层嵌套查询
    • 即一个子查询中还可以嵌套其他子查询
  4. 子查询的限制
    • 不能使用ORDER BY子句
  5. 有些嵌套查询可以用连接运算替代
    • 谨慎使用嵌套查询

嵌套查询求解方法

  1. 不相关子查询:子查询的查询条件不依赖于父查询
    • 由里向外 逐层处理。即每个子查询在上一级查询处理之前求解,子查询的结果用于建立其父查询的查找条件。
  2. 相关子查询:子查询的查询条件依赖于父查询
    • 首先取外层查询中表的第一个元组,根据它与内层查询相关的属性值处理内层查询,若WHERE子句返回值为真,则取此元组放入结果表
    • 然后再取外层表的下一个元组
    • 重复这一过程,直至外层表全部检查完为止

带有IN谓词的子查询

[例] 查询与“刘晨”在同一个系学习的学生

此查询要求可以分步来完成

  1. 确定“刘晨”所在系名

    1
    2
    SELECT  Sdept  FROM     Student                           
    WHERE Sname= ' 刘晨 ';

    结果为: CS

  2. 查找所有在CS系学习的学生。

    1
    2
    3
    SELECT   Sno, Sname, Sdept     
    FROM Student
    WHERE Sdept= ' CS ';
  3. 结果为

    Sno Sname Sdept
    201215121 李勇 CS
    201215122 刘晨 CS

将第一步查询嵌入到第二步查询的条件中

1
2
3
4
5
6
SELECT Sno, Sname, Sdept
FROM Student
WHERE Sdept IN
(SELECT Sdept
FROM Student
WHERE Sname= ' 刘晨 ');

此查询为不相关子查询

[例]查询选修了课程名为“信息系统”的学生学号和姓名

1
2
3
4
5
6
7
8
9
10
SELECT Sno,Sname                 ③ 最后在Student关系中
FROM Student 取出Sno和Sname
WHERE Sno IN
(SELECT Sno ② 然后在SC关系中找出选
FROM SC 修了3号课程的学生学号
WHERE Cno IN
(SELECT Cno ① 首先在Course关系中找出
FROM Course “信息系统”的课程号,为3
WHERE Cname= '信息系统')
);

带有比较运算符的子查询

  • 当能确切知道内层查询返回单值时,可用比较运算符(>,<,=,>=,<=,!=或< >)。

[例]找出每个学生超过他选修课程平均成绩的课程号。

1
2
3
4
5
SELECT Sno, Cno
FROM SC x
WHERE Grade >=(SELECT AVG(Grade)
FROM SC y
WHERE y.Sno=x.Sno);

带有ANY(SOME)或ALL谓词的子查询

03-01

03-02

03-03

ANY(或SOME),ALL谓词与聚集函数、IN谓词的等价转换关系

03-04

带有EXISTS谓词的子查询