4th Jul 2022 11 minutes de lecture

Qu'est-ce que la clause OVER() en SQL ?

fonctions de fenêtrage

Table des matières

La clause SQL OVER en action
La clause OVER et l'analyse Fonctions de fenêtrage
En savoir plus sur la clause SQL OVER

Les fonctions de fenêtre sont l'une des ressources les plus puissantes de SQL, mais elles ne sont pas fréquemment utilisées par le développeur SQL moyen. Dans cet article, nous allons expliquer comment vous pouvez définir différents types de fenêtres à l'aide de la clause OVER clause.

La clause OVER est essentielle aux fonctions de fenêtre SQL. Comme les fonctions d'agrégation, les fonctions de fenêtre effectuent des calculs sur la base d'un ensemble d'enregistrements - par exemple, trouver le salaire moyen d'un groupe d'employés.

Dans certains cas, les fonctions d'agrégation ne peuvent pas être utilisées car elles regroupent tous les enregistrements individuels en un seul groupe, ce qui rend impossible la référence à des valeurs spécifiques (comme le salaire d'un employé parmi le groupe). Dans ces situations, les fonctions de fenêtre sont préférables car elles ne réduisent pas les lignes ; vous pouvez vous référer à une valeur de colonne au niveau de la ligne ainsi qu'à la valeur agrégée.

Il existe d'autres scénarios dans lesquels les fonctions de fenêtre sont utiles. Par exemple, nous pouvons avoir besoin d'effectuer des calculs arithmétiques impliquant une colonne individuelle et un calcul basé sur un ensemble de lignes. Un exemple concret est le calcul de la différence entre le salaire moyen d'un département et le salaire de chaque employé de ce département.

Lorsque vous utilisez des fonctions de fenêtre, la définition du jeu d'enregistrements dans lequel la fonction sera calculée est essentielle. Cet ensemble d'enregistrements est appelé le cadre de la fenêtre ; nous le définissons à l'aide de la clause SQL OVER.

Tout au long de cet article, nous allons démontrer des requêtes SQL en utilisant la base de données d'une petite entreprise de montres de luxe. L'entreprise stocke ses informations de vente dans une table appelée sales:

sale_day	sale_month	sale_time	branch	article	quantity	revenue
2021-08-11	AUG	11:00	New York	Rolex P1	1	3000.00
2021-08-14	AUG	11:20	New York	Rolex P1	2	6000.00
2021-08-17	AUG	10:00	Paris	Omega 100	3	4000.00
2021-08-19	AUG	10:00	London	Omega 100	1	1300.00
2021-07-17	JUL	09:30	Paris	Cartier A1	1	2000.00
2021-07-11	JUL	10:10	New York	Cartier A1	1	2000.00
2021-07-10	JUL	11:40	London	Omega 100	2	2600.00
2021-07-15	JUL	10:30	London	Omega 100	3	4000.00

Le cadre de la fenêtre est un ensemble de lignes qui dépend de la ligne actuelle ; ainsi, l'ensemble de lignes peut changer pour chaque ligne traitée par la requête. Nous définissons les cadres de fenêtre à l'aide de la clause OVER. La syntaxe est la suivante :

  OVER ([PARTITION BY columns] [ORDER BY columns])

La sous-clause PARTITION BY définit les critères que les enregistrements doivent satisfaire pour faire partie du cadre de fenêtre. En d'autres termes, PARTITION BY définit les groupes dans lesquels les lignes sont divisées ; cela sera plus clair dans notre prochain exemple de requête. Enfin, la clause ORDER BY définit l'ordre des enregistrements dans le cadre de la fenêtre.

Voyons la clause SQL OVER en action. Voici une requête simple qui renvoie la quantité totale d'unités vendues pour chaque article.

SELECT sale_day, sale_time, 
       branch, article, quantity, revenue,
       SUM(quantity) OVER (PARTITION BY article) AS total_units_sold
FROM   sales

Cette requête affichera tous les enregistrements de la table sales avec une nouvelle colonne affichant le nombre total d'unités vendues pour l'article concerné. Nous pouvons obtenir la quantité d'unités vendues en utilisant la fonction d'agrégation SUM, mais nous ne pourrions alors pas afficher les enregistrements individuels.

Dans cette requête, la sous-clause article OVER PARTITION BY indique que le cadre de la fenêtre est déterminé par les valeurs de la colonne article; tous les enregistrements ayant la même valeur article seront dans un groupe. Ci-dessous, nous avons le résultat de cette requête :

sale day	sale time	branch	article	quantity	revenue	total units sold
2021-07-11	10:10	New York	Cartier A1	1	2000.00	2
2021-07-17	9:30	Paris	Cartier A1	1	2000.00	2
2021-08-19	10:00	London	Omega 100	1	1300.00	9
2021-07-15	10:30	London	Omega 100	3	4000.00	9
2021-08-17	10:00	Paris	Omega 100	3	4000.00	9
2021-07-10	11:40	London	Omega 100	2	2600.00	9
2021-08-11	11:00	New York	Rolex P1	1	3000.00	3
2021-08-14	11:20	New York	Rolex P1	2	6000.00	3

La colonne total_units_sold du rapport a été obtenue par l'expression :

SUM(quantity) OVER (PARTITION BY article) total_units_sold

Pour les lecteurs qui veulent approfondir le sujet, je suggère les deux articles suivants : Quelle est la différence entre GROUP BY et PARTITION BY et Fonctions de fenêtrage dans SQL Server : Première partie : la clause OVER()

La clause SQL OVER en action

Pour chaque article, supposons que nous voulions comparer la quantité totale de cet article vendu au cours de chaque mois de 2021 avec la quantité totale de cet article vendu au cours de l'année entière. Pour ce faire, nous allons créer un rapport simple avec les colonnes article, month, units_sold_month et units_sold_year. La requête est la suivante :

SELECT DISTINCT article,
       EXTRACT('month' FROM sale_day) AS month,
       SUM(quantity) OVER (PARTITION BY article, sale_month) AS units_sold_month,
       SUM(quantity) OVER (PARTITION BY article) AS units_sold_year
FROM  sales 
WHERE EXTRACT('YEAR' FROM sale_day) = 2021
ORDER BY article, month

Les résultats de la requête sont :

article	month	units_sold_month	units_sold_year
Cartier A1	7	2	2
Omega 100	7	5	9
Omega 100	8	4	9
Rolex P1	8	3	3

Ici, nous avons calculé le total des unités vendues en utilisant deux granularités de regroupement différentes : le mois et l'année. La première clause OVER...

OVER (PARTITION BY article, sale_month)

... nous permet d'obtenir le nombre d'unités de chaque article vendu au cours d'un mois. La deuxième clause OVER...

OVER (PARTITION BY article)

... nous permet de calculer le nombre total d'unités d'un article donné vendues sur l'année entière.

Dans la prochaine requête, nous ajouterons simplement la colonne month_percentage pour montrer le pourcentage qu'un mois spécifique occupe dans le total annuel. Nous pouvons le calculer en utilisant la requête suivante :

SELECT DISTINCT article,
       EXTRACT('month' FROM sale_day) as month,
       SUM(quantity) OVER (PARTITION BY article, sale_month) AS units_sold_month,
       SUM(quantity) OVER (PARTITION BY article) AS units_sold_year,
       ( ( SUM(quantity) OVER (PARTITION BY article, sale_month)::decimal /
           SUM(quantity) OVER (PARTITION BY article)::decimal ) * 100
       ) AS month_percentage
FROM sales 
WHERE extract('YEAR' FROM sale_day) = 2021
ORDER BY article, month

Notez que dans la requête précédente, nous n'avons pas utilisé différentes clauses OVER; nous avons simplement réutilisé les mêmes fonctions de fenêtre et calculé un pourcentage. Vous pouvez voir les résultats ci-dessous :

article	month	units_sold_month	units_sold_year	month_percentage
Cartier A1	7	2	2	100.00
Omega 100	7	5	9	55.55
Omega 100	8	4	9	45.44
Rolex P1	8	3	3	100.00

Nous allons maintenant créer un rapport différent qui examine les performances des différentes branches. Nous voulons voir les colonnes branch et month. Nous avons également besoin de calculs pour obtenir le :

Le revenu total pour ce mois.
Le revenu groupé par branche et par mois.
Le revenu moyen mensuel par branche.
La différence entre le revenu de chaque branche et le revenu moyen mensuel.

SELECT DISTINCT branch,
       EXTRACT('month' FROM sale_day) AS month,
       SUM(revenue) OVER (PARTITION BY sale_month) AS total_revenue_month,
       SUM(revenue) OVER (PARTITION BY branch, sale_month) AS branch_revenue_month,
      
 -- Next column is the branch average revenue in the current month
	 ( 
		  SUM(revenue) OVER (PARTITION BY sale_month)::decimal 
		   / 
		  (SELECT COUNT(DISTINCT branch) FROM sales)::decimal 
	 ) AS average_month_branch,
 
 -- Next column is the difference between branch revenue and average branch revenue

        SUM(revenue) OVER (PARTITION BY branch, sale_month) -
	 ( 
		  SUM(revenue) OVER (PARTITION BY sale_month)::decimal 
		   / 
		  (SELECT COUNT(DISTINCT branch) FROM sales)::decimal 
	 ) AS gap_branch_average

FROM sales 
WHERE extract('YEAR' from sale_day) = 2021
ORDER BY branch, month

Une fois encore, nous n'avons utilisé que deux clauses OVER, mais nous avons utilisé des expressions arithmétiques différentes pour obtenir certaines valeurs. Nous avons utilisé ...

SUM(revenue) OVER (PARTITION BY sale_month)

... pour calculer le revenu total du mois, mais nous l'avons également utilisé dans une expression arithmétique pour obtenir le revenu moyen mensuel de la branche.

Nous avons utilisé ...

SUM(revenue) OVER (PARTITION BY branch, sale_month)

... pour calculer le revenu mensuel de la branche et la différence entre le revenu mensuel de cette branche et la moyenne.

Le tableau suivant est le résultat de la requête. Remarquez que la colonne gap_branch_average peut contenir des nombres positifs ou négatifs. Un nombre négatif indique que le revenu mensuel de cette branche est inférieur au revenu moyen.

Branch	Month	total_revenue_month	branch_revenue_month	average_month_branch	gap_branch_average
London	7	10600	6600	3533.33	3066.66
London	8	14300	1300	4766.66	-3466.66
New York	7	10600	2000	3533.33	-1533.33
New York	8	14300	9000	4766.66	4233.33
Paris	7	10600	2000	3533.33	-1533.33
Paris	8	14300	4000	4766.66	-766.66

Pour plus d'informations sur les fonctions de fenêtre en SQL, je suggère Exemple de fonction fenêtre SQL avec explications, un article d'entrée de gamme sur les fonctions de fenêtre. Pour les lecteurs plus avancés, How to Rank Rows Within a Partition in SQL montre comment créer des classements dans vos rapports à l'aide de la fonction fenêtre RANK().

La clause OVER et l'analyse Fonctions de fenêtrage

Dans les requêtes précédentes, nous avons utilisé les fonctions de fenêtre pour comparer des chiffres mensuels (revenus et unités vendues, respectivement) à des chiffres annuels. Dans cette section, nous allons utiliser des cadres de fenêtre ordonnés, ce qui nous permet de choisir un enregistrement dans le cadre en fonction de sa position. Par exemple, nous pouvons choisir le premier enregistrement dans le cadre de la fenêtre, ou l'enregistrement précédent l'enregistrement actuel, ou l'enregistrement suivant l'enregistrement actuel. Ces fonctions de fenêtre analytique offrent une grande puissance d'expression à SQL.

Dans la requête suivante, nous allons montrer l'augmentation/diminution du chiffre d'affaires pour la même branche sur deux mois contigus. Pour ce faire, nous devons calculer la différence entre le revenu du mois en cours et celui du mois précédent. Pour cela, il faut utiliser la fonction de fenêtre analytique LAG(), qui permet d'obtenir une valeur de colonne à partir d'une ligne antérieure à la ligne actuelle.

WITH branch_month_sales AS (
	SELECT    DISTINCT
		    branch,
		    EXTRACT('MONTH' FROM sale_day) AS month,
		    SUM(revenue) OVER (PARTITION BY branch, sale_month ) AS revenue
	FROM sales
)
SELECT branch, 
	month,
	revenue AS revenue_current_month,
	LAG(revenue) OVER (PARTITION BY branch ORDER BY month) AS revenue_prev_month,
	revenue - LAG(revenue) OVER (PARTITION BY branch ORDER BY month) AS revenue_delta
FROM branch_month_sales
ORDER BY branch, month

Dans cette requête, nous avons utilisé une expression de table commune (CTE) appelée branch_month_sales pour stocker le revenu total de chaque branche et de chaque mois. Nous avons ensuite écrit une deuxième requête qui utilise la fonction de fenêtre LAG() pour obtenir le revenu du mois précédent (en utilisant les informations de branch_month_sales). Notez que le cadre de la fenêtre est ordonné par mois.

Voici les résultats :

Branch	Month	revenue_current_month	revenue_prev_month	revenue_delta
London	7	6600	null	null
London	8	1300	6600	-5300
New York	7	2000	null	null
New York	8	9000	2000	7000
Paris	7	2000	null	null
Paris	8	4000	2000	2000

Dans toutes les requêtes présentées dans cet article, nous n'avons utilisé que quelques fonctions de fenêtre. Il existe un grand nombre d'autres fonctions de fenêtre dans SQL. Voici une liste de chacune d'entre elles :

function	syntax	return value
AVG()	AVG(expression)	The average within the OVER partition.
COUNT()	COUNT()	The number of rows within the OVER partition.
MAX()	MAX(expression)	The maximum value of a column or expression for each partition.
MIN()	MIN(expression)	The minimum value of a column or expression for each partition.
SUM()	SUM(expression)	The total of all values in a column within a partition.
ROW_NUMBER()	ROW_NUMBER()	Assigns a unique number to each row within a partition. Rows with identical values are given row different numbers.
RANK()	RANK()	Ranks rows by column values within a partition. Gaps and tied rankings are permitted.
DENSE_RANK()	DENSE_RANK()	Ranks row by column values within a partition. There are no gaps in the ranking, but tied rankings are permitted.
PERCENT_RANK()	PERCENT_RANK()	Assigns a percentile ranking number to each row in a partition. To calculate a value in the [0, 1] interval, we use (rank - 1) / (total number of rows - 1).
CUME_DIST()	CUME_DIST()	Shows the cumulative distribution of a value within a group of values, i.e. the number of rows with values less than or equal to the current row’s value divided by the total number of rows.
LEAD()	LEAD(expr, offset, default)	The value of the row n number of rows after the current row. The offset and default arguments are optional; it will return the next row value by default.
LAG()	LAG(expr, offset, default)	The value of the row n number of rows before the current row. The offset and default arguments are optional; it will return the previous row value by default.
NTILE()	NTILE(n)	Divides rows within a partition into n groups and assigns each row a group number.
FIRST_VALUE()	FIRST_VALUE(expr)	The value for the first row within the window frame.
LAST_VALUE()	LAST_VALUE(expr)	The value for the last row within the window frame.
NTH_VALUE()	NTH_VALUE(expr, n)	The value for the n-th row within the window frame.

En savoir plus sur la clause SQL OVER

Dans cet article, nous avons abordé la clause OVER et les sous-clauses PARTITION BY et ORDER BY.

Si vous souhaitez poursuivre votre apprentissage des fonctions de fenêtre, je vous propose deux articles. Le premier est intitulé 8 Best SQL Window Function Articles, qui vous renvoie à d'autres articles intéressants. Le second est un aide-mémoire sur les fonctions de fenêtre qui comprend la syntaxe, des exemples et des images ; c'est mon article préféré sur les fonctions de fenêtre.

Pour ceux qui veulent aller plus loin, je vous suggère notre cours interactif Fonctions de fenêtrage SQL. Si vous souhaitez améliorer vos compétences SQL en général, essayez le titre SQL de A à Z. Il s'agit d'un aperçu complet de tout ce que vous devez savoir pour travailler efficacement avec SQL.

Tags:

fonctions de fenêtrage

La clause SQL OVER en action

La clause OVER et l'analyse Fonctions de fenêtrage

En savoir plus sur la clause SQL OVER

Vous aimerez aussi