Retour à la liste des articles Articles
7 minutes de lecture

Comment utiliser Google BigQuery pour s'entraîner gratuitement au langage SQL

Vous souhaitez vous entraîner au langage SQL sans rien installer ni dépenser un centime ? Avec Google BigQuery Sandbox, vous pouvez explorer de vrais ensembles de données, écrire des requêtes en ligne et développer vos compétences SQL gratuitement, sans carte de crédit. Ce guide vous explique comment démarrer, étape par étape.

Qu'est-ce que Google BigQuery ?

Google BigQuery est un entrepôt de données basé sur le cloud - un type de base de données conçu pour stocker et analyser de grandes quantités de données. Il est conçu par Google et fait partie de Google Cloud. Vous utilisez SQL pour rechercher, filtrer et analyser les informations qui y sont stockées.

BigQuery est adapté aux débutants car vous n'avez pas besoin de gérer de serveurs et il vous donne accès à des ensembles de données publiques gratuites que vous pouvez explorer et utiliser immédiatement. Vous pouvez commencer à l'utiliser avec un simple compte Google gratuit, sans carte de crédit. Si vous souhaitez essayer des fonctionnalités plus avancées, Google vous offre également 300 dollars de crédits gratuits lorsque vous vous inscrivez à Google Cloud.

BigQuery est un excellent moyen d'acquérir une expérience pratique du langage SQL dans un environnement réel basé sur le cloud. Vous pouvez interroger des ensembles de données intéressants directement dans votre navigateur, sans configuration ni installation. Il s'agit d'un point d'entrée pratique et peu contraignant pour toute personne qui apprend le langage SQL ou qui est curieuse de travailler avec des outils de données en nuage.

Si vous êtes novice en SQL, une excellente façon de commencer est de suivre le SQL pour les débutants cours. Il s'agit d'un cours interactif, adapté aux débutants, qui vous aidera à construire des bases solides, parfaites avant de plonger dans BigQuery.

Qu'est-ce que BigQuery Sandbox ?

Google BigQuery Sandbox est une version gratuite de BigQuery qui vous permet de l'essayer sans utiliser de carte de crédit. Elle est idéale pour les débutants qui souhaitent apprendre à travailler avec des données, à écrire des requêtes SQL ou à explorer des ensembles de données publiques. Vous pouvez stocker jusqu'à 10 Go de données et exécuter jusqu'à 1 To de requêtes par mois gratuitement. Le bac à sable vous offre la plupart des fonctionnalités principales de BigQuery, mais toutes les tables que vous créez sont automatiquement supprimées au bout de 60 jours. Il s'agit d'une option intéressante si vous souhaitez vous entraîner ou tester des choses sans vous soucier des coûts.

Comment configurer votre bac à sable Google BigQuery ?

Voici les étapes à suivre pour configurer votre compte BigQuery gratuit :

  1. Créez un compte Google ou connectez-vous à votre compte Google existant.
  2. Accédez directement à la console BigQuery : https://console.cloud.google.com/bigquery. (Ne tapez pas "BigQuery" sur Google - cela vous conduira à une page de marketing au lieu de la console).
  3. Créez un nouveau projet Google Cloud ou sélectionnez un projet existant.
  4. Si nécessaire, activez l'API BigQuery dans votre projet.

Après ces étapes, vous arriverez à l'interface BigQuery. Elle devrait ressembler à ceci :

Comment utiliser Google BigQuery

Premiers pas dans l'Environnement de test BigQuery

BigQuery Studio vous accueille avec un écran de démarrage. Cliquez sur "Open query" (Ouvrir une requête) pour voir un exemple de requête utilisant l'un des jeux de données publics.

Comment utiliser Google BigQuery

Vous verrez également un petit guide visuel sur lequel vous pourrez cliquer si vous le souhaitez. C'est un moyen utile de comprendre l'interface.

Comment utiliser Google BigQuery

Vous verrez ensuite un éditeur de requêtes avec un exemple de requête SQL déjà chargé. Cliquez sur le bouton "Exécuter" au-dessus de l'éditeur pour exécuter la requête. Les résultats apparaîtront dans le panneau "Résultats de la requête" ci-dessous.

Comment utiliser Google BigQuery

Ajouter des ensembles de données publiques à votre projet

Les jeux de données publics gratuits de Google constituent un excellent point de départ. Cliquez sur le lien ci-dessous pour ouvrir le projet bigquery-public-data : https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=samples&page=dataset

Veillez à marquer le jeu de données d'un astérisque afin d'y accéder plus facilement par la suite.

Comment utiliser Google BigQuery

Explorez les ensembles de données de ce projet - vous trouverez des exemples de données sur des sujets tels que les phases de la lune, ou Wikipédia, et bien plus encore. Lorsque vous cliquez sur un ensemble de données, vous obtenez une vue d'ensemble de son contenu.

Comment utiliser Google BigQuery

Lorsque vous cliquez sur un tableau de l'ensemble de données, vous obtenez plus de détails :

  • Schéma - indique les noms des colonnes et les types de données.
  • Détails - décrit le tableau ou l'ensemble de données.
  • Aperçu - vous permet de voir un échantillon des données.

Vous pouvez également cliquer sur "Requête" pour ouvrir un nouvel éditeur de requêtes avec cette table déjà référencée - un excellent moyen de commencer à écrire vos propres requêtes rapidement.

Comment utiliser Google BigQuery

Idées d'exploration

Une fois que vous êtes installé dans BigQuery Sandbox, vous pouvez commencer à explorer des données réelles à l'aide de SQL. Voici quelques ensembles de données publiques intéressants avec lesquels vous pouvez jouer - et quelques exemples de questions auxquelles vous pouvez essayer de répondre avec vos requêtes.

bigquery-public-data.baseball

Ce jeu de données comprend des données détaillées de la Major League Baseball (MLB), notamment des informations sur les joueurs, les équipes, les matchs et les statistiques de performance au cours des différentes saisons.

Questions à explorer :

  • Quels sont les joueurs qui ont frappé le plus grand nombre de home runs au cours d'une saison donnée ?
  • Quel est le nombre moyen de points marqués par match par chaque équipe ?
  • Quels sont les lanceurs qui ont réalisé le plus grand nombre de strikeouts ?

📰 bigquery-public-data.bbc_news

Cet ensemble de données comprend des articles d'actualité de la BBC, organisés par catégorie et par contenu. Il est idéal pour s'entraîner au filtrage de texte, au regroupement et au comptage.

Questions à explorer :

  • Combien d'articles ont été publiés pour chaque catégorie (par exemple, politique, technologie, affaires) ?
  • Quels sont les mots les plus couramment utilisés dans les articles sur le sport ?
  • Quelles sont les catégories qui comptent le plus grand nombre d'articles ?

🚓 bigquery-public-data.chicago_crime

Ce jeu de données contient des données détaillées sur la criminalité de la ville de Chicago, mises à jour chaque semaine. Il comprend les types de crimes, les lieux et les horodatages.

Questions à explorer :

  • Quels sont les types de délits les plus courants à Chicago ?
  • Quels sont les quartiers où le nombre d'incidents signalés est le plus élevé ?
  • Y a-t-il un moment particulier de la journée où les crimes sont plus susceptibles de se produire ?

🌝 bigquery-public-data.moon_phases

Il s'agit d'un jeu de données amusant qui suit les phases de la lune par date. Il est idéal pour s'entraîner avec les dates, le filtrage et l'association avec d'autres données.

Questions à explorer :

  • À quelles dates la pleine lune s'est-elle produite en 2023 ?
  • Quelle est la fréquence des nouvelles lunes ?
  • Quelle est la luminosité moyenne de la lune par mois ?

🐍 bigquery-public-data.pypi

Ce jeu de données contient des données provenant de PyPI (Python Package Index) - le dépôt officiel de logiciels tiers pour Python. Vous pouvez explorer les téléchargements et l'activité de publication.

Questions à explorer :

  • Quels sont les paquets Python les plus téléchargés ?
  • Quels sont les paquets qui ont été mis à jour le plus souvent ?
  • Combien de nouveaux paquets ont été publiés chaque mois au cours de l'année écoulée ?

Ces ensembles de données vous donnent une excellente occasion de vous entraîner à écrire de vraies requêtes SQL. Vous pouvez utiliser SELECT, GROUP BY, ORDER BY, COUNT, et même des fonctions comme DATE_TRUNC() ou STRING_CONTAINS() pour trouver des réponses intéressantes. Il n'est pas nécessaire de créer votre propre base de données - choisissez simplement un sujet qui vous intéresse et commencez à faire des requêtes !

Ressources supplémentaires

Si vous débutez avec SQL et BigQuery, voici quelques ressources utiles pour continuer à apprendre et à vous entraîner :

Si vous souhaitez aller au-delà des bases et apprendre SQL étape par étape - ou si vous êtes un analyste de données cherchant à renforcer vos compétences en SQL - nous vous recommandons le Tout à vie SQL Package de LearnSQL.com. Il vous donne un accès à vie à tous les cours SQL interactifs, du niveau débutant au niveau avancé, afin que vous puissiez apprendre à votre propre rythme et développer des compétences réelles et pratiques.