Retour à la liste des articles Articles
10 minutes de lecture

Où puis-je trouver des ensembles de données en ligne gratuits pour pratiquer le langage SQL ?

Vous avez installé le SGBDR de votre choix. Vous connaissez les bases du langage SQL et... que faire ensuite ? Vous aimeriez pouvoir mettre en pratique les fonctions SQL que vous avez apprises dans notre cours. Peut-être avez-vous déjà suivi notre cours Exercices Pratiques de SQL et vous avez envie d'en savoir plus. Pour travailler avec une base de données, il faut tout d'abord - ce n'est pas une surprise - une base de données ! Où trouver les données pour vos requêtes SQL ? Elles sont disponibles gratuitement sur Internet, mais il faut savoir où chercher. Dans cet article, je vais vous indiquer où vous pouvez trouver des ensembles de données intéressants pour votre pratique du langage SQL. Cela vous convient ? Commençons !

Tout d'abord, une remarque. Les bases de données sur la propagation du COVID-19 dans le monde devraient figurer en tête de ma liste. Il existe des tonnes d'excellentes bases de données qui gardent la trace des contaminations et des décès. Toutefois, comme elles sont si courantes aujourd'hui, je n'en citerai aucune en particulier. Je souhaite plutôt partager avec vous d'autres ensembles de données intéressants et j'ai sélectionné sept sources gratuites de bases de données qui sont parfaites pour pratiquer le langage SQL.

1. Google Trends

Google Trends

Google collecte des pétaoctets de données. Chaque clic, chaque requête saisie dans le moteur de recherche, tout est suivi et sauvegardé. Pourquoi ne pas utiliser cela pour votre pratique du langage SQL ? Google Trends est l'un des plus grands ensembles de données publiques disponibles. Elles peuvent être compilées et analysées pratiquement librement. Le volume de données parmi lesquelles vous pouvez choisir est impressionnant !

Google vous permet d'utiliser les données de son navigateur et d'analyser ce que les gens recherchent et quand ils le font le plus souvent. On se croirait dans un livre d'Orwell ? Permettez-moi d'ajouter que vous pouvez analyser presque toutes les requêtes de recherche possibles, tous les mots clés et leur historique depuis 2004.

Pour garder tout cela sous contrôle, divers filtres et répartitions de données sont disponibles. Grâce à cette fonction, vous pouvez, en quelques minutes, restreindre votre recherche, par exemple, à des lieux, des périodes ou des types de données spécifiques.

Une autre fonction intéressante est la liste des tendances, c'est-à-dire les termes les plus populaires actuellement recherchés sur Google. Vous pouvez également cliquer sur l'un des exemples proposés par Google. En écrivant cet article, j'ai appris que la plupart des recherches liées à Taylor Swift au cours des 30 derniers jours provenaient de l'Utah. Je n'arrive pas à comprendre pourquoi. Le savez-vous ? Écrivez-le dans les commentaires...

Les classements annuels sont également très intéressants. Google présente cinq termes de recherche dans plusieurs catégories. Les possibilités de visualisation des données offertes par Google valent également la peine d'être consultées. Mais attention : parcourir tout cela est vraiment addictif et prend beaucoup de temps !

Les rapports peuvent être téléchargés en un seul clic sous la forme d'un fichier CSV. Vous pouvez les importer dans votre programme et les visualiser à l'aide de SQL. Les possibilités ne sont limitées que par votre imagination et votre courage lorsque vous entrez des mots dans le moteur de recherche Google Trends.

Pour un premier essai, je vous recommande de saisir la phrase "Apprendre SQL" dans Google Trends. Voyez par vous-même : ce que nous écrivons sur les blogs n'est-il qu'une promesse vaine, ou le monde a-t-il vraiment besoin de gens qui connaissent SQL ? Je vous donne un indice : la tendance est à la hausse !

2. Data.gov

Data.gov

Il s'agit d'une collection gigantesque et, surtout, totalement ouverte et gratuite de plus de 200 000 ensembles de données du gouvernement américain. Le site Web propose un excellent moteur de recherche dans lequel vous pouvez définir des sujets d'intérêt, des intervalles de temps, des étiquettes, des lieux et même le format ou le type de fichier de données.

En quelques clics, vous pouvez accéder à des informations sur le budget de votre ville ou sur les résultats scolaires moyens des étudiants de votre école. Vous pouvez facilement trouver ce dont vous avez besoin. Prenez le temps d'approfondir. La plupart des données sont proposées dans les formats de fichier les plus courants, tels que JSON ou CSV.

Un site Web comme celui-ci est excellent, non seulement pour la pratique du SQL, mais aussi pour la démocratie et la transparence de la part des autorités.

3. FiveThirtyEight

FiveThirtyEight (en anglais)

Il ne s'agit pas seulement d'une collection d'ensembles de données. Il s'agit d'un site d'ABC News avec des articles, des classements et des essais. Vous y trouverez également de nombreuses données prêtes à être utilisées dans le cadre d'un projet SQL.

Vous vous intéressez à la politique ? Consultez les données des sondages présidentiels américains. Vous avez accès aux données de nombreux cabinets d'études et groupes de réflexion américains ; vous pouvez calculer des moyennes et suivre les évolutions. Biden ou Trump ? Découvrez qui bénéficie actuellement du plus grand nombre de soutiens dans votre état de résidence.

Chaque liste peut être téléchargée sous forme de fichier CSV. C'est confortable, intéressant et engageant. Outre la politique, vous trouverez également de nombreuses informations sur le sport (par exemple, "The Pace Of Play Has Never Been Faster In The WNBA"), des podcasts et des vidéos.

FiveThirtyEight est l'un des meilleurs sites de ce type sur l'internet. En avez-vous trouvé un meilleur ? Faites-le moi savoir dans les commentaires.

4. Kaggle

Kaggle

Lorsque vous apprenez le langage SQL et que vous l'utilisez, vous devez tôt ou tard vous familiariser avec ce service. C'est plus qu'un simple ensemble de données. Il s'agit plutôt d'un endroit où les membres de la communauté des amateurs de données viennent publier leurs créations. Vous y trouverez non seulement des ensembles de données intéressants, mais aussi toute une série de documents. Tous ces éléments peuvent vous aider à mieux comprendre le langage SQL et à travailler avec de grandes bases de données.

Kaggle dispose d'un moteur de recherche simple, qui vous permet de trouver facilement ce que vous cherchez. Vous pouvez également utiliser les astuces ou voir ce qui est actuellement le plus populaire.

Je suis un fan de sport, j'ai donc choisi deux bases de données. La première s'intitule "résultats du football international de 1872 à 2020". Il s'agit d'une base de données constamment mise à jour qui contient les résultats de plus de 40 000 matches de football internationaux. Une énorme dose de connaissances et de statistiques historiques, avec près de 150 ans d'histoire du football réunis dans une seule base de données. C'est assez impressionnant ! En pratiquant le langage SQL, vous pouvez, par exemple, comparer les résultats de votre équipe nationale sur certaines années ou les résultats de vos rivaux les plus détestés.

La deuxième base de données que j'ai trouvée ici est celle de Lahman sur le baseball. Vous vous souvenez du film "Moneyball", avec Brad Pitt ? Vous pouvez vous sentir comme le propriétaire d'une équipe de base-ball et compléter votre équipe de rêve. Vous n'avez pas vu Moneyball ? Lisez mon article "SQL, bases de données et films hollywoodiens".

Elle contient les statistiques complètes des batteurs et des lanceurs de 1871 à 2019. En outre, vous disposez également de statistiques sur les terrains, les classements, les équipes, les données de gestion, les données d'après-saison, et bien plus encore. Vous trouvez ça génial ? Ça l'est effectivement.

Le service Kaggle vous permet également de gagner des prix intéressants. Vous les obtenez en participant à des concours en développant des modèles de prédiction/classification et en concourant avec d'autres participants sur leurs résultats.

5. Ensemble de données IMDb

IMDb Data Set

Vous aimez les films ? Alors vous devez connaître IMDb. Il s'agit de la plus grande base de données en ligne au monde sur les films, les acteurs, les réalisateurs, les scénaristes, les agents de cinéma et d'autres personnes associées à l'industrie.

IMDb (The Internet Movie DataBase) a été créé il y a 30 ans. Depuis lors, une vaste communauté mondiale a développé le site Web. La base de données contient actuellement des entrées pour plus de 6 millions de films, avec des données sur plus de 100 millions d'entités connexes au total. Les propriétaires du site Web vous permettent de télécharger gratuitement leurs collections pour un usage personnel ; vous ne pouvez pas les utiliser à des fins commerciales.

L'ensemble des données est divisé en plusieurs petits ensembles pour faciliter le téléchargement. Par exemple, vous pouvez télécharger uniquement les informations sur les films dans une langue donnée ou sur un réalisateur spécifique. Tout dépend de votre imagination. Par exemple, essayez de trouver la réponse suivante : dans combien de titres de films le mot "learning" apparaît-il ? Êtes-vous capable de le découvrir ?

6. Airbnb

Airbnb

La légende veut qu'Airbnb ait commencé lorsque ses fondateurs ont loué à quelqu'un un matelas pneumatique dans leur salon. Depuis, leur entreprise s'est développée. Aujourd'hui, il existe des milliers de sites dans le monde entier. Son site Web permet aux personnes qui disposent de chambres ou d'appartements inutilisés d'entrer en contact avec des voyageurs qui ont besoin d'un endroit où passer la nuit. L'idée de cette entreprise est si simple qu'il est difficile de croire que personne ne l'ait eue avant.

Airbnb dispose d'une base de données de ses locations. Vous pouvez la télécharger et l'utiliser pour pratiquer le SQL. Téléchargez, par exemple, toutes les données sur Florence, en Toscane italienne. Vous pouvez rechercher toutes les propriétés pour trouver un bon endroit où séjourner, analyser les évaluations des utilisateurs et comparer les prix. Vous avez trouvé votre bonheur ? Alors vous savez déjà où séjourner lorsque vous partirez en vacances dans cette ville !

Outre les listes de propriétés, vous pouvez également télécharger des données que vous pouvez utiliser dans le cadre d'un projet SIG. Vous ne savez pas comment faire et vous voulez apprendre ? Je vous recommande un excellent cours PostGIS sur LearnSQL.fr. PostGIS est une extension spatiale de la base de données PostgreSQL. Vous apprendrez comment PostGIS stocke les données géographiques et comment ses fonctions géographiques de base peuvent être utilisées dans des requêtes SQL simples et complexes.

7. Earthdata

Earthdata

J'ai gardé quelque chose de vraiment intéressant pour la fin. Avec ce service, vous aurez accès aux données de la NASA. D'accord, vous ne découvrirez pas si un OVNI a réellement atterri à Roswell. Mais vous pouvez en apprendre beaucoup sur l'atmosphère terrestre, le rayonnement solaire, les courants océaniques, les tempêtes et les mouvements tectoniques. Vous pouvez regarder tout cela en direct ou l'analyser sous forme de bases de données.

Earthdata fait partie du programme Earth Science Data Systems. En tant qu'utilisateur régulier, vous n'aurez évidemment pas accès à toutes les ressources de la NASA. Mais vous avez accès à des pétaoctets de données collectées en permanence par des scientifiques du monde entier. Vous voulez savoir comment la couverture neigeuse de l'Antarctique a évolué au cours du mois dernier ? Pas de problème. Peut-être êtes-vous plus intéressé par les mouvements des massifs en Asie centrale ? Ou les mouvements de masses d'air au-dessus de New York ? Vous pouvez extraire et traiter des données, tout en perfectionnant vos compétences en SQL. Vous pouvez également les visualiser en direct sur le site. Le ciel est la seule limite, c'est le cas de le dire !

Ensembles de données pour la pratique du SQL

Voici mes choix d'ensembles de données intéressants disponibles en ligne. Il en existe beaucoup d'autres comme ceux-ci. Vous n'êtes limité que par le temps et votre volonté d'agir !

N'oubliez pas qu'apprendre le langage SQL est une chose, mais que vous devez continuer à pratiquer par la suite afin de ne pas oublier ce que vous avez appris pendant les cours.

Si vous êtes novice en SQL, je vous recommande notre cours pour débutants, SQL pour les débutants. Vous y trouverez tout ce dont vous avez besoin pour commencer. Il est vraiment bien construit et bien pensé, de sorte que vous comprendrez rapidement de quoi il s'agit. Si vous connaissez déjà SQL et que vous souhaitez vous perfectionner, je vous suggère le cours SQL avancé. Vous y apprendrez notamment à utiliser les CTE et les fonctions de fenêtre. Commencez à apprendre dès aujourd'hui !