Section 4 Récapitulatig séance 1 - Data Wrangling

4.1 Ce qu’on a appris

Cette séance sur la préparation et nettoyage d’une base de données - phase appelée aussi Data Wrangling - nous a permis d’apprendre à :

charger des bases de données, y compris dans le cas d’un fichier lourd avec la fonction fread() du package data.table ;
repérer les informations intéressantes, notamment en allant voir le fichier “annexe”, celui des métadonneés ; mais ce type de fichier n’est pas toujours disponible, si vous avez des données d’une entreprise, peut-être que l’information décrivant cette base est plus informelles, ou même si vous “aspirez” des données via le web alors vous n’aurez pas du tout d’information décrivant la base… :
manipuler la base de données : en identifiant d’abord le format des données, en sélectionnant un champ différent (moins de lignes/d’observation), et/ou des variables spécifiques (moins de colonnes), avec les fonctions filter(), select(), subset(), pivot_wider(), pivot_longer(), unique(), arrange(), etc.;
manipuler des variables : en identifiant le format des variables, en les mettant dans le bon format, en (re)travaillant les modalités d’une variable qualitative (avec notamment les fonctions mutate(), case_when(), as.factor(), ou encore celles du package factors), en détectant/visualisant/gérant les valeurs manquantes d’une variable quantitative avec entre autres le package naniar, en détectant/visualiant/gérant les valeurs aberrantes d’une variable quantitative à partir en particulier des statistiques de la “boîte à moustaches” (fonction geom_boxplot() à utiliser avec ggplot(), fonction boxplot.stats()), et enfin, en transformant une variable quantitative en variable qualitative (avec les fonctions cut() et fancycut()).

L’usage pour cette phase du langage dplyr ou plus généralement du tidyverse est particulièrement conseillée, cela permet d’“enchaîner” des fonctions en une seule instruction.

4.2 Enregistrement des tables

Et voilà, on a bien “trituré” ces deux bases de données, maintenant on peut les enregistrer dans notre projet pour pouvoir les réutiliser lors de la prochaine séance.