Section 4 Récapitulatig séance 1 - Data Wrangling
4.1 Ce qu’on a appris
Cette séance sur la préparation et nettoyage d’une base de données - phase appelée aussi Data Wrangling - nous a permis d’apprendre à :
- charger des bases de données, y compris dans le cas d’un fichier lourd avec la fonction
fread()
du packagedata.table
; - repérer les informations intéressantes, notamment en allant voir le fichier “annexe”, celui des métadonneés ; mais ce type de fichier n’est pas toujours disponible, si vous avez des données d’une entreprise, peut-être que l’information décrivant cette base est plus informelles, ou même si vous “aspirez” des données via le web alors vous n’aurez pas du tout d’information décrivant la base… :
- manipuler la base de données : en identifiant d’abord le format des données, en sélectionnant un champ différent (moins de lignes/d’observation), et/ou des variables spécifiques (moins de colonnes), avec les fonctions
filter()
,select()
,subset()
,pivot_wider()
,pivot_longer()
,unique()
,arrange()
, etc.; - manipuler des variables : en identifiant le format des variables, en les mettant dans le bon format, en (re)travaillant les modalités d’une variable qualitative (avec notamment les fonctions
mutate()
,case_when()
,as.factor()
, ou encore celles du packagefactors
), en détectant/visualisant/gérant les valeurs manquantes d’une variable quantitative avec entre autres le packagenaniar
, en détectant/visualiant/gérant les valeurs aberrantes d’une variable quantitative à partir en particulier des statistiques de la “boîte à moustaches” (fonctiongeom_boxplot()
à utiliser avecggplot()
, fonctionboxplot.stats()
), et enfin, en transformant une variable quantitative en variable qualitative (avec les fonctionscut()
etfancycut()
).
L’usage pour cette phase du langage dplyr
ou plus généralement du tidyverse
est particulièrement conseillée, cela permet d’“enchaîner” des fonctions en une seule instruction.