Data Mining :
Camille Signoretto
Présentation
À propos de ce document
Prérequis
Remerciements
Licence
Séance 1 : Data Wrangling
1
Récupération de la base de données
1.1
Les données du Recensement de la Population (RP)
1.2
Quelles informations intéressantes dans cette base ?
2
Manipulation de la base
2.1
Format des données - WIDE ou LONG
2.2
Sélectionner un champ réduit de la base, séparer les données
3
Manipulation des variables
3.1
Manipulation des variables qualitatives
3.2
Manipulation des variables quantitatives
3.2.1
Détecter et “visualiser” les valeurs manquantes
3.2.2
Gérer les valeurs manquantes
3.2.3
Détecter et “visualiser” les valeurs aberrantes
3.2.4
Découper en classes une variable quantitative
4
Récapitulatig séance 1 - Data Wrangling
4.1
Ce qu’on a appris
4.2
Enregistrement des tables
Séance 2 : Data Mining - Analyse descriptive
5
Quelles questions intéressantes pour une “fouille de données” sur cette base ?
5.1
Caractéristiques des logements de la commune de Paris
5.2
Systématiser nos procédures : construire une fonction
Séance 3 : Introduction à ShinyApp
6
Les applications interactives avec Shiny App
6.1
La structure générale d’une application Shiny
6.1.1
La partie “UI”
6.1.2
La partie “Server”
6.2
La réactivité
6.3
Un exemple avec le code du script par défaut
7
La création d’une application Shiny “pas à pas” avec l’une de nos bases de données
7.1
Application vide
7.2
Ajout d’un titre et d’un widget
7.3
Ajout d’un graphique
7.4
Modification du graphique : filtrer selon une variable
7.5
Modification du graphique : selon une variable au choix parmi deux
Séances 4 à 6 : Data Visualization
8
Data Visualization et Ggplot2 : aspects théoriques
8.1
Présentation générale de Ggplot2
8.1.1
Les “aesthetics” ou arguments esthétiques
8.1.2
Les géométries
8.1.3
Les facettes
8.1.4
Les statistiques
8.1.5
Les coordonnées
8.1.6
Les thèmes
8.1.7
Les autres options graphiques : titres, échelles des axes, etc.
8.1.8
Code minimal
8.1.9
Liens utiles pour aller plus loin
8.2
Les grands principes de data visualization
9
Le package Ggplot en pratiques
9.1
Exemple de la construction d’un graphique pas à pas
9.2
D’autres exemples à travers des exercices
9.2.1
Distribution du prix au m2 pour les appartements, selon les arrondissements de Paris
9.2.2
Comparaison des montants moyen et médian du prix au m2, par département de Paris et sa petite couronne
9.2.3
Evolution du prix moyen au m2 des ventes d’appartements à Paris
9.2.4
Top 5 du prix au m2 des ventes d’appartements selon les communes (ou arrondissements)
9.2.5
À vous de “jouer” !
10
Application sur Shiny
10.1
Application avec un tableau et un graphique
10.2
Introduction d’une réactivité appliquée à la table de données
10.3
Introduction d’une réactivité sur les inputs (contexte réactif)
Séance 7 : Data Mining
11
Clustering : application sur le RP 2019
11.1
Choix des variables et préparation du tableau final
11.1.1
Variables socio-professionnelles caractérisant la personne de référence du ménage
11.1.2
Création des différents tableaux de contingence
11.1.3
Création du tableau final
11.1.4
choix des variables actives dans le clustering
11.2
La méthode de la CAH appliquée à nos données
11.2.1
Constitution des classes
11.2.2
Visualisation sur la carte de la commune
11.2.3
Interprétation
11.3
La méthode des
k-means
appliquée à nos données
12
Modèles de régression : application sur le RP 2019
12.1
La création des bases d’apprentissage et de test
12.2
Un modèle à visée principale descriptive/explicative : la régression logistique
12.2.1
Le modèle initial
12.2.2
L’évaluation du modèle et la recherche éventuelle d’un “meilleur” modèle
12.2.3
Le modèle final et l’interprétation des résultats
12.3
Un modèle à visée principale prédictive : l’abre de décision
12.3.1
Le modèle initial
12.3.2
L’évaluation du modèle
DATA MINING
DATA MINING
Master Meci - Parcours PISE et CCESE - Option Data
Camille Signoretto, Maîtresse de conférences en économie, Université Paris Cité
2023-05-31