• Data Mining : Camille Signoretto
  • Présentation
    • À propos de ce document
    • Prérequis
    • Remerciements
    • Licence
  • Séance 1 : Data Wrangling
  • 1 Récupération de la base de données
    • 1.1 Les données du Recensement de la Population (RP)
    • 1.2 Quelles informations intéressantes dans cette base ?
  • 2 Manipulation de la base
    • 2.1 Format des données - WIDE ou LONG
    • 2.2 Sélectionner un champ réduit de la base, séparer les données
  • 3 Manipulation des variables
    • 3.1 Manipulation des variables qualitatives
    • 3.2 Manipulation des variables quantitatives
      • 3.2.1 Détecter et “visualiser” les valeurs manquantes
      • 3.2.2 Gérer les valeurs manquantes
      • 3.2.3 Détecter et “visualiser” les valeurs aberrantes
      • 3.2.4 Découper en classes une variable quantitative
  • 4 Récapitulatig séance 1 - Data Wrangling
    • 4.1 Ce qu’on a appris
    • 4.2 Enregistrement des tables
  • Séance 2 : Data Mining - Analyse descriptive
  • 5 Quelles questions intéressantes pour une “fouille de données” sur cette base ?
    • 5.1 Caractéristiques des logements de la commune de Paris
    • 5.2 Systématiser nos procédures : construire une fonction
  • Séance 3 : Introduction à ShinyApp
  • 6 Les applications interactives avec Shiny App
    • 6.1 La structure générale d’une application Shiny
      • 6.1.1 La partie “UI”
      • 6.1.2 La partie “Server”
    • 6.2 La réactivité
    • 6.3 Un exemple avec le code du script par défaut
  • 7 La création d’une application Shiny “pas à pas” avec l’une de nos bases de données
    • 7.1 Application vide
    • 7.2 Ajout d’un titre et d’un widget
    • 7.3 Ajout d’un graphique
    • 7.4 Modification du graphique : filtrer selon une variable
    • 7.5 Modification du graphique : selon une variable au choix parmi deux
  • Séances 4 à 6 : Data Visualization
  • 8 Data Visualization et Ggplot2 : aspects théoriques
    • 8.1 Présentation générale de Ggplot2
      • 8.1.1 Les “aesthetics” ou arguments esthétiques
      • 8.1.2 Les géométries
      • 8.1.3 Les facettes
      • 8.1.4 Les statistiques
      • 8.1.5 Les coordonnées
      • 8.1.6 Les thèmes
      • 8.1.7 Les autres options graphiques : titres, échelles des axes, etc.
      • 8.1.8 Code minimal
      • 8.1.9 Liens utiles pour aller plus loin
    • 8.2 Les grands principes de data visualization
  • 9 Le package Ggplot en pratiques
    • 9.1 Exemple de la construction d’un graphique pas à pas
    • 9.2 D’autres exemples à travers des exercices
      • 9.2.1 Distribution du prix au m2 pour les appartements, selon les arrondissements de Paris
      • 9.2.2 Comparaison des montants moyen et médian du prix au m2, par département de Paris et sa petite couronne
      • 9.2.3 Evolution du prix moyen au m2 des ventes d’appartements à Paris
      • 9.2.4 Top 5 du prix au m2 des ventes d’appartements selon les communes (ou arrondissements)
      • 9.2.5 À vous de “jouer” !
  • 10 Application sur Shiny
    • 10.1 Application avec un tableau et un graphique
    • 10.2 Introduction d’une réactivité appliquée à la table de données
    • 10.3 Introduction d’une réactivité sur les inputs (contexte réactif)
  • Séance 7 : Data Mining
  • 11 Clustering : application sur le RP 2019
    • 11.1 Choix des variables et préparation du tableau final
      • 11.1.1 Variables socio-professionnelles caractérisant la personne de référence du ménage
      • 11.1.2 Création des différents tableaux de contingence
      • 11.1.3 Création du tableau final
      • 11.1.4 choix des variables actives dans le clustering
    • 11.2 La méthode de la CAH appliquée à nos données
      • 11.2.1 Constitution des classes
      • 11.2.2 Visualisation sur la carte de la commune
      • 11.2.3 Interprétation
    • 11.3 La méthode des k-means appliquée à nos données
  • 12 Modèles de régression : application sur le RP 2019
    • 12.1 La création des bases d’apprentissage et de test
    • 12.2 Un modèle à visée principale descriptive/explicative : la régression logistique
      • 12.2.1 Le modèle initial
      • 12.2.2 L’évaluation du modèle et la recherche éventuelle d’un “meilleur” modèle
      • 12.2.3 Le modèle final et l’interprétation des résultats
    • 12.3 Un modèle à visée principale prédictive : l’abre de décision
      • 12.3.1 Le modèle initial
      • 12.3.2 L’évaluation du modèle

DATA MINING

DATA MINING

Master Meci - Parcours PISE et CCESE - Option Data

Camille Signoretto, Maîtresse de conférences en économie, Université Paris Cité

2023-05-31