27250004 - Fouille de données et segmentation

Niveau de diplôme
Crédits ECTS 3
Volume horaire total 23
Volume horaire CM 23

Responsables

Objectifs

L’objectif de ce cours est de former l’étudiant dans le domaine de la fouille de données, discipline au carrefour de l’informatique et de la statistique. L’accent est mis sur les problématiques de classification, qu’elles soient supervisée (faire du classement) ou non (faire du clustering) dont les applications en marketing résident entre autres dans la segmentation de clients ou le ciblage de clientèle. Ce module exposera également comment bien appréhender (connaissance de communautés, d’individus influents) un réseau social pour l’utiliser efficacement.

Durant ce module les étudiants seront formés à l’utilisation du logiciel R, logiciel libre dont l’utilisation dans le domaine académique et professionnel est pleine expansion.
 
CONNAISSANCES A ACQUERIR
  • Connaître différentes méthodes de classification supervisée et non supervisée
  • Savoir analyser un réseau (données relationnelles)
COMPETENCES CIBLES
  • Savoir utiliser des logiciels d'analyse de données
  • Savoir mettre en place une démarche d'analyse de données (modélisation du problème, interprétations des résultats)

Contenu

Chapitre 0 : Introduction et prise en main du logiciel R
1. Introduction à la fouille de donnée
2. Introduction au logiciel R

Chapitre 1 : Règles d'association
1. Principes
1.1 Objectifs
1.2 Exemples d'applications
1.3 Formalisation
2. Qu'est-ce-qu'une bonne règle ?
2.1 Le support
2.2 La confiance
2.3 Le Lift
3. Construction des règles
3.1 Les itemset frequents et l'algorithme apriori
3.2 Production de règles via la notion de confiance
3.3 Tri en fonction du Lift
3.4 Suppression des règles redondantes

Chapitre 2 : Classification non supervisée, approche statistique
1 Introduction : partitions, inerties et distances
2 Centres mobiles (k-means)
3 Classification hiérarchique ascendante (CAH)

Chapitre 3 : Extraction de données Twitter
1 Objectifs et prérequis techniques
2 Ecriture de requêtes pour l'extraction des données
3 Analyse des données récoltées
4 Création de graphiques
5 Analyse des textes

Chapitre 4 : Analyse de réseaux (analyse de données relationnelles),
1 Graphes et réseaux : définitions de base
2 Centralités
2.1 Centralité de degré
2.2 Centralité d'intermediarité
2.3 Centralité de proximité
3 Les propriétés fréquemment rencontrées
3.1 La faible densité
3.2 La composante connexe géante
3.3 L'effet petit-monde
3.4 le club-huppé
4 La recherche de communautés
4.1 Dissimilarités entre sommets et CAH
4.2 Autres méthodes

Chapitre 5 : Arbres de décision et segmentation
1 Introduction et objectifs
2 Construction d'un arbre
3 Sélection d'un arbre

Bibliographie

OUVRAGES DE REFERENCE :
Pas d'ouvrage de référence, le cours dispensé est complet. Les étudiants peuvent cependant consulter les ouvrages complémentaires listés ci-après.

OUVRAGES COMPLÉMENTAIRES :
  • Méthodes Statistiques appliquées au Management (Chapitre 5 : regrouper les individus et segmenter). Corinne Hahn et Sandrine Macé, éditions Pearson
  • Exploration de données et méthodes statistiques. Lise Bellanger et Richard Tomassone, éditions ellipses
  • Statistique exploratoire multidimensionnelle, Visualisation et inférences en fouilles de données. Ludovic Lebart, Marie Piron et Alain Morineau.
  • Data Mining - introductory and advanced topics, Margarett Dunham, Prentice Hall.
  • Apprentissage Artificiel, Antoine Cornuéjols, Laurent Miclet, Eyrolles

OUVRAGES OU ARTICLES DE RECHERCHE EMBLEMATIQUES SUR LE SUJET DU COURS :

Classification non supervisée :
  • Punj, Girish, and David W. Stewart. "Cluster analysis in marketing research: Review and suggestions for application." Journal of marketing research (1983): 134-148.
  • Réseaux :
  • Freeman L.C. (1979) Centrality in social networks: Conceptual clarification. Social Networks. 1(3):215–239
  • Watts D. J. (2003) Small Worlds: The Dynamics of Networks between Order and Randomness. Princeton University Press, Princeton, 264 pp

Contrôles des connaissances

Interrogation écrite (70%)
Epreuve écrite sur table

Devoir maison (30%)
Devoir maison

Informations complémentaires

MODALITES PEDAGOGIQUES / NATURE DES SUPPORTS
  • Polycopié de cours
  • Description des cas
  • Fichiers de données