27250004 - Fouille de données et segmentation

Niveau de diplôme	Master - Semestre 3
Crédits ECTS	3
Volume horaire total	23
Volume horaire CM	23

Responsables

BOULET Romain

Objectifs

L’objectif de ce cours est de former l’étudiant dans le domaine de la fouille de données, discipline au carrefour de l’informatique et de la statistique. L’accent est mis sur les problématiques de classification, qu’elles soient supervisée (faire du classement) ou non (faire du clustering) dont les applications en marketing résident entre autres dans la segmentation de clients ou le ciblage de clientèle. Ce module exposera également comment bien appréhender (connaissance de communautés, d’individus influents) un réseau social pour l’utiliser efficacement.

Durant ce module les étudiants seront formés à l’utilisation du logiciel R, logiciel libre dont l’utilisation dans le domaine académique et professionnel est pleine expansion.

CONNAISSANCES A ACQUERIR

Connaître différentes méthodes de classification supervisée et non supervisée
Savoir analyser un réseau (données relationnelles)

COMPETENCES CIBLES

Savoir utiliser des logiciels d'analyse de données
Savoir mettre en place une démarche d'analyse de données (modélisation du problème, interprétations des résultats)

Contenu

Chapitre 0 : Introduction et prise en main du logiciel R
1. Introduction à la fouille de donnée
2. Introduction au logiciel R

Chapitre 1 : Règles d'association
1. Principes
1.1 Objectifs
1.2 Exemples d'applications
1.3 Formalisation
2. Qu'est-ce-qu'une bonne règle ?
2.1 Le support
2.2 La confiance
2.3 Le Lift
3. Construction des règles
3.1 Les itemset frequents et l'algorithme apriori
3.2 Production de règles via la notion de confiance
3.3 Tri en fonction du Lift
3.4 Suppression des règles redondantes

Chapitre 2 : Classification non supervisée, approche statistique
1 Introduction : partitions, inerties et distances
2 Centres mobiles (k-means)
3 Classification hiérarchique ascendante (CAH)

Chapitre 3 : Extraction de données Twitter
1 Objectifs et prérequis techniques
2 Ecriture de requêtes pour l'extraction des données
3 Analyse des données récoltées
4 Création de graphiques
5 Analyse des textes

Chapitre 4 : Analyse de réseaux (analyse de données relationnelles),
1 Graphes et réseaux : définitions de base
2 Centralités
2.1 Centralité de degré
2.2 Centralité d'intermediarité
2.3 Centralité de proximité
3 Les propriétés fréquemment rencontrées
3.1 La faible densité
3.2 La composante connexe géante
3.3 L'effet petit-monde
3.4 le club-huppé
4 La recherche de communautés
4.1 Dissimilarités entre sommets et CAH
4.2 Autres méthodes

Chapitre 5 : Arbres de décision et segmentation
1 Introduction et objectifs
2 Construction d'un arbre
3 Sélection d'un arbre

Bibliographie

OUVRAGES DE REFERENCE :
Pas d'ouvrage de référence, le cours dispensé est complet. Les étudiants peuvent cependant consulter les ouvrages complémentaires listés ci-après.

OUVRAGES COMPLÉMENTAIRES :

Méthodes Statistiques appliquées au Management (Chapitre 5 : regrouper les individus et segmenter). Corinne Hahn et Sandrine Macé, éditions Pearson
Exploration de données et méthodes statistiques. Lise Bellanger et Richard Tomassone, éditions ellipses
Statistique exploratoire multidimensionnelle, Visualisation et inférences en fouilles de données. Ludovic Lebart, Marie Piron et Alain Morineau.
Data Mining - introductory and advanced topics, Margarett Dunham, Prentice Hall.
Apprentissage Artificiel, Antoine Cornuéjols, Laurent Miclet, Eyrolles

OUVRAGES OU ARTICLES DE RECHERCHE EMBLEMATIQUES SUR LE SUJET DU COURS :

Classification non supervisée :

Punj, Girish, and David W. Stewart. "Cluster analysis in marketing research: Review and suggestions for application." Journal of marketing research (1983): 134-148.
Réseaux :
Freeman L.C. (1979) Centrality in social networks: Conceptual clarification. Social Networks. 1(3):215–239
Watts D. J. (2003) Small Worlds: The Dynamics of Networks between Order and Randomness. Princeton University Press, Princeton, 264 pp

Contrôles des connaissances

Interrogation écrite (70%)
Epreuve écrite sur table

Devoir maison (30%)
Devoir maison

Informations complémentaires

MODALITES PEDAGOGIQUES / NATURE DES SUPPORTS

Polycopié de cours
Description des cas
Fichiers de données