27250004 - Fouille de données et segmentation
Niveau de diplôme | |
---|---|
Crédits ECTS | 3 |
Volume horaire total | 23 |
Volume horaire CM | 23 |
Responsables
Objectifs
L’objectif de ce cours est de former l’étudiant dans le domaine de la fouille de données, discipline au carrefour de l’informatique et de la statistique. L’accent est mis sur les problématiques de classification, qu’elles soient supervisée (faire du classement) ou non (faire du clustering) dont les applications en marketing résident entre autres dans la segmentation de clients ou le ciblage de clientèle. Ce module exposera également comment bien appréhender (connaissance de communautés, d’individus influents) un réseau social pour l’utiliser efficacement.
Durant ce module les étudiants seront formés à l’utilisation du logiciel R, logiciel libre dont l’utilisation dans le domaine académique et professionnel est pleine expansion.
Durant ce module les étudiants seront formés à l’utilisation du logiciel R, logiciel libre dont l’utilisation dans le domaine académique et professionnel est pleine expansion.
CONNAISSANCES A ACQUERIR
- Connaître différentes méthodes de classification supervisée et non supervisée
- Savoir analyser un réseau (données relationnelles)
- Savoir utiliser des logiciels d'analyse de données
- Savoir mettre en place une démarche d'analyse de données (modélisation du problème, interprétations des résultats)
Contenu
Chapitre 0 : Introduction et prise en main du logiciel R
1. Introduction à la fouille de donnée
2. Introduction au logiciel R
Chapitre 1 : Règles d'association
1. Principes
1.1 Objectifs
1.2 Exemples d'applications
1.3 Formalisation
2. Qu'est-ce-qu'une bonne règle ?
2.1 Le support
2.2 La confiance
2.3 Le Lift
3. Construction des règles
3.1 Les itemset frequents et l'algorithme apriori
3.2 Production de règles via la notion de confiance
3.3 Tri en fonction du Lift
3.4 Suppression des règles redondantes
Chapitre 2 : Classification non supervisée, approche statistique
1 Introduction : partitions, inerties et distances
2 Centres mobiles (k-means)
3 Classification hiérarchique ascendante (CAH)
Chapitre 3 : Extraction de données Twitter
1 Objectifs et prérequis techniques
2 Ecriture de requêtes pour l'extraction des données
3 Analyse des données récoltées
4 Création de graphiques
5 Analyse des textes
Chapitre 4 : Analyse de réseaux (analyse de données relationnelles),
1 Graphes et réseaux : définitions de base
2 Centralités
2.1 Centralité de degré
2.2 Centralité d'intermediarité
2.3 Centralité de proximité
3 Les propriétés fréquemment rencontrées
3.1 La faible densité
3.2 La composante connexe géante
3.3 L'effet petit-monde
3.4 le club-huppé
4 La recherche de communautés
4.1 Dissimilarités entre sommets et CAH
4.2 Autres méthodes
Chapitre 5 : Arbres de décision et segmentation
1 Introduction et objectifs
2 Construction d'un arbre
3 Sélection d'un arbre
1. Introduction à la fouille de donnée
2. Introduction au logiciel R
Chapitre 1 : Règles d'association
1. Principes
1.1 Objectifs
1.2 Exemples d'applications
1.3 Formalisation
2. Qu'est-ce-qu'une bonne règle ?
2.1 Le support
2.2 La confiance
2.3 Le Lift
3. Construction des règles
3.1 Les itemset frequents et l'algorithme apriori
3.2 Production de règles via la notion de confiance
3.3 Tri en fonction du Lift
3.4 Suppression des règles redondantes
Chapitre 2 : Classification non supervisée, approche statistique
1 Introduction : partitions, inerties et distances
2 Centres mobiles (k-means)
3 Classification hiérarchique ascendante (CAH)
Chapitre 3 : Extraction de données Twitter
1 Objectifs et prérequis techniques
2 Ecriture de requêtes pour l'extraction des données
3 Analyse des données récoltées
4 Création de graphiques
5 Analyse des textes
Chapitre 4 : Analyse de réseaux (analyse de données relationnelles),
1 Graphes et réseaux : définitions de base
2 Centralités
2.1 Centralité de degré
2.2 Centralité d'intermediarité
2.3 Centralité de proximité
3 Les propriétés fréquemment rencontrées
3.1 La faible densité
3.2 La composante connexe géante
3.3 L'effet petit-monde
3.4 le club-huppé
4 La recherche de communautés
4.1 Dissimilarités entre sommets et CAH
4.2 Autres méthodes
Chapitre 5 : Arbres de décision et segmentation
1 Introduction et objectifs
2 Construction d'un arbre
3 Sélection d'un arbre
Bibliographie
OUVRAGES DE REFERENCE :
Pas d'ouvrage de référence, le cours dispensé est complet. Les étudiants peuvent cependant consulter les ouvrages complémentaires listés ci-après.
OUVRAGES COMPLÉMENTAIRES :
OUVRAGES OU ARTICLES DE RECHERCHE EMBLEMATIQUES SUR LE SUJET DU COURS :
Classification non supervisée :
Pas d'ouvrage de référence, le cours dispensé est complet. Les étudiants peuvent cependant consulter les ouvrages complémentaires listés ci-après.
OUVRAGES COMPLÉMENTAIRES :
- Méthodes Statistiques appliquées au Management (Chapitre 5 : regrouper les individus et segmenter). Corinne Hahn et Sandrine Macé, éditions Pearson
- Exploration de données et méthodes statistiques. Lise Bellanger et Richard Tomassone, éditions ellipses
- Statistique exploratoire multidimensionnelle, Visualisation et inférences en fouilles de données. Ludovic Lebart, Marie Piron et Alain Morineau.
- Data Mining - introductory and advanced topics, Margarett Dunham, Prentice Hall.
- Apprentissage Artificiel, Antoine Cornuéjols, Laurent Miclet, Eyrolles
OUVRAGES OU ARTICLES DE RECHERCHE EMBLEMATIQUES SUR LE SUJET DU COURS :
Classification non supervisée :
- Punj, Girish, and David W. Stewart. "Cluster analysis in marketing research: Review and suggestions for application." Journal of marketing research (1983): 134-148.
- Réseaux :
- Freeman L.C. (1979) Centrality in social networks: Conceptual clarification. Social Networks. 1(3):215–239
- Watts D. J. (2003) Small Worlds: The Dynamics of Networks between Order and Randomness. Princeton University Press, Princeton, 264 pp
Contrôles des connaissances
Interrogation écrite (70%)
Epreuve écrite sur table
Devoir maison (30%)
Devoir maison
Epreuve écrite sur table
Devoir maison (30%)
Devoir maison
Informations complémentaires
MODALITES PEDAGOGIQUES / NATURE DES SUPPORTS
- Polycopié de cours
- Description des cas
- Fichiers de données