Marketing - Vente

27250004 - Fouille de données et segmentation

Crédits ECTS 3
Volume horaire total 23
Volume horaire CM 23

Responsables

Objectifs

L’objectif de ce module est de former l’étudiant dans le domaine de la fouille de données, discipline au carrefour de l’informatique et de la statistique. L’accent est mis sur les problématiques de classification, qu’elles soient supervisée (faire du classement) ou non (faire du clustering) dont les applications en marketing résident entre autres dans la segmentation de clients ou le ciblage de clientèle. Ce module exposera également comment bien appréhender (connaissance de communautés, d’individus influents) un réseau social pour l’utiliser efficacement.

Durant ce module les étudiants seront formés à l’utilisation du logiciel R, logiciel libre dont
l’utilisation dans le domaine académique et professionnel est pleine expansion.

CONNAISSANCES A ACQUERIR
     
  • Connaître différents modèles de régression
  • Connaître différentes méthodes de classification
  • supervisée et non supervisée
  • Savoir analyser un réseau (données
  • relationnelles)
COMPETENCES CIBLES
  • Savoir utiliser des logiciels d'analyse de données
  • Savoir mettre en place une démarche d'analyse de données (modélisation du problème, interprétations des résultats)

Contenu

Introduction
Introduction à la fouille de donnée
Introduction au logiciel R

 
Chapitre 1 : Règles d'association
1. Principes
1.1 Objectifs
1.2 Exemples d'applications
1.3 Formalisation

2. Qu'est-ce-qu'une bonne règle ?
2.1 Le support
2.2 La confiance
2.3 Le Lift

3. Construction des règles
3.1 Les itemset frequents et l'algorithme apriori
3.2 Production de règles via la notion de confiance
3.3 Tri en fonction du Lift
3.4 Suppression des règles redondantes

Chapitre 2 : Régressions et classification supervisée
1 La régression linéaire simple
1.1 Préambule
1.2 La régression linéaire : objectif
1.3 Évaluation du modèle
2 La régression linéaire multiple 5
2.1 La colinéarité
2.2 Les coeficients de détermination
3 Régression logistique
3.1 Objectif
3.2 Limites de la régression linéaire usuelle
3.3 Interprétation en termes de cote
3.4 La regression logistique pour la classification supervisée
3.5 Mesure de la qualité du modèle

Chapitre 3 : Classification non supervisée, approche statistique
1 Introduction : partitions, inerties et distances
2 Centres mobiles (k-means)
3 Classification hiérarchique ascendante (CAH)

Chapitre 4 : Analyse de réseaux (analyse de données relationnelles),
1 Graphes et réseaux : définitions de base
2 Centralités
2.1 Centralité de degré
2.2 Centralité d'intermediarité
2.3 Centralité de proximité
3 Les propriétés fréquemment rencontrées
3.1 La faible densité
3.2 La composante connexe géante
3.3 L'effet petit-monde
3.4 le club-huppé
4 La recherche de communautés
4.1 Dissimilarités entre sommets et CAH
4.2 Autres méthodes

Chapitre 5 : Arbres de décision et segmentation
1 Introduction et objectifs
2 Construction d'un arbre
3 Sélection d'un arbreIntroduction

Bibliographie

OUVRAGES DE REFERENCE :
  • Méthodes Statistiques appliquées au Management (Chapitre 5 : regrouper les individus et segmenter), Corinne Hahn et Sandrine Macé, éditions Pearson
  • Exploration de données et méthodes statistiques. Lise Bellanger et Richard Tomassone, éditions ellipses
  • Statistique exploratoire multidimensionnelle, Visualisation et inférences en fouilles de données. Ludovic Lebart, Marie Piron et Alain Morineau.
OUVRAGES COMPLÉMENTAIRES :
  • Data Mining - introductory and advanced topics, Margarett Dunham, Prentice Hall.
  • Apprentissage Artificiel, Antoine Cornuéjols, Laurent Miclet, Eyrolles

OUVRAGES OU ARTICLES DE RECHERCHE EMBLEMATIQUES SUR LE SUJET DU COURS :


Régression :
  • Foucart, T. Colinéarité et régression linéaire. Mathématiques et sciences humaines. 173 (2006).
  • D.W. Hosmer, S. Lemeshow, Applied Logistic Regression, Second Edition, Wiley, 2000.

Classification non supervisée :
  • Punj, Girish, and David W. Stewart. "Cluster analysis in marketing research: Review and suggestions for application." Journal of marketing research (1983): 134-148.

Réseaux :
  • Freeman L.C. (1979) Centrality in social networks: Conceptual clarification. Social Networks. 1(3):215–239
  • Watts D. J. (2003) Small Worlds: The Dynamics of Networks between Order and Randomness. Princeton University Press, Princeton, 264 pp.

PUBLICATIONS DES ENSEIGNANTS-CHERCHEURS DE L’IAELYON SUR LE SUJET DU COURS :
  • Boulet R., Mazzega P., Bourcier D., Network Analysis of the French Environmental Code, Artificial Intelligence approches to the complexity of legal systems, Lecture Notes in Computer Science, Volume 6237/2010, 39-53, 2010.

Contrôles des connaissances

Examen terminal écrit individuel
  • Interrogation écrite (70%)
  • Devoir maison (30%)

Informations complémentaires

MODALITES PEDAGOGIQUES / NATURE DES SUPPORTS
  • Polycopié de cours
  • Description des cas
  • Fichiers de données
INNOVATIONS PEDAGOGIQUES ET UTILISATION DE NOUVELLES TECHNOLOGIES (TECHNOLOGY ENHANCED LEARNING)