25260015 - Analyse de données
Niveau de diplôme | |
---|---|
Crédits ECTS | 4 |
Volume horaire total | 39 |
Volume horaire CM | 24 |
Volume horaire TD | 15 |
Responsables
Objectifs
Ce cours a pour objectif de former les étudiants à l'analyse de données avec d'une part la compréhension mathématique des outils utilisés (comme la régression, l'ACP, etc.) et d'autre part la mise en oeuvre pratique avec un logiciel statistique. La méthodologie à mettre en oeuvre pour analyser un jeu de données et l'analyse critique des résultats est un aspect important de ce cours.
CONNAISSANCES A ACQUERIR
CONNAISSANCES A ACQUERIR
- Connaître et comprendre les principaux outils d’analyse unidimensionnelle, bidimensionnelle et multidimensionnelle
- Analyser les données relationnelles (réseaux)
- Analyser des données réelles
- Maîtriser un logiciel de traitement statistique
- Restituer des résultats d’analyse
Contenu
PLAN DE COURS
Chapitre 0 : Introduction à l’analyse de données et rappels de statistique unidimensionnelle
I – L’analyse de données
1) Pourquoi faire de l’analyse de données
2) La démarche du statisticien
II – Analyse unidimensionnelle élémentaire
1) Vocabulaire
2) Etude d’une variable quantitative
3) Etude d’une variable qualitative
III – Tests d’hypothèses
Chapitre 1 : Analyse en composantes principales
I – Introduction et objectifs
II – Point de vue matriciel de l’ACP
1) Matrice des corrélations
2) Inerties
3) Théorie et vocabulaire
III – Résultats et interprétation d’une ACP
1) Pertinence d’une ACP
2) Choix du nombre d’axes
3) Pertinence d’effectuer une rotation
4) Interprétation des facteurs
5) Interprétation des individus
6) Variables et individus supplémentaires
Chapitre 2 : Analyse Factorielle des Correspondances
I – Introduction et objectifs
1) Introduction
2) Tableau de contingence et profils
II – Point de vue mathématique de l’AFC
III – Résultats et interprétation d’une AFC
1) Pertinence d’une AFC
2) Choix du nombre d’axes
3) Interprétation des profils
Chapitre 3 : Modèles de régressions
I – Modèle de régression (linéaire) simple
1) Pertinence d’un modèle de régression linéaire simple
2) Ecriture du modèle de régression
3) Evaluation du modèle obtenu
4) Autres modèles
II – Modèle de régression (linéaire) multiple
1) Sélection des variables explicatives non redondantes
2) Sélection des variables explicatives pertinentes
3) Ecriture du modèle
4) Evaluation du modèle
5) Modèle puissance
III – Modèle de régression logistique
1) Introduction
2) Le modèle logistique
3) Etablissement du modèle
4) Mesure de la qualité du modèle
Chapitre 4 : Effet d’une variable qualitative sur une variable quantitative
I – Rappels sur les tests de conformité d’une valeur à une norme
II – Tests de comparaison de deux moyennes
III – Comparaison de plusieurs moyennes : l’ANOVA
1) Présentation de l’ANOVA et conditions d’applications
2) Statistique de décision et calculs
3) Tests post-hoc
4) Cas de violation des conditions d’application de l’ANOVA
Chapitre 5 : Classifications automatiques non supervisées
I – Introduction et formalisation
1) Objectifs
2) Notion de distance
3) Partitions
4) Mesure de la qualité d’une partition
II – Méthode du k-means
III – Classification Ascendante Hiérarchique
IV – Interprétation des résultats
Chapitre 6 : Analyse de données relationnelles : analyse de réseaux
I – Théorie des graphes
II – Propriétés fréquemment rencontrées dans un réseau
III – Effet petit-monde
IV – Centralités
V – Communautés
VI - Visualisation
Chapitre 0 : Introduction à l’analyse de données et rappels de statistique unidimensionnelle
I – L’analyse de données
1) Pourquoi faire de l’analyse de données
2) La démarche du statisticien
II – Analyse unidimensionnelle élémentaire
1) Vocabulaire
2) Etude d’une variable quantitative
3) Etude d’une variable qualitative
III – Tests d’hypothèses
Chapitre 1 : Analyse en composantes principales
I – Introduction et objectifs
II – Point de vue matriciel de l’ACP
1) Matrice des corrélations
2) Inerties
3) Théorie et vocabulaire
III – Résultats et interprétation d’une ACP
1) Pertinence d’une ACP
2) Choix du nombre d’axes
3) Pertinence d’effectuer une rotation
4) Interprétation des facteurs
5) Interprétation des individus
6) Variables et individus supplémentaires
Chapitre 2 : Analyse Factorielle des Correspondances
I – Introduction et objectifs
1) Introduction
2) Tableau de contingence et profils
II – Point de vue mathématique de l’AFC
III – Résultats et interprétation d’une AFC
1) Pertinence d’une AFC
2) Choix du nombre d’axes
3) Interprétation des profils
Chapitre 3 : Modèles de régressions
I – Modèle de régression (linéaire) simple
1) Pertinence d’un modèle de régression linéaire simple
2) Ecriture du modèle de régression
3) Evaluation du modèle obtenu
4) Autres modèles
II – Modèle de régression (linéaire) multiple
1) Sélection des variables explicatives non redondantes
2) Sélection des variables explicatives pertinentes
3) Ecriture du modèle
4) Evaluation du modèle
5) Modèle puissance
III – Modèle de régression logistique
1) Introduction
2) Le modèle logistique
3) Etablissement du modèle
4) Mesure de la qualité du modèle
Chapitre 4 : Effet d’une variable qualitative sur une variable quantitative
I – Rappels sur les tests de conformité d’une valeur à une norme
II – Tests de comparaison de deux moyennes
III – Comparaison de plusieurs moyennes : l’ANOVA
1) Présentation de l’ANOVA et conditions d’applications
2) Statistique de décision et calculs
3) Tests post-hoc
4) Cas de violation des conditions d’application de l’ANOVA
Chapitre 5 : Classifications automatiques non supervisées
I – Introduction et formalisation
1) Objectifs
2) Notion de distance
3) Partitions
4) Mesure de la qualité d’une partition
II – Méthode du k-means
III – Classification Ascendante Hiérarchique
IV – Interprétation des résultats
Chapitre 6 : Analyse de données relationnelles : analyse de réseaux
I – Théorie des graphes
II – Propriétés fréquemment rencontrées dans un réseau
III – Effet petit-monde
IV – Centralités
V – Communautés
VI - Visualisation
Bibliographie
OUVRAGES DE REFERENCE :
OUVRAGES COMPLEMENTAIRES :
- Corinne Hahn et Sandrine Macé, Méthodes statistiques appliquées au management, Pearson.
- L. Lebart, A. Morineau, M. Piron, Statistique exploratoire multidimensionnelle, Dunod ed.
- J.M. Martel, R. Nadeau, Statistique en gestion et en économie, Gaëtan Morin ed.
OUVRAGES COMPLEMENTAIRES :
- B. Coutrot et F. Droesbeke, Les méthodes de prévision, PUF, Que sais-je ?, 1995.
- J.M. Bouroche et G. Saporta, L'analyse des données, PUF Que sais-je ?, 1980.
- Jean de Lagarde, Initiation à l'analyse des données, Dunod, 1998.
- Michel Volle, Analyse des données, Economica, 1980
Contrôles des connaissances
Epreuve écrite terminale de 3h en fin de semestre : 50%
Epreuve écrite intermédiaire en salle informatique de 1h30 à mi-semestre : 30%
Devoir maison : 15%
QCM en ligne : 5%
Epreuve écrite intermédiaire en salle informatique de 1h30 à mi-semestre : 30%
Devoir maison : 15%
QCM en ligne : 5%
Informations complémentaires
PRE-REQUIS EN TERMES DE CONNAISSANCES
Cours de calcul matriciel et la diagonalisation de matrices (cours de "Matrices et Applications" du semestre 5)
Statistiques descriptives (moyennes, variances, coefficient de corrélation)
Statistiques inférentielles (cours du semestre 3) : tests d'hypothèses
Connaissances basiques de Excel.
RESSOURCE(S) A DISPOSITION :
Diverses ressources sont mises à disposition sur le cours Moodle
Cours de calcul matriciel et la diagonalisation de matrices (cours de "Matrices et Applications" du semestre 5)
Statistiques descriptives (moyennes, variances, coefficient de corrélation)
Statistiques inférentielles (cours du semestre 3) : tests d'hypothèses
Connaissances basiques de Excel.
RESSOURCE(S) A DISPOSITION :
Diverses ressources sont mises à disposition sur le cours Moodle