Numérique - Systèmes d'Information

25210008 - Analyse de données

Niveau de diplôme
Crédits ECTS 6
Volume horaire total 36
Volume horaire CM 24
Volume horaire TD 12

Responsables

Objectifs

Ce cours a pour objectif de former les étudiants à l'analyse de données avec d'une part la compréhension mathématique des outils utilisés (comme la régression, l'ACP, etc.) et d'autre part la mise en oeuvre pratique avec un logiciel statistique. La méthodologie à mettre en oeuvre pour analyser un jeu de données et l'analyse critique des résultats est un aspect important de ce cours.

CONNAISSANCES A ACQUERIR
  • Connaître et comprendre les principaux outils d’analyse unidimensionnelle, bidimensionnelle et multidimensionnelle
  • Analyser les données relationnelles (réseaux)
COMPETENCES CIBLES
  • Analyser des données réelles
  • Maîtriser un logiciel de traitement statistique
  • Restituer des résultats d’analyse

Contenu

PLAN DE COURS

Chapitre 0 : Introduction à l’analyse de données et rappels de statistique unidimensionnelle
I – L’analyse de données
1)    Pourquoi faire de l’analyse de données
2)    La démarche du statisticien
II – Analyse unidimensionnelle élémentaire
1)    Vocabulaire
2)    Etude d’une variable quantitative
3)    Etude d’une variable qualitative
III – Tests d’hypothèses

Chapitre 1 : Analyse en composantes principales
I – Introduction et objectifs
II – Point de vue matriciel de l’ACP
1)    Matrice des corrélations
2)    Inerties
3)    Théorie et vocabulaire
III – Résultats et interprétation d’une ACP
1)    Pertinence d’une ACP
2)    Choix du nombre d’axes
3)    Pertinence d’effectuer une rotation
4)    Interprétation des facteurs
5)    Interprétation des individus
6)    Variables et individus supplémentaires

Chapitre 2 : Analyse Factorielle des Correspondances
I – Introduction et objectifs
1)    Introduction
2)    Tableau de contingence et profils
II – Point de vue mathématique de l’AFC
III – Résultats et interprétation d’une AFC
1)    Pertinence d’une AFC
2)    Choix du nombre d’axes
3)    Interprétation des profils

Chapitre 3 : Modèles de régressions
I – Modèle de régression (linéaire) simple
1)    Pertinence d’un modèle de régression linéaire simple
2)    Ecriture du modèle de régression
3)    Evaluation du modèle obtenu
4)    Autres modèles
II – Modèle de régression (linéaire) multiple
1)    Sélection des variables explicatives non redondantes
2)    Sélection des variables explicatives pertinentes
3)    Ecriture du modèle
4)    Evaluation du modèle
5)    Modèle puissance
III – Modèle de régression logistique
1)    Introduction
2)    Le modèle logistique
3)    Etablissement du modèle
4)    Mesure de la qualité du modèle

Chapitre 4 :  Effet d’une variable qualitative sur une variable quantitative
I – Rappels sur les tests de conformité d’une valeur à une norme
II – Tests de comparaison de deux moyennes
III – Comparaison de plusieurs moyennes : l’ANOVA
1)    Présentation de l’ANOVA et conditions d’applications
2)    Statistique de décision et calculs
3)    Tests post-hoc
4)    Cas de violation des conditions d’application de l’ANOVA

Chapitre 5 : Classifications automatiques non supervisées
I – Introduction et formalisation
1)    Objectifs
2)    Notion de distance
3)    Partitions
4)    Mesure de la qualité d’une partition
II – Méthode du k-means
III – Classification Ascendante Hiérarchique
IV – Interprétation des résultats

Chapitre 6 : Analyse de données relationnelles : analyse de réseaux
I – Théorie des graphes
II – Propriétés fréquemment rencontrées dans un réseau
III – Effet petit-monde
IV – Centralités
V – Communautés
VI - Visualisation

Bibliographie

OUVRAGES DE REFERENCE :
  • Corinne Hahn et Sandrine Macé, Méthodes statistiques appliquées au management, Pearson.
  • L. Lebart, A. Morineau, M. Piron, Statistique exploratoire multidimensionnelle, Dunod ed.
  • J.M. Martel, R. Nadeau, Statistique en gestion et en économie, Gaëtan Morin ed.

OUVRAGES COMPLEMENTAIRES :
  • B. Coutrot et F. Droesbeke, Les méthodes de prévision, PUF, Que sais-je ?, 1995.
  • J.M. Bouroche et G. Saporta, L'analyse des données, PUF Que sais-je ?, 1980.
  • Jean de Lagarde, Initiation à l'analyse des données, Dunod, 1998.
  • Michel Volle, Analyse des données, Economica, 1980

Contrôles des connaissances

Epreuve écrite terminale de 3h en fin de semestre : 50%
Epreuve écrite intermédiaire en salle informatique de 1h30 à mi-semestre : 30%
Devoir maison : 15%
QCM en ligne : 5%

Informations complémentaires

PRE-REQUIS EN TERMES DE CONNAISSANCES
Cours de calcul matriciel et la diagonalisation de matrices (cours de "Matrices et Applications" du semestre 5)
Statistiques descriptives (moyennes, variances, coefficient de corrélation)
Statistiques inférentielles (cours du semestre 3) : tests d'hypothèses
Connaissances basiques de Excel.

RESSOURCE(S) A DISPOSITION :
Diverses ressources sont mises à disposition sur le cours Moodle
 

Formations dont fait partie ce cours