" alt="image de haut de la page, elle sert de décoration.">



walking Introduction et Sommaire de la séance

Cette première séance du deuxième Bloc s’intéresse à l’analyse (représentations numérique et imagée) de la distribution des données. Cet ensemble de représentation constitue l’une des opérations élémentaires en analyse de données (ainsi qu’en statistiques descriptives), la finalité étant de décrire les données de la distribution à l’aide d’un ensemble d’indicateurs.

L’organisation et la représentation des données est l’étape consécutive à l’opération de collecte des données. Les données disponibles doivent subir une série de transformation en vue de les rendre plus lisibles et par conséquent exploitables pour les besoins de l’analyse statistique.

En statistiques descriptives, la première étape de l’analyse concerne la prise de variables unes à unes d’où le nom d’analyse univariée qu’on lui attribue. L’analyse univariée opère de deux manières complémentaires : la représentation des données (construction des tableaux de distribution et des graphiques), et le calcul des mesures relatives et des mesures descriptives (de tendances centrales, de position et de dispersion). Les représentations, numérique et graphique, de la distribution permettent de donner une image globale du phénomène étudié, de son orientation. Il s’agira par la suite de calculer un certain nombre d’indices pour pouvoir simplifier la masse d’informations contenue dans notre distribution afin de pouvoir en donner une interprétation suivant les hypothèses de notre recherche.

Dans un travail de recherche, il n'est pas souvent nécessaire de prendre en considération les divers indicateurs statistiques pour pouvoir rendre compte du phénomène à l'étude. L'expérience de la recherche, entendue dans un sens large, nous fournira un avis éclairé quant à la prise de décision par rapport aux éléments à présenter dans l'analyse de nos données d'enquête.

Les statistiques descriptives sont un ensemble d’indices ayant pour but d’exprimer en chiffres les caractéristiques principales de la distribution des données dans l’objectif de les interpréter. Les statistiques descriptives univariées peuvent être regroupées en trois grandes familles : les mesures de tendance centrale, les mesures de position et les mesures de dispersion. D’autres indices peuvent être calculés, nous en donnerons l’exemple à la fin de la présente section.

Cette séance et les deux qui vont suivre (les mesures de dispersion et les mesures de position) s’attachent à caractériser la distribution des fréquences obtenu après les regroupements opérés sur des données brutes. Le regroupement et le tri des données brutes donne une image d’ensemble de la distribution, les mesures ont pour objectif de décrire les caractéristiques de la distribution. L'analyse des données s’appuie sur un langage d’indices afin de résumer l’essentiel des informations contenues dans une série de données. Les indices statistiques offrent une vue d’ensemble sur les données étudiées.

Lorsque nous déterminons les paramètres de tendance central, ces derniers nous permettent de connaître ce qui se passe au milieu de notre distribution de données. Seulement, avec des indices identiques de tendance centrale, deux, voire, plusieurs séries de données peuvent se distribuer de manière différente, on dit que ces dernières s’écartent des valeurs de tendance centrale. Avec les mêmes résultats pour les paramètres de tendance centrale, les observations peuvent être très proches ou très éloignées des valeurs centrales, on ne peut donc compter uniquement sur les valeurs centrales, pour comprendre notre série et pouvoir l’analyser, on s’intéressera à ce titre aux paramètres qui nous décrivent la dispersion des données autour du centre. Les mesures de tendance centrale fournissent des informations qui renseignent sur le centre de la distribution. Elles présentent toutefois des limites lorsque les données d’une distribution sont assez dispersées au point que ces mesures ne rendent pas fidèlement compte des données observées. Les mesures de dispersion peuvent être considérées comme complémentaires à celles visant à décrire ce qui se passe au centre de la distribution. Enfin, les mesures de positions permettent pour leur part de donner la position spécifique d'une donnée dans notre distribution.

Durant les trois séances qui composent ce cours, vous serez accompagné par un Exemple Guide, qui est une enquête fictive portant sur l'usage du réseau social Facebook. Cet exemple vous aidera à comprendre, en utilisant ses données, comment calculer et interpréter les données de l'analyse univariée, pour avoir accès à l'Exemple Guide, vous cliquez sur le bouton situé à droite de ce texte principal.

Vous trouverez dans ce cours deux types d’éditeurs ainsi que des commandes permettant de travailler avec le langage Python.
Les éditeurs, Éditeur de graphiques et Éditeur de données. Deux types d’éditeurs ont été intégrés, l’Éditeur permettant de représenter une variable qualitative, un autre permettant de tracer des diagrammes pour les variables quantitatives. Afin de calculer les indices statistiques, bases de l’analyse univariée, on a aussi incorporé deux formes d’ Éditeurs de données, ils vous permettront, à partir des données que vous allez insérer, calculer les paramètres que nous allons développer dans ce Cours.
À la fin de ce cours, vous trouverez en téléchargement une Fiche Commandes Python, cette dernière vous aidera à mieux utiliser le langage afin de calculer les indicateurs vus durant le cours et construire les graphiques adéquats. Vous pouvez vous appuyer sur le GSE (Google Search Engine) qui se situe dans la barre de navigation pour d’ample explications, des indications sont aussi insérer dans la section Pour aller plus loin.


define-location Objectifs de la séance

Durant cette séance, nous visons les objectifs suivants :

  • La représentation numérique des données :
    Nous visons, dans ce cours, à nous familiariser avec les tableaux statistiques. Les tableaux statistiques sont les premiers à être établis lorsqu'il s'agit d'avoir un regard général, global, sur les données. Nous nous intéresserons à la typologie ainsi qu'au contenu d'un tableau statistique (univarié), nous essayerons aussi de donner les bases de la construction des tableaux statistiques suivant les styles bibliographiques les plus usitées en sciences humaines et sociales ( le lecteur trouvera dans le volet Annexe toute une section réservée à la rédaction bibliographique suivant les normes styles APA, CHICAGO et le TURABIAN ) ;

  • La représentation imagée des données :
    Les graphiques, et diagrammes, sont l'autre manière de présenter les données. Nous expliquerons dans ce cours comment construire cette représentation imagée des données suivant l'intérêt ainsi que les objectifs du chercheur. Dans un second temps, nous expliquerons aussi comment travailler avec les graphiques pour obéir aux exigences d'un style bibliographique donnée, les étudiants peuvent se servir de l'éditeur de graphiques contenu dans le présent Cours pour faire des simulations, s’exercer ou tout simplement apprendre de façon approfondie à l’aide des exemples proposés dans l’éditeur ;

  • Définir les indices de tendance centrale que sont : Le Mode, La Médiane et la Moyenne
    La reconnaissance et la définition des paramètres de tendance centrale est une tâche importante dans le travail d’analyse des données, ce travail vous permettra par la suite de faire un choix judicieux dans l’interprétation des données issues de l’enquête. Nous avons inséré un éditeur numérique, permettant de calculer chaque indice en fonction des données insérées, vous pourrez ainsi vous entrainez à tout moment ;

  • Calculer les indices et les produire dans un logiciel d’analyse de données
    Nous avons, comme signalé dans le tout premier cours, privilégié une approche analytique consistant à calculer les indices statistiques à la main puis à l’aide du logiciel pour bien saisir l’origine de chaque indice ainsi que son rôle dans le processus d’analyse. Au côté du compilateur Python, vous pourrez travailler aussi avec les versions en ligne de SPSS et du JAMOVI (Je les remercie au passage pour l’appui dont j’ai bénéficié de la part des groupes de ces deux géants de la DataLogie) ;

  • Définir, calculer, les indices de dispersion et de position :
    Cette séance est aussi l'occasion pour calculer des mesures de dispersion, nous verrons ainsi comment réaliser ce travail. Comme signalé auparavant, vous pouvez recourir à l'usage de l'éditeur numérique pour des exemples réels ;

  • Appliquer les connaissances acquises sur un cas particulier :
    L’exemple guide que nous avons inséré au tout début du cours nous servira, à juste titre, d’une première immersion dans l’univers de l’interprétation des données. Nous allons tenter de donner une signification aux résultats obtenus ;

  • Interpréter les résultats :
    L’analyse des données se basant en partie sur l’interprétation qui en est faite des indices, nous verrons comment intégrer cette interprétation dans vos prochaines analyses. Cet objectif est primordial, en effet vous devriez, à la fin de ce cours, être en mesure de passer du simple calcul d’un indice à son interprétation, ce travail confortera vos propos lors de la composition de votre enquête ;

concept Concepts et thèmes à aborder durant la séance

Représentation des données, tableau statistique, diagramme, graphique, typologie de tableau, typologie des diagramme, Les mesures de tendance centrale, le mode, la médiane, la moyenne, la classe modale, la distribution uniforme, la distribution unimodale, la distribution bimodale, la distribution multimodale, la classe médiane, étendue, variance, écart moyen, écart-type, coefficient de variation, le rang, le rang mitoyen, le rang percentiles (les déciles – les centiles – les quartiles), la valeur étalon z, la valeur étalon T.


Présentation du Bloc

1La distribution des données

Les données brutes . Pour pouvoir effectuer une analyse univariée, il faudrait disposer de données brutes décrivant les caractéristiques de la population (de l’échantillon) concerné (e). Les données brutes sont des données non traitées, leur compilation sous forme d’une distribution des données’ (on dit aussi série statistique) constitue la première-étape de la présentation, du traitement et de l’analyse descriptive des données.

Afin d’établir une distribution des données, on devra déterminer les effectifs qui composent chaque modalité (ou valeur) de la variable étudiée.

1.1. Les tables de fréquences

Lorsque les données brutes sont organisées dans un tableau, on obtient ce que l’on appelle un tableau de données .

En sciences humaines et sociales, les tableaux sont des outils nécessaires à la recherche, ils remplissent certaines fonctions qui permettent de mieux appréhender le phénomène étudié.

Il existe trois types de tableaux statistiques : les tableaux de données (nous nous contenterons pour l’instant d’une introduction à la nature de ces tableaux, l’étudiant aura de plus amples explications dans la partie consacrée au traitement informatique des données à l’aide d'un programme dédié), les tableaux de distribution de variables et les tableaux de contingences qui intéressent le présent chapitre et qui seront traités dans les sections qui suivent.

Le tableau de données

Dans une recherche, les tableaux de données sont les premiers à être construits, ils servent au dépouillement des données, communément appelé Tri à plat. Un tableau de données est volumineux et chaque cellule qui le compose renseigne sur une information qui caractérise le sujet.

Un tableau de données se compose principalement de deux marges : la liste des sujets et la liste des variables [la liste des sujets est une liste numérique ou alphabétique, servant à recenser et à identifier les sujets à l’étude : le numéro des questionnaires dans notre cas. La liste des variables permet de renseigner sur les caractéristiques des variables considérées : VAR001, VAR002, etc. [cela étant, elle constitue des listes numératives de données brutes prélevées sur un ensemble large de sujets].

Tableau de distribution d’une variable

Un tableau de distribution d’une variable est un tableau construit après extraction d’une ou de plusieurs colonnes du tableau de données.

Un tableau de distribution d’une variable est un tableau de juxtaposition, il reproduit fidèlement le contenu d’une ou de plusieurs colonnes du tableau de données prises de manière séparées.
Un tableau de distribution d’une variable est généralement constitué de trois marges :

  • Une marge qui regroupe les modalités ou les valeurs de la variable, notée \(x_i\) ;
  • Une marge qui identifie les effectifs respectifs de chaque modalité (ou de chaque valeur) notée \(n_i\) [éventuellement une autre colonne pour les fréquences notées \(f_i\) ou les pourcentages notés \(\%\) ] ;
  • Une marge de Totaux, parfois identifiée à l’aide de la lettre Sigma (\(\sum\)) qui permet de noter la somme des effectifs, des fréquences ou des pourcentages (d’autres sommes peuvent être calculées, elles feront l’objet de développement dans les sections suivantes).

Le tableau ci-après illustre l’idée du tableau de distribution d’une variable quantitative de notre exemple [le mécanisme est le même pour tous les types de variables] :

Age (ans) \(n_i\) \(\%\)
20 40 40
21 20 20
22 15 15
23 10 10
24 15 15
\(\sum\) 100 100
Tableau II.1.1. Distribution des enquêtés selon l'âge.
1.2. Représentations graphique et numérique

L’élaboration préalable d’un tableau simplifie la construction du graphique. Le choix d’un type de graphique est conditionné par la nature de la variable, son échelle de mesure et le type de regroupement de données effectué.

Variable qualitative

Deux types de graphiques pour la représentation d’une variable qualitative : diagramme à colonnes et diagramme à secteurs.

Définition II.1.1 : Diagramme à colonnes (à bandes)

Le diagramme à colonnes comporte deux axes perpendiculaires. Sur l’axe horizontal (l’axe des modalités de la variable), on représente les modalités de la variable à l’aide de segments d’axe de largeur égale, on veillera à les séparer par des espaces égaux. Sur l’axe verticale(nombre d’unités, pourcentages), on porte les fréquences (ou pourcentages), pour chaque segment associé à une modalité, on construit un rectangle dont la hauteur est proportionnelle à la fréquence (ou au pourcentage) de la modalité, selon une échelle appropriée.

Définition II.1.2 : Diagramme à secteurs

Un digramme circulaire est un diagramme constitué d’un cercle ‘divisé en secteurs, chaque secteur ayant un angle au centre proportionnel à la grandeur représentée (Dodge, 2007, 129-130). Les diagrammes circulaires servent surtout à présenter des données qui, une fois rassemblées, forment un tout.

Considérons le tableau de fréquences suivant [tiré à partir de notre exemple] :

Sexe \(n_i\)
Masculin 60
Féminin 40
\(\sum\) 100
Tableau II.1.2. Distribution des enquêtés selon le sexe.

Nous aurons les résultats suivants (concernant) les deux types de représentations graphiques qui lui sont associées :

Figure II.1.1. Diagramme à colonnes de la distribution des enquêtés selon le sexe. Figure II.1.2. Diagramme circulaire de la distribution des enquêtés selon le sexe.
Normes de présentation d’un graphique
Les indications qui suivent sont des normes partagées par la plupart des styles bibliographiques de rédaction, dans le volet Annexe, un exposé est fait des diverses normes se rapportant à chaque style de rédaction.

  • On lui attribue un titre identique à celui d’un tableau de distribution d’une variable ;
  • On numérote le graphique ;
  • On énumère les modalités (ou on nomme les axes et les unités de mesure), sinon on ajoute une légende qui explique les symboles utilisés ;
  • On insère un commentaire.
Explorez l’Éditeur de Graphiques

Découvrez l’éditeur de graphiques pour les variables qualitatives. Cliquez sur le lien ci-dessous pour essayer d’introduire des modalités et des données. Apprenez et maîtrisez les bases de manière interactive et ludique.

Accéder à l'Éditeur

Variable quantitative

La représentation, et le traitement, d’une variable quantitative est plus complexe que celui concernant une variable qualitative. La représentation graphique d’une variable quantitative dépend principalement de deux paramètres : le nombre d’observations (relatif à la population N, ou à l’échantillon n), et le nombre de valeurs que prend la variable étudiée (quel que soit la catégorie : discrète ou continue).

La variable quantitative se décline en trois grandes catégories de données : les données isolées, les données groupées par valeurs, et les données groupées par classe.

Les données isolées

On parle de données isolées lorsque la taille (N) de la population est inférieure à 20 unités. On est en présence d’une faible quantité de données. Notons au passage que cette condition ne possède aucune assise théorique, elle est fondée sur une expérience pratique.

Dans le cas de données isolées, la construction d’un tableau de distribution n’aura pas de signification particulière ; on regroupera alors les données par ordre ascendant.

Les données groupées par valeurs

Les données sont dites regroupées par valeurs, lorsque le nombre de valeurs différentes de la variable est faible par rapport à la taille de la population N (ou à la taille de l’échantillon n) et que ce dernier est supérieur à 20.

Le traitement des données groupées par valeurs reste le même que celui vu concernant le traitement d’une variable qualitative. La construction d’un tableau de distribution des fréquences obéit à la même logique, à une exception : la colonne des modalités est remplacée par une colonne de valeurs.

La présentation numérique d’une variable quantitative discrète se fait donc à l’aide d’un tableau de distribution de variables dans lequel la première colonne contient les valeurs de la variable, la seconde est la colonne des fréquences. On rajoutera, au besoin, une troisième colonne pour les pourcentages.

Le tableau suivant présente la distribution d'une variable quantitative discrète.

Nombre de Frères et Sœurs Effectifs \(\%\)
0 10 10
1 17 17
2 40 40
3 20 20
4 7 7
5 6 6
\(\sum\) 100 100
Tableau II.1.3. Distribution de l’échantillon selon le nombre de frères et sœurs
Représentation graphique

On représente une variable quantitative discrète, lorsque les données sont regroupées par valeurs, qui sont différentes, à l’aide d’un diagramme en bâtons. Un diagramme en bâtons est composé de deux axes perpendiculaires, sur l’axe horizontal, on portera les diverses valeurs de la variable, et sur l’axe vertical seront portées les valeurs correspondantes (ou les effectifs). On élève perpendiculairement à l’axe des valeurs, et vis-à-vis de chacune d’elles, un segment de droite, appelé bâton, dont la largeur est proportionnelle à la fréquence ou au pourcentage de la valeur.

Explorez l’Éditeur de Graphiques

Découvrez l’éditeur de graphiques pour les variables quantitatives discrètes. Cliquez sur le lien ci-dessous pour essayer d’introduire des valeurs et des données. Apprenez et maîtrisez les bases de manière interactive et ludique.

Accéder à l'Éditeur

Tous les éditeurs sont accessibles dans le volet Annexe du présent Cours.

Les données regroupées en classes

Les données sont regroupées en classes lorsque le nombre de valeurs de la variable est proche de N ou n (et que n ou n est supérieur "ou égal à 20). Dans-le cas de données très différentes, il devient très difficile (voir impossible) de les considérer comme des valeurs isolées, et la construction d’un tableau de distribution de la variable s’avère inutile dans ce cas car on aura un nombre important de fréquences égales à 1. Il convient donc de les regrouper en classes en respectant un certain nombre de principes.

Afin de regrouper ce genre de données, on doit les inclure dans des classes.

La présentation numérique des données groupées en classes consiste en un tableau de distribution de variables qui est constitué d’une colonne réservée aux classes et d’une seconde colonne réservée aux fréquences.

Le tableau suivant représente la distribution de données groupées en classes de la variable « âge » de notre exemple.

Age (Ans) Effectifs \(\%\)
[20-21[ 40 40
[21-22[ 20 20
[22-23[ 15 15
[23-24[ 10 10
[24-25[ 15 15
\(\sum\) 100 100
Tableau II.1.3. Distribution de l’échantillon selon l’âge

Remarque : Pour les besoins d’autres calculs d’indices statistiques, il peut être utile d’ajouter des colonnes au tableau précédent, il s’agit surtout du calcul des amplitudes, des centres de classes, etc.

La représentation graphique

Une distribution de fréquences de données groupées en classes peut être représentée de deux façons: l’histogramme et le polygone de fréquences.

Diagrammes

Définition II.1.3 : Histogramme

L'histogramme est une représentation graphique de la distribution de données quantitatives. Il se compose de barres verticales dont la hauteur est proportionnelle à la fréquence ou à la proportion des valeurs dans chaque intervalle de classe.

Définition II.1.4 : Polygone de fréquences

Le polygone de fréquences est une ligne brisée qui relie les sommets des barres de l'histogramme. Il permet de visualiser la distribution des données de manière continue et met en évidence les tendances et les variations.

La représentation graphique de la variable âge de notre exemple guide donne les résultats suivants :

Figure II.1.3 : Histogramme de la distribution

Explorez l’Éditeur de Graphiques

Découvrez l’éditeur de graphiques pour les variables quantitatives continues. Cliquez sur le lien ci-dessous pour essayer d’introduire des classes et des données. Apprenez et maîtrisez les bases de manière interactive et ludique.

Accéder à l'Éditeur

Tous les éditeurs sont accessibles dans le volet Annexe du présent Cours.


Remarque : dans le cas d'une variable quantitative continue nous avons pour habitude de calculer un certain nombre d’indices relatifs aux indicateur statistiques, il s’agit surtout de l’amplitude et du centre de classes, des fréquences cumulées (croissantes et décroissantes) , la séance qui suit et qui traite des paramètres de tendances centrales sera l’occasion de revenir sur ces calculs.



2Les paramètres de tendance centrale

Les mesures de tendance centrale cherchent à mettre en évidence le centre de la distribution des fréquences. Les mesures de tendance centrale sont : le mode, la médiane et la moyenne .

Remarque : Nous présenterons dans cette séance les principales mesures de tendance centrale qui servent à l’analyse des données en sciences humaines et sociales. Cette présentation n’est pas fortuite, puisqu’elle servira à étudier, de manière plus pratique, l’interprétation des données contenues dans le premier fascicule d’apprentissage du logiciel d'analyse.

À la fin de cette section, vous retrouverez le Tableur vous permettant de calculer l'ensemble des paramètres de tendance centrale, de dispersion et de position, le même Tableur est disponible dans la partie Annexe de ce cours.

2.1. Le Mode \(M_o\)

Le mode (noté \(M_O\)) est la mesure de tendance centrale la plus simple à appréhender.

Remarque. Le mode et l’unique mesure de tendance centrale que l’on peut évaluer quel que soit la nature de la variable. Pour une variable qualitative, le calcul de la médiane ou de la moyenne s’avère sans signification.

Définition II.2.1 : Le Mode

Le mode représente la modalité (ou la valeur) qui possède l’effectif le plus élevé. Lorsqu’une série de données présente deux modalités possédant l’effectif le plus élevé, on parle de série Bimodale..

Dans notre enquête, et pour la variable Sexe (VAR001), le Mode est : Masculin, car étant la modalité la plus représentée en effectif (60%).
Pour la variable nombre de frères et sœurs, le Mode est de : 3 (frères et sœurs) (40% de l'effectif)

Le calcul du mode pour une variable qualitative
Dans le cas d’une variable qualitative, le mode représente la modalité la plus fréquente de la distribution des fréquences.
Visuellement, la modalité est représentée par le rectangle le plus haut dans le digramme à colonnes, le secteur le plus élevé dans le diagramme circulaire.

Exemple :
Dans notre enquête, nous avons déjà tracé deux graphiques représentant la variable Sexe. A partir de la représentation sous forme de diagramme circulaire ou à barres, nous constatons que le Mode de notre série est le sexe : Masculin

Figure II.2.1. Répartition de l'échantillon selon le Sexe

Le calcul du mode pour une variable quantitative
Si la variable à étudier est quantitative, le mode représente la valeur la plus fréquente de la série statistique.
Selon le type de données, le mode peut être directement calculé ou estimé.

Cas de données isolées

Dans le cas de données isolées, le mode est la valeur qui a le plus grand nombre d’ occurrences

Exemple

Dans la série suivante : 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6. Le Mode \(M_o\) est le chiffre 4 puisque c’est ce dernier qui possède le plus de fréquences (qui se répète le plus).

Cas de données groupées par valeurs

La définition reste la même que celle vue avant, le Mode est la valeur ayant la fréquence (le pourcentage) le plus élevé dans le tableau de distribution, graphiquement, le segment le plus haut dans le diagramme à bâtons.

Exemple

Dans notre tri-à-plat du travail sur SPSS, nous pouvons établir le tableau montrant la variable Nombre de frères et sœurs suivant :

Figure II.2.2. Distribution de l’échantillon selon le nombre de frères et sœurs

Sur le graphique à bâtons de la distribution, nous pouvons aussi constater que bâton le plus élevé est celui représentant un nombre de frères et sœurs égal à : 2

Table II.2.1. Distribution de l’échantillon selon le nombre de frères et sœurs

Cas de données groupées en classes

Dans le cas de données groupées en classes, on ne peut pas déterminer une valeur unique du Mode, mais repérer la classe modale.
En ne sachant pas la valeur exacte du Mode, on prend généralement le centre de classe \( (c_i)\) comme valeur estimative du Mode.

Définition II.2.2 : Le centre de classe \( (c_i)\)

Le centre de classe représente le point central d'une classe dans une distribution de fréquences

Pour calculer le centre de classe, on utilise la formule suivante :

\(\text{Centre de classe} = \frac{\text{Borne inférieure} + \text{Borne supérieure}}{2}\)

Avec :
Borne inférieure : la limite inférieure de la classe,
Borne supérieure : la limite supérieure de la classe.

Certains auteurs calculent à l’aide d’une formule la valeur exacte du Mode. En ce qui concerne le présent cours, il n’est pas indispensable de procéder au calcul.

Visuellement, on peut repérer le Mode dans l’histogramme, le Mode correspond au centre de classe de la barre la plus élevée de l’histogramme.
L’exemple suivant représente l’histogramme de la variable âge de notre tri-â-plat.

Figure II.2.3. Histogramme de la variable âge


Nous constatons que la classe modale est celle allant de 20 à 22 ans, ce qui signifie que le mode de notre série est de 21 (qui est le centre de cette classe).
Une distribution qui ne possède pas de mode visuellement visible est dite une distribution uniforme.

2.2. La médiane \(M_d\)

La Médiane (notée \(M_d\)) est une autre mesure de tendance centrale qui représente un intérêt certain pour le chercheur, la médiane est la valeur (ou la modalité) qui partage les données en deux parties égales.

Définition II.2.2 : La Médiane \(M_d\)

La médiane est la valeur (ou la modalité) qui partage les données en deux parties égales.

Dans notre exemple, et pour la variable Niveau d’étude (VAR003), la médiane est : deuxième année, puisque 55% (plus de 50%, donc de la moitié) des étudiants interrogés sont en première, ou en deuxième, année.

Afin de pouvoir évaluer, ou calculer, la médiane, il faut pouvoir ordonner les données. Dans le cas d’une variable qualitative nominale, une telle opération ne peut être réalisée, la médiane n’a de sens que dans le cas d’une variable qualitative ordinale ou d’une variable quantitative.

Cas des données isolées

Dans le cas de variable quantitative isolée, la médiane est la donnée centrale si le nombre de ces dernières est impair. Si le nombre de données est pair, la médiane se situera à mi-distance des deux valeurs centrales, comme indiqué dans les deux formules suivantes :

N (ou n) impair : $$\color{RoyalBlue}{{\text{Md}}} = \left(\frac{n+1}{2}\right)^{e} donnée $$

Exemple :
Dans la série suivante : 1, 1, 1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 5, nous remarquons qu’il y a 13 observations. Puisque \(n\) représentant le nombre d’observations est un nombre impair, nous choisissons comme médiane le 2 car c’est le nombre se trouvant à la septième place, comme indiqué ci-après :

\(\underbrace{1, 1, 1, 1, 2, 2}_\text{Six observations} ~~~~ \underbrace{2}_\text{La médiane} ~~~~\underbrace{3, 3, 4, 4, 4, 5}_\text{Six observations}\)

N (ou n) pair : $$M_d = la~ mi-distance~ entre~ \left(\frac{n}{2}\right)^e ~et~ \left(\frac{n+1}{2}\right)^{e} donnée $$

Exemple :
Dans la série précédente nous allons ajouter un chiffre, chiffre 6 par exemple : 1, 1, 1, 1, 2, 2, 2, 3,3, 4, 4, 4, 5, 6. Nous remarquons qu’il y a maintenant 14 observations. Puisque \(n\) représentant le nombre d’observations est un nombre pair, nous choisissons comme médiane la mi-distance entre la 7e et la 8e observation comme indiqué ci-après :

\(\underbrace{1, 1, 1, 1, 2, 2}_\text{Six observations} ~~~~ \underbrace{\frac{2 + 3}{2}}_\text{La médiane} ~~~~ \underbrace{3, 4, 4, 4, 5,6}_\text{Six observations}\)

Nous dirons donc que la médiane est égale à : 2,5 .

Cas de données groupées par valeurs

La définition reste la même que pour une variable qualitative ordinale. Pour déterminer la médiane, on calculera d’abord les pourcentages cumulés de la distribution de données ; on déterminera ensuite la première valeur à laquelle correspond 50% ou plus des pourcentages cumulés.

Remarque : lorsque le pourcentage cumulé d’une valeur correspond exactement à 50%, la médiane sera le nombre situé à mi-distance entre la valeur dont le pourcentage cumulé est 50% et la valeur suivante.

Exemple :
Dans notre exemple guide, nous allons calculer la Médiane pour la variable nombre de frères et sœurs, ce qui nous donne le résultat suivant :


Figure II.2.4. Valeur de la médiane de la variable nombre de frères et sœurs, calcul SPSS


Cas de données groupées par classes

Pour déterminer la médiane dans le cas de données groupées en classes, on suit généralement les étapes suivantes :

  • Détermination de la classe médiane et de sa borne inférieure : la classe médiane est la première classe dont le pourcentage cumulé excède 50% ;
  • On détermine la fréquence de la classe médiane ;
  • On détermine la fréquence cumulée de la classe qui précède la classe médiane.

On applique ensuite la formule suivante :

\(M_d= L+\left[\frac{ { \frac{n}{2}} - \sum f_{inf}}{f_{Md}} \right]* c\)

Remarque : la même formule peut être appliquée en remplaçant les fréquences par des pourcentages.

Dans notre exemple, nous calculons la médiane pour la variable âge comme suit :

\(M_d= 20+\left[ \frac {50 -0} {75} \right]* 2 = 21\)
2.3.La moyenne

La moyenne est l’une des mesures de tendance centrale les plus utilisées dans la recherche en sciences humaines.
Le terme Moyenne regroupe plusieurs types : moyenne géométrique, quadratique , etc. Dans notre cas, nous utilisons le terme Moyenne pour signifier la moyenne arithmétique calculée en analyse de données.

Définition II.2.3 : La Moyenne arithmétique \(\bar x\)

La moyenne arithmétique est le rapport de la somme des effectifs pondérés sur le nombre d’observations (N ).

Dans notre exemple, pour la variable nombre de frères et sœurs (VAR004), la moyenne arithmétique est égale à : 2 (frères et sœurs).

Remarque : On parle de moyenne arithmétique usuelle, lorsque on traite une variable dont les données sont limitées (qui ne nécessitent pas de pondération). Cette définition est rarement ou pas utilisée dans la recherche.

Lorsqu’il s’agit du calcul de la moyenne de la population nous employons la notation : \(\mu_x\), (qui se lit mu indice x), la notation \(\bar x\) (lire x barre) s’utilise dans le cas d’un échantillon. Cette dernière idée est à mémoriser, car nous en aurons besoins lors des opérations d’inférence.

De façon générale, et comme dans le cas de la médiane, la moyenne ne peut pas être calculée pour une variable qualitative nominale, elle l’est pour une variable qualitative ordinale si certaines conditions sont respectées. Le calcul de la moyenne est surtout significatif dans le cas d’une variable quantitative.

De manière simple, la moyenne est donnée par la relation suivante :

Pour une population :

\(\mu_x = \frac {Somme~ de~ toutes ~les~ données~ de~ la~ population} {Nombre ~total~ des~ données~ de~ la~ population } \)

Pour un échantillon :

\(\bar x = \frac {Somme~ de~ toutes ~les~ données~ de~ l'échantillon} {Nombre ~total~ des~ données~ de~ l'échantillon } \)

Cas d’une variable qualitative

Dans le cas d’une variable qualitative à échelle ordinale, le calcul de la moyenne est possible à condition d’avoir préalablement codé les modalités de la variable. La définition du calcul de la moyenne reste la même que celle vue plus haut.

Cas d’une variable quantitative

Le calcul d’une moyenne pour une variable quantitative obéit à la même logique vue plus haut, il y a une différence lorsque la variable considérée est quantitative continue, ce qui fait intervenir le centre de classe comme dans le cas du calcul de la médiane vue précédemment.

Calcul de la moyenne pour des données isolées

Dans le cas de données isolées, le calcul de la moyenne consiste en l’addition de toutes les valeurs de la variable et leur division sur leur nombre, tel qu’écrit dans la formule suivante :

Pour la population :

\(\mu_x = \frac {\sum \chi_i } {N}\)

Pour l’échantillon :

\(\bar \chi = \frac {\sum \chi_i } {n}\)


Exemple : considérons la série suivante : 1, 3, 4, 5, 5, 6, 6, 7, 8, 9, 11, 12, 13, 30, 30.

En reprenant la définition de la moyenne arithmétique, on aura le résultat suivant :

\(\bar \chi = \frac {\sum \chi_i } {n} = \frac {1+3+4+5+5+6+6+7+8+9+11+12+13+30+30 } {15} = \bar \chi = \frac {150} {15} = 10 ~~ , ~~ \bar{\chi} = 10 \)


Calcul de la moyenne pour des données groupées par valeurs
Lorsque les données sont groupées par valeurs, la formule s’applique avec un ajustement : la moyenne est pondérée suivant les fréquences \((n_i)\) respectives qui représentent chaque valeur.

Ainsi la formule à utiliser pour les données groupées par valeurs s’écrit de cette manière :

Pour la population :

\(\mu_x = \frac {\sum n_i \chi_i } {N}\)

Pour l'échantillon :

\(\bar \chi = \frac {\sum n_i \chi_i } {n}\)

Exemple : Nous calculerons ici, à l’aide du logiciel SPSS, la moyenne arithmétique dans le cas de données groupées par valeurs, la même procédure reste valable pour des données groupées par classe.

Dans cet exemple, nous calculerons la moyenne arithmétique pour la variable nombre de frères et soeurs de notre exemple guide.
Dans SPSS, la manipulation donne le résultat suivant :


Figure II.2.6. Valeur de la moyenne de la variable nombre de frères et sœurs, calcul SPSS

Calcul de la moyenne pour des données groupées par classes

Dans le cas des données groupées en classes, la valeur de la moyenne est pondérée suivant le centre des classes, ce qui donne un résultat approximatif de la moyenne. La moyenne se calcul à l’aide des formules suivantes :

Pour la population :

\(\mu_x = \frac {\sum n_i c_i } {N}\)

Pour l'échantillon :

\( \bar \chi = \frac {\sum n_i c_i } {n}\)

Exemple : donner un exemple sur le calcul de la moyenne arithmétique dans le cas d'une variable quantitative continue.

Utilisation des paramètres
  • Le Mode est surtout utilisé dans le cadre d’une variable qualitative, lorsque la distribution est bimodale ou multimodale, car les données ont tendance à être peu significatives lorsqu’on calcule la moyenne ou médiane ;

  • La médiane est utilisée dans le cas d’une variable quantitative et lorsque la distribution est symétrique ;

  • Dans le cas d’une variable quantitative et lorsque la distribution est symétrique, la mesure la plus appropriée est la moyenne, cette dernière permet de faire une inférence vue sa stabilité ;

  • Lorsque dans le cas d’une distribution symétrique, les trois mesures sont proches, on a souvent recours à la moyenne car elle est la plus représentative.


3Les paramètres de dispersion


Les mesures de tendance centrale fournissent des informations qui renseignent sur le centre de la distribution. Elles présentent toutefois des limites lorsque les données d’une distribution sont assez dispersées au point que ces mesures ne rendent pas fidèlement compte des données observées. Les mesures de dispersion peuvent être considérées comme complémentaires à celles visant à décrire ce qui se passe au centre de la distribution.
En sciences humaines, nous aurons recours à l’utilisation de deux (02) types de mesures de dispersion, ce sont : l’étendu et l’écart type.

3.1. L'étendue

L’étendue est définie comme l’écart entre la plus grande et la plus petite valeur d’une série statistique.

Cas de données isolées

En utilisant la définition, on obtient une formule plus simple :

\( L′étendue ~~ = ~~ la ~~ plus ~~ grande ~~ donnée ~~ − ~~ la ~~ plus ~~ petite ~~ donnée.\)
Exemple et explication

Dans un contrôle de statistiques descriptives, un enseignant a corrigé les copies de deux groupes, chaque groupe étant composé de quarante (40) étudiants. Nous reproduisant les notes de chaque groupe.

Groupe 1
0 0 1 1 2
3 3 4 5 6
6 7 8 9 9
9 10 10 10 10
10 10 11 11 12
12 13 13 14 15
15 16 16 17 17
18 18 19 20 20
Groupe 2
4 4 4 4 5
5 5 6 6 6
6 7 7 7 7
8 10 10 10 10
10 10 10 10 10
11 11 11 14 14
14 15 15 15 16
16 16 17 17 17

Nous remarquons que les deux séries possèdent exactement les mêmes valeurs centrales, à savoir : un Mode de 10, une moyenne de 10 et une médiane de 10 aussi.

Cependant, en calculant l’étendue de chacune des deux séries nous aurons les résultats suivants :

\(L′étendue ~~ (groupe~~1) ~~ : ~~ E_{G1} ~~ = ~~ 20 ~~ − ~~ 0 ~~ = ~~ 20.\)

\(L′étendue ~~ (groupe~~2) ~~ : ~~ E_{G2} ~~ = ~~ 17 ~~ − ~~ 4 ~~ = ~~ 13.\)

Nous remarquons, d’après le calcul de l’étendue, que dans le premier groupe les notes varient de 0 jusqu’à 20, d’où l’étendue qui est plus importante que celle observée dans le deuxième groupe, à savoir 13. La dispersion des notes obtenues par les étudiants est plus forte dans le premier groupe que dans le deuxième.

Malgré le fait qu’elle soit simple à évaluer, l’étendue nous donne une première lecture, une impression sur la variabilité des données.

Cas des données groupées par valeurs

Quel que soit le type de regroupement de valeurs considéré, la définition de l’étendue reste la même :

\( L′étendue ~~ = ~~ la ~~ plus ~~ grande ~~ donnée ~~ − ~~ la ~~ plus ~~ petite ~~ donnée.\)

Exemple et explication

Dans le tableau suivant, qui présente le nombre d’enfants par ménage, on peu facilement évaluer l’étendue :

\(x_i\) 0 1 2 3 4 5 \(\sum\)
\(n_i\) 22 40 18 12 05 03 \(100\)

La valeur la plus élevée étant \(5\) et la plus petite étant \(0\), on relèvera que l’étendue est de \(5 - 0 = 5\) . La même remarque eut être faite par rapport au premier exemple : deux séries ayant la même étendue n’ont pas pour autant la même variabilité.

Cas de données groupées en classes

Dans le cas de données groupées en classes, le calcul de l’étendue s’effectue sur les bornes des classes. L’étendue de l’échantillon est égale à la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe.

\( L′étendue ~~ = ~~ la ~~ borne ~~ supérieure ~~ de ~~ la ~~ dernière ~~ classe − ~~ la ~~ borne ~~ inférieure ~~ de ~~ la ~~ première ~~ classe.\)

Exemple et explication

Dans l’exemple suivant, qui représente la distribution d’un échantillon suivant la variable âge, nous évaluerons l’étendue comme suite :

\(Age_{ans}\) [ 20 - 30 [ [ 30 - 40 [ [ 40 - 50 [ [ 50 - 60 [ [ 60 - 70 [ [ 70 - 80 [ \(\sum\)
\(n_i\) 10 20 40 15 14 11 \(100\)

La valeur la plus élevée étant 80 et la plus petite étant 30, on relèvera que l’étendue est de \(80 - 30 = 50\) . La même remarque eut être faite par rapport au premier exemple : deux séries ayant la même étendue n’ont pas pour autant la même variabilité.


3.2. La variance

La variance \(\sigma_x^2\) est, tout comme l’écart-type \(\sigma_x\) et le coefficient de variation (\(C_v\)), un indicateur de dispersion autour de la moyenne.

Le principe de calcul de la variance (et de l’écart-type) consiste à estimer la différence moyenne (ou ce que l’on appelle aussi l’écart moyen) de chaque observation et la moyenne arithmétique de ces observations.

On remarquera que le calcul des écarts moyens donne lieu à des résultats positifs et négatifs qui s’annulent, l’addition de l’ensemble des écarts moyens est égale à 0, à ce titre la variance apporte une solution en calculant les carrés des écarts, ces derniers sont soit nuls ou positifs.

La variance d’une variable \(x\) notée \(\sigma_x^2\) (elle se lit : \( sigma ~~carré ~~indice ~~x)\). La variance peut être calculée pour la population tout comme pour l’échantillon

Définition II.3.1 : La variance \(\sigma_x^2\)

La variance d’une variable (x) est égale à la moyenne des carrés des écarts entre les valeurs de la variable et la moyenne.

Remarque : il est à noter que plus les écarts moyens sont élevés (écarts des valeurs par rapport à la moyenne) plus la variance est élevée et vice-versa, et plus donc la dispersion autour de la moyenne est grande.

Cas de données isolées

Si les données sont isolées, les \(n\) valeurs de la variable sont notées : \(x_1, x_2, x_3, x_4, x_5...., x_n\) , la variance s’obtient en divisant la somme des carrées des écarts entre les données et la moyenne de la population sur le nombre des données, telle que montrée dans la formule suivante (appuyez sur la formule pour plus de détails ):


Note par rapport au calcul de la variance pour un échantillon. Pour l’échantillon, la formule de calcul de la variance doit subir une transformation, cette modification tient compte de l’erreur de l’échantillonnage et du fait que l’échantillon est plus petit que la population.

La correction du biais de l’échantillonnage s’obtient en divisant la somme des carrés des écarts par ( n − 1 ) et non pas par n. Ainsi la variance calculée pour un échantillon est appelée : variance échantillonnale , elle est notée : \(\sigma_{x}^{2}\).

La formule à employer pour le calcul de la variance dans le cas de données isolées pour un échantillon s’écrit ainsi ( appuyez sur la formule pour plus de détails ) :


Remarque (calcul de la variance) . Dans le calcul de la variance, il faudrait faire attention à ne pas soustraire le carré de la moyenne arithmétique à la somme des \(x_{i}^{2}\) , il faudrait diviser avant par le nombre d’observations.

En simplifiant la formule de la variance, nous aurons à la fin l’équation suivante, que l’on appelle le théorème de König-Huygens :

\(\sigma_{x}^{2} = \frac{1}{n} \sum\limits_{i}{} {x_i}^{2} - \bar{x}^2\)

Exemple et explication

Essayons de calculer la variance pour chacun des groupes de l’exemple précédent : (nous nous servons du tableau pour mieux calculer les termes de l’équation)

Calcul de la variance pour le groupe 1 :

Nous avons vu que la moyenne arithmétique \(\bar{x} = 10\), le tableau suivant possède une autre cellule pour le calcul de \(x_i^2\) :

Groupe 1

\(x\) 0 0 1 1 2 3 3 4 5 6 6 7 8 9 9 9 10 10 10 10
\(x^{2}\) 0 0 1 1 4 9 9 16 25 36 36 49 64 81 81 81 100 100 100 100
\(x\) 10 10 10 11 11 12 12 13 13 14 15 15 16 16 17 17 18 18 19 20
\(x^{2}\) 100 100 100 121 121 144 144 169 169 196 225 225 256 256 289 289 324 324 361 400

En appliquant la formule, on aura le résultat suivant : \(29.4\)

Nous procédons maintenant au calcul de la variance pour le deuxième groupe pour pouvoir ainsi comparer entre les résultats des deux groupes :

Calcul de la variance pour le groupe 2 :

Pour le groupe 2, nous allons donc reproduire la même démarche, on aura à la fin le résultat suivant :

Groupe 2

\(x\) 4 4 4 4 5 5 5 6 6 6 6 7 7 7 7 8 10 10 10 10
\(x^{2}\) 16 16 16 16 25 25 25 36 36 36 36 49 49 49 49 64 100 100 100 100
\(x\) 10 10 10 10 10 11 11 11 14 14 14 15 15 15 16 16 16 17 17 17
\(x^{2}\) 100 100 100 100 100 121 121 121 196 196 196 225 225 225 256 256 256 289 289 289

En appliquant la formule, on aura le résultat suivant : \(17.6\)

Remarque

Il est à noter que la variance est sensible, tout comme l’étendue, à la variabilité des observations. Tout comme l’étendue, la variance des notes du groupe 1 est supérieure à celle du groupe 2.

Cas de données groupées par valeurs

Soit une variable quantitative \(x\) définie sur une population composée de \(n\) individus, les valeurs de la variable étant : \(x_1 , x_2, x_3, x_4, ........x_k\) et les fréquences : \(n_1, n_2, n_3, n_4, ........n_k\). La valeur de la variance est calculée suivant la même logique, à remarquer qu’elle est pondérée par \(n_i\).

Pour une population :
Nous restons toujours dans la même définition, la variance est la moyenne pondérée des carrés des écarts à la moyenne.

\(\sigma_{x}^{2} = \frac {\sum\limits_{i= 1}^{k} {n_i} (x_i - \mu_x)^2} {N}\)

Pour un échantillon :

\(\sigma_{x}^{2} = \frac {\sum\limits_{i=1}^{k} n_i (x_i - \bar x)^2} {n-1}\)

On peut se servir encore une fois du théorème de König-Huygens , en le simplifiant on obtiendra la formule suivante :

Pour une population :

\(\sigma_{x}^{2} = (\frac {1}{N} \sum\limits_{i=1}^{k} n_i {x_i}^2) - \mu_x^2\)

Pour un échantillon :

\(\sigma_{x}^{2} = (\frac {1}{n} \sum\limits_{i=1}^{k} n_i {x_i}^2) - \bar x^2\)
Exemple et explication

Reprenons l'exemple du nombre d'enfants par ménage, nous allons ajouter deux colonnes à notre tableau : dans la première nous allons calculer \((x_i-\bar{x})^2\) et dans la seconde \(n_i . (x_i-\bar{x})^2\) :

\(x_i\) \(n_i\) \((x_i-\bar{x})^2\) \(n_i . (x_i - \bar{x})^2\)
0 22 - 1.47 - 32.34
1 40 - 0.47 - 8.83
2 18 0.53 5.05
3 12 2.34 28.09
4 5 2.53 32
5 3 3.53 37.38
N 100 --- 61.35

La moyenne de la série est égale à : \(1.47\). En appliquant la formule de la variance, nous aurons le résultat suivant :

\(\sigma_{x}^{2} = \frac{61.35}{100} = 0.6135\)
Cas des valeurs groupées par classes

La définition reste la même sauf que l’on remplace les valeurs par les centres de classes (milieux des classes), notés : \(c_i\) .

Pour une population :

\(\sigma_{x}^{2} = \frac {\sum n_i (c_i - \mu_x)^2} {N}\)

Pour un échantillon :

\(\sigma_{x}^{2} = \frac {\sum n_i (c_i - \bar x)^2} {n-1} \)

Pour l'exemple concernant l'âge, nous aurons comme résultat : \(\sigma_{x}^{2} = 283.84\).

3.3. L’écart-type

La variance a comme inconvénient de s’exprimer en unités carrées (dans notre exemple précédent : les notes des étudiants au carré, les nombres d’enfants au carré, etc.), elle a pour inconvénient de ne pas être directement interprétable.

Pour que la variance puisse être ramenée à la même échelle de la moyenne, on en extrait la racine carrée, le résultat est une mesure exprimée dans la même unité que la variable étudiée : l’écart type .

Définition II.3.2 : L'écart-type \(\sigma_x\)

L’écart type est défini comme la racine carré de la variance (il est noté \(\sigma_x\) dans le cas de la population et lu sigma x, et \(S_x\) dans le cas de l’échantillon), l’écart-type calcule l’écart moyen entre une valeur de la variable et la moyenne de la variable, ce qui a pour effet de l’exprimer dans la même unité de mesure.

Explication : en reprenant la variance de la variable âge, on aura pour écart-type le résultat suivant : \(\sigma_x\) = \(\sqrt{283.84}\) = \(16.84\). Nous remarquons donc que la variable âge connaît une variation prononcée dans notre échantillon.

Utilisation des paramètres :
  • L'Étendue est simple à calculer et à comprendre, elle donne une idée rapide de la différence entre les valeurs extrêmes d'un ensemble de données ; elle reste néanmoins sensible aux valeurs extrêmes ou aberrantes et ne donne pas d'information sur la distribution des autres valeurs ;

  • La Variance utilise toutes les données de l'échantillon (de la Population), ce qui donne une mesure complète de la dispersion, elle reste une mesure fondamentale pour de nombreux tests statistiques et modèles (nous en discuterons dans le Cours portant sur l'Inférence) ; l'une des faiblesses de la Variance étant que les unités de la variance sont les carrés des unités des données, ce qui peut être difficile à interpréter, la variance reste, tout comme l'étendue, aussi sensible aux valeurs extrêmes ;

  • L'écart-type est facile à interpréter car il est exprimé dans les mêmes unités que les données d'origine ; cependant comme la variance, il est sensible aux valeurs extrêmes.

4Les paramètres de position


Les statistiques de positionnement nous permettent de faire des comparaisons, pouvoir situer une ou des observations par rapport à la moyenne ou à l’ensemble des observations.

Il existe différentes statistiques de positionnement, nous nous intéressons à trois d’entre-elles : les quantiles ( ou rang percentile), le rang absolu, et la valeur étalon .

4.1. Les quantiles (Le rang percentile)

Une distribution de fréquences peut être divisée en un nombre choisi de parties. Le rang percentile indique la position d’une observation (d’une valeur) par rapport, et comparativement, à toutes les autres observations.

On désigne sous l'appellation de quantiles, l'opération visant à diviser la distribution des fréquences en certaines parties.

Les quantiles sont définis par analogie avec la médiane. L’usage veut que les quantiles les plus connus soient ceux qui partagent la distribution de fréquences en quatre (les quartiles), en cinq (les quintiles), en dix (les déciles) et en cent (les centiles).

Un quantile d'ordre α %, on le note q α est la valeur de la variable pour laquelle la fréquence cumulée croissante qui lui est associée est égale à α %

Pour les fréquences : $$ F (q_{\alpha}) = \alpha \% $$

Pour les effectifs : $$ N (q_{\alpha}) = \alpha \% . n $$

Dans cette section, nous nous limiterons au seul cas des centiles, les autres quantiles seront évoqués (en inscrivant leurs formules), le lecteur y aura recours au besoin.

Le calcul du rang percentile
Par définition, le rang percentile est définit par le pourcentage d’observations qui tombent sous cette valeur plus la moitié du pourcentage d’observations qui tombent exactement sur cette valeur.
Le calcul du rang percentile se fait à l’aide du tableau statistique, en ayant calculé les fréquences (pourcentages) cumulées, puis effectuer une correction arithmétique pour pouvoir avoir la valeur du rang percentile.
Les rangs percentiles sont utilisés lors de tests standardisés , qu'on appelle aussi tests normalisés tels que : le QI, TOEFL, le SAT, le GRE, et le GMAT, etc. Par définition, les tests standardisés, ou tests normalisés, sont des évaluations conçues de manière à être administrées et notées de manière cohérente pour tous les participants.

Les centiles
Les centiles sont des valeurs qui divisent la distribution de fréquences en 100 parties égales.
A titre d’exemple, le 18e centile, noté C18 (C indice 18), est la valeur à laquelle 18% des données sont inférieures (82% des données sont supérieures).

Un centile d’ordre α est noté Cα (où α représente la valeur à laquelle α % des données sont inférieures).
Le calcul d’un quantile est analogue à celui de la médiane, on remplacera juste 50% par α %.

Cas des données isolées
Le calcul d’un centile dans le cas des données isolées est assez simple : si \(N\) correspond à 100% des données, \(\alpha\) % correspondra à \(d\) données, exprimée en \(p ~~( Position ) \). La règle de trois s’appliquant à ce genre de calcul est :

partant de l'équivalence suivante:

$$\frac {\alpha} {100} = \frac {p}{N} \xrightarrow{\hspace{3cm}} p = \frac {N \alpha}{100}$$

Remarque, exemples et explications :

  • Cas 1 : Si d est un nombre entier :

    Supposons que nous avons les scores suivants pour 5 étudiants :

    \[ 45, 50, 55, 60, 65 \]

    Nous allons calculer le 40ème centile (P40).

    Étapes du Calcul :

    1. Trier les données dans l'ordre croissant.
    2. Calculer la position du centile : \[ \text{Position} = 40 \times \left( \frac{5 + 1}{100} \right) = 40 \times 0,06 = 2,4 \] La position 2,4 signifie que le 40ème centile se situe entre le 2ème et le 3ème score.
    3. Interpoler pour trouver la valeur exacte :

      Les valeurs correspondantes sont :

      • 2ème valeur : 50
      • 3ème valeur : 55

      L'interpolation linéaire se fait ainsi :

      \[ P40 = \text{Valeur à la position inférieure} + (\text{Partie fractionnaire de la position} \times \text{Difference entre les valeurs }) \] \[ P40 = 50 + (0,4 \times (55 - 50)) = 50 + (0,4 \times 5) = 50 + 2 = 52 \]

    Résultat : Le 40ème centile pour ces données est 52. Cela signifie que 40% des étudiants ont un score inférieur ou égal à 52.

  • Cas 2 : Si d n'est pas un nombre entier :

    Nous avons les scores suivants pour 8 étudiants :

    \[ 48, 55, 58, 60, 65, 68, 72, 75 \]

    Nous allons calculer le 75ème centile (P75).

    Étapes du Calcul :

    1. Trier les données dans l'ordre croissant.
    2. Calculer la position du centile : \[ \text{Position} = 75 \times \left( \frac{8 + 1}{100} \right) = 75 \times 0,09 = 6,75 \] La position 6,75 signifie que le 75ème centile se situe entre le 6ème et le 7ème score.
    3. Interpoler pour trouver la valeur exacte :

      Les valeurs correspondantes sont :

      • 6ème valeur : 68
      • 7ème valeur : 72

      L'interpolation linéaire se fait ainsi :

      \[ P75 = \text{Valeur à la position inférieure} + (\text{Partie fractionnaire de la position} \times \text{Différence entre les valeurs}) \] \[ P75 = 68 + (0,75 \times (72 - 68)) = 68 + (0,75 \times 4) = 68 + 3 = 71 \]

    Résultat : Le 75ème centile pour ces données est 71. Cela signifie que 75% des étudiants ont un score inférieur ou égal à 71.

Cas des données groupées par valeurs

La logique du calcul reste la même que dans le cas de données isolées. Le centile d’ordre α est la première valeur dont le pourcentage cumulé dépasse \( \frac {α} {100} \), s’il existe une valeur dont le pourcentage cumulé est égal à \(\frac{α} {100} \), le centile est le nombre situé à mi-distance entre cette valeur et la valeur suivante.

Pour calculer le centile d'ordre α, on se sert de la formule nous permettant de calculer la médiane pour un caractère quantitatif discret.


Cas des données groupées par classes

Dans le cas de données groupées en classes, on aura recours à la formule de calcul de la médiane vue précédemment.

Le calcul du centile α consistera à retrouver la valeur qui dépasse α%.

Pour bien calculer le centile α % , on remplacera 50% par α % et on prendra la classe qui contient Cα (et non la classe médiane).

$$C_{\alpha}= b_{cα} \left [\frac {α- F_{cα-1}} {F_{cα}}\right] * L_{cα} $$

Données : Supposons que nous avons les scores groupés suivants pour 40 étudiants :

Classes Fréquence (f)
[ 0 - 10 [ 5
[ 10 - 20 [ 8
[ 20 - 30 [ 12
[ 30 - 40 [ 10
[ 40 - 50 [ 5
Σ 40

Nous allons calculer le 70ème centile (P70).

Étapes du Calcul :

  1. Calculer le nombre total d'observations (N) : \[ N = \sum f = 40 \]
  2. Calculer la position du centile : \[ \text{Position} = \frac{70}{100} \times N = 0,70 \times 40 = 28 \]
  3. Identifier l'intervalle de classe contenant le centile :

    Nous devons calculer la fréquence cumulative jusqu'à ce que nous atteignions la position 28 :

    • Pour la classe 0-10 : \( F_1 = 5 \)
    • Pour la classe 10-20 : \( F_2 = 5 + 8 = 13 \)
    • Pour la classe 20-30 : \( F_3 = 13 + 12 = 25 \)
    • Pour la classe 30-40 : \( F_4 = 25 + 10 = 35 \)

    La 28ème observation se situe dans la fréquence cumulative de 35, correspondant à l'intervalle [30, 40].

  4. Appliquer la formule pour calculer le centile : \[ P70 = b_{cα} \left [\frac {α- F_{cα-1}} {F_{cα}}\right] * L_{cα} \] où :
    • \( b_{cα} = 30 \) (la borne inférieure de l'intervalle de classe contenant le centile)
    • \( F_{cα-1} = 25 \) (la fréquence cumulative avant l'intervalle de classe contenant le centile)
    • \( F_{cα}= 10 \) (la fréquence de l'intervalle de classe contenant le centile)
    • \( L_{cα} = 10 \) (la taille de l'intervalle de classe)
    \[ P70 = 30 + \left( \frac{28 - 25}{10} \right) \times 10 \] \[ P70 = 30 + \left( \frac{3}{10} \right) \times 10 \] \[ P70 = 30 + 0,3 \times 10 \] \[ P70 = 30 + 3 = 33 \]

Résultat : Le 70ème centile pour ces données groupées est 33. Cela signifie que 70% des étudiants ont un score inférieur ou égal à 33.

Remarque : utilisation des centiles

Le rang percentile est une statistique simple à calculer et à interpréter ; cependant , le rang percentile peut s’avérer être une mesure inadéquate lorsque la distribution n’est pas symétrique, le problème se rencontre plus particulièrement lorsque l’échantillon est de petite taille. Le rang percentile ne prend pas en considération les indices statistiques (Moyenne et écart-type) dans l’interprétation, ce qui le rend sensible à la forme de la distribution des données.


4.2. Le rang

Le rang permet de déterminer la position d'une donnée isolée. On distingue habituellement trois type de rang : le rang absolu, le rang cinquième ainsi que le rang centile.

Le rang absolu permet d’indiquer la position d’une observation par rapport, comparativement, aux observations extrêmes. La série statistique étant classée par ordre croissant ou décroissant. Le rang absolu est une statistique de positionnement qui indique de manière fragile la position d’une observation compte-tenu des observations se situant dans les deux limites de l’ensemble des observations. Le rang cinquième est un nombre compris entre 1 et 5, indiquant à quel intervalle se situe une donnée dans une distribution divisée en cinq partie égales.

Nous nous intéresserons dans notre cours uniquement au rang centile.

Le rang centile :

Par définition, le rang centile est le pourcentage des données qui lui sont inférieures. Le rang centile est exprimé en chiffre entier ayant une valeur comprise entre 1 et 99. La détermination du rang centile est l'opération inverse de la détermination du centile.

Exemple et explication :

Le tableau suivant montre les scores groupés pour 40 étudiants :

Classes Fréquence (f)
[ 0 - 10 [ 5
[ 10 - 20 [ 8
[ 20 - 30 [ 12
[ 30 - 40 [ 10
[ 40 - 50 [ 5
Σ 40

Nous allons calculer le rang percentile pour une valeur de 35.

Étapes du Calcul :

  1. Identifier l'intervalle de classe contenant la valeur :

    La valeur 35 se situe dans l'intervalle [ 30, 40 [.

  2. Calculer la fréquence cumulative avant l'intervalle contenant la valeur :
    • Pour la classe 0-10 : \( F_1 = 5 \)
    • Pour la classe 10-20 : \( F_2 = 5 + 8 = 13 \)
    • Pour la classe 20-30 : \( F_3 = 13 + 12 = 25 \)
    • \( F \) pour l'intervalle [ 30, 40 [ avant 30 est \( F_3 = 25 \)
  3. Formule:

    $$Rang ~~centil ~~=~~ partie~~entière~~de \left[ {\frac{X_{r} - b_{r}} {L_{r}} * f_{r}} + F_{r-1} \right[$$
  4. Appliquer la formule pour calculer le rang percentile : \[ Rang ~~centil ~~=~~ partie~~entière~~de \left( \frac{F + \frac{(x - b_{r})}{a_i} \times f_r}{N} \right) \times 100 \] où :
    • \( b_{r} = 30 \) (la borne inférieure de l'intervalle de classe contenant la valeur)
    • \( F = 25 \) (la fréquence cumulative avant l'intervalle de classe contenant la valeur)
    • \( f_r = 10 \) (la fréquence de l'intervalle de classe contenant la valeur)
    • \( x = 35 \) (la valeur pour laquelle nous calculons le rang percentile)
    • \( a_i = 10 \) (l'amplitude de la classe)
    • \( N = 40 \) (le nombre total d'observations)
    \[ P = \left( \frac{25 + \frac{(35 - 30)}{10} \times 10}{40} \right) \times 100 \] \[ P = \left( \frac{25 + \frac{5}{10} \times 10}{40} \right) \times 100 \] \[ P = \left( \frac{25 + 0,5 \times 10}{40} \right) \times 100 \] \[ P = \left( \frac{25 + 5}{40} \right) \times 100 \] \[ P = \left( \frac{30}{40} \right) \times 100 \] \[ P = 0,75 \times 100 \] \[ P = 75 \]

Résultat : La valeur de 35 se situe au 75ème percentile. Cela signifie que 75% des étudiants ont un score inférieur ou égal à 35.

On peut déterminer directement le rang centile à l'aide de l'ogive.

Définition II.4.1 : L'ogive

L'ogive est un graphique qui représente la fréquence cumulative des données. Elle permet de visualiser la distribution cumulative et d'estimer des centiles ou des rangs percentiles. L'axe horizontal \((x)\) représente les valeurs ou les classes, et l'axe vertical \( (y) \) représente la fréquence cumulative.

Nous allons calculer le rang percentile pour une valeur de 35 à partir de l'ogive.

Étapes du Calcul du Rang Percentile à partir de l'Ogive :

  1. Tracer l'ogive :

    Calculer la fréquence cumulative pour chaque classe et tracer les points correspondants aux bornes supérieures de chaque classe et leur fréquence cumulative.

  2. Figure II.4.1 : Ogive des données groupées.

  3. Déterminer le rang percentile à partir de l'ogive :

    Localiser la valeur 35 sur l'axe des x. Tracer une ligne verticale depuis 35 jusqu'à l'ogive. Tracer une ligne horizontale depuis l'intersection jusqu'à l'axe des y pour lire le rang percentile.

Calcul du Rang Percentile :

À partir de l'ogive, la valeur de 35 se situe à une fréquence cumulative de 30.

Le rang percentile pour une valeur de 35 est donc :

\[ P = \left( \frac{30}{40} \right) \times 100 = 75 \]

Résultat : La valeur de 35 se situe au 75ème percentile. Cela signifie que 75% des étudiants ont un score inférieur ou égal à 35.

4.3. La cote Z

La cote Z nous permet de représenter la position d'une observation en référence à l'unité de mesure que constitue l'écart-type.

Par définition la cote Z est la distance entre une donnée et la moyenne, exprimée en écart type.

Définition II.4.2 : La cote Z

La cote Z, également appelée score Z ou score standardisé, est une mesure statistique qui indique combien d'écarts-types une donnée est au-dessus ou en dessous de la moyenne de l'ensemble des données. En d'autres termes, la cote Z permet de normaliser les différentes valeurs d'un jeu de données, afin de comparer des données provenant de différentes distributions ou ensembles.

Formule :

La \(cote Z\) pour une valeur \(x\) est calculée en utilisant la formule suivante :

$$ Cote Z = \frac {Valeur ~~de~~ la~~ donnée~~ - Moyenne} {Ecart ~~type}$$ On réécrira la formule de cette façon : $$ Z = \frac {x - M} { \sigma} $$

où :

  • \(x\) est la valeur de l'observation ;
  • \( M\) (ou \(\bar{x}\) ) est la moyenne arithmétique de la population (ou de l'échantillon) ;
  • \(\sigma\) est l'écart-type de l'ensemble des données (de l'échantillon ou de la population) .
Exemple et explication :

Les deux tableaux qui suivent reprennent les notes respectives de vingt étudiants dans deux modules : Méthodologie de recherche en sciences humaines et sociales ainsi que Présentation et analyse de données.

Il s’agira, à partir du calcul de la Cote Z, de classer les étudiants selon les résultats combinés, obtenus dans les deux modules, comparativement à la moyenne, la variance et l’écart-type des notes de ces derniers.

Comparaison des Notes avec la Cote Z
Étudiant Méthodologie de la recherche en SHS
Étudiant 160
Étudiant 270
Étudiant 380
Étudiant 490
Étudiant 550
Étudiant 685
Étudiant 775
Étudiant 845
Étudiant 965
Étudiant 1055
Étudiant 1170
Étudiant 1295
Étudiant 1365
Étudiant 1455
Étudiant 1585
Étudiant 1675
Étudiant 1765
Étudiant 1855
Étudiant 1960
Étudiant 2080
Étudiant Présentation et analyse de données
Étudiant 165
Étudiant 275
Étudiant 385
Étudiant 495
Étudiant 555
Étudiant 680
Étudiant 790
Étudiant 850
Étudiant 970
Étudiant 1060
Étudiant 1175
Étudiant 1295
Étudiant 1365
Étudiant 1455
Étudiant 1580
Étudiant 1670
Étudiant 1765
Étudiant 1855
Étudiant 1960
Étudiant 2085
Calculs Statistiques
Module Méthodologie de recherche :

\[ \text{Moyenne} = \frac{\displaystyle \scriptsize 60 + 70 + 80 + 90 + 50 + 85 + 75 + 45 + 65 + 55 + 70 + 95 + 65 + 55 + 85 + 75 + 65 + 55 + 60 + 80}{\scriptsize 20} = 70 \]

\[ \text{Variance } = \frac{\sum (x_i - \mu)^2}{n} = 200 \]

\[ \text{Écart-type } = \sqrt{200} = 14.14 \]


Module Présentation et analyse de données :

\[ \text{Moyenne } = \frac{ \displaystyle \scriptsize 65 + 75 + 85 + 95 + 55 + 80 + 90 + 50 + 70 + 60 + 75 + 95 + 65 + 55 + 80 + 70 + 65 + 55 + 60 + 85}{\displaystyle \scriptsize 20} = 72.5 \]

\[ \text{Variance } = \frac{\sum (x_i - \mu)^2}{n} = 206.25 \]

\[ \text{Écart-type } = \sqrt{206.25} = 14.36 \]


Cote Z

En utilisant la formule de la Cote Z, on calculera la Cote Z pour chaque module, puis une fois obtenue, on en calculera la moyenne en les ayant additionnée et divisées par deux, on aura alors la Cote Z moyenne avec laquelle nous classerons les résultats des étudiants.

Étudiant Cote Z (Méthodologie de la recherche en SHS) Cote Z (Présentation et analyse de données) Cote Z Moyenne
Étudiant 1-0.71-0.52-0.62
Étudiant 20.000.170.08
Étudiant 30.710.870.79
Étudiant 41.411.571.49
Étudiant 5-1.41-1.22-1.32
Étudiant 61.060.520.79
Étudiant 70.351.220.78
Étudiant 8-1.77-1.57-1.67
Étudiant 9-0.35-0.17-0.26
Étudiant 10-1.06-0.87-0.97
Étudiant 110.000.170.08
Étudiant 121.771.571.67
Étudiant 13-0.35-0.52-0.44
Étudiant 14-1.06-1.22-1.14
Étudiant 151.060.520.79
Étudiant 160.35-0.170.09
Étudiant 17-0.35-0.52-0.44
Étudiant 18-1.06-1.22-1.14
Étudiant 19-0.71-0.87-0.79
Étudiant 200.710.870.79

Classement des Étudiants

Après avoir calculé les Cote Z moyennes, nous pouvons avoir ce classement.

Rang Étudiant Cote Z Moyenne
1Étudiant 121.67
2Étudiant 41.49
3Étudiant 30.79
4Étudiant 60.79
5Étudiant 70.78
6Étudiant 150.79
7Étudiant 200.79
8Étudiant 20.08
9Étudiant 110.08
10Étudiant 160.09
11Étudiant 1-0.62
12Étudiant 9-0.26
13Étudiant 13-0.44
14Étudiant 17-0.44
15Étudiant 10-0.97
16Étudiant 5-1.32
17Étudiant 14-1.14
18Étudiant 18-1.14
19Étudiant 8-1.67
20Étudiant 19-0.79

Table II.4.1. Classement des étudiants selon les moyennes de leurs Cote Z

Utilisation des paramètres :
  • Les Quantiles fournissent une vue détaillée de la distribution des données, ils sont moins sensibles aux valeurs aberrantes; cependant ils peuvent être moins intuitifs à comprendre et interpréter et nécessitent des calculs plus complexes pour des ensembles de données larges ;

  • Les Rang Percentile (ou Percentiles) permettent de comparer des valeurs individuelles au reste de l'ensemble des données, ils sont aussi utiles pour les analyses de répartition et pour identifier les valeurs extrêmes; d'un autre côté, leur utilisation peut être peuvent être influencée par la taille de l'échantillon, un autre obstacle réside aussi dans le fait qu'ils nécessitent des calculs de classement et des interpolations pour des ensembles de données non uniformes ;

  • La Cote Z (Valeur Étalon, Score Z, Z-score) permet de standardiser différentes distributions pour les rendre comparables, elle indique la position relative d'une valeur par rapport à la moyenne en termes d'écarts-types et est utile pour détecter des valeurs aberrantes. La Cote Z nécessite la connaissance de la moyenne et de l'écart-type de l'ensemble des données et est moins intuitif à comprendre pour les non-spécialistes.
Explorez l’Éditeur de données discrètes

Découvrez l’éditeur de données pour les variables quantitatives discrètes. Cliquez sur le lien ci-dessous pour essayer d’introduire les données d'un tableau afin de calculer les paramètres statistiques. Apprenez et maîtrisez les bases de manière interactive et ludique.

Accéder à l'Éditeur

Tous les éditeurs sont accessibles dans le volet Annexe du présent Cours.


Explorez l’Éditeur de données continues

Découvrez l’éditeur de données pour les variables quantitatives continues. Cliquez sur le lien ci-dessous pour essayer d’introduire les données de classe d'un tableau pour calculer les paramètres statistiques. Apprenez et maîtrisez les bases de manière interactive et ludique.

Accéder à l'Éditeur

Tous les éditeurs sont accessibles dans le volet Annexe du présent Cours.


upload-to-cloud Résumé

Nous venons de voir dans ce cours les différents indices qui permettent de décrire une série de données.

Les indices de tendance centrale sont présents dans la plupart des documents portant sur l’analyse de données. On peut voir dans les indicateurs de tendance centrale une première approche visant à cerner les informations globales qui déterminent l’identité de notre population, ou échantillon, de l’enquête.
Les paramètres de tendance centrale permettent, dans une autre mesure, de tracer une ligne directrice quant à la future analyse qui concernera nos données. Il est donc important d’en saisir la portée :

  • Les indices de tendance centrale sont importants pour avoir une vue générale de l’analyse des données ;
  • Le Mode est l’indice le plus simple à calculer, il renseigne sur la fréquence la plus élevée de notre échantillon ;
  • La Médiane est un indice qui nous renseigne sur la position de la moitié de notre fréquence ;
  • La Moyenne nous donne, pour sa part, une approximation de la relation entre les fréquences et les observations.

Dans le présent cours, nous avons vu comment calculer et interpréter les mesures de dispersion.

Les mesures de dispersion, associées aux mesures de tendance centrale, fournissent une première approche de l’analyse de nos données d’enquête. Il est très important d’en maîtriser le processus :

  • Les paramètres de dispersion nous permettent de comprendre ce qui se passe autour de la moyenne ;
  • L’étendue est l’écart entre la plus grande et la plus petite valeur d’une série statistique ;
  • La variance d’une variable est égale à la moyenne des carrés des écarts entre les valeurs de la variable et la moyenne ;
  • L’écart type est la racine carrée de la variance.

L’analyse univariée aura aussi recours à l’interprétation des mesures de position. Ces dernières nous permettent de connaître, de repérer l'endroit exact d'une observation dans notre série statistique :

  • Les quantiles permettent de comprendre la distribution des données en les divisant en segments égaux, ils sont utilisés pour détecter les valeurs aberrantes en comparant les valeurs extrêmes et facilitent la comparaison entre différentes distributions de données en fournissant des points de repère uniformes ;
  • Les rangs permettent une compréhension simple et intuitive de la position relative d'une observation dans un jeu de données, ils sont utilisés dans de nombreux tests statistiques non paramétriques (comme le test de Wilcoxon, le test de Kruskal-Wallis) qui ne nécessitent pas l'hypothèse de normalité des données ;
  • La cote Z permet de standardiser différentes distributions de données, facilitant ainsi leur comparaison même si elles ont des échelles différentes, elle est à ce titre utile pour convertir différentes échelles de scores en une échelle commune, facilitant la comparaison.

books Bibliographie du Bloc

Le Cours ne possède pas de bibliographie finale (dans sa version en ligne), les renvois sont insérés à la fin de chaque Bloc.

  • Agresti, A., Franklin, C., & Klingenberg, B. (2023). Statistics: The art and science of learning from data (5th ed.). Pearson.
  • Bluman, A. G. (2023). Elementary statistics: A step by step approach, a brief version (with extra additional topics) (8th ed.). McGraw-Hill Education.
  • Brase, C. H., & Brase, C. P. (2023). Understandable statistics: Concepts and methods (13th ed.). Cengage Learning.
  • Brase, C. H., Brase, C. P., Dolor, J., & Seibert, J. (2023). Understandable statistics: Concepts and methods (13th ed.). Cengage Learning.
  • Carroll, S. R., & Carroll, D. J. (2023). Simplifying statistics for graduate students. Rowman & Littlefield Publishers.
  • Field, A. (2024). Discovering statistics using IBM SPSS statistics (6th ed.). SAGE Publications Ltd.
  • James, G., Witten, D., Hastie, T., Tibshirani, R., & Taylor, J. (2023). An introduction to statistical learning: With applications in Python (Springer Texts in Statistics) (1st ed.). Springer.
  • Kahl, A. (2023). Introductory statistics. Bentham Science Publishers.
  • Larson, R. (2023). Elementary statistics: Picturing the world (8th ed.). Pearson.
  • Otsuka, J. (2023). Thinking about statistics: The philosophical foundations. Routledge.
  • Yau, N. (2024). Visualize this: The FlowingData guide to design, visualization, and statistics (2nd ed.). Wiley.
ask-questionQuestions de Synthèse

Les questions qui suivent vous permettent de faire un état des connaissances discutées durant le Bloc, on fera une discussion durant les séances de Travaux Dirigés.

  • Qu'est-ce que la moyenne arithmétique et comment est-elle calculée ?
  • Quelles sont les limitations de l'utilisation de la moyenne comme mesure de tendance centrale ?
  • En quoi la médiane diffère-t-elle de la moyenne et dans quelles situations est-elle préférée ?
  • Qu'est-ce que le mode et quand est-il utilisé comme mesure de tendance centrale ?
  • Comment interpréter l'écart type comme mesure de dispersion ?
  • Comparez et contrastez la variance et l'écart type en termes d'utilisation et d'interprétation.
  • Quels sont les quartiles et comment sont-ils utilisés pour décrire la position des données ?
  • Expliquez l'importance des valeurs aberrantes dans l'interprétation des mesures de tendance centrale et de dispersion.
  • Comment les mesures de tendance centrale, de dispersion et de position sont-elles utilisées ensemble pour décrire une distribution de données ?

test-passedQ.C.M.

Le QCM comporte douze questions qui portent sur certaines parties du Cours, à la fin vous aurez votre évaluation ainsi que le corrigé.

Pour accéder au QCM, cliquer sur l'icone suivante : quizizz

external-checklist-logistics-flaticons-lineal-color-flat-icons-3 Fiches du cours & TD

Dans cette section vous allez pouvoir télécharger des fiches en relation avec le présent cours.

Fiche 1 Les bibliothèques Python : dans cette fiche, vous allez faire un peu plus connaissance avec les bibliothèques Python dédiées à l'analyse des données (Pandas, NumPy, Matplotlib). Ces bibliothèques vous aideront à dessiner des diagrammes et à calculer les paramètres statistiques univariés. Cliquez ICI pour télécharger la table.

path Pour aller plus loin

Pour aller plus loin dans votre apprentissage de ce premier Bloc, vous pouvez consulter les liens suivants :

  • Ouvrage
    Un ouvrage fort intéressant qui stimule la réflexion autour de l'utilisation des statistiques et l'analyse des données dans l'études des phénomènes sociaux : Eyraud, C. (2024). Les données chiffrées en sciences sociales: Du matériau brut à la connaissance des phénomènes sociaux. Armand Colin. [disponible gratuitement en vous connectant au compte de l'université].

  • Ouvrage
    Cet ouvrage est un recueil de travaux dirigés qui va des notions élémentaires aux exercices plus élaborés que contient le programme de notre Cours : Monino, J. (2017). TD de statistique descriptive. Dunod. https://doi.org/10.3917/dunod.monin.2017.01. [disponible gratuitement en vous connectant au compte de l'université].

  • Vidéo
    Un lien d'une chaine YouTube qui explique dans divers épisodes les bases des statistiques descriptives :

cell-phone Sur l'appli du cours

Sur l'Appli du Cours, vous trouverez le résumé du présent Bloc, ainsi que des séries de Travaux Dirigés qui lui sont liées.
On trouvera aussi des renvois à des contenus multimédias qui intéressent le Bloc.
Dans le volet de Notifications, une mise à jour est prévue, elle se fera suivant les questionnements formulés par les étudiants durant les séances de Cours et de Travaux dirigés.
Une mise à jour concerne aussi les examens des sessions précédentes que l'on corrigera dans les séances de travaux dirigés pour préparer les examens de l'année en cours.

Le coin Python

Dans ce coin Python, vous allez apprendre à calculer les paramètres de statistiques descriptives vus durant le Cours, puis à pouvoir dessiner les graphiques, diagrammes, correspondant.

Vous trouverez ci-après les données concernant les trois types de variables, que vous pouvez copier et transférer vers l’éditeur en ligne, Trinket , de Python.

Les explications sont contenues dans le fascicule que vous pouvez télécharger dans la section Fiches Cours & TD ci-avant. Le fascicule comprend des explications détaillées sur ce que vous devrez maitriser pour le calcul des paramètres statistiques univariés.

Données pour un caractère qualitatif
[ "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu",
"Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune",
"Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu",
"Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune",
"Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu" ]
  
Données pour un caractère quantitatif discrêt
[ 5, 7, 9, 12, 5, 8, 6, 10, 15, 8,
7, 11, 13, 14, 5, 6, 9, 7, 10, 12,
11, 8, 6, 13, 14, 15, 7, 8, 9, 10,
11, 12, 13, 14, 15, 6, 5, 8, 9, 7,
12, 11, 10, 9, 6, 7, 8, 11, 13, 14 ]
  
Données pour un caractère quantitatif continu
    [ 5.2, 7.5, 9.1, 12.3, 5.8, 8.4, 6.9, 10.2, 15.6, 8.1,
    7.7, 11.5, 13.4, 14.2, 5.9, 6.1, 9.3, 7.8, 10.6, 12.4,
    11.9, 8.7, 6.5, 13.1, 14.7, 15.4, 7.2, 8.5, 9.7, 10.9,
    11.3, 12.1, 13.9, 14.6, 15.1, 6.2, 5.4, 8.6, 9.8, 7.1,
    12.7, 11.4, 10.3, 9.5, 6.7, 7.9, 8.8, 11.6, 13.2, 14.9 ]
            
Liste des commandes Python, statistiques descriptives

La liste qui suit contient les commandes Python les plus usitées pour le calcul des paramètres de statistiques descriptives et la construction de diagrammes. Comme cité plus haut, le fascicule contient plus de détails et d'explications quant à l'utilisation des bibliothèques et des commandes y afférentes.

Nous verrons dans la séance suivante comment importer vos données directement depuis d'autres formats.

Calcul des Paramètres Statistiques Univariés
Paramètres Commande Explication
Moyenne import numpy as np
data = [5.2, 7.5, ...]
moyenne = np.mean(data)
print(f"La moyenne des données est {moyenne:.2f}")
Importation de la bibliothèque NumPy et calcul de la moyenne des données.
Médiane import numpy as np
data = [5.2, 7.5, ...]
mediane = np.median(data)
print(f"La médiane des données est {mediane:.2f}")
Importation de la bibliothèque NumPy et calcul de la médiane des données.
Mode from scipy import stats
data = [5.2, 7.5, ...]
mode = stats.mode(data)[0][0]
print(f"Le mode des données est {mode}")
Importation de la bibliothèque SciPy et calcul du mode des données.
Écart-type import numpy as np
data = [5.2, 7.5, ...]
ecart_type = np.std(data)
print(f"L'écart-type des données est {ecart_type:.2f}")
Importation de la bibliothèque NumPy et calcul de l'écart-type des données.
Variance import numpy as np
data = [5.2, 7.5, ...]
variance = np.var(data)
print(f"La variance des données est {variance:.2f}")
Importation de la bibliothèque NumPy et calcul de la variance des données.
Quartiles import numpy as np
data = [5.2, 7.5, ...]
quartiles = np.percentile(data, [25, 50, 75])
print(f"Les quartiles des données sont {quartiles}")
Importation de la bibliothèque NumPy et calcul des quartiles des données.
Déciles import numpy as np
data = [5.2, 7.5, ...]
deciles = np.percentile(data, [10, 20, ..., 90])
print(f"Les déciles des données sont {deciles}")
Importation de la bibliothèque NumPy et calcul des déciles des données.
Deux paramètres import numpy as np
data = [5.2, 7.5, ...]
moyenne = np.mean(data)
mediane = np.median(data)
print(f"La moyenne est {moyenne:.2f}, la médiane est {mediane:.2f}")
Importation de la bibliothèque NumPy et calcul de la moyenne et de la médiane des données.
Trois paramètres import numpy as np
data = [5.2, 7.5, ...]
moyenne = np.mean(data)
mediane = np.median(data)
ecart_type = np.std(data)
print(f"La moyenne est {moyenne:.2f}, la médiane est {mediane:.2f}, l'écart-type est {ecart_type:.2f}")
Importation de la bibliothèque NumPy et calcul de la moyenne, de la médiane, et de l'écart-type des données.
Diagramme circulaire import matplotlib.pyplot as plt
labels = ['A', 'B', 'C']
sizes = [15, 30, 45]
plt.pie(sizes, labels=labels)
plt.show()
Importation de la bibliothèque Matplotlib et création d'un diagramme circulaire.
Diagramme à colonnes import matplotlib.pyplot as plt
labels = ['A', 'B', 'C']
sizes = [15, 30, 45]
plt.bar(labels, sizes)
plt.show()
Importation de la bibliothèque Matplotlib et création d'un diagramme à colonnes.
Diagramme à bâtons import matplotlib.pyplot as plt
labels = ['A', 'B', 'C']
sizes = [15, 30, 45]
plt.stem(labels, sizes)
plt.show()
Importation de la bibliothèque Matplotlib et création d'un diagramme à bâtons.
Histogramme import matplotlib.pyplot as plt
data = [5.2, 7.5, ...]
plt.hist(data, bins=10)
plt.show()
Importation de la bibliothèque Matplotlib et création d'un histogramme.
Polygone de fréquence import matplotlib.pyplot as plt
import numpy as np
data = [5.2, 7.5, ...]
counts, bins = np.histogram(data, bins=10)
bin_centers = 0.5 * (bins[:-1] + bins[1:])
plt.plot(bin_centers, counts, '-o')
plt.show()
Importation de la bibliothèque Matplotlib et création d'un polygone de fréquence.
Ogive import matplotlib.pyplot as plt
import numpy as np
data = [5.2, 7.5, ...]
counts, bins = np.histogram(data, bins=10, cumulative=True)
plt.plot(bins[:-1], counts, '-o')
plt.show()
Importation de la bibliothèque Matplotlib et création d'une ogive.
Box plot import matplotlib.pyplot as plt
data = [5.2, 7.5, ...]
plt.boxplot(data)
plt.show()
Importation de la bibliothèque Matplotlib et création d'un box plot.
Nuage de points import matplotlib.pyplot as plt
x = [5.2, 7.5, ...]
y = [7.5, 8.6, ...]
plt.scatter(x, y)
plt.show()
Importation de la bibliothèque Matplotlib et création d'un nuage de points.
chat Téléchargement du cours

En utilisant le lien ci-dessous, vous pouvez télécharger le Flipbook en format PDF : bookmark-ribbon

chat Forum de Discussion

Le forum vous permet d'échanger autour de cette première séance, vous remarquerez la présence d'un bouton d'abonnement afin que vous puissiez suivre les discussions au sujet de la recherche en sciences humaines et sociales, c'est l'occasion aussi pour l'enseignant de répondre aux préoccupations et questions des étudiants.