Cette première séance du deuxième Bloc s’intéresse à l’analyse (représentations numérique et imagée) de la distribution des données. Cet ensemble de représentation constitue l’une des opérations élémentaires en analyse de données (ainsi qu’en statistiques descriptives), la finalité étant de décrire les données de la distribution à l’aide d’un ensemble d’indicateurs.
L’organisation et la représentation des données est l’étape consécutive à l’opération de collecte des données. Les données disponibles doivent subir une série de transformation en vue de les rendre plus lisibles et par conséquent exploitables pour les besoins de l’analyse statistique.
En statistiques descriptives, la première étape de l’analyse concerne la prise de variables unes à unes d’où le nom d’analyse univariée qu’on lui attribue. L’analyse univariée opère de deux manières complémentaires : la représentation des données (construction des tableaux de distribution et des graphiques), et le calcul des mesures relatives et des mesures descriptives (de tendances centrales, de position et de dispersion). Les représentations, numérique et graphique, de la distribution permettent de donner une image globale du phénomène étudié, de son orientation. Il s’agira par la suite de calculer un certain nombre d’indices pour pouvoir simplifier la masse d’informations contenue dans notre distribution afin de pouvoir en donner une interprétation suivant les hypothèses de notre recherche.
Dans un travail de recherche, il n'est pas souvent nécessaire de prendre en considération les divers indicateurs statistiques pour pouvoir rendre compte du phénomène à l'étude. L'expérience de la recherche, entendue dans un sens large, nous fournira un avis éclairé quant à la prise de décision par rapport aux éléments à présenter dans l'analyse de nos données d'enquête.
Les statistiques descriptives sont un ensemble d’indices ayant pour but d’exprimer en chiffres les caractéristiques principales de la distribution des données dans l’objectif de les interpréter. Les statistiques descriptives univariées peuvent être regroupées en trois grandes familles : les mesures de tendance centrale, les mesures de position et les mesures de dispersion. D’autres indices peuvent être calculés, nous en donnerons l’exemple à la fin de la présente section.
Cette séance et les deux qui vont suivre (les mesures de dispersion et les mesures de position) s’attachent à caractériser la distribution des fréquences obtenu après les regroupements opérés sur des données brutes. Le regroupement et le tri des données brutes donne une image d’ensemble de la distribution, les mesures ont pour objectif de décrire les caractéristiques de la distribution. L'analyse des données s’appuie sur un langage d’indices afin de résumer l’essentiel des informations contenues dans une série de données. Les indices statistiques offrent une vue d’ensemble sur les données étudiées.
Lorsque nous déterminons les paramètres de tendance central, ces derniers nous permettent de connaître ce qui se passe au milieu de notre distribution de données. Seulement, avec des indices identiques de tendance centrale, deux, voire, plusieurs séries de données peuvent se distribuer de manière différente, on dit que ces dernières s’écartent des valeurs de tendance centrale. Avec les mêmes résultats pour les paramètres de tendance centrale, les observations peuvent être très proches ou très éloignées des valeurs centrales, on ne peut donc compter uniquement sur les valeurs centrales, pour comprendre notre série et pouvoir l’analyser, on s’intéressera à ce titre aux paramètres qui nous décrivent la dispersion des données autour du centre. Les mesures de tendance centrale fournissent des informations qui renseignent sur le centre de la distribution. Elles présentent toutefois des limites lorsque les données d’une distribution sont assez dispersées au point que ces mesures ne rendent pas fidèlement compte des données observées. Les mesures de dispersion peuvent être considérées comme complémentaires à celles visant à décrire ce qui se passe au centre de la distribution. Enfin, les mesures de positions permettent pour leur part de donner la position spécifique d'une donnée dans notre distribution.
Durant les trois séances qui composent ce cours, vous serez accompagné par un Exemple Guide, qui est une enquête fictive portant sur l'usage du réseau social Facebook. Cet exemple vous aidera à comprendre, en utilisant ses données, comment calculer et interpréter les données de l'analyse univariée, pour avoir accès à l'Exemple Guide, vous cliquez sur le bouton situé à droite de ce texte principal.
Vous trouverez dans ce cours deux types d’éditeurs ainsi que des commandes permettant de travailler avec le langage Python.
Les éditeurs, Éditeur de graphiques et Éditeur de données. Deux types d’éditeurs ont été intégrés, l’Éditeur permettant de représenter une variable qualitative, un autre permettant de tracer des diagrammes pour les variables quantitatives. Afin de calculer les indices statistiques, bases de l’analyse univariée, on a aussi incorporé deux formes d’ Éditeurs de données, ils vous permettront, à partir des données que vous allez insérer, calculer les paramètres que nous allons développer dans ce Cours.
À la fin de ce cours, vous trouverez en téléchargement une Fiche Commandes Python, cette dernière vous aidera à mieux utiliser le langage afin de calculer les indicateurs vus durant le cours et construire les graphiques adéquats. Vous pouvez vous appuyer sur le GSE (Google Search Engine) qui se situe dans la barre de navigation pour d’ample explications, des indications sont aussi insérer dans la section Pour aller plus loin.
Durant cette séance, nous visons les objectifs suivants :
Représentation des données, tableau statistique, diagramme, graphique, typologie de tableau, typologie des diagramme, Les mesures de tendance centrale, le mode, la médiane, la moyenne, la classe modale, la distribution uniforme, la distribution unimodale, la distribution bimodale, la distribution multimodale, la classe médiane, étendue, variance, écart moyen, écart-type, coefficient de variation, le rang, le rang mitoyen, le rang percentiles (les déciles – les centiles – les quartiles), la valeur étalon z, la valeur étalon T.
Les données brutes . Pour pouvoir effectuer une analyse univariée, il faudrait disposer de données brutes décrivant les caractéristiques de la population (de l’échantillon) concerné (e). Les données brutes sont des données non traitées, leur compilation sous forme d’une distribution des données’ (on dit aussi série statistique) constitue la première-étape de la présentation, du traitement et de l’analyse descriptive des données.
Afin d’établir une distribution des données, on devra déterminer les effectifs qui composent chaque modalité (ou valeur) de la variable étudiée.
Lorsque les données brutes sont organisées dans un tableau, on obtient ce que l’on appelle un tableau de données .
En sciences humaines et sociales, les tableaux sont des outils nécessaires à la recherche, ils remplissent certaines fonctions qui permettent de mieux appréhender le phénomène étudié.
Il existe trois types de tableaux statistiques : les tableaux de données (nous nous contenterons pour l’instant d’une introduction à la nature de ces tableaux, l’étudiant aura de plus amples explications dans la partie consacrée au traitement informatique des données à l’aide d'un programme dédié), les tableaux de distribution de variables et les tableaux de contingences qui intéressent le présent chapitre et qui seront traités dans les sections qui suivent.
Dans une recherche, les tableaux de données sont les premiers à être construits, ils servent au dépouillement des données, communément appelé Tri à plat. Un tableau de données est volumineux et chaque cellule qui le compose renseigne sur une information qui caractérise le sujet.
Un tableau de données se compose principalement de deux marges : la liste des sujets et la liste des variables [la liste des sujets est une liste numérique ou alphabétique, servant à recenser et à identifier les sujets à l’étude : le numéro des questionnaires dans notre cas. La liste des variables permet de renseigner sur les caractéristiques des variables considérées : VAR001, VAR002, etc. [cela étant, elle constitue des listes numératives de données brutes prélevées sur un ensemble large de sujets].
Un tableau de distribution d’une variable est un tableau construit après extraction d’une ou de plusieurs colonnes du tableau de données.
Un tableau de distribution d’une variable est un tableau de juxtaposition, il reproduit fidèlement le contenu d’une ou de plusieurs colonnes du tableau de données prises de manière séparées.Le tableau ci-après illustre l’idée du tableau de distribution d’une variable quantitative de notre exemple [le mécanisme est le même pour tous les types de variables] :
Age (ans) | \(n_i\) | \(\%\) |
---|---|---|
20 | 40 | 40 |
21 | 20 | 20 |
22 | 15 | 15 |
23 | 10 | 10 |
24 | 15 | 15 |
\(\sum\) | 100 | 100 |
L’élaboration préalable d’un tableau simplifie la construction du graphique. Le choix d’un type de graphique est conditionné par la nature de la variable, son échelle de mesure et le type de regroupement de données effectué.
Deux types de graphiques pour la représentation d’une variable qualitative : diagramme à colonnes et diagramme à secteurs.
Le diagramme à colonnes comporte deux axes perpendiculaires. Sur l’axe horizontal (l’axe des modalités de la variable), on représente les modalités de la variable à l’aide de segments d’axe de largeur égale, on veillera à les séparer par des espaces égaux. Sur l’axe verticale(nombre d’unités, pourcentages), on porte les fréquences (ou pourcentages), pour chaque segment associé à une modalité, on construit un rectangle dont la hauteur est proportionnelle à la fréquence (ou au pourcentage) de la modalité, selon une échelle appropriée.
Un digramme circulaire est un diagramme constitué d’un cercle ‘divisé en secteurs, chaque secteur ayant un angle au centre proportionnel à la grandeur représentée (Dodge, 2007, 129-130). Les diagrammes circulaires servent surtout à présenter des données qui, une fois rassemblées, forment un tout.
Considérons le tableau de fréquences suivant [tiré à partir de notre exemple] :
Sexe | \(n_i\) |
---|---|
Masculin | 60 |
Féminin | 40 |
\(\sum\) | 100 |
Nous aurons les résultats suivants (concernant) les deux types de représentations graphiques qui lui sont associées :
Figure II.1.1. Diagramme à colonnes de la distribution des enquêtés selon le sexe. | Figure II.1.2. Diagramme circulaire de la distribution des enquêtés selon le sexe. |
Découvrez l’éditeur de graphiques pour les variables qualitatives. Cliquez sur le lien ci-dessous pour essayer d’introduire des modalités et des données. Apprenez et maîtrisez les bases de manière interactive et ludique.
Accéder à l'ÉditeurLa représentation, et le traitement, d’une variable quantitative est plus complexe que celui concernant une variable qualitative. La représentation graphique d’une variable quantitative dépend principalement de deux paramètres : le nombre d’observations (relatif à la population N, ou à l’échantillon n), et le nombre de valeurs que prend la variable étudiée (quel que soit la catégorie : discrète ou continue).
La variable quantitative se décline en trois grandes catégories de données : les données isolées, les données groupées par valeurs, et les données groupées par classe.
On parle de données isolées lorsque la taille (N) de la population est inférieure à 20 unités. On est en présence d’une faible quantité de données. Notons au passage que cette condition ne possède aucune assise théorique, elle est fondée sur une expérience pratique.
Dans le cas de données isolées, la construction d’un tableau de distribution n’aura pas de signification particulière ; on regroupera alors les données par ordre ascendant.
Les données sont dites regroupées par valeurs, lorsque le nombre de valeurs différentes de la variable est faible par rapport à la taille de la population N (ou à la taille de l’échantillon n) et que ce dernier est supérieur à 20.
Le traitement des données groupées par valeurs reste le même que celui vu concernant le traitement d’une variable qualitative. La construction d’un tableau de distribution des fréquences obéit à la même logique, à une exception : la colonne des modalités est remplacée par une colonne de valeurs.
La présentation numérique d’une variable quantitative discrète se fait donc à l’aide d’un tableau de distribution de variables dans lequel la première colonne contient les valeurs de la variable, la seconde est la colonne des fréquences. On rajoutera, au besoin, une troisième colonne pour les pourcentages.
Le tableau suivant présente la distribution d'une variable quantitative discrète.
Nombre de Frères et Sœurs | Effectifs | \(\%\) |
---|---|---|
0 | 10 | 10 |
1 | 17 | 17 |
2 | 40 | 40 |
3 | 20 | 20 |
4 | 7 | 7 |
5 | 6 | 6 |
\(\sum\) | 100 | 100 |
On représente une variable quantitative discrète, lorsque les données sont regroupées par valeurs, qui sont différentes, à l’aide d’un diagramme en bâtons. Un diagramme en bâtons est composé de deux axes perpendiculaires, sur l’axe horizontal, on portera les diverses valeurs de la variable, et sur l’axe vertical seront portées les valeurs correspondantes (ou les effectifs). On élève perpendiculairement à l’axe des valeurs, et vis-à-vis de chacune d’elles, un segment de droite, appelé bâton, dont la largeur est proportionnelle à la fréquence ou au pourcentage de la valeur.
Découvrez l’éditeur de graphiques pour les variables quantitatives discrètes. Cliquez sur le lien ci-dessous pour essayer d’introduire des valeurs et des données. Apprenez et maîtrisez les bases de manière interactive et ludique.
Accéder à l'ÉditeurTous les éditeurs sont accessibles dans le volet Annexe du présent Cours.
Les données sont regroupées en classes lorsque le nombre de valeurs de la variable est proche de N ou n (et que n ou n est supérieur "ou égal à 20). Dans-le cas de données très différentes, il devient très difficile (voir impossible) de les considérer comme des valeurs isolées, et la construction d’un tableau de distribution de la variable s’avère inutile dans ce cas car on aura un nombre important de fréquences égales à 1. Il convient donc de les regrouper en classes en respectant un certain nombre de principes.
Afin de regrouper ce genre de données, on doit les inclure dans des classes.La présentation numérique des données groupées en classes consiste en un tableau de distribution de variables qui est constitué d’une colonne réservée aux classes et d’une seconde colonne réservée aux fréquences.
Le tableau suivant représente la distribution de données groupées en classes de la variable « âge » de notre exemple.
Age (Ans) | Effectifs | \(\%\) |
---|---|---|
[20-21[ | 40 | 40 |
[21-22[ | 20 | 20 |
[22-23[ | 15 | 15 |
[23-24[ | 10 | 10 |
[24-25[ | 15 | 15 |
\(\sum\) | 100 | 100 |
Remarque : Pour les besoins d’autres calculs d’indices statistiques, il peut être utile d’ajouter des colonnes au tableau précédent, il s’agit surtout du calcul des amplitudes, des centres de classes, etc.
Une distribution de fréquences de données groupées en classes peut être représentée de deux façons: l’histogramme et le polygone de fréquences.
L'histogramme est une représentation graphique de la distribution de données quantitatives. Il se compose de barres verticales dont la hauteur est proportionnelle à la fréquence ou à la proportion des valeurs dans chaque intervalle de classe.
Le polygone de fréquences est une ligne brisée qui relie les sommets des barres de l'histogramme. Il permet de visualiser la distribution des données de manière continue et met en évidence les tendances et les variations.
La représentation graphique de la variable âge de notre exemple guide donne les résultats suivants :
Découvrez l’éditeur de graphiques pour les variables quantitatives continues. Cliquez sur le lien ci-dessous pour essayer d’introduire des classes et des données. Apprenez et maîtrisez les bases de manière interactive et ludique.
Accéder à l'ÉditeurTous les éditeurs sont accessibles dans le volet Annexe du présent Cours.
Remarque : dans le cas d'une variable quantitative continue nous avons pour habitude de calculer un certain nombre d’indices relatifs aux indicateur statistiques, il s’agit surtout de l’amplitude et du centre de classes, des fréquences cumulées (croissantes et décroissantes) , la séance qui suit et qui traite des paramètres de tendances centrales sera l’occasion de revenir sur ces calculs.
Les mesures de tendance centrale cherchent à mettre en évidence le centre de la distribution des fréquences. Les mesures de tendance centrale sont : le mode, la médiane et la moyenne .
Remarque : Nous présenterons dans cette séance les principales mesures de tendance centrale qui servent à l’analyse des données en sciences humaines et sociales. Cette présentation n’est pas fortuite, puisqu’elle servira à étudier, de manière plus pratique, l’interprétation des données contenues dans le premier fascicule d’apprentissage du logiciel d'analyse.
À la fin de cette section, vous retrouverez le Tableur vous permettant de calculer l'ensemble des paramètres de tendance centrale, de dispersion et de position, le même Tableur est disponible dans la partie Annexe de ce cours.
Le mode (noté \(M_O\)) est la mesure de tendance centrale la plus simple à appréhender.
Remarque. Le mode et l’unique mesure de tendance centrale que l’on peut évaluer quel que soit la nature de la variable. Pour une variable qualitative, le calcul de la médiane ou de la moyenne s’avère sans signification.
Le mode représente la modalité (ou la valeur) qui possède l’effectif le plus élevé. Lorsqu’une série de données présente deux modalités possédant l’effectif le plus élevé, on parle de série Bimodale..
Dans notre enquête, et pour la variable Sexe (VAR001), le Mode est : Masculin, car étant la modalité la plus représentée en effectif (60%).
Pour la variable nombre de frères et sœurs, le Mode est de : 3 (frères et sœurs) (40% de l'effectif)
Le calcul du mode pour une variable qualitative
Dans le cas d’une variable qualitative, le mode représente la modalité la plus fréquente de la distribution des fréquences.
Visuellement, la modalité est représentée par le rectangle le plus haut dans le digramme à colonnes, le secteur le plus élevé dans le diagramme circulaire.
Exemple :
Dans notre enquête, nous avons déjà tracé deux graphiques représentant la variable Sexe. A partir de la représentation sous forme de diagramme circulaire ou à barres, nous constatons que le Mode de notre série est le sexe : Masculin
Le calcul du mode pour une variable quantitative
Si la variable à étudier est quantitative, le mode représente la valeur la plus fréquente de la série statistique.
Selon le type de données, le mode peut être directement calculé ou estimé.
Dans le cas de données isolées, le mode est la valeur qui a le plus grand nombre d’ occurrences
Dans la série suivante : 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6. Le Mode \(M_o\) est le chiffre 4 puisque c’est ce dernier qui possède le plus de fréquences (qui se répète le plus).
La définition reste la même que celle vue avant, le Mode est la valeur ayant la fréquence (le pourcentage) le plus élevé dans le tableau de distribution, graphiquement, le segment le plus haut dans le diagramme à bâtons.
Dans notre tri-à-plat du travail sur SPSS, nous pouvons établir le tableau montrant la variable Nombre de frères et sœurs suivant :
Figure II.2.2. Distribution de l’échantillon selon le nombre de frères et sœurs
Sur le graphique à bâtons de la distribution, nous pouvons aussi constater que bâton le plus élevé est celui représentant un nombre de frères et sœurs égal à : 2
Table II.2.1. Distribution de l’échantillon selon le nombre de frères et sœurs
Dans le cas de données groupées en classes, on ne peut pas déterminer une valeur unique du Mode, mais repérer la classe modale.
En ne sachant pas la valeur exacte du Mode, on prend généralement le centre de classe \( (c_i)\) comme valeur estimative du Mode.
Le centre de classe représente le point central d'une classe dans une distribution de fréquences
Pour calculer le centre de classe, on utilise la formule suivante :
\(\text{Centre de classe} = \frac{\text{Borne inférieure} + \text{Borne supérieure}}{2}\)
Avec :
Borne inférieure : la limite inférieure de la classe,
Borne supérieure : la limite supérieure de la classe.
Certains auteurs calculent à l’aide d’une formule la valeur exacte du Mode. En ce qui concerne le présent cours, il n’est pas indispensable de procéder au calcul.
Visuellement, on peut repérer le Mode dans l’histogramme, le Mode correspond au centre de classe de la barre la plus élevée de l’histogramme.
L’exemple suivant représente l’histogramme de la variable âge de notre tri-â-plat.
Figure II.2.3. Histogramme de la variable âge
Nous constatons que la classe modale est celle allant de 20 à 22 ans, ce qui signifie que le mode de notre série est de 21 (qui est le centre de cette classe).
Une distribution qui ne possède pas de mode visuellement visible est dite une distribution uniforme.
La Médiane (notée \(M_d\)) est une autre mesure de tendance centrale qui représente un intérêt certain pour le chercheur, la médiane est la valeur (ou la modalité) qui partage les données en deux parties égales.
La médiane est la valeur (ou la modalité) qui partage les données en deux parties égales.
Dans notre exemple, et pour la variable Niveau d’étude (VAR003), la médiane est : deuxième année, puisque 55% (plus de 50%, donc de la moitié) des étudiants interrogés sont en première, ou en deuxième, année.
Afin de pouvoir évaluer, ou calculer, la médiane, il faut pouvoir ordonner les données. Dans le cas d’une variable qualitative nominale, une telle opération ne peut être réalisée, la médiane n’a de sens que dans le cas d’une variable qualitative ordinale ou d’une variable quantitative.
Dans le cas de variable quantitative isolée, la médiane est la donnée centrale si le nombre de ces dernières est impair. Si le nombre de données est pair, la médiane se situera à mi-distance des deux valeurs centrales, comme indiqué dans les deux formules suivantes :
N (ou n) impair : $$\color{RoyalBlue}{{\text{Md}}} = \left(\frac{n+1}{2}\right)^{e} donnée $$
Exemple :
Dans la série suivante : 1, 1, 1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 5, nous remarquons qu’il y a 13 observations. Puisque \(n\) représentant le nombre d’observations
est un nombre impair, nous choisissons comme médiane le 2 car c’est le nombre se trouvant à la septième place, comme indiqué ci-après :
N (ou n) pair : $$M_d = la~ mi-distance~ entre~ \left(\frac{n}{2}\right)^e ~et~ \left(\frac{n+1}{2}\right)^{e} donnée $$
Exemple :
Dans la série précédente nous allons ajouter un chiffre, chiffre 6 par exemple : 1, 1, 1, 1, 2, 2, 2, 3,3, 4, 4, 4, 5, 6. Nous remarquons qu’il y a maintenant 14 observations. Puisque \(n\) représentant le nombre d’observations est un nombre pair, nous choisissons comme médiane la mi-distance entre la
7e et la 8e observation comme indiqué ci-après :
Nous dirons donc que la médiane est égale à : 2,5 .
La définition reste la même que pour une variable qualitative ordinale. Pour déterminer la médiane, on calculera d’abord les pourcentages cumulés de la distribution de données ; on déterminera ensuite la première valeur à laquelle correspond 50% ou plus des pourcentages cumulés.
Remarque : lorsque le pourcentage cumulé d’une valeur correspond exactement à 50%, la médiane sera le nombre situé à mi-distance entre la valeur dont le pourcentage cumulé est 50% et la valeur suivante.
Exemple :
Dans notre exemple guide, nous allons calculer la Médiane pour la variable nombre de frères et sœurs, ce qui nous donne le résultat suivant :
Figure II.2.4. Valeur de la médiane de la variable nombre de frères et sœurs, calcul SPSS
Pour déterminer la médiane dans le cas de données groupées en classes, on suit généralement les étapes suivantes :
On applique ensuite la formule suivante :
Remarque : la même formule peut être appliquée en remplaçant les fréquences par des pourcentages.
Dans notre exemple, nous calculons la médiane pour la variable âge comme suit :
La moyenne est l’une des mesures de tendance centrale les plus utilisées dans la recherche en sciences humaines.
Le terme Moyenne regroupe plusieurs types : moyenne géométrique, quadratique , etc. Dans notre cas, nous utilisons le terme Moyenne pour signifier la moyenne arithmétique calculée en analyse de données.
La moyenne arithmétique est le rapport de la somme des effectifs pondérés sur le nombre d’observations (N ).
Dans notre exemple, pour la variable nombre de frères et sœurs (VAR004), la moyenne arithmétique est égale à : 2 (frères et sœurs).
Remarque : On parle de moyenne arithmétique usuelle, lorsque on traite une variable dont les données sont limitées (qui ne nécessitent pas de pondération). Cette définition est rarement ou pas utilisée dans la recherche.
Lorsqu’il s’agit du calcul de la moyenne de la population nous employons la notation : \(\mu_x\), (qui se lit mu indice x), la notation \(\bar x\) (lire x barre) s’utilise dans le cas d’un échantillon. Cette dernière idée est à mémoriser, car nous en aurons besoins lors des opérations d’inférence.
De façon générale, et comme dans le cas de la médiane, la moyenne ne peut pas être calculée pour une variable qualitative nominale, elle l’est pour une variable qualitative ordinale si certaines conditions sont respectées. Le calcul de la moyenne est surtout significatif dans le cas d’une variable quantitative.
De manière simple, la moyenne est donnée par la relation suivante :
Pour une population :
Pour un échantillon :
Dans le cas d’une variable qualitative à échelle ordinale, le calcul de la moyenne est possible à condition d’avoir préalablement codé les modalités de la variable. La définition du calcul de la moyenne reste la même que celle vue plus haut.
Le calcul d’une moyenne pour une variable quantitative obéit à la même logique vue plus haut, il y a une différence lorsque la variable considérée est quantitative continue, ce qui fait intervenir le centre de classe comme dans le cas du calcul de la médiane vue précédemment.
Calcul de la moyenne pour des données isolées
Dans le cas de données isolées, le calcul de la moyenne consiste en l’addition de toutes les valeurs de la variable et leur division sur leur nombre, tel qu’écrit dans la formule suivante :
Pour la population :
Pour l’échantillon :
Exemple : considérons la série suivante : 1, 3, 4, 5, 5, 6, 6, 7, 8, 9, 11, 12, 13, 30, 30.
En reprenant la définition de la moyenne arithmétique, on aura le résultat suivant :
Calcul de la moyenne pour des données groupées par valeurs
Lorsque les données sont groupées par valeurs, la formule s’applique avec un ajustement : la moyenne est pondérée suivant les fréquences \((n_i)\) respectives qui représentent chaque valeur.
Ainsi la formule à utiliser pour les données groupées par valeurs s’écrit de cette manière :
Pour la population :
Pour l'échantillon :
Exemple : Nous calculerons ici, à l’aide du logiciel SPSS, la moyenne arithmétique dans le cas de données groupées par valeurs, la même procédure reste valable pour des données groupées par classe.
Dans cet exemple, nous calculerons la moyenne arithmétique pour la variable nombre de frères et soeurs de notre exemple guide.
Dans SPSS, la manipulation donne le résultat suivant :
Calcul de la moyenne pour des données groupées par classes
Dans le cas des données groupées en classes, la valeur de la moyenne est pondérée suivant le centre des classes, ce qui donne un résultat approximatif de la moyenne. La moyenne se calcul à l’aide des formules suivantes :
Pour la population :
Pour l'échantillon :
Exemple : donner un exemple sur le calcul de la moyenne arithmétique dans le cas d'une variable quantitative continue.
Les mesures de tendance centrale fournissent des informations qui renseignent sur le centre de la distribution. Elles présentent toutefois des limites lorsque les données d’une distribution sont assez dispersées au point que ces mesures ne rendent pas fidèlement compte des données observées. Les mesures de dispersion peuvent être
considérées comme complémentaires à celles visant à décrire ce qui se passe au centre de la distribution.
En sciences humaines, nous aurons recours à l’utilisation de deux (02) types de mesures de dispersion, ce sont : l’étendu et l’écart type.
L’étendue est définie comme l’écart entre la plus grande et la plus petite valeur d’une série statistique.
En utilisant la définition, on obtient une formule plus simple :
Dans un contrôle de statistiques descriptives, un enseignant a corrigé les copies de deux groupes, chaque groupe étant composé de quarante (40) étudiants. Nous reproduisant les notes de chaque groupe.
Groupe 1 | ||||
---|---|---|---|---|
0 | 0 | 1 | 1 | 2 |
3 | 3 | 4 | 5 | 6 |
6 | 7 | 8 | 9 | 9 |
9 | 10 | 10 | 10 | 10 |
10 | 10 | 11 | 11 | 12 |
12 | 13 | 13 | 14 | 15 |
15 | 16 | 16 | 17 | 17 |
18 | 18 | 19 | 20 | 20 |
Groupe 2 | ||||
---|---|---|---|---|
4 | 4 | 4 | 4 | 5 |
5 | 5 | 6 | 6 | 6 |
6 | 7 | 7 | 7 | 7 |
8 | 10 | 10 | 10 | 10 |
10 | 10 | 10 | 10 | 10 |
11 | 11 | 11 | 14 | 14 |
14 | 15 | 15 | 15 | 16 |
16 | 16 | 17 | 17 | 17 |
Nous remarquons que les deux séries possèdent exactement les mêmes valeurs centrales, à savoir : un Mode de 10, une moyenne de 10 et une médiane de 10 aussi.
Cependant, en calculant l’étendue de chacune des deux séries nous aurons les résultats suivants :
Nous remarquons, d’après le calcul de l’étendue, que dans le premier groupe les notes varient de 0 jusqu’à 20, d’où l’étendue qui est plus importante que celle observée dans le deuxième groupe, à savoir 13. La dispersion des notes obtenues par les étudiants est plus forte dans le premier groupe que dans le deuxième.
Malgré le fait qu’elle soit simple à évaluer, l’étendue nous donne une première lecture, une impression sur la variabilité des données.
Quel que soit le type de regroupement de valeurs considéré, la définition de l’étendue reste la même :
Dans le tableau suivant, qui présente le nombre d’enfants par ménage, on peu facilement évaluer l’étendue :
\(x_i\) | 0 | 1 | 2 | 3 | 4 | 5 | \(\sum\) |
\(n_i\) | 22 | 40 | 18 | 12 | 05 | 03 | \(100\) |
La valeur la plus élevée étant \(5\) et la plus petite étant \(0\), on relèvera que l’étendue est de \(5 - 0 = 5\) . La même remarque eut être faite par rapport au premier exemple : deux séries ayant la même étendue n’ont pas pour autant la même variabilité.
Dans le cas de données groupées en classes, le calcul de l’étendue s’effectue sur les bornes des classes. L’étendue de l’échantillon est égale à la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe.
Dans l’exemple suivant, qui représente la distribution d’un échantillon suivant la variable âge, nous évaluerons l’étendue comme suite :
\(Age_{ans}\) | [ 20 - 30 [ | [ 30 - 40 [ | [ 40 - 50 [ | [ 50 - 60 [ | [ 60 - 70 [ | [ 70 - 80 [ | \(\sum\) |
\(n_i\) | 10 | 20 | 40 | 15 | 14 | 11 | \(100\) |
La valeur la plus élevée étant 80 et la plus petite étant 30, on relèvera que l’étendue est de \(80 - 30 = 50\) . La même remarque eut être faite par rapport au premier exemple : deux séries ayant la même étendue n’ont pas pour autant la même variabilité.
La variance \(\sigma_x^2\) est, tout comme l’écart-type \(\sigma_x\) et le coefficient de variation (\(C_v\)), un indicateur de dispersion autour de la moyenne.
Le principe de calcul de la variance (et de l’écart-type) consiste à estimer la différence moyenne (ou ce que l’on appelle aussi l’écart moyen) de chaque observation et la moyenne arithmétique de ces observations.
On remarquera que le calcul des écarts moyens donne lieu à des résultats positifs et négatifs qui s’annulent, l’addition de l’ensemble des écarts moyens est égale à 0, à ce titre la variance apporte une solution en calculant les carrés des écarts, ces derniers sont soit nuls ou positifs.
La variance d’une variable \(x\) notée \(\sigma_x^2\) (elle se lit : \( sigma ~~carré ~~indice ~~x)\). La variance peut être calculée pour la population tout comme pour l’échantillon
La variance d’une variable (x) est égale à la moyenne des carrés des écarts entre les valeurs de la variable et la moyenne.
Remarque : il est à noter que plus les écarts moyens sont élevés (écarts des valeurs par rapport à la moyenne) plus la variance est élevée et vice-versa, et plus donc la dispersion autour de la moyenne est grande.
Si les données sont isolées, les \(n\) valeurs de la variable sont notées : \(x_1, x_2, x_3, x_4, x_5...., x_n\) , la variance s’obtient en divisant la somme des carrées des écarts entre les données et la moyenne de la population sur le nombre des données, telle que montrée dans la formule suivante (appuyez sur la formule pour plus de détails ):
Note par rapport au calcul de la variance pour un échantillon. Pour l’échantillon, la formule de calcul de la variance doit subir une transformation, cette modification tient compte de l’erreur de l’échantillonnage et du fait que l’échantillon est plus petit que la population.
La correction du biais de l’échantillonnage s’obtient en divisant la somme des carrés des écarts par ( n − 1 ) et non pas par n. Ainsi la variance calculée pour un échantillon est appelée : variance échantillonnale , elle est notée : \(\sigma_{x}^{2}\).
La formule à employer pour le calcul de la variance dans le cas de données isolées pour un échantillon s’écrit ainsi ( appuyez sur la formule pour plus de détails ) :
Remarque (calcul de la variance) . Dans le calcul de la variance, il faudrait faire attention à ne pas soustraire le carré de la moyenne arithmétique à la somme des \(x_{i}^{2}\) , il faudrait diviser avant par le nombre d’observations.
En simplifiant la formule de la variance, nous aurons à la fin l’équation suivante, que l’on appelle le théorème de König-Huygens :
Essayons de calculer la variance pour chacun des groupes de l’exemple précédent : (nous nous servons du tableau pour mieux calculer les termes de l’équation)
Nous avons vu que la moyenne arithmétique \(\bar{x} = 10\), le tableau suivant possède une autre cellule pour le calcul de \(x_i^2\) :
Groupe 1
\(x\) | 0 | 0 | 1 | 1 | 2 | 3 | 3 | 4 | 5 | 6 | 6 | 7 | 8 | 9 | 9 | 9 | 10 | 10 | 10 | 10 |
\(x^{2}\) | 0 | 0 | 1 | 1 | 4 | 9 | 9 | 16 | 25 | 36 | 36 | 49 | 64 | 81 | 81 | 81 | 100 | 100 | 100 | 100 |
\(x\) | 10 | 10 | 10 | 11 | 11 | 12 | 12 | 13 | 13 | 14 | 15 | 15 | 16 | 16 | 17 | 17 | 18 | 18 | 19 | 20 |
\(x^{2}\) | 100 | 100 | 100 | 121 | 121 | 144 | 144 | 169 | 169 | 196 | 225 | 225 | 256 | 256 | 289 | 289 | 324 | 324 | 361 | 400 |
En appliquant la formule, on aura le résultat suivant : \(29.4\)
Nous procédons maintenant au calcul de la variance pour le deuxième groupe pour pouvoir ainsi comparer entre les résultats des deux groupes :
Pour le groupe 2, nous allons donc reproduire la même démarche, on aura à la fin le résultat suivant :
Groupe 2
\(x\) | 4 | 4 | 4 | 4 | 5 | 5 | 5 | 6 | 6 | 6 | 6 | 7 | 7 | 7 | 7 | 8 | 10 | 10 | 10 | 10 |
\(x^{2}\) | 16 | 16 | 16 | 16 | 25 | 25 | 25 | 36 | 36 | 36 | 36 | 49 | 49 | 49 | 49 | 64 | 100 | 100 | 100 | 100 |
\(x\) | 10 | 10 | 10 | 10 | 10 | 11 | 11 | 11 | 14 | 14 | 14 | 15 | 15 | 15 | 16 | 16 | 16 | 17 | 17 | 17 |
\(x^{2}\) | 100 | 100 | 100 | 100 | 100 | 121 | 121 | 121 | 196 | 196 | 196 | 225 | 225 | 225 | 256 | 256 | 256 | 289 | 289 | 289 |
En appliquant la formule, on aura le résultat suivant : \(17.6\)
Remarque
Il est à noter que la variance est sensible, tout comme l’étendue, à la variabilité des observations. Tout comme l’étendue, la variance des notes du groupe 1 est supérieure à celle du groupe 2.
Soit une variable quantitative \(x\) définie sur une population composée de \(n\) individus, les valeurs de la variable étant : \(x_1 , x_2, x_3, x_4, ........x_k\) et les fréquences : \(n_1, n_2, n_3, n_4, ........n_k\). La valeur de la variance est calculée suivant la même logique, à remarquer qu’elle est pondérée par \(n_i\).
Pour une population :
Nous restons toujours dans la même définition, la variance est la moyenne pondérée des carrés des écarts à la moyenne.
Pour un échantillon :
On peut se servir encore une fois du théorème de König-Huygens , en le simplifiant on obtiendra la formule suivante :
Pour une population :
Pour un échantillon :
Reprenons l'exemple du nombre d'enfants par ménage, nous allons ajouter deux colonnes à notre tableau : dans la première nous allons calculer \((x_i-\bar{x})^2\) et dans la seconde \(n_i . (x_i-\bar{x})^2\) :
\(x_i\) | \(n_i\) | \((x_i-\bar{x})^2\) | \(n_i . (x_i - \bar{x})^2\) |
0 | 22 | - 1.47 | - 32.34 |
1 | 40 | - 0.47 | - 8.83 |
2 | 18 | 0.53 | 5.05 |
3 | 12 | 2.34 | 28.09 |
4 | 5 | 2.53 | 32 |
5 | 3 | 3.53 | 37.38 |
N | 100 | --- | 61.35 |
La moyenne de la série est égale à : \(1.47\). En appliquant la formule de la variance, nous aurons le résultat suivant :
La définition reste la même sauf que l’on remplace les valeurs par les centres de classes (milieux des classes), notés : \(c_i\) .
Pour une population :
Pour un échantillon :
Pour l'exemple concernant l'âge, nous aurons comme résultat : \(\sigma_{x}^{2} = 283.84\).
La variance a comme inconvénient de s’exprimer en unités carrées (dans notre exemple précédent : les notes des étudiants au carré, les nombres d’enfants au carré, etc.), elle a pour inconvénient de ne pas être directement interprétable.
Pour que la variance puisse être ramenée à la même échelle de la moyenne, on en extrait la racine carrée, le résultat est une mesure exprimée dans la même unité que la variable étudiée : l’écart type .
L’écart type est défini comme la racine carré de la variance (il est noté \(\sigma_x\) dans le cas de la population et lu sigma x, et \(S_x\) dans le cas de l’échantillon), l’écart-type calcule l’écart moyen entre une valeur de la variable et la moyenne de la variable, ce qui a pour effet de l’exprimer dans la même unité de mesure.
Explication : en reprenant la variance de la variable âge, on aura pour écart-type le résultat suivant : \(\sigma_x\) = \(\sqrt{283.84}\) = \(16.84\). Nous remarquons donc que la variable âge connaît une variation prononcée dans notre échantillon.
Les statistiques de positionnement nous permettent de faire des comparaisons, pouvoir situer une ou des observations par rapport à la moyenne ou à l’ensemble des observations.
Il existe différentes statistiques de positionnement, nous nous intéressons à trois d’entre-elles : les quantiles ( ou rang percentile), le rang absolu, et la valeur étalon .
Une distribution de fréquences peut être divisée en un nombre choisi de parties. Le rang percentile indique la position d’une observation (d’une valeur) par rapport, et comparativement, à toutes les autres observations.
On désigne sous l'appellation de quantiles, l'opération visant à diviser la distribution des fréquences en certaines parties.
Les quantiles sont définis par analogie avec la médiane. L’usage veut que les quantiles les plus connus soient ceux qui partagent la distribution de fréquences en quatre (les quartiles), en cinq (les quintiles), en dix (les déciles) et en cent (les centiles).
Un quantile d'ordre α %, on le note q α est la valeur de la variable pour laquelle la fréquence cumulée croissante qui lui est associée est égale à α %
Pour les fréquences : $$ F (q_{\alpha}) = \alpha \% $$
Pour les effectifs : $$ N (q_{\alpha}) = \alpha \% . n $$
Dans cette section, nous nous limiterons au seul cas des centiles, les autres quantiles seront évoqués (en inscrivant leurs formules), le lecteur y aura recours au besoin.
Le calcul du rang percentile
Par définition, le rang percentile est définit par le pourcentage d’observations qui tombent sous cette valeur plus la moitié du pourcentage d’observations qui tombent exactement sur cette valeur.
Le calcul du rang percentile se fait à l’aide du tableau statistique, en ayant calculé les fréquences (pourcentages) cumulées, puis effectuer une correction arithmétique pour pouvoir avoir la valeur du rang percentile.
Les rangs percentiles sont utilisés lors de tests standardisés , qu'on appelle aussi tests normalisés tels que : le QI, TOEFL, le SAT, le GRE, et le GMAT, etc. Par définition, les tests standardisés, ou tests normalisés, sont des évaluations conçues de manière à être administrées et notées de manière cohérente pour tous les participants.
Les centiles
Les centiles sont des valeurs qui divisent la distribution de fréquences en 100 parties égales.
A titre d’exemple, le 18e centile, noté C18 (C indice 18), est la valeur à laquelle 18% des données sont inférieures (82% des données sont supérieures).
Un centile d’ordre α est noté Cα (où α représente la valeur à laquelle α % des données sont inférieures).
Le calcul d’un quantile est analogue à celui de la médiane, on remplacera juste 50% par α %.
Cas des données isolées
Le calcul d’un centile dans le cas des données isolées est assez simple : si \(N\) correspond à 100% des données, \(\alpha\) % correspondra à \(d\) données, exprimée en \(p ~~( Position ) \).
La règle de trois s’appliquant à ce genre de calcul est :
partant de l'équivalence suivante:
$$\frac {\alpha} {100} = \frac {p}{N} \xrightarrow{\hspace{3cm}} p = \frac {N \alpha}{100}$$Remarque, exemples et explications :
Supposons que nous avons les scores suivants pour 5 étudiants :
\[ 45, 50, 55, 60, 65 \]
Nous allons calculer le 40ème centile (P40).
Étapes du Calcul :
Les valeurs correspondantes sont :
L'interpolation linéaire se fait ainsi :
\[ P40 = \text{Valeur à la position inférieure} + (\text{Partie fractionnaire de la position} \times \text{Difference entre les valeurs }) \] \[ P40 = 50 + (0,4 \times (55 - 50)) = 50 + (0,4 \times 5) = 50 + 2 = 52 \]Résultat : Le 40ème centile pour ces données est 52. Cela signifie que 40% des étudiants ont un score inférieur ou égal à 52.
Nous avons les scores suivants pour 8 étudiants :
\[ 48, 55, 58, 60, 65, 68, 72, 75 \]
Nous allons calculer le 75ème centile (P75).
Étapes du Calcul :
Les valeurs correspondantes sont :
L'interpolation linéaire se fait ainsi :
\[ P75 = \text{Valeur à la position inférieure} + (\text{Partie fractionnaire de la position} \times \text{Différence entre les valeurs}) \] \[ P75 = 68 + (0,75 \times (72 - 68)) = 68 + (0,75 \times 4) = 68 + 3 = 71 \]Résultat : Le 75ème centile pour ces données est 71. Cela signifie que 75% des étudiants ont un score inférieur ou égal à 71.
Cas des données groupées par valeurs
Pour calculer le centile d'ordre α, on se sert de la formule nous permettant de calculer la médiane pour un caractère quantitatif discret.
Cas des données groupées par classes
Dans le cas de données groupées en classes, on aura recours à la formule de calcul de la médiane vue précédemment.
Le calcul du centile α consistera à retrouver la valeur qui dépasse α%.
Pour bien calculer le centile α % , on remplacera 50% par α % et on prendra la classe qui contient Cα (et non la classe médiane). $$C_{\alpha}= b_{cα} \left [\frac {α- F_{cα-1}} {F_{cα}}\right] * L_{cα} $$Données : Supposons que nous avons les scores groupés suivants pour 40 étudiants :
Classes | Fréquence (f) |
---|---|
[ 0 - 10 [ | 5 |
[ 10 - 20 [ | 8 |
[ 20 - 30 [ | 12 |
[ 30 - 40 [ | 10 |
[ 40 - 50 [ | 5 |
Σ | 40 |
Nous allons calculer le 70ème centile (P70).
Étapes du Calcul :
Nous devons calculer la fréquence cumulative jusqu'à ce que nous atteignions la position 28 :
La 28ème observation se situe dans la fréquence cumulative de 35, correspondant à l'intervalle [30, 40].
Résultat : Le 70ème centile pour ces données groupées est 33. Cela signifie que 70% des étudiants ont un score inférieur ou égal à 33.
Le rang percentile est une statistique simple à calculer et à interpréter ; cependant , le rang percentile peut s’avérer être une mesure inadéquate lorsque la distribution n’est pas symétrique, le problème se rencontre plus particulièrement lorsque l’échantillon est de petite taille. Le rang percentile ne prend pas en considération les indices statistiques (Moyenne et écart-type) dans l’interprétation, ce qui le rend sensible à la forme de la distribution des données.
Le rang permet de déterminer la position d'une donnée isolée. On distingue habituellement trois type de rang : le rang absolu, le rang cinquième ainsi que le rang centile.
Le rang absolu permet d’indiquer la position d’une observation par rapport, comparativement, aux observations extrêmes. La série statistique étant classée par ordre croissant ou décroissant. Le rang absolu est une statistique de positionnement qui indique de manière fragile la position d’une observation compte-tenu des observations se situant dans les deux limites de l’ensemble des observations. Le rang cinquième est un nombre compris entre 1 et 5, indiquant à quel intervalle se situe une donnée dans une distribution divisée en cinq partie égales.
Nous nous intéresserons dans notre cours uniquement au rang centile.
Par définition, le rang centile est le pourcentage des données qui lui sont inférieures. Le rang centile est exprimé en chiffre entier ayant une valeur comprise entre 1 et 99. La détermination du rang centile est l'opération inverse de la détermination du centile.
Exemple et explication :
Le tableau suivant montre les scores groupés pour 40 étudiants :
Classes | Fréquence (f) |
---|---|
[ 0 - 10 [ | 5 |
[ 10 - 20 [ | 8 |
[ 20 - 30 [ | 12 |
[ 30 - 40 [ | 10 |
[ 40 - 50 [ | 5 |
Σ | 40 |
Nous allons calculer le rang percentile pour une valeur de 35.
Étapes du Calcul :
La valeur 35 se situe dans l'intervalle [ 30, 40 [.
Formule:
$$Rang ~~centil ~~=~~ partie~~entière~~de \left[ {\frac{X_{r} - b_{r}} {L_{r}} * f_{r}} + F_{r-1} \right[$$Résultat : La valeur de 35 se situe au 75ème percentile. Cela signifie que 75% des étudiants ont un score inférieur ou égal à 35.
On peut déterminer directement le rang centile à l'aide de l'ogive.
L'ogive est un graphique qui représente la fréquence cumulative des données. Elle permet de visualiser la distribution cumulative et d'estimer des centiles ou des rangs percentiles. L'axe horizontal \((x)\) représente les valeurs ou les classes, et l'axe vertical \( (y) \) représente la fréquence cumulative.
Nous allons calculer le rang percentile pour une valeur de 35 à partir de l'ogive.
Étapes du Calcul du Rang Percentile à partir de l'Ogive :
Calculer la fréquence cumulative pour chaque classe et tracer les points correspondants aux bornes supérieures de chaque classe et leur fréquence cumulative.
Localiser la valeur 35 sur l'axe des x. Tracer une ligne verticale depuis 35 jusqu'à l'ogive. Tracer une ligne horizontale depuis l'intersection jusqu'à l'axe des y pour lire le rang percentile.
Calcul du Rang Percentile :
À partir de l'ogive, la valeur de 35 se situe à une fréquence cumulative de 30.
Le rang percentile pour une valeur de 35 est donc :
\[ P = \left( \frac{30}{40} \right) \times 100 = 75 \]
Résultat : La valeur de 35 se situe au 75ème percentile. Cela signifie que 75% des étudiants ont un score inférieur ou égal à 35.
La cote Z nous permet de représenter la position d'une observation en référence à l'unité de mesure que constitue l'écart-type.
Par définition la cote Z est la distance entre une donnée et la moyenne, exprimée en écart type.
La cote Z, également appelée score Z ou score standardisé, est une mesure statistique qui indique combien d'écarts-types une donnée est au-dessus ou en dessous de la moyenne de l'ensemble des données. En d'autres termes, la cote Z permet de normaliser les différentes valeurs d'un jeu de données, afin de comparer des données provenant de différentes distributions ou ensembles.
Formule :
La \(cote Z\) pour une valeur \(x\) est calculée en utilisant la formule suivante :
$$ Cote Z = \frac {Valeur ~~de~~ la~~ donnée~~ - Moyenne} {Ecart ~~type}$$ On réécrira la formule de cette façon : $$ Z = \frac {x - M} { \sigma} $$où :
Les deux tableaux qui suivent reprennent les notes respectives de vingt étudiants dans deux modules : Méthodologie de recherche en sciences humaines et sociales ainsi que Présentation et analyse de données.
Il s’agira, à partir du calcul de la Cote Z, de classer les étudiants selon les résultats combinés, obtenus dans les deux modules, comparativement à la moyenne, la variance et l’écart-type des notes de ces derniers.
Étudiant | Méthodologie de la recherche en SHS |
---|---|
Étudiant 1 | 60 |
Étudiant 2 | 70 |
Étudiant 3 | 80 |
Étudiant 4 | 90 |
Étudiant 5 | 50 |
Étudiant 6 | 85 |
Étudiant 7 | 75 |
Étudiant 8 | 45 |
Étudiant 9 | 65 |
Étudiant 10 | 55 |
Étudiant 11 | 70 |
Étudiant 12 | 95 |
Étudiant 13 | 65 |
Étudiant 14 | 55 |
Étudiant 15 | 85 |
Étudiant 16 | 75 |
Étudiant 17 | 65 |
Étudiant 18 | 55 |
Étudiant 19 | 60 |
Étudiant 20 | 80 |
Étudiant | Présentation et analyse de données |
---|---|
Étudiant 1 | 65 |
Étudiant 2 | 75 |
Étudiant 3 | 85 |
Étudiant 4 | 95 |
Étudiant 5 | 55 |
Étudiant 6 | 80 |
Étudiant 7 | 90 |
Étudiant 8 | 50 |
Étudiant 9 | 70 |
Étudiant 10 | 60 |
Étudiant 11 | 75 |
Étudiant 12 | 95 |
Étudiant 13 | 65 |
Étudiant 14 | 55 |
Étudiant 15 | 80 |
Étudiant 16 | 70 |
Étudiant 17 | 65 |
Étudiant 18 | 55 |
Étudiant 19 | 60 |
Étudiant 20 | 85 |
\[ \text{Moyenne} = \frac{\displaystyle \scriptsize 60 + 70 + 80 + 90 + 50 + 85 + 75 + 45 + 65 + 55 + 70 + 95 + 65 + 55 + 85 + 75 + 65 + 55 + 60 + 80}{\scriptsize 20} = 70 \]
\[ \text{Variance } = \frac{\sum (x_i - \mu)^2}{n} = 200 \]
\[ \text{Écart-type } = \sqrt{200} = 14.14 \]
\[ \text{Moyenne } = \frac{ \displaystyle \scriptsize 65 + 75 + 85 + 95 + 55 + 80 + 90 + 50 + 70 + 60 + 75 + 95 + 65 + 55 + 80 + 70 + 65 + 55 + 60 + 85}{\displaystyle \scriptsize 20} = 72.5 \]
\[ \text{Variance } = \frac{\sum (x_i - \mu)^2}{n} = 206.25 \]
\[ \text{Écart-type } = \sqrt{206.25} = 14.36 \]
En utilisant la formule de la Cote Z, on calculera la Cote Z pour chaque module, puis une fois obtenue, on en calculera la moyenne en les ayant additionnée et divisées par deux, on aura alors la Cote Z moyenne avec laquelle nous classerons les résultats des étudiants.
Étudiant | Cote Z (Méthodologie de la recherche en SHS) | Cote Z (Présentation et analyse de données) | Cote Z Moyenne |
---|---|---|---|
Étudiant 1 | -0.71 | -0.52 | -0.62 |
Étudiant 2 | 0.00 | 0.17 | 0.08 |
Étudiant 3 | 0.71 | 0.87 | 0.79 |
Étudiant 4 | 1.41 | 1.57 | 1.49 |
Étudiant 5 | -1.41 | -1.22 | -1.32 |
Étudiant 6 | 1.06 | 0.52 | 0.79 |
Étudiant 7 | 0.35 | 1.22 | 0.78 |
Étudiant 8 | -1.77 | -1.57 | -1.67 |
Étudiant 9 | -0.35 | -0.17 | -0.26 |
Étudiant 10 | -1.06 | -0.87 | -0.97 |
Étudiant 11 | 0.00 | 0.17 | 0.08 |
Étudiant 12 | 1.77 | 1.57 | 1.67 |
Étudiant 13 | -0.35 | -0.52 | -0.44 |
Étudiant 14 | -1.06 | -1.22 | -1.14 |
Étudiant 15 | 1.06 | 0.52 | 0.79 |
Étudiant 16 | 0.35 | -0.17 | 0.09 |
Étudiant 17 | -0.35 | -0.52 | -0.44 |
Étudiant 18 | -1.06 | -1.22 | -1.14 |
Étudiant 19 | -0.71 | -0.87 | -0.79 |
Étudiant 20 | 0.71 | 0.87 | 0.79 |
Après avoir calculé les Cote Z moyennes, nous pouvons avoir ce classement.
Rang | Étudiant | Cote Z Moyenne |
---|---|---|
1 | Étudiant 12 | 1.67 |
2 | Étudiant 4 | 1.49 |
3 | Étudiant 3 | 0.79 |
4 | Étudiant 6 | 0.79 |
5 | Étudiant 7 | 0.78 |
6 | Étudiant 15 | 0.79 |
7 | Étudiant 20 | 0.79 |
8 | Étudiant 2 | 0.08 |
9 | Étudiant 11 | 0.08 |
10 | Étudiant 16 | 0.09 |
11 | Étudiant 1 | -0.62 |
12 | Étudiant 9 | -0.26 |
13 | Étudiant 13 | -0.44 |
14 | Étudiant 17 | -0.44 |
15 | Étudiant 10 | -0.97 |
16 | Étudiant 5 | -1.32 |
17 | Étudiant 14 | -1.14 |
18 | Étudiant 18 | -1.14 |
19 | Étudiant 8 | -1.67 |
20 | Étudiant 19 | -0.79 |
Table II.4.1. Classement des étudiants selon les moyennes de leurs Cote Z
Découvrez l’éditeur de données pour les variables quantitatives discrètes. Cliquez sur le lien ci-dessous pour essayer d’introduire les données d'un tableau afin de calculer les paramètres statistiques. Apprenez et maîtrisez les bases de manière interactive et ludique.
Accéder à l'ÉditeurTous les éditeurs sont accessibles dans le volet Annexe du présent Cours.
Découvrez l’éditeur de données pour les variables quantitatives continues. Cliquez sur le lien ci-dessous pour essayer d’introduire les données de classe d'un tableau pour calculer les paramètres statistiques. Apprenez et maîtrisez les bases de manière interactive et ludique.
Accéder à l'ÉditeurTous les éditeurs sont accessibles dans le volet Annexe du présent Cours.
Nous venons de voir dans ce cours les différents indices qui permettent de décrire une série de données.
Les indices de tendance centrale sont présents dans la plupart des documents portant sur l’analyse de données. On peut voir dans les indicateurs de tendance centrale une première approche visant à cerner les informations globales qui déterminent l’identité de notre population, ou échantillon, de l’enquête.
Les paramètres de tendance centrale permettent, dans une autre mesure, de tracer une ligne directrice quant à la future analyse qui concernera nos données. Il est donc important d’en saisir la portée :
Dans le présent cours, nous avons vu comment calculer et interpréter les mesures de dispersion.
Les mesures de dispersion, associées aux mesures de tendance centrale, fournissent une première approche de l’analyse de nos données d’enquête. Il est très important d’en maîtriser le processus :
L’analyse univariée aura aussi recours à l’interprétation des mesures de position. Ces dernières nous permettent de connaître, de repérer l'endroit exact d'une observation dans notre série statistique :
Le Cours ne possède pas de bibliographie finale (dans sa version en ligne), les renvois sont insérés à la fin de chaque Bloc.
Les questions qui suivent vous permettent de faire un état des connaissances discutées durant le Bloc, on fera une discussion durant les séances de Travaux Dirigés.
Le QCM comporte douze questions qui portent sur certaines parties du Cours, à la fin vous aurez votre évaluation ainsi que le corrigé.
Pour accéder au QCM, cliquer sur l'icone suivante :
Dans cette section vous allez pouvoir télécharger des fiches en relation avec le présent cours.
Fiche 1 Les bibliothèques Python : dans cette fiche, vous allez faire un peu plus connaissance avec les bibliothèques Python dédiées à l'analyse des données (Pandas, NumPy, Matplotlib). Ces bibliothèques vous aideront à dessiner des diagrammes et à calculer les paramètres statistiques univariés. Cliquez ICI pour télécharger la table.
Pour aller plus loin dans votre apprentissage de ce premier Bloc, vous pouvez consulter les liens suivants :
Sur l'Appli du Cours, vous trouverez le résumé du présent Bloc, ainsi que des séries de Travaux Dirigés qui lui sont liées.
On trouvera aussi des renvois à des contenus multimédias qui intéressent le Bloc.
Dans le volet de Notifications, une mise à jour est prévue, elle se fera suivant les questionnements formulés par les étudiants durant les séances de Cours et de Travaux dirigés.
Une mise à jour concerne aussi les examens des sessions précédentes que l'on corrigera dans les séances de travaux dirigés pour préparer les examens de l'année en cours.
Dans ce coin Python, vous allez apprendre à calculer les paramètres de statistiques descriptives vus durant le Cours, puis à pouvoir dessiner les graphiques, diagrammes, correspondant.
Vous trouverez ci-après les données concernant les trois types de variables, que vous pouvez copier et transférer vers l’éditeur en ligne, Trinket , de Python.
Les explications sont contenues dans le fascicule que vous pouvez télécharger dans la section Fiches Cours & TD ci-avant. Le fascicule comprend des explications détaillées sur ce que vous devrez maitriser pour le calcul des paramètres statistiques univariés.
[ "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu", "Vert", "Jaune", "Rouge", "Bleu" ]
[ 5, 7, 9, 12, 5, 8, 6, 10, 15, 8, 7, 11, 13, 14, 5, 6, 9, 7, 10, 12, 11, 8, 6, 13, 14, 15, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 5, 8, 9, 7, 12, 11, 10, 9, 6, 7, 8, 11, 13, 14 ]
[ 5.2, 7.5, 9.1, 12.3, 5.8, 8.4, 6.9, 10.2, 15.6, 8.1, 7.7, 11.5, 13.4, 14.2, 5.9, 6.1, 9.3, 7.8, 10.6, 12.4, 11.9, 8.7, 6.5, 13.1, 14.7, 15.4, 7.2, 8.5, 9.7, 10.9, 11.3, 12.1, 13.9, 14.6, 15.1, 6.2, 5.4, 8.6, 9.8, 7.1, 12.7, 11.4, 10.3, 9.5, 6.7, 7.9, 8.8, 11.6, 13.2, 14.9 ]
La liste qui suit contient les commandes Python les plus usitées pour le calcul des paramètres de statistiques descriptives et la construction de diagrammes. Comme cité plus haut, le fascicule contient plus de détails et d'explications quant à l'utilisation des bibliothèques et des commandes y afférentes.
Nous verrons dans la séance suivante comment importer vos données directement depuis d'autres formats.
Paramètres | Commande | Explication |
---|---|---|
Moyenne | import numpy as np |
Importation de la bibliothèque NumPy et calcul de la moyenne des données. |
Médiane | import numpy as np |
Importation de la bibliothèque NumPy et calcul de la médiane des données. |
Mode | from scipy import stats |
Importation de la bibliothèque SciPy et calcul du mode des données. |
Écart-type | import numpy as np |
Importation de la bibliothèque NumPy et calcul de l'écart-type des données. |
Variance | import numpy as np |
Importation de la bibliothèque NumPy et calcul de la variance des données. |
Quartiles | import numpy as np |
Importation de la bibliothèque NumPy et calcul des quartiles des données. |
Déciles | import numpy as np |
Importation de la bibliothèque NumPy et calcul des déciles des données. |
Deux paramètres | import numpy as np |
Importation de la bibliothèque NumPy et calcul de la moyenne et de la médiane des données. |
Trois paramètres | import numpy as np |
Importation de la bibliothèque NumPy et calcul de la moyenne, de la médiane, et de l'écart-type des données. |
Diagramme circulaire | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un diagramme circulaire. |
Diagramme à colonnes | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un diagramme à colonnes. |
Diagramme à bâtons | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un diagramme à bâtons. |
Histogramme | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un histogramme. |
Polygone de fréquence | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un polygone de fréquence. |
Ogive | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'une ogive. |
Box plot | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un box plot. |
Nuage de points | import matplotlib.pyplot as plt |
Importation de la bibliothèque Matplotlib et création d'un nuage de points. |
En utilisant le lien ci-dessous, vous pouvez télécharger le Flipbook en format PDF :
Le forum vous permet d'échanger autour de cette première séance, vous remarquerez la présence d'un bouton d'abonnement afin que vous puissiez suivre les discussions au sujet de la recherche en sciences humaines et sociales, c'est l'occasion aussi pour l'enseignant de répondre aux préoccupations et questions des étudiants.