" alt="image de haut de la page, elle sert de décoration.">


walking Introduction et Sommaire de la séance

Dans le Bloc précédent, on a travaillé sur l’analyse univariée, il s’agissait de prendre les variables une à une, séparément. L’analyse univariée est utile lorsque nous conduisons des recherches qui visent à décrire ou à explorer un phénomène donné.

Nous nous intéressons maintenant à l’autre versant de l’analyse qui est l’analyse bivariée. L’analyse bivariée prend les variables de façon groupée, en paires, elle analyse deux variables simultanément pour pouvoir examiner la relation qui existe entre elles ainsi que sa force.

Les principaux domaines de l’analyse bivariée concernent l’identification de la relation entre deux variables, la quantification de la force ainsi que de la direction de la relation. L’analyse bivariée vise aussi à modéliser la relation entre deux variables ainsi que l’exploration des liens de causalité qui existent entre elles. Un sujet de l’analyse bivariée concerne le test d’hypothèse, nous avons placé ce sujet dans le dernier Bloc.

Nous avons donc partagé le présent enseignement en deux sections, la première explore les distributions statistiques à deux variables et la seconde explique les paramètres statistiques d’une telle distribution.

define-location Objectifs de la séance

Durant cette séance, nous visons les objectifs suivants :

  • Initier l'étudiant à la logique de l'analyse bivariée : Cette séance est entièrement dédiée à la logique bivariée, nous préparerons l’étudiant, une fois qu’il a combiné ces deux types d’analyse, au dernier Bloc qui est destiné à l’étude de l’inférence statistique ;
  • Comprendre les tableaux de contingence : un tableau croisé est un tableau qui sert à analyser, à comprendre la relation entre les variables, nous nous focaliserons dans cet enseignement à la manière dont nous allons construire ce type de tableau ; dans un second temps, nous allons aussi essayer de travailler sur les concepts sous-jacents au tableau bivarié, plus précisément : la visualisation, la répartition, l’interaction et l’indépendance ;
  • Expliquer le fonctionnement ainsi que l'intérêt du nuage de points : le nuage de points, digramme de dispersion, est une expression imagée du tableau de contingence, nous allons explorer cet élément de notre enseignement en faisant un parallèle avec les objectifs d’un tableau de contingence, un nuage de points permet, entre autres, de : visualiser la relation entre deux variables, d’identifier les tendances qui existent entre les variables, de détecter les valeurs aberrantes ainsi que d’évaluer la force de la relation entre les dites variables ;
  • Explorer l'utilité des paramètres bivariées : nous avons opté pour la présentation d’un certain nombre de paramètres que nous avons l’habitude d’utiliser dans la recherche en sciences humaines et sociales, l’objectif étant de comprendre la mécanique d’un paramètre avant de pouvoir l’estimer numériquement.
concept Concepts et thèmes à aborder durant la séance

Distribution marginale, Distribution conditionnelle, Distribution conjointe, Effectif conjoint, Fréquence conjointe, Tableau des profils-colonnes, L'indépendance statistique, la corrélation, l'ajustement (affine, linéaire, méthode des moindres carrés), la droite de régression,


1Les distributions statistiques à deux variables


Une distribution statistique à deux variables, également appelée distribution bivariée, est une représentation qui montre la relation entre deux variables statistiques. Contrairement à une distribution univariée, qui ne concerne qu'une seule variable, la distribution bivariée permet d'examiner comment les deux variables interagissent l'une avec l'autre.

La distribution statistique bivariée est, comme nous l'avons avancé plus haut, est approchée par sa représentation graphique, cependant les calculs statistiques servent à confirmer l'aspect de ce que nous voyons. Pour simplifier, nous dirons que les éléments qui intéressent notre enseignement dans ce sens sont : le tableau de contingence, le nuage de points, la covariance (la corrélation) et la régression linéaire. Pour les besoins de cette séance nous nous limiterons qu’à l’examen des deux premiers éléments.

Lorsque deux variables \(x\) et \(y\) sont définies dans une population composée de \(n\) individus, la représentation numérique peut être élémentaire ou de contingence. Les lignes qui suivent illustrent cette idée :

1.1. Le tableau élémentaire

Un tableau élémentaire dispose, pour chaque individu \(i\) de la population, les modalités \(x_i\) et \(y_i\) de chacune des variables étudiées dans des colonnes adjacentes. On pourrait dire que c’est une jonction, une superposition, de deux tableaux statistiques simples (à une seule entrée).
Le tableau suivant représente un tableau élémentaire :

Individu \(i\) Modalités de la variable \(x\) Modalités de la variable \(y\)
\(1\) \(x_1\) \(y_1\)
\(2\) \(x_2\) \(y_2\)
\(3\) \(x_3\) \(y_3\)
\(...\) \(...\) \(...\)
\(n-2\) \(x_{n-2}\) \(y_{n-2}\)
\(n-1\) \(x_{n-1}\) \(y_{n-1}\)
\(n\) \(x_n\) \(y_n\)
Tableau II.2.1. Tableau élémentaire.

Exemple : le tableau suivant représente un tableau élémentaire où figure deux variables : Sexe et Niveau d'instruction

Individu \(i\) Sexe Niveau d'instruction
1 Masculin Primaire
2 Masculin Secondaire
3 Féminin Secondaire
4 Masculin Universitaire
5 Féminin Universitaire
6 Masculin Moyen
7 Féminin Moyen
Tableau II.2.2. Tableau statistique élémentaire (de notre exemple).

On remarque donc que pour chaque individu de notre exemple sont disposées, côte à côte, le couple de modalités qui le représente.

Un tableau élémentaire est utilisé lorsque l'on souhaite organiser et présenter les données de manière à comparer les valeurs de plusieurs variables pour un ensemble d'individus ou d'unités d'observation. Un tableau élémentaire n'est pas utilisé pour l'analyse, il est l'équivalent (bivarié) d'un tableau statistique à une seule entrée.

1.2. Le tableau de contingence

Le tableau de contingence, également appelé tableau croisé ou tableau de correspondance, définit une distribution conjointe, il met donc en relation un couple de variables \((x, y)\) en lui associant les effectifs correspondant à chaque couple de modalités.

Un tableau de contingence, contrairement au tableau élémentaire, est utilisé pour présenter et analyser la relation entre deux variables. Il permet de résumer les fréquences d'observations qui se situent à l'intersection des modalités de ces deux variables.

Un tableau de contingence se présente sous la forme suivante :

\(~~~~~~ ~~~~~~~~~~~~~~ Modalités ~~de ~~y \)
\(Modalités ~~de ~~x \)
\(Y_1\) \(Y_2\) \(Y_3\) \(...\) \(Y_p\)
\(x_1\) \(n_{11}\) \(n_{12}\) \(n_{13}\) \(...\) \(n_{1p}\)
\(x_2\) \(n_{21}\) \(n_{22}\) \(n_{23}\) \(...\) \(n_{2p}\)
\(x_3\) \(n_{31}\) \(n_{32}\) \(n_{33}\) \(...\) \(n_{3p}\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(x_k\) \(n_{k1}\) \(n_{k2}\) \(n_{k3}\) \(...\) \(n_{kp}\)
Tableau II.2.3. Tableau de contingence.

Remarque :
La variable \(x\) possède \(k\) modalités inscrites dans la marge de gauche du tableau [pour une explication de la nature ainsi que des usages des tableaux statistiques voir Lahanier-Reuter, D. (2003)], chaque ligne du tableau renvoie à une modalité de la variable \(X\) et renferme les effectifs de la modalité. On a pour habitude de donner la lettre \(i\) à l’indice de la ligne ( \(x_i\) : \(i\) allant de 1 jusqu’à \(k\) ). Pour la variable \(Y\), elle est contenue dans la marge supérieure du tableau de contingence, pour chaque modalité de la variable \(Y\) on fait correspondre une colonne du tableau (on a pour coutume de donner la lettre \(j\) à l’indice de la colonne ( \(y_j\) : \(j\) allant de 1 jusqu’à \(p\) ).

Exemple :

Le tableau suivant montre la relation entre le niveau d'éducation et le statut d'emploi d'un groupe de personnes :

Niveau d'éducation Employé Chômeur Total
Primaire 40 10 50
Secondaire 60 20 80
Universitaire 30 10 40
Total 130 40 170
Tableau II.2.4. Relation entre le niveau d'instruction et le statut professionnel.

Explication et remarque :
Nous remarquons d'après le tableau que :
  • Chaque ligne correspond à un niveau d'éducation : Primaire, Secondaire et Universitaire. La ligne Total montre le nombre total de personnes dans chaque catégorie de statut d'emploi ;
  • Les colonnes Employé et Chômeur représentent le statut d'emploi des personnes pour chaque niveau d'éducation. La colonne Total à droite de chaque ligne représente le total des individus pour chaque niveau d'éducation, nous reviendrons un peu plus loin dans cette séance sur ces notions.
Ces remarques nous conduirons, et c'est l'un des objectifs majeurs du Module, à la Lecture ainsi qu'à l'analyse du tableau de contingence. Nous pouvons dès maintenant donner un aperçu de ce travail d'analyse :
  • Lecture - Distribution des Emplois (variable dépendante) : On observe que la majorité des personnes ayant un niveau de Secondaire sont employées (60 sur 80), tandis que le nombre de chômeurs est plus faible à chaque niveau d'éducation.
  • Analyse de la Relation : Ce tableau pourrait être utilisé pour analyser s'il existe une relation significative entre le niveau d'éducation et le statut d'emploi. Par exemple, on pourrait calculer le chi-carré \(\chi2\) pour tester l'indépendance entre ces deux variables. ( enseignement réservé pour le troisième Bloc ).
1.3. La distribution conjointe

On appelle distribution conjointe des couples \((x,y)\) ceux formés par les marges de gauche et supérieur (les \(k\) lignes et \(p\) colonnes), plus simplement, il s’agit de l’ensemble des (\(x_i\), \(y_i\), \(n_ij\) ) (\(i\) allant de 1 à \(k\) et \(j\) allant de 1 à \(p\)).

On appelle effectif conjoint l’effectif \(n_ij\) qui représente à la fois la modalité \(x_i\) de la variable \(x\) et la modalité \(y_i\) de la variable \(y\).

L’ensemble des effectifs conjoints constitue l’effectif total, il est représenté par la formule suivante :

$$\sum_{j=1}^{p} \sum_{i=1}^{k} n_{ij} = \sum_{i=1}^{k}\sum_{j=1}^{p}n_{ij} = n $$

Il est parfois plus utile de remplacer les effectifs par les fréquences, les effectifs conjoins sont alors divisés par \(n\) (l’effectif total), que l’on appelle la fréquence conjointe.
Comme dans un tableau univarié, la somme des fréquences conjointe est égale à 1.

$$\sum_{j=1}^{p} \sum_{i=1}^{k} f_{ij} = \sum_{i=1}^{k}\sum_{j=1}^{p}f_{ij} = n $$

Remarque : pour notre exemple ci-avant, liant le niveau d'instruction au statut de l'emploi, nous pouvons dire que :
  • Lecture des Effectifs Conjoints : Primaire et Employé : \(40\) personnes ont un niveau d'éducation primaire et sont employées, Universitaire et Chômeur : \(10\) personnes ont un niveau universitaire et sont chômeuses ;
  • Calcul de l’Effectif Total : La somme des effectifs dans toutes les cellules du tableau est 170, ce qui est l’effectif total ;
  • Fréquence Conjointe : Pour obtenir les fréquences conjointes, chaque effectif conjoint est divisé par l'effectif total. Par exemple, la fréquence conjointe pour Primaire et Employé est : \(\frac{40}{170} = 0.235\) \( (ou ~~ 23.5 \%) \).
1.4. La distribution marginale

La distribution marginale concerne la distribution d’une variable \((x\) ou \(y)\), autrement dit, une distribution marginale est le fait de déduire la distribution de chaque variable, prise isolément, comme vue dans l'enseignement précédent, c'est le fait donc d'extraire des tableaux à une seule entrée.
La distribution relative à la seule variable de \(x\) est appelée distribution marginale de \(x\) ; la distribution relative à la seule variable y est appelée la distribution marginale de \(y\).

Dans l'exemple précédent, construire les distributions marginales revient à établir un tableau à simple entrée pour la variable Niveau d'instruction et un autre pour la variable Statut de l'emploi. Nous expliquons dans les lignes qui suivent les principes théoriques de la distribution marginale.

Distribution marginale de \(X\)

On définit la distribution marginale de la variable \(x\) à l’aide des couples (\(xi\), \(ni.\)) i = 1, 2, 3, …. \(K\) [\(x_i\) étant la modalité de la variable \(x\) et \(n_i\). L’effectif correspondant, l’effectif étant nommé l’effectif marginal de la modalité \(x_i\) . et qui se lit comme le nombre d’individus dont la modalité de la variable \(X\) étant \(x_i\) et dont la modalité de la variable \(Y\) étant \(y_1\), \(y_2\), … \(y_p\) ; l’effectif étant égal au total ou à l’ensemble des effectifs de la \(i_{eme}\) ligne, comme le montre la formule suivante :

$$ n_{i.\ }\ =\ n_{i1\ }\ +\ n_{i2\ }\ +\ n_{i3\ }\ +\ ......\ +\ n_{ip\ }\ =\ \sum_{j=1}^{p}n_{ij} $$

Il est à noter que la somme des effectifs marginaux est égale à l’effectif total \(n\) (ou \(n..\)).

Le tableau suivant montre la distribution marginale de la variable \(x\) :

\(Modalités ~~de ~~la ~~variable ~~x\) \(Effectif ~~marginal \)
\(x_1\) \(n_{1.}\)
\(x_2\) \(n_{2.}\)
\(x_3\) \(n_{3.}\)
\(...\) \(...\)
\(x_k\) \(n_{k.}\)
\(\sum\) \(n\)
Tableau II.2.5. La distribution marginale de la variable \(x\).

On définit aussi la fréquence marginale d’une modalité \(x_i\) notée \(f_i\). Comme suite :

$$f_i\ =\ \frac{n_{i.}}{n}$$

La somme des fréquences marginales \(f_{i.}\) Etant égale à 1 [ \(\sum_{i=1}^{k}f_i\ =\ 1\) ]

Distribution marginale de \(y\)

La distribution marginale de la variable y est l’ensemble des couples (\(y_{i}, n_{.j}\)) (\(i = 1, 2, 3, … p\), \(y_j\)) étant la modalité de la variable \(y\) et \(_{n.j}\) l’effectif correspondant, l’effectif étant nommé l’effectif marginal de la modalité \(y_i\), et qui se lit comme le nombre d’individus dont la modalité de la variable \(Y\) étant \(y_j\) et dont la modalité de la variable \(X\) étant \(x_1\) , \(x_2\), … \(x_k\), l’effectif étant égal au total ou à l’ensemble des effectifs de la \(j_{eme}\) colonne, comme le montre la formule suivante :

$$ n_{.j\ }\ =\ n_{1j\ }\ +\ n_{2j\ }\ +\ n_{3j\ }\ +\ ......\ +\ n_{kj\ }\ =\ \sum_{j=1}^{k}n_{ij} $$

Il est à noter que la somme des effectifs marginaux est égale à l’effectif total \(n\) (ou \(n_{..}\)).

Le tableau suivant montre la distribution marginale de la variable \(x\) :

\(Modalités ~~de ~~la ~~variable ~~y\) \(Effectif ~~marginal \)
\(y_1\) \(n_{.1}\)
\(y_2\) \(n_{.2}\)
\(y_3\) \(n_{.3}\)
\(...\) \(...\)
\(y_p\) \(n_{.k}\)
\(\sum\) \(n\)
Tableau II.2.6. La distribution marginale de la variable \(y\).

On définit aussi la fréquence marginale d’une modalité \(y_i\) notée \(f_i\). Comme suite :

$$f_i\ =\ \frac{n_{.j}}{n}$$

La somme des fréquences marginales \(f_{i.}\) Etant égale à 1 [ \(\sum_{j=1}^{p}f_{i.}\ =\ 1\) ]

Remarque : tableau de contingence et distributions marginales.
Il est à noter que les effectifs marginaux \(n_{i.}\) figurent dans une colonne supplémentaire et les effectifs marginaux \(n_{.j}\) figurent pour leur part dans une ligne supplémentaire de la distribution conjointe (x, y).

Le tableau suivant illustre cette idée :

\(~~~~~~ ~~~~~~~~~~~~~~ Modalités ~~de ~~y \)
\(Modalités ~~de ~~x \)
\(Y_1\) \(Y_2\) \(Y_3\) \(...\) \(Y_p\) \(\sum\)
\(x_1\) \(n_{11}\) \(n_{12}\) \(n_{13}\) \(...\) \(n_{1p}\) \(n_{1.}\)
\(x_2\) \(n_{21}\) \(n_{22}\) \(n_{23}\) \(...\) \(n_{2p}\) \(n_{2.}\)
\(x_3\) \(n_{31}\) \(n_{32}\) \(n_{33}\) \(...\) \(n_{3p}\) \(n_{3.}\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(x_k\) \(n_{k1}\) \(n_{k2}\) \(n_{k3}\) \(...\) \(n_{kp}\) \(n_{k.}\)
\(\sum\) \(n_{.1}\) \(n_{.2}\) \(n_{.3}\) \(...\) \(n_{.p}\) \(n\)
Tableau II.2.7. tableau de contingence et distributions marginales.

On remarque que la distribution marginale de \(x\) est donnée par la marge de gauche et la dernière colonne du tableau, celle de la variable \(y\) par la marge supérieure et la dernière ligne.

Remarque : statistiques marginales.
Chaque tableau de contingence est composé de deux distributions univariées. En créant des tableaux de distribution marginales on peut calculer les indices vus dans les chapitres précédents ( tendance centrale, dispersion et position …). Dans les chapitres qui suivent, nous aurons besoins de calculer ces indices, on en fera alors des interprétations nécessaires à l’analyse.

1.5. Les distributions conditionnelles

On appelle distribution conditionnelle de \(x\) selon \(y\) la distribution de \(x\) concernant uniquement les individus présentant la modalité \(y_i\) de \(Y\). De même, On appelle distribution conditionnelle de \(y\) selon \(x\) la distribution de \(y\) concernant uniquement les individus présentant la modalité \(x_i\) de \(X\).

Distributions conditionnelles de \(x\) selon \(y\)

La variable \(y\) possède \(p\) modalités, on pourrait alors diviser la population en un nombre de \(p\) sous-populations (les individus qui sont identifiés par la modalité \(y_1\), ceux identifiés par la modalité \(y_2\) … Jusqu’à ceux qui sont identifiés par \(y = y_p\)). Pour chaque sous-population on peut avoir ce que l’on appelle distribution conditionnelle.

Suivant ce raisonnement, on obtiendra \(p\) distributions conditionnelles de \(x\) sachant \(y\) :

La distribution conditionnelle de \(x\) sachant \(y = y_{1}\) ;
La distribution conditionnelle de \(x\) sachant \(y = y_{2}\) ;
La distribution conditionnelle de \(x\) sachant \(y = y_{3}\) ;
................................................... ;
La distribution conditionnelle de \(x\) sachant \(y = y_{p}\) ;

Chaque distribution est définie par un couple (\(x_i\), \(n_{ij}\)) [\(i\) allant de \(1\) à \(k\) et \(j\) étant fixé]. Le tableau suivant représente l’idée d’une distribution conditionnelle :

\(Modalités ~~de ~~x \) \(Effectifs ~~conditionnels ~~n_{ij}\)
\(x_1\) \(n_{1j}\)
\(x_2\) \(n_{2j}\)
\(x_3\) \(n_{3j}\)
\(...\) \(...\)
\(x_k\) \(k_j\)
\(\sum\) \(n_{.j}\)
Tableau II.2.8 : distribution conditionnelle de \(x\) selon \(y\).

L’effectif total est donné par la formule :

$$ n_{.j} = n_{1j} + n_{2j} + n_{3j} + ..... + n_{kj} = \sum_{i=1}^{k}n_{ij}$$

on pourrait aussi calculer les fréquences conditionnelles \(f_{xi/yj}\) à l’aide de la formule :

$$ f_{xi/yj}\ =\ \frac{n_{ij}}{n_{.j}} $$

La somme des fréquences conditionnelles étant égale à 1.

À l’aide des distributions, (ou fréquences), conditionnelles on pourra établir un tableau des profils-colonnes . Un tableau des profils colonnes contient les modalités de \(x\) dans la marge de gauche, les fréquences conditionnelles de \(x\) selon \(y = y_1\) dans la première colonne, les fréquences conditionnelles de \(x\) selon \(y = y_2\) dans la deuxième colonne, … , les fréquences conditionnelles de \(x\) selon \(y = y_p\) dans la première colonne. Le tableau suivant illustre le tableau des profils-colonnes.

\(~~~~~~ ~~~~~~~~~~~~~~ Modalités ~~de ~~y \)
\(Modalités ~~de ~~x \)
\(Y_1\) \(Y_2\) \(Y_3\) \(...\) \(Y_p\) \(\sum\)
\(x_1\) \(f_{x1/y1}\) \(f_{x1/y2}\) \(f_{x1/y3}\) \(...\) \(f_{x1/yp}\) \(f_{1.}\)
\(x_2\) \(f_{x2/y1}\) \(f_{x2/y2}\) \(f_{x2/y3}\) \(...\) \(f_{x2/yp}\) \(f_{2.}\)
\(x_3\) \(f_{x3/y1}\) \(f_{x3/y2}\) \(f_{x3/y3}\) \(...\) \(f_{x3/yp}\) \(f_{3.}\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(x_k\) \(f_{xk/y1}\) \(f_{xk/y2}\) \(f_{xk/y3}\) \(...\) \(f_{xk/yp}\) \(f_{k.}\)
\(\sum\) \(1\) \(1\) \(1\) \(1\) \(1\) \(1\)
Tableau II.2.9. Tableau des profiles colonnes.

Distributions conditionnelles de y selon x

La variable x possède \(k\) modalités, on pourrait alors diviser la population en un nombre de \(k\) sous-populations (les individus qui sont identifiés par la modalité \(x_1\), ceux identifiés par la modalité \(x_2\) … Jusqu’à ceux qui sont identifiés par \(x = x_k\)). Pour chaque sous-population on peut avoir ce que l’on appelle distribution conditionnelle des individus selon les modalités de la variable \(y\).
Suivant ce raisonnement, on obtiendra \(p\) distributions conditionnelles de \(x\) sachant \(y\) :
La distribution conditionnelle de \(y\) sachant \(x = x_1\) ;
La distribution conditionnelle de \(y\) sachant \(x = x_2\) ;
La distribution conditionnelle de \(y\) sachant \(x = x_3\) ;
.................................................. ;
La distribution conditionnelle de \(y\) sachant \(x = x_k\) ;
Chaque distribution est définie par un couple (\(y_i\), \(n_{ij}\)) [\(j\) allant de \(1\) à \(p\) et \(i\) étant fixé ].
Le tableau suivant représente l’idée d’une distribution conditionnelle :

\(Modalités ~~de ~~y \) \(Effectifs ~~conditionnels ~~n_{ij}\)
\(y_1\) \(n_{1j}\)
\(y_2\) \(n_{2j}\)
\(y_3\) \(n_{3j}\)
\(...\) \(...\)
\(y_p\) \(n_{ip}\)
\(\sum\) \(n_{.j}\)
Tableau II.2.10 : distribution conditionnelle de \(y\) selon \(x\).

L’effectif total est donné par la formule :

$$ n_{i.} = n_{i1} + n_{i2} + n_{i3} + ... + n_{ip} = \sum_{i=1}^{k}n_{ij} $$

On pourrait aussi calculer les fréquences conditionnelles \(f_{yj/xi}\) à l’aide de la formule : \(f_{yj/xi}\ =\ \frac{n_{ij}}{n_{i.}}\)

La somme des fréquences conditionnelles étant égale à 1.

À l’aide des distributions (ou fréquences) conditionnelles on pourra établir un tableau des profils-colonnes. Un tableau des profils colonnes contient les modalités de \(x\) dans la marge de gauche, les fréquences conditionnelles de \(y\) selon \(x = x_1\) dans la première colonne, les fréquences conditionnelles de \(y\) selon \(x = x_2\) dans la deuxième colonne, …, les fréquences conditionnelles de \(y\) selon \(x = x_k\) dans la première colonne.
Le tableau suivant illustre le tableau des profils-colonnes :

\(~~~~~~ ~~~~~~~~~~~~~~ Modalités ~~de ~~y \)
\(Modalités ~~de ~~x \)
\(Y_1\) \(Y_2\) \(Y_3\) \(...\) \(Y_p\) \(\sum\)
\(x_1\) \(f_{y1/x1}\) \(f_{y2/x1}\) \(f_{y3/x1}\) \(...\) \(f_{yp/x1}\) \(1\)
\(x_2\) \(f_{y1/x2}\) \(f_{y2/x2}\) \(f_{y3/x2}\) \(...\) \(f_{yp/x2}\) \(1\)
\(x_3\) \(f_{y1/x3}\) \(f_{y2/x3}\) \(f_{y3/x3}\) \(...\) \(f_{yp/x3}\) \(1\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(1\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(1\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(1\)
\(x_k\) \(f_{y1/xk}\) \(f_{y2/xk}\) \(f_{y3/xk}\) \(...\) \(f_{yp/xk}\) \(1\)
\(\sum\) \(f_{.1}\) \(f_{.2}\) \(f_{.3}\) \(...\) \(f_{.p}\) \(1\)
Tableau II.2.11. tableau des profiles colonnes.

Les moyennes conditionnelles

La moyenne conditionnelle de \(x\) est calculée pour chacune des p distributions conditionnelles de \(x\). On note généralement la moyenne conditionnelle de \(x\), liée par \(y = yi\) , \({\bar{x}}_j\). Il faut l’entendre comme étant une moyenne pondérée :

$${\bar{x}}_j\ =\ \frac{1}{n_{.j}}\ \sum_{i=1}^{k}{n_{ij}\ x_i}$$

En remplaçant les effectifs par les fréquences, on aura la formule suivante :

$${\bar{x}}_j\ =\ \sum_{i=1}^{k}{f_{xi/yj}\ x_i}$$

Pour la moyenne conditionnelle de \(y\) liée par \(x = x_i\), nous aurons la formule suivante :

$${\bar{y}}_i\ =\ \frac{1}{n_{i.}}\ \sum_{i=1}^{p}{n_{ij}\ y_j}$$

En remplaçant les effectifs par les fréquences, on aura la formule suivante :

$${\bar{y}}_i\ =\ \sum_{i=1}^{p}{f_{yi/xj}\ y_j}$$

On remarquera que pour chaque variable la moyenne marginale est égale à la moyenne des moyennes conditionnelles, cette relation est exprimée dans les deux formules :

$$ \bar{x}\ =\ \frac{1}{n}\ \sum_{j=1}^{p}{n_{.j}\ {\bar{x}}_j} ~~~~ et ~~~~ \bar{y}\ =\ \frac{1}{n}\ \sum_{i=1}^{k}{n_{i.}\ {\bar{y}}_i}$$


Variances et écart-types conditionnels

La variance conditionnelle de \(x\) liée par \(y = y_j\) est donnée par la formule :

$$ V_{j} (x) = \frac{{1}}{n_{.j}} \sum_{i=1}^{k} {n_{ij}} ~~(x_i - \bar{x}_{j}) ^ {2} = \frac{1}{n_{.j}} \sum_{i=1}^{k} {n}_{ij} ~~ {x}_{i}^{2} - {\bar{x}}_{j}^{2}$$

En remplaçant les effectifs par les fréquences conditionnelles, on aura la formule suivante :

$$ V_{j} (x) = \frac{{1}}{n_{.j}} \sum_{i=1}^{k} ~~ {f_{xi/yj}} (x_i - \bar{x}_{j}) ^ {2} = \frac{1}{n_{.j}} \sum_{i=1}^{k} {f_{xi/j}} ~~ {x}_{i}^{2} - {\bar{x}}_{j}^{2}$$

L’écart-type conditionnel étant calculé à l’aide de la formule : \( \sigma_j\ (x)=\ \sqrt{v_j\ (x)}\)

Pour les variance et écart-type de \(Y\) liée par \(X = x_i\), cette dernière est donnée par la formule :

$$ V_{i} (y) = \frac{{1}}{n_{i.}} \sum_{j=1}^{p} {n_{ij}} ~~(y_j - \bar{y}_{i}) ^ {2} = \frac{1}{n_{i.}} \sum_{j=1}^{p} {n}_{ij} ~~ {y}_{j}^{2} - {\bar{y}}_{i}^{2}$$

En remplaçant les effectifs par les fréquences conditionnelles, on aura la formule suivante :

$$ V_{i} (y) = \frac{{1}}{n_{.j}} \sum_{j=1}^{p} ~~ {f_{yj/xi}} (y_j - \bar{y}_{i}) ^ {2} = \frac{1}{n_{.j}} \sum_{i=1}^{k} {f_{yj/xi}} ~~ {y}_{i}^{2} - {\bar{y}}_{j}^{2}$$

L’écart-type conditionnel étant calculé à l’aide de la formule : \( \sigma_i\ (y)=\ \sqrt{v_i\ (y)}\)

On remarque aussi que la variance marginale est égale à la somme de la moyenne des variances conditionnelles plus la variance des moyennes conditionnelles, comme le montre les deux formules suivantes :

$$v(x)\ =\ \frac{1}{n}\ \sum_{j=1}^{p}{n_{.j}\ } ~~ v_j\ (x)\ +\ \frac{1}{n}\ \sum_{j=1}^{p}{n_{.j}} ~~ ({\bar{x}_j\ -\ \bar{x}}^2) $$

$$ v(y)\ =\ \frac{1}{n}\ \sum_{j=1}^{k}{n_{i.}\ } ~~ v_i\ (y)\ +\ \frac{1}{n}\ \sum_{i=1}^{k}{n_{i.} ~~ {(\bar{y}}_i\ -\ \bar{y})}^2 $$

Exemple récapitulatif
L'exemple suivant explique la manière de calculer les moyennes, variances et écart-types conditionnels.
Le tableau montre la relation entre le niveau d'éducation et le statut professionnel dans un échantillon. Nous allons calculer des moyennes conditionnelles, variances et écart-types pour chaque niveau d'éducation.
Niveau d'éducation Employé Chômeur Total
Primaire 40, 42, 38 10, 12, 8 50
Secondaire 60, 65, 55 20, 22, 18 80
Universitaire 30, 33, 27 10, 11, 9 40
Total 135 42 177
Distributions Conditionnelles

Les distributions conditionnelles montrent la répartition des effectifs d'une variable pour chaque modalité de l'autre variable. Par exemple, nous examinons la distribution du statut professionnel conditionnellement à chaque niveau d'éducation.

Niveau d'éducation Employé (%) Chômeur (%)
Primaire 80.0% 20.0%
Secondaire 75.0% 25.0%
Universitaire 75.0% 25.0%
Moyennes Conditionnelles

Les moyennes conditionnelles permettent de calculer la moyenne des effectifs pour chaque modalité de la variable indépendante. Voici les moyennes :

Niveau d'éducation Moyenne des Employés Moyenne des Chômeurs
Primaire 40.0 10.0
Secondaire 60.0 20.0
Universitaire 30.0 10.0
Variances et Écart-types Conditionnels

Les variances conditionnelles et les écart-types conditionnels mesurent la dispersion des effectifs pour chaque modalité de la variable indépendante. Les calculs sont les suivants :

Formules :

Variance Conditionnelle = \(\frac{\Sigma (x_i - \mu)^2}{N - 1}\)

Écart-type Conditionnel = \(\sqrt{\text{Variance Conditionnelle}}\)

  • Pour le niveau Primaire :
    • Moyenne des Employés : \(\frac{40 + 42 + 38}{3} = 40\)
    • Variance des Employés : \(\frac{(40-40)^2 + (42-40)^2 + (38-40)^2}{3-1} = \frac{0 + 4 + 4}{2} = 4\)
    • Écart-type des Employés : \(\sqrt{4} = 2\)
    • Moyenne des Chômeurs : \(\frac{10 + 12 + 8}{3} = 10\)
    • Variance des Chômeurs : \(\frac{(10-10)^2 + (12-10)^2 + (8-10)^2}{3-1} = \frac{0 + 4 + 4}{2} = 4\)
    • Écart-type des Chômeurs : \(\sqrt{4} = 2\)
  • Pour le niveau Secondaire :
    • Moyenne des Employés : \(\frac{60 + 65 + 55}{3} = 60\)
    • Variance des Employés : \(\frac{(60-60)^2 + (65-60)^2 + (55-60)^2}{3-1} = \frac{0 + 25 + 25}{2} = 25\)
    • Écart-type des Employés : \(\sqrt{25} = 5\)
    • Moyenne des Chômeurs : \(\frac{20 + 22 + 18}{3} = 20\)
    • Variance des Chômeurs : \(\frac{(20-20)^2 + (22-20)^2 + (18-20)^2}{3-1} = \frac{0 + 4 + 4}{2} = 4\)
    • Écart-type des Chômeurs : \(\sqrt{4} = 2\)
  • Pour le niveau Universitaire :
    • Moyenne des Employés : \(\frac{30 + 33 + 27}{3} = 30\)
    • Variance des Employés : \(\frac{(30-30)^2 + (33-30)^2 + (27-30)^2}{3-1} = \frac{0 + 9 + 9}{2} = 9\)
    • Écart-type des Employés : \(\sqrt{9} = 3\)
    • Moyenne des Chômeurs : \(\frac{10 + 11 + 9}{3} = 10\)
    • Variance des Chômeurs : \(\frac{(10-10)^2 + (11-10)^2 + (9-10)^2}{3-1} = \frac{0 + 1 + 1}{2} = 1\)
    • Écart-type des Chômeurs : \(\sqrt{1} = 1\)
Niveau d'éducation Variance des Employés Écart-type des Employés Variance des Chômeurs Écart-type des Chômeurs
Primaire 4 2 4 2
Secondaire 25 5 4 2
Universitaire 9 3 1 1

Note : Les valeurs de variance et d'écart-type sont calculées sur la base des données fournies et montrent la dispersion des effectifs pour chaque niveau d'éducation.


Note Variance inter et intra population
La moyenne des variances conditionnelles est une moyenne qui mesure les dispersions à l’intérieur de chacune des populations qui composent la variable (c’est une variance intrapopulation). Le second terme, la variance des moyennes conditionnelles, mesure la dispersion des moyennes conditionnelles des différentes sous-populations autour de la moyenne marginale (c’est une variance interpopulation).

Explorez le Tableau Bivarié

Utilisez le tableau bivarié pour analyser les interactions entre différentes variables. Ajoutez des lignes et des colonnes, saisissez les données, et calculez des statistiques telles que les moyennes conditionnelles, les variances, et les écarts types. Essayez-le dès maintenant pour approfondir vos compétences en statistiques.

Accéder au Tableau

1.6. Relations entre variables dans une distribution conjointe
L’indépendance

On dit que deux variables \(x\) et \(y\) sont indépendantes lorsque les fréquences conditionnelles \(f_{yj/xi}\) sont égales et égales à la fréquence marginale \(f_{.j}\) . Par conséquent, dans le tableau des profils-lignes, toutes les lignes sont exactement semblables, il est de même pour le tableau des profils-colonnes, les fréquences conditionnelles \(f_{xi/yj}\) sont égales à la fréquence marginale \(f_{i.}\) .

On remarquera alors que dans le tableau de contingence, les lignes sont proportionnelles entre elles, il est de même pour les colonnes : \(n_{ij}\ =\ \frac{n_{i.}\ n_{.j}}{n} (f_{ij}\ =\ f_{i.}\ f_{.j})\).

Ne pas oublier l’exemple

L'indépendance statistique de \(X\) et \(Y\) ont pour effet :

  • L'indépendance de \(Y\) par rapport à \(X\), les fréquences conditionnelles de \(Y\) pour \(X = x_i\) de dépendent pas de \(i\) ;
  • L'indépendance de \(X\) par rapport à \(Y\), les fréquences conditionnelles de \(X\) pour \(Y = y_i\) ne dépendent pas de \(j\).

Liaison fonctionnelles – fonctionnelle réciproque

La variable \(y\) est liée fonctionnellement à \(x\) lorsque pour chaque modalité (valeur ou classe) de \(x\) correspond une modalité (valeur ou classe) de la variable \(y\). On remarquera qu’il y a dans le tableau de distribution conjointe qu’un seul effectif non nul (ou fréquence) par ligne [le même raisonnement peut être fait par analogie pour une variable \(x\) liée fonctionnellement à \(y\)].

On dit que deux variables \(x\) et \(y\) sont en liaison fonctionnelle réciproque (réciproquement dépendantes) lorsqu’à chaque modalité (valeur ou classe) de la variable \(x\) correspond une modalité (valeur ou classe) de la variable \(y\) et réciproquement, on aura alors dans le tableau de distribution conjointe autant de lignes que de colonnes et un et un seul effectif (fréquence) non nul par ligne et par colonne.

La liaison relative

On dit que deux variables sont en liaison relative lorsqu’elles ne sont ni indépendantes ni en liaison fonctionnelle (réserver un long passage pour introduire le reste des chapitres).

1.7. Autres paramètres d'une série statistique double

Les thèmes abordés dans cette section (ie. la covariance, la corrélation et l'ajustement) le sont de façon sommaire, on y reviendra avec plus de détails dans le dernier Bloc de notre Cours, où il s'agira d'aborder les principes de l'inférence statistique, il sont introduits ici à des fins de maitrise du vocabulaire de l'analyse des données bivariées.

La covariance

insérer une courte définition

La covariance est donnée à l'aide de la formule suivante :

\[ Cov (x,y) = \frac{1}{n} \sum_{\substack{1 \leq i \leq p \\ 1 \leq j \leq k }} n_{ij} ~ (x_{i} - \bar{x}) (y_{j} - \bar {y}) \]

On peut simplifier l'équation précédente comme suit :

\[ Cov (x,y) = \frac{1}{n} \left( \sum_{\substack{1 \leq i \leq p \\ 1 \leq j \leq k }} n_{ij} ~~ x_{i} y_{j} \right )- \bar{x} \bar {y} \]

La Covariance nous donne les propriétés suivantes :

  • \(Cov ~~(aX ~+~b~,~cY~+~d)~~=a~c~Cov~(X~,~Y~)\)
  • \(Cov ~~(X~,~Y)~=~V~(X)\)
  • \(\left|~Cov~(X~,~Y)~\right|~\leq~\sigma~(X)~\sigma~(Y)\)
Remarque : quand les caractères \(X\) et \(Y\) sont indépendants la \(Cov~(~X~,~Y~)~=~0\), le raisonnement inverse n'est pas forcement juste.

À partir de la Covariance, nous pouvons calculer le coefficient de corrélation linéaire de \(X\) et de \(Y\) qui est défini par la formule suivante :

\[ r = \frac {Cov (x,y)} {\sigma(X) ~ \sigma(Y)} \]

Le nombre \(r\) est invariant pour tout changement d'origine et d'échelle, il est compris entre (-1) et (+1) et prend la valeur nulle lorsque les des variables sont indépendantes.

L'ajustement

L'ajustement est le fait d'adapter un modèle statistique à un ensemble de données observées. L'objectif est de trouver une fonction ou un modèle qui représente au mieux la relation entre les variables dans les données.

Il existe plusieurs procédés d'ajustement: la Régression linéaire et la Régression non linéaire, Coefficient de détermination, l' Ajustement des courbes ainsi que l'Analyse des résidus. Nous nous intéressons dans ce Cours à la méthode dite des Moindres carrés, nous donnerons dans les lignes qui suivent une brève définition ainsi que la logique qui compose le procédé.

La méthode des moindres carrés

Dans un nuage de points \((x_{1}, y_{1})\), \((x_{y}, y_{2})\)... \((x_{p}, x_{p})\) ayant des coefficients de pondération \(n_1\), \(n_2\), ... \(n_p\) égaux à 1, on repère une forme de relation fonctionnelle entre \(x\) et \(y\) dépendamment de l'allure du nuage de point (cette relation peut être sous l'une des formes : \(y = ax+b\) ; \(y=ax^{b}\) ....).
Le principe de l'ajustement consiste à déterminer les valeurs des paramètres qui rendent la distance minimum entre les points de la courbe qui représente le modèle choisi pour rendre compte de la relation foctionnelle.

L'ajustement est dit affine (\(y = ax+b\)), ou linéaire (\(y=ax\)) lorsque les points sont, d'une certaine manière, alignés, on parle alors de l'ajustement par une droite.
Dans la méthode des moindres carrés, on choisit de rendre minimum la distance \(S\) qui est définie comme la somme des carrés des écarts verticaux : \(S = \displaystyle\sum_{i=1}^{p} n_{i} (y_{i} - ax_{i} - b)^{2}\)
La figure suivante illustre l'idée de l'ajustement affine à l'aide de la méthode des moindres carrés :

Figure II.2.1 :Droite de régression de \(Y\) par rapport à \(X\).

La droite de régression de \(Y\) par rapport à \(X\) possède comme pente \(a\) qui est donnée par l'équation : \[ a = \frac {Cov (X, Y)}{V(X)} \]

La droite de régression passe par le point moyen \(M (\bar{x} , \bar{y}) \), nous reviendrons sur la thématique de la régression dans la Séance qui lui est consacrée.


2Les indices statistiques bivariés

Dans cette section, nous allons décrire les indices statistiques les plus couramment utilisés afin de mettre en évidence l'association entre deux variables (indépendante et dépendante), l'objectif de cette section étant d'aider le lecteur à mieux choisir le test suivant la nature des deux variables mises en jeux et aussi suivant la logique de la recherche empirique dont il sera question. Le choix d'un test, d'un type de mesure, précède l'opération d'inférence (que nous allons traiter dans le dernier Bloc de ce notre module), en fait un certain nombre d'association ne nécessite pas par ailleurs de mise en route de la procédure inverse à l'échantillonnage.

Le tableau suivant résume les principales mesures d'association pour les tableaux de contingence :

Col 1 Col 2 Col 3 Col 4
Mesure d'association Dimension du tableau Nature des variables associées Résultat
Phi \(2 \times 2\) \(2 \times 2\) ou plus Nominal x nominal Nominal x nominal - 1 à +1 0 à 1
Coefficient de contingence \(2 \times 2\) ou plus Nominal x nominal 0 à 1
Le V de Cramér \(2 \times 2\) ou plus Nominal x nominal 0 à 1
Lambda \(2 \times 2\) ou plus Nominal x nominal \(\%\) de réduction d'erreur
Kappa \(2 \times 2\) ou plus Nominal x nominal -1 à +1
Gamma \(2 \times 2\) ou plus Ordinal x ordinal -1 à +1
Tau de Kendall \(2 \times 2\) ou plus Ordinal x ordinal -1 à +1
Eta \(2 \times 2\) ou plus Nominal x cardinal 0 à 1
Tableau II.2.12 : Mesures d'association pour les tableaux de contingence.
(Laflamme, S., & Zhou, R. M. 2014, p246)

2.1. Le coefficient Phi

Le coefficient Phi mesure la force de l'association entre deux variables dichotomiques dans un tableau de contingence 2x2.

Définition : Le coefficient Phi (φ)

Le coefficient Phi mesure la force de l'association entre deux variables dichotomiques dans un tableau de contingence 2x2.

Le coefficient est donné par la formule suivante :


Intérêt : Cet indicateur est utilisé pour évaluer la relation entre deux variables catégorielles binaires, ce qui est utile dans les études de cas où les variables ne peuvent prendre que deux valeurs.

Conditions d'utilisation : Les données doivent être présentées dans un tableau de contingence 2x2, avec des variables dichotomiques.

Avantages :

  • Simplicité de calcul.
  • Facilité d'interprétation.
  • Utilité dans de nombreuses applications statistiques.

Inconvénients :

  • Ne s'applique qu'aux tableaux de contingence 2x2.
  • Moins précis pour les petits échantillons.

Exemple pratique :

Considérons le tableau de contingence suivant :

Présent Absent
Exposé 40 10
Non exposé 20 30

Calcul du coefficient Phi :

$$ \phi = \frac{(40 \cdot 30) - (20 \cdot 10)}{\sqrt{(40+10)(20+30)(40+20)(10+30)}} $$

$$ \phi = \frac{1200 - 200}{\sqrt{50 \cdot 50 \cdot 60 \cdot 40}} $$

$$ \phi = \frac{1000}{\sqrt{600000}} $$

$$ \phi = \frac{1000}{774.60} \approx 1.29 $$

Interprétation : Une valeur de φ = 1.29 indique une forte association entre les variables.

2.2. Le coefficient de contingence

Le coefficient de contingence évalue la force de l'association entre deux variables catégorielles en utilisant le chi-carré de contingence.

Définition : Le coefficient de contingence (C)

Le coefficient de contingence évalue la force de l'association entre deux variables catégorielles en utilisant le chi-carré de contingence.

Pour calculer le coefficient, on recourt à la formule :


Intérêt : Ce coefficient permet de mesurer l'association entre deux variables, indépendamment de la taille du tableau de contingence.

Conditions d'utilisation : Applicable à des tableaux de contingence de toute taille.

Avantages :

  • Permet de comparer des variables catégorielles de différentes dimensions.
  • Utilisation simple.

Inconvénients :

  • La valeur maximale dépend de la taille du tableau.
  • Moins interprétable que d'autres coefficients.

Exemple pratique :

Considérons le tableau de contingence suivant :

Oui Non
Var 1 40 10
Var 2 20 30

Supposons que le chi-carré calculé est de 18.5 et la taille d'échantillon est de 100 :

Calcul du coefficient de contingence :

$$ C = \sqrt{\frac{18.5}{100 + 18.5}} $$

$$ C = \sqrt{\frac{18.5}{118.5}} $$

$$ C = \sqrt{0.156} $$

$$ C \approx 0.395 $$

Interprétation : Une valeur de C = 0.395 indique une association modérée entre les variables.

2.3. Le coefficient V de Cramér

Le coefficient V de Cramér mesure l'association entre deux variables catégorielles pour un tableau de contingence de taille quelconque.

Définition : Le coefficient V de Cramér (V)

Le coefficient V de Cramér mesure l'association entre deux variables catégorielles pour un tableau de contingence de taille quelconque.

Pour calculer l'indicateur, on procède comme suit :


Intérêt : Utile pour mesurer l'association dans des tableaux de contingence de différentes tailles.

Conditions d'utilisation : Le tableau de contingence doit être de taille quelconque avec des données catégorielles.

Avantages :

  • Adapté à des tableaux de contingence de toutes tailles.
  • Facile à calculer.

Inconvénients :

  • Peut être influencé par des effectifs faibles.

Exemple pratique :

Considérons le tableau de contingence suivant :

Cat 1 Cat 2 Cat 3
Group A 30 10 20
Group B 20 40 10

Supposons que le chi-carré calculé est de 24, la taille d'échantillon est de 150, et k = 3 :

Calcul du coefficient V de Cramér :

$$ V = \sqrt{\frac{24}{150 \cdot (3 - 1)}} $$

$$ V = \sqrt{\frac{24}{300}} $$

$$ V = \sqrt{0.08} $$

$$ V \approx 0.28 $$

Interprétation : Une valeur de V = 0.28 indique une association modérée entre les variables.

2.4. Le coefficient Lambda

Le coefficient Lambda mesure la réduction proportionnelle de l'erreur dans la prédiction de la variable dépendante à partir de la variable indépendante.

Définition : Le coefficient Lambda (λ)

Le coefficient Lambda mesure la réduction proportionnelle de l'erreur dans la prédiction de la variable dépendante à partir de la variable indépendante.

Formule :

Intérêt : Utilisé pour évaluer l'efficacité de la variable indépendante dans la prédiction de la variable dépendante.

Conditions d'utilisation : Applicable aux données catégorielles.

Avantages :

  • Facile à interpréter.
  • Indique l'efficacité de la prédiction.

Inconvénients :

  • Limité aux données catégorielles.
  • Ne mesure pas la direction de l'association.

Exemple pratique :

Considérons le tableau de contingence suivant :

Succès Échec
Groupe A 35 15
Groupe B 25 25

Calcul du coefficient Lambda :

$$ \lambda = \frac{N_1 - N_2}{N} $$

Avec \( N_1 \) la fréquence maximale dans le tableau, \( N_2 \) la fréquence maximale par catégorie, et \( N \) la taille de l'échantillon total.

$$ \lambda = \frac{35 - 25}{100} $$

$$ \lambda = \frac{10}{100} $$

$$ \lambda = 0.10 $$

Interprétation : Une valeur de λ = 0.10 indique une faible réduction de l'erreur de prédiction grâce à la variable indépendante.

2.5. Le coefficient Kappa

Le coefficient Kappa évalue l'accord entre deux juges ou instruments de mesure, en tenant compte de la concordance due au hasard.

Définition : Le coefficient Kappa (κ)

Le coefficient Kappa évalue l'accord entre deux juges ou instruments de mesure, en tenant compte de la concordance due au hasard.

Le calcul du coefficient se fait ainsi :


Intérêt : Utile pour évaluer la fiabilité de mesures répétées ou de jugements entre deux évaluateurs.

Conditions d'utilisation : Les données doivent être catégorielles avec des évaluations par deux juges ou instruments.

Avantages :

  • Prend en compte la concordance due au hasard.
  • Utilisable dans diverses disciplines.

Inconvénients :

  • Complexité de calcul pour des grands tableaux.
  • Sensibilité aux déséquilibres dans les marges.

Exemple pratique :

Considérons le tableau suivant de concordance entre deux évaluateurs :

Éval 1 : Oui Éval 1 : Non
Éval 2 : Oui 50 10
Éval 2 : Non 5 35

Proportion de concordance observée (Po) :

$$ P_o = \frac{50 + 35}{100} = 0.85 $$

Proportion de concordance due au hasard (Pe) :

$$ P_e = \frac{(50 + 10)(50 + 5) + (10 + 35)(5 + 35)}{100^2} $$

$$ P_e = \frac{60 \cdot 55 + 45 \cdot 40}{10000} $$

$$ P_e = \frac{3300 + 1800}{10000} $$

$$ P_e = \frac{5100}{10000} = 0.51 $$

Calcul du coefficient Kappa :

$$ \kappa = \frac{0.85 - 0.51}{1 - 0.51} $$

$$ \kappa = \frac{0.34}{0.49} $$

$$ \kappa \approx 0.69 $$

Interprétation : Une valeur de κ = 0.69 indique un accord substantiel entre les évaluateurs, au-delà de la concordance due au hasard.

2.6. Le coefficient Gamma

Définition : Le coefficient Gamma (γ)

Le coefficient Gamma mesure la force et la direction de l'association entre deux variables ordinales.

Afin de calculer le coefficient, on utilise la formule :


Le coefficient Gamma mesure la force et la direction de l'association entre deux variables ordinales.

Intérêt : Utile pour analyser les relations entre variables ordinales dans des tableaux de contingence.

Conditions d'utilisation : Les données doivent être ordinales.

Avantages :

  • Indique la force et la direction de l'association.
  • Utilisable avec des variables ordinales.

Inconvénients :

  • Sensible aux valeurs extrêmes.
  • Ne prend pas en compte les paires liées.

Exemple pratique :

Considérons le tableau suivant de données ordinales :

Catégorie 1 Catégorie 2
Ordre 1 12 8
Ordre 2 7 13

Calcul des paires concordantes et discordantes :

Paires concordantes (P) :

$$ P = 12 \cdot 13 + 8 \cdot 7 = 156 + 56 = 212 $$

Paires discordantes (Q) :

$$ Q = 12 \cdot 7 + 8 \cdot 13 = 84 + 104 = 188 $$

Calcul du coefficient Gamma :

$$ \gamma = \frac{P - Q}{P + Q} $$

$$ \gamma = \frac{212 - 188}{212 + 188} $$

$$ \gamma = \frac{24}{400} $$

$$ \gamma = 0.06 $$

Interprétation : Une valeur de γ = 0.06 indique une très faible association positive entre les variables ordinales.

2.7. Le coefficient Tau de Kendall

Le tau de Kendall évalue la force et la direction de l'association entre deux variables ordinales, en tenant compte des paires concordantes et discordantes.

Définition : Le tau de Kendall (τ)

Le tau de Kendall évalue la force et la direction de l'association entre deux variables ordinales, en tenant compte des paires concordantes et discordantes.

Le calcul se fait ainsi :


Intérêt : Utile pour analyser les relations ordinales, en prenant en compte les paires concordantes et discordantes.

Conditions d'utilisation : Les données doivent être ordinales.

Avantages :

  • Prend en compte les paires concordantes et discordantes.
  • Facile à interpréter.

Inconvénients :

  • Complexité de calcul pour de grands échantillons.

Exemple pratique :

Considérons le tableau suivant de données ordinales :

Catégorie A Catégorie B
Ordre 1 15 5
Ordre 2 10 20

Calcul des paires concordantes et discordantes :

Paires concordantes (P) :

$$ P = 15 \cdot 20 + 5 \cdot 10 = 300 + 50 = 350 $$

Paires discordantes (Q) :

$$ Q = 15 \cdot 10 + 5 \cdot 20 = 150 + 100 = 250 $$

Calcul du Tau de Kendall :

$$ \tau = \frac{P - Q}{P + Q} $$

$$ \tau = \frac{350 - 250}{350 + 250} $$

$$ \tau = \frac{100}{600} $$

$$ \tau = 0.17 $$

Interprétation : Une valeur de τ = 0.17 indique une faible association positive entre les variables ordinales.

2.8. Le coefficient Eta

Le coefficient Eta mesure la force de l'association entre une variable catégorielle et une variable continue.

Définition : Le coefficient Eta (η)

Le coefficient Eta mesure la force de l'association entre une variable catégorielle et une variable continue.

Formule :

Intérêt : Utile pour mesurer l'association entre une variable catégorielle et une variable continue.

Conditions d'utilisation : Les données doivent inclure une variable catégorielle et une variable continue.

Avantages :

  • Facile à calculer.
  • Utilisable dans diverses analyses statistiques.

Inconvénients :

  • Sensible aux valeurs extrêmes.

Exemple pratique :

Considérons les données suivantes :

Groupe Scores Nombre Somme des carrés
A 10, 12, 14, 16 4 40
B 20, 22, 24, 26 4 80

Calcul de la somme des carrés entre les groupes (SSB) :

$$ SSB = 4 \cdot (\bar{x}_A - \bar{x}_T)^2 + 4 \cdot (\bar{x}_B - \bar{x}_T)^2 $$

Où \( \bar{x}_A = 13 \), \( \bar{x}_B = 23 \), et \( \bar{x}_T = 18 \)

$$ SSB = 4 \cdot (13 - 18)^2 + 4 \cdot (23 - 18)^2 $$

$$ SSB = 4 \cdot 25 + 4 \cdot 25 $$

$$ SSB = 100 + 100 = 200 $$

Calcul de la somme totale des carrés (SST) :

$$ SST = \sum (x_i - \bar{x}_T)^2 = 4 \cdot (13 - 18)^2 + 4 \cdot (23 - 18)^2 $$

$$ SST = 200 $$

Calcul du coefficient Eta :

$$ \eta^2 = \frac{SSB}{SST} = \frac{200}{200} = 1 $$

$$ \eta = \sqrt{1} = 1 $$

Interprétation : Une valeur de η = 1 indique que 100 % de la variance des scores est expliquée par le groupe.

upload-to-cloud Résumé

Les distributions statistiques à deux variables permettent d'analyser la relation entre deux variables en utilisant divers outils et tableaux. Ces analyses aident à comprendre comment les variables sont liées et à quelles conditions ces relations s'appliquent.

  • Les distributions statistiques à deux variables :
    • Ces distributions examinent comment deux variables peuvent être liées, que ce soit à travers des relations linéaires, non linéaires, ou d'autres formes de dépendance.
  • Le tableau élémentaire :
    • Ce tableau présente les données brutes sans traitement. Il montre les paires de valeurs observées pour deux variables et constitue la base pour d'autres analyses.
  • Le tableau de contingence :
    • Un tableau croisé qui répertorie les occurrences de chaque combinaison de modalités des deux variables. Il est souvent utilisé pour analyser les variables qualitatives.
  • La distribution conjointe :
    • Représente la répartition des paires de valeurs des deux variables. Elle montre comment les valeurs des deux variables se combinent dans l'ensemble des observations.
  • La distribution marginale :
    • Montre la répartition d'une variable seule, sans tenir compte de l'autre variable. Elle est obtenue en sommant les fréquences sur les modalités de l'autre variable.
  • Les distributions conditionnelles :
    • Ces distributions montrent la répartition d'une variable pour une valeur fixe ou une modalité spécifique de l'autre variable, permettant d'étudier des relations conditionnelles.
  • Relations entre variables dans une distribution conjointe :
    • L'analyse des relations dans une distribution conjointe permet de déterminer si les variables sont indépendantes ou s'il existe une forme de dépendance entre elles.
  • Autres paramètres d'une série statistique double :
    • Inclut des mesures comme la moyenne conjointe, la variance conjointe, et la covariance qui aident à comprendre les caractéristiques des deux variables ensemble.
  • Les indices statistiques bivariés :
    • Phi : Indice de corrélation simple utilisé pour des variables dichotomiques.
    • Coefficient de contingence : Mesure l'association entre deux variables nominales, indiquant la force de leur relation.
    • V de Cramér : Une extension du coefficient de contingence applicable à des tableaux de contingence de taille différente.
    • Lambda : Indice d'association qui mesure la réduction d'erreur de prédiction d'une variable en utilisant une autre.
    • Kappa : Mesure l'accord entre deux juges ou deux méthodes d'observation au-delà de ce qui serait attendu par hasard.
    • Gamma : Indice de corrélation utilisé pour des variables ordinales, prenant en compte les rangs.
    • Tau de Kendall : Mesure de corrélation pour des variables ordinales qui tient compte des paires concordantes et discordantes.
    • Eta : Mesure l'association entre une variable nominale et une variable continue, souvent utilisé pour des relations non linéaires.

books Bibliographie du Bloc

Le Cours ne possède pas de bibliographie finale (dans sa version en ligne), les renvois sont insérés à la fin de chaque Bloc.

  • Bailly, P., & Carrère, C. (2015). Statistiques descriptives. L'économie et les chiffres. Grenoble (Presses universitaires de).
  • Bertrand, R. (1986). Pratique de l'analyse statistique des données. PUQ.
  • Denis, D. J. (2021). Applied Univariate, Bivariate, and Multivariate Statistics Using Python: A Beginner's Guide to Advanced Data Analysis. John Wiley & Sons.
  • Fredon, D., Maumy, M., & Bertrand, F. (2009). Mathématiques L1/L2: Statistique et Probabilités en 30 fiches. Dunod.
  • Haccoun, R. R., & Cousineau, D. (2007). Statistiques: Concepts et applications. PUM.
  • Laflamme, S., & Zhou, R. M. (2014). Méthodes statistiques en sciences humaines. Éditions Prise de parole.
  • Legros, B. (2011). Mini-Manuel de Mathématiques pour la Gestion.
  • Lefebvre, M. (2011). Probabilités, statistique et applications. Presses inter Polytechnique.
  • Magnello, E. (2017). Les statistiques en images. EDP sciences.
  • Rovai, A. P. (2016). Statistical Fundamentals: Using Microsoft Excel for Univariate and Bivariate Analysis. Watertree Press.
  • Saporta, G. (2006). Probabilités, analyse des données et statistique. Editions technip.

ask-questionQuestions de Synthèse

  • Quelles sont les principales différences entre une distribution univariée et une distribution bivariée ?
  • Comment peut-on déterminer si deux variables sont liées dans une distribution bivariée ?
  • Que représente un tableau élémentaire dans l'analyse bivariée ?
  • Comment un tableau élémentaire peut-il être transformé en tableau de contingence ?
  • Quelles informations peut-on tirer d'un tableau de contingence ?
  • Quels sont les avantages d'utiliser un tableau de contingence pour analyser des variables qualitatives ?
  • Comment interpréter une distribution conjointe ?
  • En quoi la distribution conjointe diffère-t-elle de la distribution marginale ?
  • Quelles informations fournit une distribution marginale ?
  • Comment la distribution marginale est-elle calculée à partir d'une distribution conjointe ?
  • Qu'est-ce qu'une distribution conditionnelle et comment est-elle utilisée ?
  • Comment une distribution conditionnelle peut-elle aider à comprendre la relation entre deux variables ?
  • Comment peut-on évaluer l'indépendance ou la dépendance entre deux variables dans une distribution conjointe ?
  • Quels tests statistiques peut-on utiliser pour examiner les relations entre variables dans une distribution conjointe ?
  • Quels sont les paramètres les plus importants d'une série statistique double ?
  • Comment la covariance est-elle utilisée pour mesurer la relation entre deux variables ?
  • Comment interpréter l'indice de corrélation Phi ?
  • Quelle est la différence entre le coefficient de contingence et le V de Cramér ?
  • Quand est-il approprié d'utiliser le coefficient Lambda pour analyser des données ?
  • Dans quel contexte utiliseriez-vous le coefficient Kappa ?
  • Comment le coefficient Gamma diffère-t-il du Tau de Kendall dans l'analyse des données ordinales ?
  • Quel est le rôle du coefficient Eta dans l'analyse des relations non linéaires ?

test-passedQ.C.M.

Le QCM comporte seize questions qui portent sur certaines parties du Cours, à la fin vous aurez votre évaluation ainsi que le corrigé.

Pour accéder au QCM, cliquer sur l'icône suivante : quizizz

external-checklist-logistics-flaticons-lineal-color-flat-icons-3 Fiches du cours & TD

Cette séance ne possède pas de Fiches à télécharger, nous aurons l'occasion, durant la séance de travail dirigé consacrée à cette dernière, de revenir sur les questions fondamentales de l'analyse bivariée à l'aide de l'éditeur du tableau bivarié ainsi que du compilateur Python

path Pour aller plus loin

Pour aller plus loin dans votre apprentissage de cet, vous pouvez consulter les liens suivants :

  • Ouvrage
    Un ouvrage très pratique, dont les résumés et les exercices vont directement à l'essentiel : Legros, B. (2016). Mini manuel de Statistiques et probabilités en économie-gestion. Dunod. :) . [disponible gratuitement en vous connectant au compte de l'université].

  • Ouvrage
    La nouvelle version de cet ouvrage incontournable vous aidera à comprendre les principes de base de l'analyse bivariée, l'ouvrage peut aussi vous accompagner dans la suite du Module : Guéguen, N. (2022). Statistique pour psychologues: Cours, QCM et exercices corrigés. Dunod. :) [disponible gratuitement en vous connectant au compte de l'université].

  • Vidéo
    Un lien d'une chaine youtube qui explique dans divers épisodes les bases des statistiques descriptives bivariées :

cell-phone Sur l'appli du cours

Sur l'Appli du Cours, vous trouverez le résumé du présent Bloc, ainsi que des séries de Travaux Dirigés qui lui sont liées.
On trouvera aussi des renvois à des contenus multimédias qui intéressent le Bloc.
Dans le volet de Notifications, une mise à jour est prévue, elle se fera suivant les questionnements formulés par les étudiants durant les séances de Cours et de Travaux dirigés.
Une mise à jour concerne aussi les examens des sessions précédentes que l'on corrigera dans les séances de travaux dirigés pour préparer les examens de l'année en cours.

Le coin Python

Dans ce coin Python, nous avons intégrer, à l'aide d'un exemple, les commandes se rapportant à l'essentiel des éléments vus dans cette séance.

Code Python Explication
import pandas as pd

# Exemple de jeu de données
data = pd.DataFrame({
  'categorie': ['Étudiant', 'Professionnel', 'Étudiant', 'Professionnel', 'Étudiant'],
  'type_contenu': ['Article', 'Vidéo', 'Podcast', 'Article', 'Vidéo'],
  'temps_passe': [30, 45, 25, 60, 35]  # temps passé en minutes
})

# Calculer la moyenne conditionnelle du temps passé par les étudiants
moyenne_conditionnelle = data[data['categorie'] == 'Étudiant']['temps_passe'].mean()
print(moyenne_conditionnelle)
Ce code calcule la moyenne conditionnelle du temps passé sur la plateforme pour les utilisateurs de la catégorie "Étudiant". Cela montre combien de temps en moyenne les étudiants passent sur la plateforme.
import pandas as pd

# Exemple de jeu de données
data = pd.DataFrame({
  'categorie': ['Étudiant', 'Professionnel', 'Étudiant', 'Professionnel', 'Étudiant'],
  'type_contenu': ['Article', 'Vidéo', 'Podcast', 'Article', 'Vidéo'],
  'temps_passe': [30, 45, 25, 60, 35]  # temps passé en minutes
})

# Calculer la variance conditionnelle du temps passé par les professionnels
variance_conditionnelle = data[data['categorie'] == 'Professionnel']['temps_passe'].var()
print(variance_conditionnelle)
Ce code calcule la variance conditionnelle du temps passé sur la plateforme pour les utilisateurs de la catégorie "Professionnel". Cela mesure la dispersion du temps passé par les professionnels sur la plateforme.
import pandas as pd

# Exemple de jeu de données
data = pd.DataFrame({
  'categorie': ['Étudiant', 'Professionnel', 'Étudiant', 'Professionnel', 'Étudiant'],
  'type_contenu': ['Article', 'Vidéo', 'Podcast', 'Article', 'Vidéo'],
  'temps_passe': [30, 45, 25, 60, 35]  # temps passé en minutes
})

# Calculer l'écart type conditionnel pour les vidéos
ecart_type_conditionnel = data[data['type_contenu'] == 'Vidéo']['temps_passe'].std()
print(ecart_type_conditionnel)
Ce code calcule l'écart type conditionnel du temps passé pour les utilisateurs qui consultent des vidéos. Cela mesure la dispersion du temps passé à regarder des vidéos sur la plateforme.
chat Téléchargement du cours

En utilisant le lien ci-dessous, vous pouvez télécharger le Flipbook en format PDF : bookmark-ribbon

chat Forum de Discussion

Le forum vous permet d'échanger autour de cette séance, vous remarquerez la présence d'un bouton d'abonnement afin que vous puissiez suivre les discussions au sujet de la recherche en sciences humaines et sociales, c'est l'occasion aussi pour l'enseignant de répondre aux préoccupations et questions des étudiants.