Nous arrivons, dans ce dernier Bloc, à un point crucial de notre enseignement, un aspect de la recherche souvent mal traité par nos étudiants dans leurs travaux de fin de cycle. L'inférence statistique, comme signalée au tout début de ce Module, l'inférence statistique est un ensemble de méthodes qui permettent de tirer des conclusions sur une population à partir d'un échantillon de données observées. L'inférence repose sur un nombre de concepts que nous avons déjà abordé dans les deux Blocs précédents (théorie des probabilités, les distributions d'échantillonnage) et certians autres que nous allons voir dans le présent Bloc.
Remarque par rapport à l'organisation du Bloc .Les enseignements sont indissociables, ce qui fait que l'on a opté de parler du Bloc dans son ensemble, et qui contient six Enseignements, bien évidement, la logique reste la même que durant les enseignemets précédents. On a donc organisé ce Bloc en enseignements pour faciliter le suivi et la compréhension du contenu de cette dernière matière.
Nous débuterons par une étude approfondie de l'estimation et de l'échantillonnage, en mettant en lumière les notions de fluctuation d'échantillonnage, échantillon exhaustif et non-exhaustif, ainsi que les distinctions entre échantillons indépendants et appariés. Nous examinerons aussi la variable aléatoire, en passant par les méthodes d'estimation ponctuelle et d'estimation par intervalle de confiance. Nous introduirons également la loi binomiale comme un modèle fondamental pour l'analyse de variables discrètes.
Le test d'hypothèse sera une autre composante clé de ce cours, où nous explorerons les concepts de l'erreur type de la moyenne et de la théorie de la limite centrale, indispensables pour comprendre les hypothèses unicaudales et bicaudales. Les outils tels que les tableaux de contingence et le coefficient de contingence seront également présentés pour évaluer les relations entre variables catégorielles. Nous aborderons les notions de seuil de signification, de fréquences théoriques et observées, qui sont essentielles pour tester la validité des hypothèses.
L'analyse de la variance (ANOVA) sera discutée en détail, avec un accent sur la statistique F, la taille de l'effet, les différences intergroupes et intragroupes, ainsi que l'élaboration du tableau des sources de variance. Ce segment du cours permettra de comprendre comment les variations au sein des données peuvent être attribuées à différents facteurs.
La section sur la corrélation et la régression linéaire introduira des outils pour examiner les relations entre variables quantitatives. Nous étudierons le coefficient de corrélation, les modèles mathématiques de régression, et nous apprendrons à interpréter des diagrammes de dispersion (nuages de points), ainsi que les courbes d'ajustement et les droites de régression. Les concepts de variable indépendante et variable dépendante, ainsi que le coefficient de détermination, seront également abordés pour comprendre la force et la nature des relations linéaires entre les variables.
Enfin, nous conclurons avec les tests non paramétriques, où des méthodes telles que le test de Mann-Whitney, le test de Wilcoxon, le test de Kruskal-Wallis, et le test de Spearman seront explorées. Ces tests offrent des alternatives robustes aux tests paramétriques lorsque les hypothèses sous-jacentes ne sont pas satisfaites.
Objectifs de la séance
Dans cette séance, nous nous concentrerons sur les concepts clés de l'inférence statistique. Les objectifs de cette séance sont définis pour vous permettre de maîtriser les notions essentielles qui seront explorées tout au long de ce cours.
Comprendre l'estimation et l'échantillonnage :
Appréhender les méthodes d'estimation et les différents types d'échantillonnage, y compris les concepts de fluctuation d'échantillonnage, d'échantillon exhaustif et non-exhaustif.
Différencier les types d'échantillons
Apprendre à distinguer entre échantillons indépendants et appariés, et comprendre leur importance dans l'analyse statistique ;
Maîtriser les méthodes d'estimation
Acquérir des compétences dans l'estimation ponctuelle et l'estimation par intervalle de confiance, et comprendre l'utilisation de la loi binomiale pour l'analyse des variables discrètes ;
Explorer les tests d'hypothèse
S'initier aux concepts d'erreur type de la moyenne, de théorie de la limite centrale, et apprendre à formuler et tester des hypothèses unicaudales et bicaudales ;
Utiliser les tableaux de contingence
Comprendre comment analyser les relations entre variables catégorielles à l'aide des tableaux de contingence, du coefficient de contingence, et des notions de fréquences théoriques et observées ;
Analyser la variance
Étudier la statistique F, la taille de l'effet, les différences intergroupes et intragroupes, et savoir construire et interpréter un tableau des sources de variance ;
Comprendre la corrélation et la régression linéaire
Se familiariser avec la corrélation, la régression, et apprendre à utiliser le coefficient de corrélation, à construire des diagrammes de dispersion et des courbes d'ajustement, et à interpréter la droite de régression ;
Explorer les tests non paramétriques :
Découvrir les tests de Mann-Whitney, Wilcoxon, Kruskal-Wallis, et Spearman comme alternatives aux tests paramétriques dans des contextes spécifiques.
Concepts et thèmes à aborder durant le Bloc
Pour le présent Bloc, nous aborderons les concepts suivants (on a intégré le titre de chaque enseignement avant chaque groupe de concept) : l'Estimation échantillonnage, fluctuation d’échantillonnage, estimation, échantillon exhaustif, échantillon non-exhaustif, échantillons indépendants, échantillons appariés, variable aléatoire, estimation ponctuelle, estimation par intervalle de confiance, la loi binomiale. Le test d'hypothèse : l'erreur type de la moyenne, théorie de la limite centrale, hypothèse unicaudale, hypothèse bicaudale. Le test du \(\chi2\) : tableau de contingence, coefficient de contingence, seuil de signification, fréquence théorique, fréquence observée. L'analyse de la variance : la statistique F, taille de l'effet, différence intergroupe, différence intragroupe, tableau des sources de variance. La corrélation & la régression linéaire : La corrélation, la régression, le coefficient de contingence, modèle mathématique, diagramme de dispersion, (nuage de ponts), la courbe d'ajustement, la droite de régression (droite des moindres carrés), la droite de tendance (dans le cas d'une série chronologique), variable indépendante, variable dépendante, incidence, liaison linéaire, coefficient de détermination. Les tests non paramétriques Le test de Mann et Whitney, Le test de Wilcoxon, Le test de Kruskal et Wallis, Le test de Spearman.
Présentation du Bloc
Introduction à l'inférence statistique
L'inférence sert à comprendre et, ou à, prendre une décision par rapport à un phénomène donné. L'ensemble des règles et techniques servant à opérer des inférences, est rassemblé sous l'appélation de tests statistiques. Les tests statistiques ont pour objectif de vérifier la validité d'une hypothèse préalablement établie. On peut aussi introduire la notion d'inférence statistique en la considérant comme un processus consistant à tirer des conclusions générales (sur la population) à partir de la mesure, non précise, quelque peu imparfaite, d'une information tirée à partir d'elle (donc de l'échantillon, ou des échantillons). Les tests d'hypothèses ne peuvnet pas attester de la véracité d'une hypothèse, mais peuvent affirmer sa fausseté.
L'erreur d'inférence en statistique se produit lorsque les conclusions tirées d'un échantillon sont incorrectement généralisées à l'ensemble de la population. Il existe deux types principaux d'erreurs d'inférence :
Erreur de type I (erreur alpha)
C'est l'erreur qui se produit lorsque l'on rejette une hypothèse nulle alors qu'elle est en réalité vraie. En d'autres termes, on conclut à tort qu'il existe un effet ou une différence alors que ce n'est pas le cas. Le niveau de signification (alpha) est la probabilité de commettre cette erreur.
Erreur de type II (ou erreur bêta)
C'est l'erreur qui se produit lorsque l'on ne rejette pas une hypothèse nulle alors qu'elle est en réalité fausse. Cela signifie que l'on manque un effet ou une différence qui existe réellement. La puissance statistique (1 - bêta) est la probabilité de ne pas commettre cette erreur.
Ces erreurs sont inévitables en statistique car elles sont liées à l'incertitude inhérente à l'échantillonnage. L'objectif est de minimiser ces erreurs autant que possible en choisissant un niveau de signification approprié et en utilisant des échantillons suffisamment grands.
On dira, dans un autre contexte que vérifier une hypothèse renvoie au fait de la confronter à une hypothèse nulle. On parle d'acceptation ou de rejet de l'hypothèse nulle lorsque les différences observées entre échantillons ou entre échantillon et sa populationest plus élevé qu'une différence dite typique.
L'estimation
L'échantillon est un moyen d'appréhender la population, puisque l’on n’a pas accès à cette dernière [ gardons en tête que parfois même en ayant accès, il y a des coûts souvent élevés et beaucoup de temps à y consacrer et un risque de produire des données non valides ]. L'extraction de plusieurs échantillons (de taille \(n\) ) ne résout pas le problème, puisque les résultats que l'on obtiendra varieront d'un échantillon à l'autre, c'est ce que l'on désigne par le nom de fluctuation d'échantillonnage.
Dans la présente séance, nous traiterons de deux types d'estimation : l'estimation ponctuelle et l'estimation par intervalle de confiance . Il va sans dire que nous avons limité le contenu de cette séance aux seules informations qui intéressent les recherches en sciences humaines et sociales. D'autres catégories et types d'estimations sont traités dans des manuels plus approfondis.
La fluctuation d'échantillonnage fait référence à la variabilité des résultats que l'on peut obtenir lorsqu'on répète plusieurs fois le processus d'échantillonnage sur une même population. En d'autres termes, si l'on prélève plusieurs échantillons d'une population donnée, les statistiques calculées sur chaque échantillon peuvent varier d'un échantillon à l'autre.
Cette fluctuation est due au fait que chaque échantillon peut contenir des individus différents et, par conséquent, peut fournir des estimations légèrement différentes des paramètres de la population. C'est pourquoi les résultats d'une étude basée sur un échantillon sont généralement accompagnés d'une marge d'erreur ou d'un intervalle de confiance, pour tenir compte de cette variabilité.
Exemple : Si l'on mesure la taille moyenne d'un groupe de 100 étudiants sélectionnés aléatoirement parmi tous les étudiants d'une université, cette moyenne pourrait légèrement varier si l'on répète la mesure avec un autre groupe de 100 étudiants. Cette variabilité est ce qu'on appelle la fluctuation d'échantillonnage.
Pour avoir des informations de la population à partir de l'échantillon, on procède à ce que nous nommons l'estimation, un échantillonnage est non-exhaustif si le tirage des \(n\) individus qui constituent l'échantillon sont tirés avec remise, dans le cas contraire, il est dit exhaustif.
Un échantillon pertinent est un échantillon représentatif de la population à partir de laquelle il a été tiré, il reproduit le plus fidèlement possible les catégories d'intérêt de l'étude et être tiré de manière aléatoire.
Définition III.1.2 : L'estimation
L'estimation est le processus par lequel on utilise des données d'un échantillon pour inférer ou prédire la valeur d'un paramètre inconnu d'une population.
L'estimation peut prendre la forme d'une estimation ponctuelle, qui fournit une seule valeur estimée (comme la moyenne de l'échantillon), ou d'une estimation par intervalle, qui donne une plage de valeurs plausibles pour le paramètre, souvent avec un certain niveau de confiance.
Échantillons indépendants, Échantillons appariés . on dit que les échantillons sont indépendants lorsqu'ils sont constitués d'individus différents, on dit que les échantillons sont appariés lorsque les individus sont associés deux à deux [donner un exemple historique].
Exemple 2 : On désire faire une comparaison de l'efficacité de deux campagnes publicitaires différentes pour promouvoir un produit technologique.
Supposons qu'une entreprise souhaite comparer l'impact de deux campagnes publicitaires distinctes sur les ventes d'un nouveau smartphone. Elle pourrait diffuser la première campagne auprès d'un groupe d'utilisateurs dans une ville A et la deuxième campagne auprès d'un autre groupe d'utilisateurs dans une ville B.
On dira que Les deux groupes sont indépendants car les utilisateurs dans les deux différentes villes sont des individus différents, et chaque groupe est exposé à une campagne différente.
Exemple 3 : On désire analyser la perception d'une même campagne publicitaire avant et après une modification
Supposons maintenant qu'une entreprise lance une campagne publicitaire sur les réseaux sociaux pour promouvoir un service de streaming. Après avoir recueilli des retours initiaux, l'entreprise décide de modifier le message de la campagne. Pour évaluer l'effet de cette modification, elle mesure l'opinion des mêmes utilisateurs avant et après le changement.
Les échantillons sont appariés parce que les mêmes individus sont interrogés à deux moments différents (avant et après la modification), et les réponses sont associées pour chaque utilisateur.
1.1. L'estimation ponctuelle non biaisée
Soit \(X_{n}\) la variable aléatoire associée à un échantillon de taille \(n\).
L'estimation ponctuelle est la méthode qui consiste à fournir une seule valeur, appelée estimateur ponctuel, pour estimer un paramètre inconnu d'une population. Cette estimation est basée sur les données obtenues à partir d'un échantillon représentatif de cette population.
Mathématiquement on dit que \(X_{n}\) est un estimateur non biaisé (sans biais) d'un paramètre \(\theta\) si \(E~(X_{n})= \theta \) (si non, l'estimateur est biaisé). Si \(\displaystyle \lim_{n \to \infty} \) \(V (X_{n})\), l'estimateur est dit : Convergent.
L'estimation ponctuelle non biaisée d'une moyenne et d'une varaiance
Contexte. Soit un caractère quantitatif (x) ( dont la moyenne \(\mu\) et la variance \(\sigma^2\) ) que l'on désire estimer à partir d'un Population \(P\).
Notation. On considère un échantillon de taille \(n\) [dont les valeurs sont {\(x_{1}, x_{2},..... x_{10}, x_{11}, ...., x_{n}\)} et dont les variables aléatoires associées à chaque variable sont : {\(X_{1}, X_{2},..... X_{10}, X_{11}, ...., X_{n}\)}
Les deux variables aléatoires peuvent être définies ainsi :
\(\bar{X}\) : prenant pour valeurs les moyennes des échantillons de taille \(n\) : $$\bar{X} = \frac {1}{n} \sum_{i=1}^{n} X_{i}$$
\(\sigma_{e}^{2}\) : Variance échantillonnalle prenant pour valeurs les variances des échantillons : $$\sigma_{e}^{2} = \frac{1}{n} \sum_{i=1}^{n} (X_{i} - \bar{X}) ^2$$
Par définition, on considère que l'on peut noter les règles permettant une estimation non biaisée de la moyenne et de la variance de la manière suivante :
Remarque. dans une recherche, on recourt à cette notation puisque nous travaillons généralement avec un seul échantillon.
$$ E \sigma_{e}^{2} = \frac {n-1} {n} \sigma^{2} $$
La même remarque par rapport à l'estimation de la moyenne peut être faite, dans ce sens on retiendra la formule suivante de l'estimation de la variance :
Contexte. Soit un caractère (x) dont on désire estimer la proportion à partir d'une Population \(P\).
Notation. On considère la variable aléatoire \(F\) [dont les valeurs sont {\(f_{1}, f_{2},..... f_{10}, f_{11}, ...., f_{n}\)} et dont les variables aléatoires associées à chaque variable sont : {\(F_{1}, F_{2},..... F_{10}, F_{11}, ...., F_{n}\)} sur un échantillon de taille \(n\), tirés avec remise.
Considérons qu'un individu soit tiré de cette population, nous voudrions estimer la probabilité \(p\) qu'il possède ce caractère :
$$ E (F) = p \longrightarrow V(f) = \frac {p (1-p)} {n} $$
1.2. L'estimation par intervalle de confiance
Lorsque l'on estime une moyenne, une variance ou une proportion de manière non biaisée, on voudrait savoir avec quel degré de certitude, de confiance, étant-nous sûr de ce que nous affirmons par rapport à l'estimation que nous faisons ?
Définition III.1.3 : L'intervalle de confiance
Un intervalle de confiance est une plage de valeurs calculée à partir des données d'un échantillon qui, avec un certain niveau de confiance, est utilisée pour estimer un paramètre inconnu de la population.
Contrairement à une estimation ponctuelle qui fournit une seule valeur, l'intervalle de confiance donne une plage de valeurs possibles pour le paramètre et indique la précision de cette estimation.
Nous choisissons un nombre \(\alpha\) \(\in\) \( ] 0 , 1 [ \) qui nous aidera à déterminer un intervalle \( ] a , b [\) afin d'avoir la probabilité \(\alpha\) de se tromper en affirmant que \(p\) appartienne à cet intervalle (on dit de \(\alpha\) qu'il est un coefficient de confiance, et de \( (1- \alpha)\) un coefficient de sécurité).
Afin donc de déterminer un intervalle de confiance, nous devons introduire une variable aléatoire dont nous avons la distribution de probabilité.
L'estimation d'une moyenne par intervalle de confiance
Lorsqu'il s'agit de la moyenne, deux possibilités sont à considérer dans son estimation :
Cas d'une population Gaussienne (\(\sigma ~\) connu)
On dit d'une population qu'elle est Gaussienne (\(\sigma ~\) connu) , ce qui signifie mathématiquement que :
$$ Si ~~X~~ suit~~ une~~ loi~~ normale~~,~~ \bar{X} \sim \mathcal{N}(\mu, \frac{\sigma}{\sqrt(n)}) $$
Donc, pour un risque \(\alpha\), on récupère l'écart réduit \(z_\alpha\) dans la Table 3 ( La loi normale réduite ) afin de déterminer l'intervalle de confiance :
\(-z_{\alpha} \lt \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \lt z_{\alpha}\) \( \longrightarrow \)\(\mu \in \left ] \bar{x} - z_{\alpha} \frac{\sigma} {\sqrt{n}} , \bar{x} + z_{\alpha} \frac{\sigma} {\sqrt{n}} \right [ \)
Cas d'une population Gaussienne (\(\sigma ~\) inconnu)
On dit d'une population qu'elle est Gaussienne (\(\sigma ~\) inconnu) , ce qui signifie mathématiquement que :
$$ Si ~~T~~ suit~~ la~~ loi~~ de~~Student~~,~~à~~ V~=~n-1~~ degrés~~de~~libertés~~ :~~ T = \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} $$
Donc, pour un risque \(\alpha\), on récupère \(t_\alpha\) dans la Table 4 ( La loi de Student ) afin de déterminer l'intervalle de confiance :
\(\mu \in \left ] \bar{x} - t_{\alpha} \frac{s} {\sqrt{n}} , \bar{x} + z_{\alpha} \frac{s} {\sqrt{n}} \right [ \)
Remarque : Cas d'un grand échantillon
Lorsque \(n \geq 30 \) , l'intervalle de confiance se note de la manière suivante :
L'estimation d'une variance par intervalle de confiance
Pour estimer la variance d'une population \(\sigma^2\) à partir d'un échantillon de taille \(n\) avec une variance échantillonnale \(s^2\), l'intervalle de confiance pour \(\sigma^2\) au niveau de confiance de \( ( 1-\alpha )\), deux cas sont possibles : Cas 1 :\(n \leq 31 \)
L'intervalle de confiance est donné ainsi :
$$ \left ] \frac{(n-1) s^{2}}{b} , \frac{(n-1) s^{2}}{a} \right [ $$
Cas 2 :\(n \geq 31 \)
L'intervalle de confiance est donné comme suivant :
$$ \sigma^{2} \in \left ] \frac {2 (n-1) s^{2}} {(\sqrt{2n-3} + z_{\alpha})^2} ~~ , ~~ \frac {2 (n-1) s^{2}} {(\sqrt{2n-3} - z_{\alpha})^2} \right [ $$
Exemple
Un étudiant de fin de cycle master veut, dans le cadre de son mémoire, estimer la durée moyenne quotidienne passée par les étudiants à utiliser les réseaux sociaux. Pour ce faire, il réalise une enquête auprès de 30 étudiants. Les résultats obtenus montrent que la durée moyenne d'utilisation est de 2,5 heures par jour et que l'écart-type est de : 0,8 heure.
Calcul de l'Intervalle de Confiance
L'étudiant veut calculer un intervalle de confiance à 95% pour la durée moyenne quotidienne d'utilisation des réseaux sociaux chez tous les étudiants.
Étape 1. Récapitulation des Données :
Moyenne de l'échantillon (\(\bar{x}\)) : 2,5 heures ;
Écart-type de l'échantillon (\(\sigma\)) : 0,8 heure ;
Taille de l'échantillon (\(n\)) : 30 ;
Niveau de confiance : 95%.
Étape 2. Calculer le \(Score t\) :
Étant donné que la taille de l'échantillon est relativement petite (n < 30), nous utilisons la distribution \(t\) de Student (voir Table 4 de l'Annexe Statistique ) plutôt que la distribution normale. Pour un niveau de confiance de \( 95%\) et 29 degrés de liberté \( (n - 1)\), nous trouvons le \(score ~ t\) correspondant dans la table de distribution qui est de : \(2,045\).
Étape 3. Calcule de l'Intervalle de Confiance :
La formule pour l'intervalle de confiance est :
$$ \bar{x} \pm t \cdot \frac{\sigma}{\sqrt{n}} $$
En remplaçant les termes de la formule par nos données, on obtient :
Marge d’erreur = \(t \cdot \frac{s}{\sqrt{n}} = 2{,}045 \cdot \frac{0{,}8}{\sqrt{30}}\)
Avec :
$$ \sqrt{30} \approx 5{,}477 $$
$$ \frac{0{,}8}{5{,}477} \approx 0{,}146 $$
Marge d’erreur = \(2{,}045 \cdot 0{,}146 \approx 0{,}299\)
L'intervalle de confiance est :
$$ \bar{x} \pm \text{Marge d’erreur} = 2{,}5 \pm 0{,}299 $$
Étape 4. Calcule des bornes de l'intervalle :
Borne inférieure : \(2{,}5 - 0{,}299 = 2{,}201\)
Borne supérieure : \(2{,}5 + 0{,}299 = 2{,}799.\) interprétation
L'intervalle de confiance à 95% pour la durée moyenne quotidienne passée par les étudiants à utiliser les réseaux sociaux est de [2,201; 2,799] heures. Cela signifie que nous sommes confiants à 95% que la véritable moyenne de la durée d'utilisation quotidienne des réseaux sociaux chez tous les étudiants se situe dans cette plage.
Le test d'hypothèse
Dans cette séance ainsi que celles qui vont suivre, nous allons travailler sur les tests d'hypothèses. Nous avons voulu donc rassembler dans le présent enseignement deux séances, à savoir une introduction aux tests d'hypothèse (qui vue l'espace qu'il occupe ainsi que l'intérêt que nous luis portant en sciences humaines et sociales allait sans que nous lui réservions une séance complète d'enseignement ) et le test t de Student (lequel utilisé dans sa version la plus courte ne nécessitait pas aussi de lui consacrer une séance toute entière).
Nous débuterons notre séance par l'étude du test d'hypothèse, puis les enseignements qui vont suivre sont tous dédiés à cette partie de l'analyse des données.
2.1. Le test d'hypothèse
Un test d'hypothèse est une procédure statistique utilisée pour évaluer la validité d'une hypothèse concernant une population à partir d'un échantillon de données. Le processus implique les étapes suivantes :
Définition III.2.1 : Le test d'hypothèse
Un test d'hypothèse est une technique employée afin de prendre des décisions ou tirer des conclusions à partir de données de l'échantillon. Il est particulièrement utile lorsque l'on souhaite évaluer la validité d'une affirmation ou d'une hypothèse concernant une population entière, en se basant uniquement sur les informations obtenues à partir d'un échantillon de cette population.
Un test d'hypothèse possède son propre vocabulaire processuel que nous allons expliquer dans les lignes qui suivent, il s'agit surtout des phases :
Formulation des hypothèses
Hypothèse nulle \((H_0)\) :
C'est l'hypothèse de base qui suppose qu'il n'y a pas d'effet ou de différence. Par exemple, \(H_0\) pourrait affirmer que la moyenne d'une population est égale à une valeur spécifique ;
Hypothèse alternative \((H_1)\) :
C'est l'hypothèse que le test cherche à prouver. Elle suggère une différence ou un effet, par exemple, que la moyenne est différente de cette valeur spécifique.
Choix du niveau de signification (\(\alpha\))
Il s'agit de la probabilité de rejeter l'hypothèse nulle alors qu'elle est vraie. Un niveau de signification couramment utilisé est \(0,05\) , ce qui signifie que l'on accepte un risque de \(5 \%\) de faire une erreur de type I (rejeter \(H_0\) à tort) .
Calcul de la statistique de test
Une statistique de test est calculée à partir des données de l'échantillon. Cette statistique suit une certaine distribution théorique (par exemple, une distribution normale, t, F, ou \(\chi2\)) sous l'hypothèse nulle.
Détermination de la valeur \(p\)
La valeur \(p\) est la probabilité d'obtenir une valeur de la statistique de test aussi extrême ou plus extrême que celle observée, en supposant que \(H_0\) est vraie. Si cette valeur p est inférieure ou égale à \(\alpha\), on rejette \(H_0\).
Prise de décision
Si la valeur \(p \leq \alpha \) : On rejette l'hypothèse nulle, ce qui suggère que les données fournissent suffisamment de preuves pour soutenir l'hypothèse alternative ;
Si la valeur \(p > \alpha \) : On ne rejette pas l'hypothèse nulle, ce qui signifie que les données ne fournissent pas suffisamment de preuves contre H0.
Exemple
Une agence de publicité affirme que sa dernière campagne en ligne augmente la portée moyenne des publications sur les réseaux sociaux d'une marque de \(20\%\). Pour vérifier cette affirmation, on peut réaliser un test d'hypothèse en analysant la portée des publications avant et après la campagne pour un échantillon de publications. Si le test révèle que l'augmentation observée est significativement différente de \(20 \%\), on pourrait rejeter l'hypothèse nulle (\(H_0\) : augmentation moyenne = \(20\%\)) en faveur de l'hypothèse alternative (\(H_1\) : augmentation moyenne \(\neq 20\%\) ).
2.2. Le test d'hypothèse \(t\)
Le test t permet de déduire si deux échantillons sont statistiquement différents [ provenant d'une seule population ou de deux populations différentes ]. Nous devons le test à Gosset, dont le travail consistant à faire des inférences sur de petits échantillons.
Définition III.2.2 : Le test \(t\)
Le test t est un test statistique utilisé pour déterminer si la différence entre les moyennes de deux groupes est significative ou non. Il est souvent utilisé lorsque les données sont échantillonnées à partir de petites populations, et il suppose que les données suivent une distribution normale.
Le travail de Gosset était de construire une population répondant à la loi normale, puis de calculer sa moyenne \(\mu\). Gosset a eu recours à un échantillonnage avec remise (vue dans le Bloc 2 : séance 2.3.) et a procédé à l'extraction d'une centaine d'échantillons de petite et même taille. Pour chaque échantillon, sa moyenne \(M_i\) est calculée, et a procédé à sa comparaison avec a moyenne, connue, de la population, et ce en estimant la différence \((M_{i} - \mu)\).
L'idée, originale, de Gosset fut de poser un postulat stipulant que : puisque les échantillons sont extraits d'une même population, Gosset affirmait que la différence entre les moyennes et la moyenne de la population soit égale à \(0\). Cependant, affirmait Gosset, l'erreur d'échantillonnage fait que le résultat ne soit pas nul, à ce titre il calcule l'erreur type de la moyenne qu'il définit à l'aide de la formule suivante :
$$ S_m = \frac {s}{\sqrt{N}} $$
Le calcul proposé par Gosset décrit la distance qui existe entre la moyenne de l'échantillon et celle de la population comparativement à l'erreur type de la moyenne .
Gosset construit donc une nouvelle distribution, le distribution t à l'aide d'un nombre très élevé de petits échantillons, la distribution obtenue est unimodale
Le test t concerne de petits échantillons \(n \leq 30\) ; comme nous l'avons vu précédemment, l'erreur type de la moyenne tend à devenir plus faible lorsque augmente la taille de l'échantillon. Lorsqu'un échantillon est de taille \(n \geq 30\), la distribution de la moyenne tend à ressembler à celle de la distribution normale.
Il existe trois types de t test, nous allons les expliquer dans les lignes qui suivent :
2.2.1. Test \(t\) pour un échantillon
Compare la moyenne d'un seul échantillon à une valeur hypothétique ou théorique. Par exemple, il peut être utilisé pour vérifier si la moyenne des scores d'un test dans un échantillon est différente d'une valeur moyenne connue ou attendue.
\[
t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
\]
\(\bar{x}\) = Moyenne de l'échantillon
\(\mu_0\) = Valeur hypothétique (ici \(20\%\))
\(s\) = Écart-type de l'échantillon
\(n\) = Taille de l'échantillon
Exemple
Une entreprise de désire savoir si la satisfaction moyenne des clients après une campagne de communication est différente de \(80%\), elle a donc recueilli les réponses de \(25\) clients, et la moyenne des réponses est de \(82 \%\) avec un écart-type de \(5 \%\).
Le résultat \(t = 2\) indique combien d'écarts-types la moyenne de l'échantillon est éloignée de la valeur hypothétique. Pour décider si cette différence est significative, nous devons comparer cette valeur à une valeur critique du test \(t\) en fonction du niveau de signification choisi (par exemple, 0.05) et des degrés de liberté (ici, \(n - 1 = 24\)).
Valeur Critique à 0.05 pour 24 Degrés de Liberté :
Voici un extrait de la table des valeurs critique, (Table 4 de l'Annexe statistique)
Tableau des Valeurs Critiques
Degrés de Liberté (\(V\))
Valeur Critique \( t_{0.05} \)
20
2.086
25
2.060
30
2.042
40
2.021
60
2.000
Pour 24 degrés de liberté, la valeur critique de \( t \) à un niveau de signification de 0.05 (bilatéral) est environ 2.064.
Comparaison :
Valeur calculée de \( t \) : 2
Valeur critique pour 24 degrés de liberté à 0.05 : 2.064
La valeur calculée de \( t \) (2) est inférieure à la valeur critique (2.064). Nous ne rejetons donc pas l'hypothèse nulle.
Conclusion :
Bien que la moyenne des réponses après la campagne soit supérieure à la valeur hypothétique de \(80\%\), la différence n'est pas suffisamment grande pour être considérée comme significative au niveau de signification de 0.05. Cela signifie que nous ne pouvons pas conclure avec certitude que la campagne a eu un impact significatif sur la satisfaction des clients par rapport à la valeur hypothétique.
Remarque :
La procédure reste la même pour les autres tests à venir (deux échantillons indépendants ou appariés.)
2.2.2. Test \(t\) pour deux échantillons indépendants
Compare les moyennes de deux groupes indépendants. Par exemple, il peut être utilisé pour comparer les scores moyens de deux groupes d'élèves ayant suivi des méthodes d'enseignement différentes.
La formule est :
\[
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
\]
\(\bar{x}_1\) et \(\bar{x}_2\) = Moyennes des deux échantillons
\(s_1^2\) et \(s_2^2\) = Variances des deux échantillons
\(n_1\) et \(n_2\) = Tailles des deux échantillons
Exemple
Un enseignant veut comparer l'efficacité de deux méthodes d'enseignement sur les résultats d'un examen. Il dispose de deux groupes d'élèves : le Groupe A qui a utilisé la méthode 1 et le Groupe B qui a utilisé la méthode 2.
Les résultats sont les suivants :
Groupe A : Moyenne (\(\bar{x}_1\)) = 75, Variance (\(s_1^2\)) = 16, Taille (\(n_1\)) = 30
Groupe B : Moyenne (\(\bar{x}_2\)) = 70, Variance (\(s_2^2\)) = 25, Taille (\(n_2\)) = 35
Étapes :
Calcule de la statistique \(t\)
En utilisant la formule :
\[
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
\]
Substituons les valeurs :
\[
t = \frac{75 - 70}{\sqrt{\frac{16}{30} + \frac{25}{35}}}
\]
Règle de décision :
Pour un test bilatéral à \( \alpha = 0{,}05 \) avec \( df = 61 \), la valeur critique de t est \( t_{crit} \approx \pm 2{,}000 \).
Comme \( t \approx 4{,}48 \) est supérieur à \( t_{crit} = 2{,}000 \), nous rejetons l'hypothèse nulle \( H_0 \) et concluons qu'il existe une différence significative entre les moyennes des deux groupes au niveau de signification \( \alpha = 0{,}05 \).
2.2.3. Test \(t\) pour deux échantillons appariés
Compare les moyennes de deux groupes liés ou appariés, comme les mesures avant et après un traitement dans le même groupe de sujets.. La formule est :
\[
t = \frac{\bar{d}}{s_d / \sqrt{n}}
\]
\(\bar{d}\) = Moyenne des différences entre les paires
\(s_d\) = Écart-type des différences
\(n\) = Nombre de paires
Exemple
Supposons que nous souhaitons évaluer l'impact d'une formation en communication sur les compétences des employés. Nous mesurons leur niveau de compétence en communication avant et après la formation, sur une échelle de 0 à 10.
Les scores avant et après la formation pour 8 employés sont les suivants :
Employé 1 : Avant = 4, Après = 7
Employé 2 : Avant = 5, Après = 8
Employé 3 : Avant = 6, Après = 8
Employé 4 : Avant = 5, Après = 7
Employé 5 : Avant = 7, Après = 9
Employé 6 : Avant = 6, Après = 8
Employé 7 : Avant = 5, Après = 7
Employé 8 : Avant = 6, Après = 9
Calcule des différences entre les paires : \(Différences\) (Après - Avant) :
Employé 1 : 7 - 4 = 3
Employé 2 : 8 - 5 = 3
Employé 3 : 8 - 6 = 2
Employé 4 : 7 - 5 = 2
Employé 5 : 9 - 7 = 2
Employé 6 : 8 - 6 = 2
Employé 7 : 7 - 5 = 2
Employé 8 : 9 - 6 = 3
Calcule de la moyenne des différences (\(\bar{d}\)) :
Pour un test bilatéral à \( \alpha = 0{,}05 \) avec \( df = n - 1 = 7 \), la valeur critique de t est \( t_{crit} \approx \pm 2{,}365 \) (d'après la table de distribution t de Student).
Comme \( t \approx 12{,}98 \) est supérieur à \( t_{crit} = 2{,}365 \), nous rejetons l'hypothèse nulle \( H_0 \) et concluons que la formation en communication a un impact significatif sur les compétences des employés au niveau de signification \( \alpha = 0{,}05 \).
Le test du \(\chi2\)
3.1. Introduction et rappels
Le test du \(\chi2\) est un test de conformité visant à comparer une loi théorique à une distribution expérimentale.
Principe
Sur une population ayant \(N\) effectifs, on définit \(s\) Événements \( [ E_{1},E_{2},..........E_{s}] \), théoriquement cela renvoie à définir aussi les probabilités de ces événements \( [ p_{1},p_{2},..........p_{s}] \), les effectifs observés sur un échantillon \( [ Ft_{1},Ft_{2},..........Ft_{s}] \)
Un test de conformité consiste en la confrontation des observations au modèle théorique, pour ce faire on calculera les effectifs théoriques (fréquences théoriques)\( F_{t} = n . p_{i}\), le principe étant d'avoir le même effectif Total dans la Théorie et l'Observation.
Avant de déterminer la relation entre les variables, le chercheur doit démontrer qu’une d’entre elle dépend de l’autre. Pour ce faire, il doit déterminer la nature des variables en jeu.
Pour le chercheur en sciences sociales, il s’agira surtout de déterminer l’influence des variables de segmentation (variables factuelles ou socioéconomiques) sur les variables dépendantes. Les tests d’hypothèse permettent de confirmer si la relation observée entre deux variables est significative ou si elle est due au hasard.
L’une des questions que se pose tout chercheur débutant est de savoir comment fait-on le choix des variables à étudier. Une grande partie des informations qui aident le chercheur à choisir l’association entre les variables s’est faite lors des précédentes étapes de la recherche. Il reste néanmoins au chercheur d’effectuer d’autres types d’associations à la lumière de son enquête de terrain.
En sciences sociales, on parle généralement de trois types de relations de dépendances : la causalité, la concomitance (la cooccurrence) et l’interdépendance.
La causalité
On parle d’un lien de causalité entre deux variables \((x\) et \(y\)) si la variation de l’une \((x\) par exemple) entraine la variation de l’autre \((y\) dans ce cas). \(x\) est la variable indépendante et \(y\) est la variable dépendante. Par exemple, si une campagne publicitaire en ligne (\(x\)) entraîne une augmentation des visites sur un site web (\(y\)), on pourrait parler d'un lien de causalité entre ces deux variables.
L’existence d’un lien significatif entre deux variables ne suffit pas à lui seul pour déterminer la relation de causalité entre les variables. Pour conclure à l’existence d’un tel lien, il faut créer une situation où seule la variation de la variable indépendante entraine celle de la variable dépendante. Par exemple, pour prouver que l’augmentation de la fréquence de diffusion de messages sur les réseaux sociaux (\(x\)) cause une hausse des interactions des utilisateurs (\(y\)), il faudrait éliminer l’influence d'autres facteurs comme la qualité du contenu ou les tendances actuelles sur les réseaux. Une telle expérience est souvent impossible à réaliser en sciences sociales.
La concomitance
On parle de concomitance entre deux variables \(x\) et \(y\) lorsqu’elles varient conjointement. Cette variation peut parfois se faire sous l’effet de facteurs externes. On ne peut pas dans ce cas parler d’un lien de causalité entre les deux variables. Par exemple, une hausse simultanée des ventes de smartphones (\(x\)) et de l’utilisation des réseaux sociaux (\(y\)) pourrait être due à une tendance générale vers une plus grande connectivité numérique, sans qu'il y ait de lien de causalité direct entre les deux.
L'interdépendance
On dit que deux variables sont interdépendantes si elles s’influencent mutuellement. Par exemple, la qualité des contenus partagés sur un réseau social (\(x\)) et le nombre de partages ou de likes (\(y\)) sont interdépendants : un contenu de qualité entraîne plus de partages et de likes, tandis qu'un contenu populaire attire davantage d'auteurs de qualité.
Cette présentation des types de liaison entre les variables fait appel à certaines notions que nous avons vues dans la séance précédente (Le test d'hypothèse), nous allons dans les lignes qui suivent revoir et compléter ces notions par d'autres qui nous servirons à bien assimiler le test du \(\chi 2\). Nous nous tournons donc au divers types de relation dans un test d'hypothèse.
Types de relations dans les tests d’hypothèse
Dans un test d’hypothèse, on s’attend généralement à trois genres de relation entre les variables :
La liaison nulle
Aucune relation n’est à envisager entre les variables. Par exemple, dans une étude sur l'impact des couleurs d'une interface web (\(x\)) sur la satisfaction des utilisateurs (\(y\)), il se peut qu'aucune relation statistiquement significative ne soit trouvée entre la couleur de l'interface et la satisfaction perçue, ce qui signifierait une liaison nulle. Cela pourrait indiquer que d'autres facteurs (comme la facilité d'utilisation ou la vitesse de chargement) sont plus déterminants pour la satisfaction.
La liaison quasi-totale
Chaque variation d’une variable indépendante entraine une variation directe de la variable dépendante. Par exemple, dans une campagne publicitaire en ligne, une augmentation du budget publicitaire (\(x\)) peut entraîner une augmentation directe du nombre de clics (\(y\)) sur les annonces. Si le test d'hypothèse montre une relation très forte entre ces deux variables, on parle de liaison quasi-totale. Cela pourrait signifier que le budget est un facteur prédominant pour attirer l'attention des utilisateurs.
La liaison relative
La variation de la variable indépendante entraine une variation limitée de la variable dépendante. Par exemple, une étude pourrait montrer que l'augmentation du nombre de publications sur les réseaux sociaux par une entreprise (\(x\)) entraîne une légère augmentation du taux d'engagement (\(y\)), comme les likes et les partages. Ici, la relation est relative, car d'autres facteurs, comme la qualité du contenu ou l'heure de publication, peuvent également influencer le taux d'engagement.
Ces définitions nous permettent de revoir la signification du test que l'on a abordé durant la séance précédente. On fera un exposé plus détaillé de la signification du concept de test statistique ainsi que d'autres concepts s'y rattachant.
Note Ce détour est fait dans l'intention de clarifier le vocabulaire lié aux tests statistiques, on a préféré donc ne pas sectionner cette partie de la séance.
Test et risque
Un test d'hypothèse s'appuie sur la logique qu'un choix doit être fait entre les diverses hypothèses possibles et concurrentes, sans pour autant disposer d'informations suffisantes par rapport à ce choix, ce qui comporte un risque dans la décision hypothétique que nous prendrons suite à la réalisation d'un test.
On parle de test bilatéral lorsque deux hypothèses \(H_0\) (Hypothèse nulle) et sa rivale \(H_1\) (Hypothèse alternative) coexistent et sont concurrentes. Par exemple, dans une étude sur l'impact d'une nouvelle interface utilisateur (\(x\)) sur la satisfaction des utilisateurs (\(y\)), un test bilatéral pourrait examiner l'hypothèse nulle selon laquelle l'interface n'a pas d'effet significatif sur la satisfaction (\(H_0\)) contre l'hypothèse alternative selon laquelle elle a un effet, que ce soit positif ou négatif (\(H_1\)).
On parle de test unilatéral lorsque l'hypothèse alternative \(H_1\) postule une variation dans une seule direction par rapport à l'hypothèse nulle. Par exemple, dans une campagne de marketing numérique, on pourrait tester l'hypothèse nulle \(H_0\) que l'ajout d'un bouton "Acheter maintenant" n'augmente pas le taux de conversion (\(y\)) par rapport à une version sans ce bouton. Le test unilatéral testerait l'hypothèse alternative \(H_1\) selon laquelle l'ajout de ce bouton augmente effectivement le taux de conversion.
L'information étant incomplète, toute prise de décision comporte des risques. La notion de risque est au fondement des tests d'hypothèses en inférence statistique :
Si l'on décide que H0 est fausse, le risque de se tromper est noté \(\alpha\) et que l'on appelle risque de première espèce; Exemple : Lors d'une campagne publicitaire en ligne, si l'on rejette à tort l'hypothèse nulle \(H_0\) qui stipule que l'ajout de vidéos publicitaires n'a pas d'effet sur les ventes, on pourrait conclure à tort que les vidéos ont un effet positif, alors qu'en réalité, elles n'ont aucun impact significatif.
Si l'on décide que H0 est vraie, le risque de se tromper est noté \(\beta\) et que l'on appelle risque de deuxième espèce; Exemple : Dans une analyse des taux de clics sur une bannière publicitaire, si l'on accepte à tort l'hypothèse nulle \(H_0\) qui stipule que la bannière n'améliore pas le taux de clics, on néglige alors l'hypothèse alternative \(H_1\) selon laquelle elle augmente effectivement les clics, et on manque une opportunité d'améliorer les performances publicitaires.
La théorie mathématique des tests d’hypothèse telle que nous la connaissons aujourd’hui est le résultat des travaux de J. Neyman et d’E.S. Pearson (1928 et 1933) qui clarifièrent les principaux concepts des tests d’hypothèse, dont nous en donnerons les définitions ci-après.
3.2. Les deux familles de tests d’hypothèse
On distingue deux grandes orientations des tests statistiques : les tests paramétriques et les tests non paramétriques .
Un test paramétrique est un test d’hypothèse qui est soutenu par l’idée d’une forme paramétrique des distributions relatives aux populations sous-jacentes.
Par exemple, le test t de Student est un test paramétrique utilisé pour comparer les moyennes de deux groupes indépendants lorsque les données suivent une distribution normale. Dans les sciences de l'information et de la communication, ce test pourrait être utilisé pour comparer la moyenne des scores de satisfaction des utilisateurs entre deux versions d'une application mobile.
Un test non paramétrique est un test d’hypothèse pour lequel la spécification de la forme paramétrique de la distribution n’est pas requise. Dans un test non paramétrique, les observations doivent être indépendantes, la sélection d’un individu dans un échantillon ne doit pas influencer les choix des autres individus.
Par exemple, le test de Wilcoxon est un test non paramétrique utilisé pour comparer deux groupes appariés lorsque les données ne suivent pas nécessairement une distribution normale. En sciences de l'information et de la communication, ce test pourrait être appliqué pour comparer les scores de satisfaction des utilisateurs avant et après une refonte de site web, sans faire l'hypothèse que ces scores suivent une distribution normale.
3.3. Le test d’indépendance
Un test d’indépendance est un test d’hypothèse ayant pour but de déterminer si deux variables sont indépendantes ou non.
Le principe des tests d’indépendance est de comparer la distribution empirique (observée) avec la distribution théorique au moyen du calcul d’indicateur.
Les principaux tests d’indépendance les plus utilisées pour les variables quantitatives sont : le coefficient de Spearman et de Kendall. Pour les variables qualitatives catégorielles, le plus utilisé étant le Khi-carré , \(\chi2\).
Les sections suivantes sont destinées à vous expliquer le test du \(\chi2\). Nous débuterons par le Tableau de contingence .
Définition III.3.1 : Le test d’indépendance du \(\chi 2\)
Le test d’indépendance du \(\chi 2\) (prononcé Khi-carré, ou chi carré) vise à déterminer l’indépendance ou non de deux variables qualitatives catégorielles issues d’un même échantillon. La prise de décision se fait à l’aide d’une table de contingence.
Le test d’indépendance du Khi-carré est le fruit des travaux des statisticiens et mathématiciens K. Pearson et G.U. Yule ainsi que R.A. Fisher. C’est à ce dernier que l’on doit le travail sur les degrés de libertés.
3.4. Le tableau de contingence (distribution conjointe)
Pour étudier la relation entre deux variables, il faut établir un tableau de distribution conjointe (également appelé tableau de contingence ou tableau à double entrées). Le tableau de contingence est issu de la compilation des données brutes recueillies sur le terrain d’enquête.
Un tableau de contingence (on dit aussi table de contingence), est un tableau dans lequel sont classifiés les différentes caractéristiques (attributs) de la population (ou de l’échantillon). L’intérêt d’un tableau de contingence étant l’étude et la découverte de relations (si elles existent) entre les attributs considérés.
L’utilisation du terme de contingence est l’œuvre du mathématicien britannique Karl Pearson (1857-1936), pour qui la contingence est une mesure de la déviation totale par rapport à l’indépendance, plus forte est la mesure de la contingence plus forte sera la quantité d’association ou de corrélation entre les attributs (Pearson, 1904).
Règles d’élaboration et de présentation d’un tableau de contingence
Soit \((Τ)\) un Tableau à double entrée, \(x\) et \(y\) deux variables qualitatives catégorielles possédant respectivement \(alpha\) et \(beta\) catégories. On représente une table de contingence comme illustré dans la figure ci-dessous :
Catégories de la variable Y
Y1
Y2
......
Yb
Total
Catégories de la variable X
X1
n11
n12
....
n1b
n1.
X2
n21
n22
....
n2b
n2.
.....
.....
.....
.....
.....
.....
Xα
nα1
nα2
....
nαb
nα.
Total
Total
n.1
n.2
....
n.b
n..
Table III.3.1. :Tableau de contingence.
Note :
\(n_{ij}\) : représente la fréquence observée pour la catégorie i de la variable X et la catégorie j de la variable Y.
\(n_{i.}\) : représente la somme des fréquences observées pour la catégorie i de la variable X.
\(n_{.j}\) : représente la somme des fréquences observées pour la catégorie j de la variable Y.
\(n..\) : indique le nombre total des observations.
Remarque :
Un tableau de contingence peut être multidimensionnel (présence de plus de deux variables), les éléments de la table seront alors notés par \(n_{ijk}\) et qui représentent la fréquence observée pour la catégorie \(i\) de la variable \(X\), la catégorie \(j\) de la variable \(Y\) et la catégorie \(k\) de la variable \(Z\).
Tableau de Contingence, Un exemple
Le tableau suivant montre la relation entre la fréquence de lecture de blogs (fréquent, occasionnel, jamais) et le niveau de confiance dans les médias (haut, moyen, bas) au sein d'un échantillon de 200 personnes.
Haut (A)
Moyen (B)
Bas (C)
Total
Fréquent (X)
40
30
10
80
Occasionnel (Y)
30
50
20
100
Jamais (Z)
10
5
5
20
Total
80
85
35
200
Remarque :
Ce tableau croise deux variables qualitatives : la fréquence de lecture de blogs (variable ligne) et le niveau de confiance dans les médias (variable colonne). Le titre de ce tableau est : Relation entre la Fréquence de Lecture de Blogs et le Niveau de Confiance dans les Médias parmi un Échantillon de 200 Personnes (les titres assez complets et précis sont à privilégier).
Le tableau montre la distribution des réponses dans chaque catégorie. Par exemple, sur les 80 personnes ayant un haut niveau de confiance dans les médias, 40 lisent fréquemment des blogs.
Fréquence Conditionnelle
La fréquence conditionnelle mesure la proportion d'une modalité d'une variable par rapport à une modalité spécifique de l'autre variable. Elle peut être calculée en ligne, en colonne ou au total, en fonction du contexte d'analyse.
Fréquence conditionnelle en ligne : Parmi les 80 personnes qui lisent fréquemment des blogs, 50% (40/80) ont un haut niveau de confiance dans les médias.
Fréquence conditionnelle en colonne : Parmi les 85 personnes ayant un niveau moyen de confiance dans les médias, 35,29% (30/85) lisent fréquemment des blogs.
Fréquence Théorique
La fréquence théorique permet de vérifier l'hypothèse d'indépendance entre les deux variables. Si les variables étaient indépendantes, la fréquence théorique pour chaque cellule pourrait être calculée avec la formule suivante :
$$ f_{t_{ij}} = \frac {t_i \times t_j}{n} $$
Avec :
t_i : Total de la ligne correspondant à la modalité i.
t_j : Total de la colonne correspondant à la modalité j.
n : Nombre total d'observations.
Cette formule est utilisée pour calculer les fréquences théoriques dans n'importe quelle distribution, en supposant que les variables sont indépendantes. En comparant les fréquences théoriques \(f_t\) avec les fréquences observées \(f_o\), on peut évaluer si les variables sont effectivement indépendantes ou non.
3.5. Les étapes du test d’indépendance du khi-carré
Le test du khi-carré, également connu sous le nom de test d’indépendance, est un test d’hypothèse permettant de vérifier si deux variables qualitatives sont indépendantes l’une de l’autre.
3.5.1. La formulation des hypothèses
Pour effectuer le test d’indépendance, nous devons formuler deux hypothèses : une hypothèse nulle et une hypothèse alternative.
L’hypothèse nulle \((H_0)\) stipule qu’il n’existe aucune association entre les deux variables considérées ; elle est acceptée par défaut ;
L’hypothèse alternative \((H_1)\) affirme qu’il existe un lien de dépendance entre les variables étudiées.
Exemple : Un chercheur en SIC veut s'assurer de la relation entre le type de média préféré (Télévision, Internet, Radio) et le niveau d’éducation (Licence, Master, Doctorat) parmi les étudiants en communication. le chercheur formule les hypothèses suivantes :
\(H_0\) : Le type de média préféré est indépendant du niveau d’éducation des étudiants.
\(H_1\) : Le type de média préféré dépend du niveau d’éducation des étudiants.
Note : Les résultats du test d’hypothèse permettent de choisir entre l’une des hypothèses (à savoir \( H_0\) ou \(H_1\)) et d’interpréter la relation entre les deux variables considérées.
Pour pouvoir suivre et comprendre l'exemple, nous avons inséré un tableau de contingence représentant les données du chercheur
Type de Média
Niveau d’Éducation
Total Observé
Total Théorique
Licence
Master
Doctorat
Télévision
14.4
15
19.2
20
9.6
10
43.2
45
43.2
Internet
24.0
25
28.8
30
19.2
20
72.0
75
72.0
Radio
9.6
10
14.4
15
19.2
20
43.2
45
43.2
Total
50
65
50
165
Table III.3.2. : Tableau représentant les fréquences observées et les fréquences théoriques pour les variables Type de média préféré et Niveau d’éducation .
Note :
Chaque cellule affiche la fréquence théorique en haut et la fréquence observée en bas.
3.5.2. Le choix du seuil de signification (seuil alpha)
Un test d’hypothèse reste imparfait quel que soit son degré d’élaboration, car il s’appuie sur des probabilités. Comme vu précédemment, deux types d’erreurs peuvent émailler un test d’hypothèse : Erreur de type I et Erreur de type II .
Exemple : Si le chercheur choisit un seuil de signification de \( \alpha = 0.05 \), cela signifie que nous acceptons une probabilité de 5% de rejeter l’hypothèse nulle \( H_0\) alors qu’elle est vraie (erreur de type I). En d’autres termes, nous avons une confiance de 95% que nous ne rejetons pas à tort \(H_0\) si elle est correcte.
3.5.3. Vérification des conditions d’application
L’échantillon doit être aléatoire ;
Au moins une des deux variables est qualitative : si l’une des variables est quantitative, on traitera ses valeurs comme des modalités d’une variable qualitative ;
On construit le tableau de contingence puis on calcule les fréquences théoriques à l’aide de la formule vue précédemment ;
La taille de l’échantillon doit être égale ou supérieure à 30 ;
Chacune des fréquences théoriques doit être plus grande ou égale à 5 (\(f_{t_{ij}} \geq5 \)) ;
Chaque individu doit appartenir à une et une seule catégorie de chaque variable [une seule ligne et une seule colonne de la table de contingence].
Exemple : Supposons que le chercheur a un échantillon de 150 étudiants en communication avec les variables Type de média préféré (Télévision, Internet, Radio) et Niveau d’éducation ( Licence, Master, Doctorat) .
Nous construisons un tableau de contingence et calculons les fréquences théoriques pour chaque cellule, en veillant à ce que toutes les fréquences théoriques soient supérieures à 5 et que chaque étudiant soit classé dans une seule catégorie pour chaque variable.
3.5.4. Calcul de la valeur du Khi-carré et confrontation aux valeurs critiques
La loi du Khi-carré
Afin de déterminer l’existence (ou l’absence) d’une relation entre les variables, il faudra comparer les fréquences observées et les fréquences théoriques en supposant que les variables sont indépendantes.
Le Khi-carré ne peut pas être une valeur négative ;
S’il est nul, cela veut dire que les deux variables sont indépendantes (car les fréquences théoriques sont égales aux fréquences observées) ;
Plus le \(\chi^2\) est élevé, plus la probabilité que les deux variables soient dépendantes est grande. Un \(\chi^2\) élevé signifie que l’écart entre les fréquences théoriques et les fréquences observées est élevé. Au contraire, plus le \(\chi^2\) est petit, cela signifie que la possibilité que les deux variables soient indépendantes est grande et que l’écart est dû au hasard de l’échantillonnage.
Dans notre exemple fictif, imaginons que nous avons calculé la valeur du Khi-carré et obtenu \(\chi^{2} = 10.2\). Nous avons un seuil de signification de 0.05 et des degrés de liberté \(d = (3-1) \times (3-1) = 4\). Nous cherchons la valeur critique dans la table du Khi-carré pour \(d = 4\) et \( \alpha = 0.05\), qui est environ 9.488. Puisque \(\chi^{2} = 10.2\) est supérieur à 9.488, nous rejetons \(H_0\) et concluons qu'il y a une dépendance significative entre le type de média préféré et le niveau d’éducation parmi les étudiants en communication.
La loi du \(\chi^{2}\) dépend de deux paramètres : \(α :\) le seuil de signification et \(D\) (DDL) : nombre de degrés de liberté, ce dernier est égal au nombre de cellules centrales du tableau de contingence et est donné par la relation :
$$ d = (nombre~~ de~~ modalités~~ de~~ x - 1) \times (nombre~~ de ~~modalités~~ de~~ y - 1)$$
On détermine la valeur critique : on le fait à l’aide de la table du Khi2 ( Table 5 ), la valeur critique dépend du seuil de signification et du nombre des degrés de liberté ;
Enonciation de la règle de décision : on rejette \(H_0\) si \(\chi^{2}\) calculé est supérieur au \(\chi^{2}\) critique [à discuter];
Conclusion :
Prise de décision et interprétation du résultat en fonction du contexte.
Dans notre cas, nous avons une valeur calculée de \(\chi^{2} = 10.2\) et une valeur critique de 9.488, nous rejetons \(H_0\). Cela signifie qu'il y a suffisamment de preuves pour affirmer que le type de média préféré est dépendant du niveau d’éducation parmi les étudiants en communication, ce qui pourrait influencer les choix des médias pour les campagnes de communication ciblées.
3.6. La force de la relation entre les variables :
On calcule pour ce fait le coefficient de contingence (\(c\)) :
$$ C = \sqrt {\frac {\chi^{2}} {n+\chi^{2} } } $$
La valeur de \(C\) est comprise entre 0 et 1, plus la valeur se rapproche de 1 plus le lien entre les variables est fort.
Pour être appliqué, le coefficient de contingence doit obéir à certaines conditions qui sont :
Les deux variables doivent être distribuées normalement sur la population ;
Les deux variables ont chacune trois catégories ou plus ;
La taille de l’échantillon est relativement grande (plus de 30) ;
Le test Khi-carré est significatif.
Calcul du coefficient de contingence \(C\) pour notre exemple
En utilisant la valeur de \(\chi^2\) calculée précédemment :
\( \chi^2 = 0.275 \)
\( n = 165 \)
Le coefficient de contingence \(C\) est égal à 0.041, ce qui indique une faible force de relation entre les variables « Type de média préféré » et « Niveau d’éducation ». Il y a peu ou pas de relation significative entre ces variables dans cet exemple.
3.7. Facteur de correction du coefficient de contingence :
Le calcul du coefficient de contingence doit subir une correction qui tient compte de la taille du tableau en termes de lignes et de colonnes.
Le nouveau coefficient de contingence correspondra à :
$$ Nouveau~~ coefficient ~~ de ~~ contingence~~ = \frac {Coefficient~~ de ~~ contingence} {Facteur ~~de~~ correction}$$
Le tableau suivant fait le lien entre la valeur du coefficient et la force du lien :
Tableau x Tableau de lecture du coefficient de contingence (c)
Valeur du coefficient de contingence
Force du lien
Entre 0.0 et 0.1
Nulle ou Très faible
Entre 0.11 et 0.20
Faible
Entre 0.21 et 0.30
Moyenne
Entre 0.31 et 0.40
Forte
Plus de 0.40
Très forte
Table III.3.3 :Valeur du coefficient de contingence et la force du lien entre les variables.
Nous allons essayer de calculer cette nouvelle valeur pour notre exemple :
Calcul du coefficient de contingence corrigé
Utilisons les valeurs précédentes :
Coefficient de contingence \(C\) : \(C = 0.041\)
Taille du tableau : \(k = \text{min}(3, 4) = 3\) (3 lignes et 3 colonnes effectives)
Facteur de correction :
$$ \text{Facteur de correction} = \sqrt{\frac{k-1}{k}} = \sqrt{\frac{3-1}{3}} = \sqrt{\frac{2}{3}} \approx 0.816 $$
Nouveau coefficient de contingence :
$$ \text{Nouveau coefficient de contingence} = \frac{0.041}{0.816} \approx 0.050 $$
Nous remarquons que la nouvelle valeur du coefficient ne diffère pas grandement de la précédente, d'où la faiblesse du lien qui unit les deux variables.
Petite conclusion
Cette courte conclusion en forme de liste à puces est à considérer dans certains cas particulier de calcul du \(\chi 2\) :
Quand le tableau croisé se compose exactement de deux lignes et de deux colonnes on emploie le test exact de Fisher et le test Khi-carré de Yates corrigé ;
Quand le tableau est composé de plus de deux lignes et de deux colonnes, on utilise le khi-carré de Pearson ou le Khi-carré de vraisemblance ;
Lorsque les deux variables sont quantitatives on aura recours au test de variables Cochran-Mantel-Haenszel ;
Le test de corrélation de Pearson prend en charge la seule relation entre des variables quantitatives ;
Si les variables sont nominales : en plus du Khi-carré, on peut recourir au coefficient de contingence (c) [vue ci-avant], le coefficient Phi [pour les variables dichotomisées ou dichotomiques] et le coefficient V de Cramer [vu aussi en Bloc II, Séance 2.] ;
Le test du risque : concerne uniquement un tableau croisé avec deux lignes et deux colonnes.
L'analyse de la variance
Introduction et mise en contexte
L'ANOVA, à la différence du test T, permet d'analyser les différences entre deux groupes et plus, quelle que soit leur taille. Il n'y a pas de limite technique au nombre de groupes pouvant être concernés par le test.
Comme nous allons le discuter ci-après, l'ANOVA opère une comparaison entre deux types de différences (différences intergroupes et différences intragroupes), afin de rendre compte de ces différences. L'un des outils les plus puissants en statistiques étant de calculer la variance, on calculera donc deux types de variances, variance intergroupe, variance intragroupe, et c'est cette comparaison qui donne lieu à l'appellation : analyse de la variance.
Nous allons à présent expliquer les termes de la statistique F, à savoir : la variance intergroupe et la variance intragroupe.
La variance intergroupe peut être considérée comme une différence moyenne entre les moyennes de chaque groupe et la moyenne des moyennes (on appelle cette dernière la grande moyenne car représentant la moyenne de tous les groupes).
La variance intragroupe est, comme nous l'avons vu au Bloc 2, Enseignement 1.3, la différence entre chaque observation et la moyenne de son propre groupe.
Lorsque l'on suit cet ordre, on arrive à la formule suivante :
Les termes de la formule sont définis comme suit :
\(k\) : Nombre de groupes.
\(n_i\) : Nombre d'observations dans le groupe i.
\(\overline{X}_i\) : Moyenne des observations dans le groupe i.
\(\overline{X}_\text{total}\) : Moyenne de toutes les observations (grande moyenne).
\(N\) : Nombre total d'observations.
\(X_{ij}\) : Observation j dans le groupe i.
Tentons à présent d'expliquer la formule de la statistique \(F\) de manière plus détaillée, en nous servant d'un exemple en sciences de l'information et de la communication pour en faciliter la compréhension.
Une étude porte sur l'efficacité de trois stratégies de communication sur les réseaux sociaux : stratégie visuelle (groupe 1), stratégie textuelle (groupe 2), et stratégie mixte (groupe 3). Nous mesurons l'engagement des utilisateurs (likes, partages, commentaires) pour chaque stratégie. Dans la séance de travaux dirigés consacrée à cette séance, nous allons fournir un exemple plus détaillé, à partir de données brutes.
4.2. La moyenne globale \(\overline{X}_\text{total}\)
Le calcul de la moyenne globale sert de meilleure estimation de la moyenne de tous les groupes, puisque l'hypothèse nulle affirme que les groupes proviennent tous de la même population. De ce fait, \(\overline{X}_\text{total}\) représente, théoriquement, la meilleure estimation de \(\mu\), la moyenne de la population (certains auteurs préfèrent l'appellation : grande moyenne).
Nous calculons la moyenne globale de la façon suivante :
$$\overline{X}_\text{total} = \sum_{i=1}^{k} \frac{\overline{X_i}}{k}$$
où \(\overline{X}_\text{total}\) est la grande moyenne, \(\overline{X_i}\) est la moyenne obtenue dans chaque groupe i, et k est le nombre de groupes.
Dans notre exemple, supposons que les moyennes obtenues pour chaque stratégie soient respectivement \(\overline{X}_1 = 25\), \(\overline{X}_2 = 30\), et \(\overline{X}_3 = 20\). La moyenne globale est donc :
$$\overline{X}_\text{total} = \frac{25 + 30 + 20}{3} = 25$$
Cette moyenne constitue la meilleure estimation que nous avons de la moyenne \(\mu\) de la population.
4.3. La différence entre les groupes
On appelle cette différence la somme des carrés intergroupe \(SC_{inter}\).
Puisque nous avons le résultat de la grande moyenne \(\overline{X}_\text{total}\), nous pouvons donc calculer la différence entre la moyenne de chaque groupe et cette grande moyenne : \(\overline{X_i} - \overline{X}_\text{total}\). On peut donc aussi calculer la somme de toutes les différences obtenues : \(\sum \overline{X_i} - \overline{X}_\text{total}\). Bien évidemment, nous devons pondérer chaque différence pour donner de l'importance aux groupes contenant le plus d'observations : \(\sum n_{i} \overline{X_i} - \overline{X}_\text{total}\), en partant du principe que les échantillons contenant le plus d'observations donnent une estimation plus précise.
Une fois cette somme calculée, nous aurons ce que nous appelons : la somme des écarts intergroupe :
$$ \sum_{i=1}^{k} n_i \left(\overline{X}_i - \overline{X}_\text{total}\right) $$
Dans notre exemple, si nous avons 10 observations pour chaque stratégie, alors :
$$ SC_{inter} = 10(25 - 25)^2 + 10(30 - 25)^2 + 10(20 - 25)^2 = 0 + 500 + 500 = 1000 $$
Pour ne pas avoir une somme nulle, on met chaque différence au carré pour obtenir la somme des carrés intergroupe \(MS_{inter}\) :
$$ MS_{inter}= \sum_{i=1}^{k} n_i \left(\overline{X}_i - \overline{X}_\text{total}\right)^2$$
Dans notre exemple :
$$ MS_{inter} = 1000 $$
On ne peut pas utiliser cette moyenne brute, car elle fait intervenir deux éléments : la différence entre chaque moyenne et la moyenne globale ainsi que le nombre de groupes. Pour ce faire, nous calculons la différence moyenne entre les groupes en divisant \(MS_{inter}\) par le nombre de degrés de liberté entre les groupes : \(dl_{inter} = k-1\) (\(k\) étant le nombre de groupes). Nous obtenons donc :
$$ CM_{inter} = \frac{MS_{inter}}{dl_{inter}} = \frac{1000}{3-1} = 500 $$
4.4. La différence intragroupe
Dans chaque échantillon, il existe des variations dans les observations. Cette variabilité peut être calculée à l'intérieur de chaque groupe (échantillon) en calculant la somme des carrés intragroupe à l'aide de la formule suivante :
Remarque : La double sommation \(\sum \sum\) signifie que nous devons d'abord sommer les différences au carré entre chaque observation \(X_{ij}\) et la moyenne de son propre groupe \(\overline{X}_i\), puis sommer toutes les quantités obtenues. Cette étape permet de calculer la somme des carrés intragroupe. Cette valeur peut ensuite être divisée par le nombre total d'observations (N) moins le nombre de groupes (k), afin d'obtenir la moyenne de la somme des carrés intragroupe \(CM_{intra}\). Dans notre exemple, si nous avons :
Pour la stratégie visuelle : \(SC_{intra_1} = 200\)
Pour la stratégie textuelle : \(SC_{intra_2} = 300\)
Pour la stratégie mixte : \(SC_{intra_3} = 250\)
La somme totale des carrés intragroupe est donc :
$$SC_{intra} = 200 + 300 + 250 = 750$$
La moyenne des carrés intragroupe est donc :
$$CM_{intra} = \frac{750}{30 - 3} = 27.78$$
4.5. Le test \(F\) et sa signification
Une fois les variances intergroupe et intragroupe calculées, nous pouvons calculer la statistique F, qui est le rapport entre les deux :
$$ F = \frac{CM_{inter}}{CM_{intra}} = \frac{500}{27.78} \approx 18.00 $$
Une statistique F élevée indique que les différences observées entre les moyennes des groupes sont plus grandes que celles attendues par hasard, ce qui suggère que les groupes ne proviennent probablement pas de la même population.
Explication de la table F et interprétation des résultats
Pour interpréter la statistique F que nous avons calculée (\(F \approx 18.00\)), il est nécessaire de la comparer à une valeur critique provenant de la table de distribution \(F\) [ Table 7 : Lois de Fisher-Snedecor (\(\alpha = 0.05\)) , de l'Annxe Statistique ] , aussi appelée table F de Fisher-Snedecor. Cette table nous donne la valeur critique en fonction des degrés de liberté intergroupe (\(df_{inter} = k - 1\)) et intragroupe (\(df_{intra} = N - k\)) ainsi qu'un seuil de signification \(\alpha\), généralement fixé à 0,05.
Dans notre exemple :
\(df_{inter} = 3 - 1 = 2\)
\(df_{intra} = 30 - 3 = 27\)
\(\alpha = 0,05\)
Voici un extrait de la table F pour \(\alpha = 0,05\) :
\(v_{2}\) \(v_{1}\)
1
2
3
20
4.351
3.492
3.098
21
4.324
3.466
3.072
22
4.300
3.443
3.049
En consultant cette table, pour \(\alpha = 0,05\), \(df_{inter} = 2\), et \(df_{intra} = 27\), nous trouvons une valeur critique \(F_{critique}\) d'environ 3,35. Étant donné que notre \(F \approx 18.00\) est bien supérieur à cette valeur critique, nous rejetons l'hypothèse nulle, ce qui suggère que les différences entre les groupes sont statistiquement significatives. Autrement dit, la stratégie employée pour attirer l'attention des utilisateurs (visuelle, textuelle, ou mixte) a un effet significatif sur le taux de clics.
Graphique illustratif
Un graphique en boîte à moustaches permet de visualiser la distribution des données pour chaque groupe :
Figure III.4.1. : Boîte à moustaches de la distribution.
Remarque. L'analyse de la variance factorielle
L'ANOVA factorielle généralise la procédure de l'ANOVA à un facteur, elle rend compte de l'impact, à la fois, simple et conjoint (que l'on désigne par l'appellation : interaction), sur une variable dépendante de plusieurs variables indépendantes [ les variables indépendantes possèdent un nombre, théoriquement illimités, de niveau ainsi que des échantillons de toutes tailles.
Nous nous limiterons, pour le besoins du présent enseignement, dans la séance de travail dirigé prévu à cet effet, à l' ANOVA à deux facteurs afin d'examiner l'impact de chacune des deux variables indépendantes ainsi que leur impact conjoint sur la variable dépendante.
La corrélation & la régression linéaire
La corrélation
Dans une étude, le chercheur peut être confronté à l'examen de la relation entre deux variables quantitatives, il s'agira alors de vérifier la possible liaison en confrontant les deux variables considérées à une représentation graphique ou à un calcul numérique. Nous abordons dans le présent enseignement, la manière de rendre compte de la relation entre deux variables quantitatives. Dans le cas d'une relation entre deux variables quantitatives, on cherche à établir l'existence d'une relation linéaire pour exprimer cette dernière à l'aide d'un modèle mathématique.
5.1. La relation entre deux variables quantitatives
Dans le cadre d'une recherche, il se peut que la relation entre deux variables quantitatives provienne de la théorie considérée, on est alors face à une hypothèse de départ dont il s'agira de vérifier la véracité ou l'exactitude au niveau de notre propre enquête. D'un autre côté, il peut aussi s'agir de l'examen d'une possible relation entre les deux variables dont l'évolution logique de la recherche a interpellé le chercheur au point de mettre à l'essai cette relation.
En analyse de données, le concept de corrélation renvoie à un procédé par le biais duquel on pourra quantifier le degré de liaison qui existe entre les variables.
Remarque : Notons qu'un travail soutenu par l'utilisation d'un logiciel d'analyse de données permet plus facilement de mettre à jour les possibles relations entre les variables de la recherche.
Si l'on révèle l'existence d'une relation entre deux variables quantitatives, on dit qu'il y a corrélation.
L'existence d'une corrélation entre deux variables quantitatives \(x\) et \(y\) nous permet de prédire \(y\) à partir de \(x\).
On dira alors que \(y\) est fonction de \(x\), mathématiquement, cela revient à écrire:
$$ y = \Large{f} \normalsize{(x)}$$
\(y = \Large{f} \normalsize{(x)}\) est une fonction mathématique où \(y\) est la variable indépendante et \(x\) la variable dépendante (explicative).
Nous utilisons la corrélation de Pearson car étant la plus élaborée et renseignant sur la magnitude ainsi que la direction de la relation.
La corrélation de Pearson est un procédé dont l'objectif est de produire un Coefficient rendant compte du degré de liaison entre deux variable quantitatives (variables à échelles de mesures d'intervalle ou de rapports), elle produit un coefficient dont la valeur varie de -1 à +1.
Remarque :La corrélation de Pearson mesure le degré de cohérence entre les valeurs étalons Z obtenues sur deux mesures, ce qui donne une autre formule du coefficient : \( r_{x,y} = \frac {\sum_{i=1}^{N} Z_{x_i} Z_{y_i}} {N-1} \). Nous discuterons de cette variante durant la séance consacrée à cet enseignement.
Il faudrait donc pour point de départ déterminer l'intensité de la relation entre les variables.
5.2. Le diagramme de dispersion
Dans le cadre de l'examen d'une relation entre deux variables quantitatives, le nuage de points (auquel certains préfèrent l'appellation de : diagramme de dispersion) est l'outil graphique adéquat.
Si l'on représente les couples \((x_i ;y_i)\) graphiquement, on obtient ce que l'on appelle un nuage de points\((x_1 , y_1) , (x_2 , y_2) , (x_3 , y_3) , ...., (x_n , y_n)\) .
Définition III.5.1 : Le test \(t\)
Un diagramme de dispersion, ou nuage de points, est un outil graphique essentiel en analyse statistique, particulièrement utilisé pour explorer et visualiser les relations entre deux variables quantitatives. Chaque point dans ce diagramme représente une observation dans l'ensemble de données, où la position horizontale du point correspond à la valeur de la première variable (souvent notée \(X\)) et la position verticale à la valeur de la deuxième variable (souvent notée \(Y\)).
Le diagramme de dispersion peut être enrichi par des éléments supplémentaires tels que des lignes de tendance, des intervalles de confiance, ou des couleurs pour différencier des sous-groupes de données, ce qui permet une analyse plus approfondie des relations étudiées.
C'est à partir du constat fourni par le diagramme de dispersion que nous allons procéder à l'écriture de la formule de la droite de régression , que l'on appelle aussi droite de tendance, ou droite d'ajustement (cette droite est issue de la méthode des moindres carrés ).
Dans ce qui suit, des exemples de diagrammes de dispersion avec le type et la nature de la relation qu'ils montrent.
Types et nature de relations dans un Diagramme de Dispersion
Corrélation positive
Remarque : Ce diagramme montre une corrélation positive où les valeurs augmentent ensemble. Cela signifie que lorsque la variable X augmente, la variable Y tend également à augmenter.
Corrélation négative
Remarque : Ce diagramme montre une corrélation négative où les valeurs varient en sens inverse. Cela signifie que lorsque la variable X augmente, la variable Y tend à diminuer.
Relation linéaire et positive
Remarque : Ce diagramme illustre une relation linéaire positive. Les points se distribuent le long d'une droite ascendante, indiquant une augmentation proportionnelle des variables.
Relation linéaire et négative
Remarque : Ce diagramme illustre une relation linéaire négative. Les points se distribuent le long d'une droite descendante, indiquant une diminution proportionnelle d'une variable par rapport à l'autre.
Relation non linéaire
Remarque : Ce diagramme montre une relation non linéaire. Les points suivent une courbe, indiquant une relation quadratique entre les variables, où les changements dans Y ne sont pas proportionnels à ceux dans X.
Absence de relation
Remarque : Ce diagramme montre une absence de relation. Les points sont dispersés sans tendance apparente, ce qui indique qu'il n'y a pas de corrélation significative entre les variables X et Y.
5.3. L'intensité de la relation
Une corrélation entre deux variables \(x\) et \(y\) existe si à chaque fois les valeurs de \(x\) \( (x_{1} , x_{2}, ....... x_{i}) \) sont proches de les unes des autres et les valeurs de \(y\) \( (y_{1} , y_{2}, ....... y_{j}) \).
La courbe d'ajustement
La courbe d'ajustement est celle que l'on trace et qui s'approche le plus et le plus mieux des points. (voir les exemples précédents)
La courbe est dite de régression (ou d'estimation ) si elle est rectiligne. La droite de régression caractérise la relation linéaire entre les variables.
La relation linéaire entre deux variables \(x\) et \(y\) s'exprime par la formule suivante:
$$ y = a x + b $$
où \(a\) et \(b\) sont des constantes à définir.
Le sens d'une relation linéaire
Une relation est dite positive lorsque les deux variables varient dans le même sens, cette relation est caractérisée par une droite croissante, la relation est dite directe ;
La relation est négative (inverse) si la droite de régression est décroissante (descendant de gauche à droite) ;
Une droite de régression qui tend à être horizontale témoigne de l'absence de toute relation. Ce qui ne signifie pas que les deux variables ne sont pas liées par une autre forme de relation .
5.4. La covariance
Pour savoir si deux variables quantitatives sont liées, ou non, on calcul la covarianceCov (x, y).
La covariance du couple (x, y) est la moyenne des produits des écarts aux moyennes \(\bar{x}\) et \(\bar{y}\).
Une fois avoir analysé le nuage de points représentant les deux variables, on procède au calcul du coefficient de corrélation linéaire (noté \(r\)) qui calcul l'écart entre la droite de régression et le nuage de points.
Plus les points sont proches de la droite, plus élevé sera le coefficient, et inversement. La corrélation permet de déterminer l'existence d'une coïncidence, d'une relation, entre deux variables.
En statistiques, le concept de corrélation renvoie à un procédé par le biais duquel on pourra quantifier le degré de liaison qui existe entre les variables.
La dispersion des points du nuage autour de la droite de régression est mesurée par la variance résiduelle autour de la droite de régression. Nous avons recours à la corrélation de Pearson, car étant la plus élaborée.
La corrélation de Pearson
Définition III.5.2 : La corrélation de Pearson
La corrélation de Pearson est un procédé dont l'objectif est de produire un coefficient rendant compte du degré de liaison entre deux variables. La corrélation de Pearson s'applique sur des variables à échelles de mesure d'intervalle ou de rapport, produisant un coefficient dont la valeur varie de -1 à +1.
La corrélation de Pearson mesure le degré de coïncidence entre les valeurs étalon Z, obtenues sur deux mesures.
Calcul de la corrélation de Pearson
On dispose de deux formules, l'une avec la valeur étalon Z et l'autre avec les variables
Calcul de la corrélation de Pearson avec la valeur étalon Z:
Le coefficient de non détermination :
Coefficient de Non-Détermination (\(1 - R^2\)) : Il mesure la proportion de la variance totale dans la variable dépendante qui reste non expliquée après avoir pris en compte l'effet des variables indépendantes. En d'autres termes, il indique la quantité de variance dans la variable dépendante qui ne peut pas être attribuée au modèle de régression.
Exemple
Supposons que nous voulons analyser la relation entre la durée d'utilisation quotidienne d'une plateforme de médias sociaux et le niveau de satisfaction des utilisateurs. La satisfaction est mesurée sur une échelle de 0 à 10, où 0 indique aucune satisfaction et 10 indique une satisfaction maximale. La durée d'utilisation est mesurée en heures par jour.
Les données pour 6 utilisateurs sont les suivantes :
Calcul du coefficient de détermination (\(R^2\)) :
Le coefficient de détermination est :
\[
R^2 = r^2 = 1^2 = 1
\]
Interprétation : Le coefficient de détermination de 1 signifie que 100% de la variance dans la satisfaction des utilisateurs est expliquée par la durée d'utilisation de la plateforme. Cela indique une relation parfaite entre les heures d'utilisation et la satisfaction.
La régression linéaire simple
La régression linéaire est une forme d'application pratique de la corrélation. La régression linéaire est donc la technique servant à prédire la position d'une variable spécifique \( y \) à partir de la corrélation entre deux variables \( x \) et \( y \).
5.6. L'ajustement affine par la méthode des moindres carrés : la régression linéaire
La méthode des moindres carrés consiste à déterminer l'équation de la droite qui rend minimale la somme des carrés des écarts entre chaque point du nuage et la droite.
Selon que les écarts sont mesurés parallèlement à l'axe des ordonnées ou à l'axe des abscisses, on obtient la droite de régression de \( y \) en \( x \) : \( x = a y + b \).
La droite de régression de \( y \) en \( x \)
La droite de régression de \( y \) en \( x \) \( y = a x + b \), notée aussi droite \( D_{y/x} \) est définie comme étant la droite qui rend minimale la somme des carrés des distances entre chaque point du nuage et \( D_{y/x} \), les distances étant prises parallèlement à l'axe des ordonnées.
On vise à travers cette opération à déterminer les coefficients \( a \) et \( b \), que nous verrons dans la section suivante.
Soit \( p \) un point du nuage de points de coordonnées \( x_{i}; y_{i} \). Soit \( y'_{i} \) l'ordonnée du point de la droite d'ajustement d'abscisse \( x_{i} \) :
$$ y'_{i} = a x_{i} + b $$
Le carré de la distance entre \( p \) et la droite \( D_{y/x} \) est égal à \( (y_{i} - y'_{i})^2 \).
La somme des carrés des distances entre les différents points du nuage et la droite \( D_{y/x} \) est égale à \( \sum\limits_{i=1}^{n} (y_i - y'_{i})^2 \) avec \( y' = a x_{i} + b \).
Pour déterminer l'équation de la droite de régression de \( y \) en \( x \), il faudrait donc minimiser \( \sum\limits_{i=1}^{n} (y_i - a x_{i} - b)^2 \). Cette somme est une fonction à deux variables \( a \) et \( b \).
Mathématiquement, la solution est : \( a = \frac {Cov(x, y)}{V(x)} \) et \( b = \bar{y} - a \bar{x} \).
L'équation de la droite de régression devient donc :
$$ Y = \frac{Cov(x, y)}{V(x)} x + (\bar{y} - a \bar{x}) $$
Remarque : la droite de régression possède les caractéristiques suivantes :
La pente de la droite \( \frac{Cov(x, y)}{V(x)} \) est de même signe que la covariance (la variance étant toujours positive) ;
Elle passe par le point moyen \( (\bar{x}, \bar{y}) \) : \( \bar{y} = a \bar{x} + b \).
La droite de régression de \( x \) en \( y \)
La droite de régression de \( x \) en \( y \) \( x = a' y + b' \), notée aussi droite \( D_{x/y} \) est définie comme étant la droite qui rend minimale la somme des carrés des distances entre chaque point du nuage et \( D_{x/y} \), les distances étant prises parallèlement à l'axe des abscisses.
On vise à travers cette opération à déterminer les coefficients \( a' \) et \( b' \), que nous verrons dans la section suivante.
Soit \( p \) un point du nuage de points de coordonnées \( x_{i}; y_{i} \). Soit \( x'_{i} \) l'abscisse du point de la droite d'ajustement d'ordonnée \( y_{i} \) : \( x'_{i} = a' y_{i} + b' \).
Le carré de la distance entre \( p \) et la droite \( D_{x/y} \) est égal à \( (x'_{i} - x_{i})^2 \).
La somme des carrés des distances entre les différents points du nuage et la droite \( D_{x/y} \) est égale à \( \sum\limits_{i=1}^{n} (x_i - x'_{i})^2 \) avec \( x' = a' y_{i} + b' \).
Pour déterminer l'équation de la droite de régression de \( x \) en \( y \), il faudrait donc minimiser \( \sum\limits_{i=1}^{n} (x_i - a' y_{i} - b')^2 \). Cette somme est une fonction à deux variables \( a' \) et \( b' \).
Mathématiquement, la solution est : \( a' = \frac {Cov(x, y)}{V(y)} \) et \( b' = \bar{x} - a' \bar{y} \).
L'équation de la droite de régression devient donc :
$$ X = \frac{Cov(x, y)}{V(y)} y + (\bar{x} - a' \bar{y}) $$
Remarque : la droite de régression possède les caractéristiques suivantes
La pente de la droite \( \frac{Cov(x, y)}{V(y)} \) est de même signe que la covariance (la variance étant toujours positive) ;
Elle passe par le point moyen \( (\bar{x}, \bar{y}) \) : \( \bar{y} = a' \bar{x} + b' \).
Les deux droites de régression \( D_{y/x} \) et \( D_{x/y} \) se coupent au point moyen \( (\bar{x}, \bar{y}) \).
A l'aide du coefficient de corrélation, de la moyenne ainsi que de l'écart-type de chaque variable, on peut simplifier les formules comme suit :
Pour une population :
$$ Pente = b = r \left(\frac {\sigma_y} {\sigma_x}\right) $$
$$ ordonnée ~à ~ l'origine ~ a = \mu_{y} - b \mu_{x} $$
Pour un échantillon :
$$ Pente = b = r \left(\frac {\sigma_y} {\sigma_x}\right) $$
$$ ordonnée ~à ~ l'origine ~ a = \bar{y} - b \bar{x} $$
Exemple
Supposons que nous souhaitons étudier la relation entre le temps passé sur un site web et le nombre de pages consultées par les visiteurs. Le temps passé est mesuré en minutes, tandis que le nombre de pages consultées est un nombre entier.
Calcul du coefficient de détermination (\(R^2\)) :
Le coefficient de détermination est :
\[
R^2 = r^2 \approx 1.03^2 \approx 1.06
\]
Interprétation : Le coefficient de détermination supérieur à 1 est anormal et indique qu'il pourrait y avoir une erreur dans les calculs ou les données.
Les tests non paramétriques
Un test non paramétrique s’effectue dans l’optique d’analyser des données qui ne suivent pas, nécessairement, une distribution normale, ou lorsque les conditions d'application des tests paramétriques ne sont pas assurées. Contrairement aux tests paramétriques, qui reposent sur des hypothèses concernant la distribution des données, les tests non paramétriques sont moins contraints par ces hypothèses et peuvent être appliqués à des données ordinales ou à des échantillons de petite taille.
Les tests non paramétriques ne nécessitent pas l'estimation des paramètres de la population.
En sciences humaines et sociales, nous avons recourt à quatre types de tests non paramétriques :
Le test de Mann et Whitney
Ce test nous permet de comparer les moyennes de deux échantillons indépendants [l'équivalent non-paramétrique du test de Student] ; Le test de Wilcoxon
Le test de Wilcoxon nous permettra de comparer entre les moyennes de deux échantillons appariés ; Le test de Kruskal et Wallis
Ce test permet de comparer les moyennes de plusieurs échantillons [l'équivalent non-paramétrique de l'analyse de la variance à un facteur ] ; Le test de Spearman
Le test de Spearman est un test non paramétrique de corrélation.
Pour simplifier la lecture du présent enseignement, nous avons adopter un plan de rédaction assez simple consistant à : faire une courte présentation du test, expliquer le fonctionnement théorique, puis donner un exemple explicatif. Dans les travaux de fin de cycle de nos étudiants, l'hypothèse de normalité est admise.
6.1. Le test de Mann et Whitney
Contexte
Soient deux échantillons, indépendants et non exhaustifs, \(E_1\) et \(E_2\), les tailles des deux échantillons sont, respectivement de \(n_1\) et \(n_2\).
On voudrait comparer les deux moyennes en ayant pour hypothèse nulle \( H_{0} : \mu_{1} = \mu_{2}\).
Conditions et procédures du test
Afin de réaliser le test de Mann et Withney, on procède de la manière suivante :
On classe par ordre croissant l'ensemble des valeurs des deux échantillons en prenant l'origine de chaque valeur ;
On affecte à chaque valeur de \(E_1 \cup E_2\), son rang dans le classement : s'il y a des ex-aequo, on attribue à chacun un rang égal à la moyenne des rangs qu'ils occupent ;
Pour tout élément \(x_i\) de \(E_1\), on compte le nombre d'éléments de \(E_2\) situés après \(x_i\) ;
On note \(m_1\), la somme de toutes les valeurs ainsi associées à tous les éléments de \(E_1\), puis faire la même chose pour l'autre échantillon ;
On relève \(M = min~ (m_{1}, m_{2}) \).
Règle de décision
Soit \(M\) la variable aléatoire qui prend la valeur \(m\) comme résultat de l'expérience aléatoire, nous procéderons comme décrit ci-après : Consulter la table du test : en annexe, ce sont les tables 8 & 9, qui donnent en fonction de \(n_1\), \(n_2\) et de \(\alpha\) la valeur \(m_{\alpha}\) telle que sous l'hypothèse nulle \(H_0\) : \(P (M \leq m_{\alpha}) = \alpha\), dans les cas \(\alpha = 0.05\) et \(\alpha = 0.01\).
On rejette l'hypothèse nulle si \(m \leq m_\alpha \) ; Si \(n_1\) et \(n_2\) sont hors des tables : si \(H_0\) est vraie, \(M\) suit approximativement la loi normale : \(\sim \mathcal{N}(\mu, \sigma)\)
Avec :
$$ \mu = \frac{n_{1}~n_{2}}{2} ~~~~ et ~~~~ \sigma = \sqrt{\frac{n_{1}~n_{2} (n_{1} + n_{2} + 1)}{12}} $$
On calcule donc la valeur de la variable normale réduite : \(z = \frac{m-\mu}{\sigma} \) et on conclut, (voir table 8), au rejet de \(H_0\) si \( | z | > z_\alpha \).
Exemple
Lors d'une recherche, un enquêteur teste, sur une échelle de 10, les scores de perception d'une chaine YouTube après une compagne publicitaire :
Groupe 1 (\(E_1\)) : 7, 8, 6, 9, 7 Groupe 2 (\(E_2\)) : 6, 5, 6, 7, 8
■ Combinaison et classement des deux groupes : 5, 6, 6, 6, 7, 7, 7, 8, 8, 9 ;
■ Calcul de la somme des rangs pour \(E_1\) : \(R_1 = 6 + 6 + 6 + 8 + 10 = 36\) ;
■ Calcul de la somme des rangs pour \(E_2\) : \(R_2 = 3 + 1 + 3 + 3 + 8 = 18\) ;
■ Le plus petit des deux sommes, soit \(M = min(36, 18) = 18\).
Nous allons ensuite comparer cette valeur à la table de Mann-Whitney ( Annexe Statistique, Table : 8 ) pour déterminer si la différence est significative.
Nous trouvons que \(M = 18 \) est supérieure à la valeur critique dans la table : \(2\) ( pour \(n_1 = 5\), \(n_2 = 5\) et \(\alpha = 0.05\)) , nous acceptons donc l'hypothèse nulle, indiquant que les campagnes publicitaires ont eu un impact différent sur la perception de la chaine.
6.2. Le test de Wilcoxon
Contexte
Soient deux échantillons appariés (où chaque valeur d'un échantillon est associée à une valeur de l'autre échantillon).
On pose pour hypothèse nulle \(H_{0} : \mu_{1} = \mu_{2}\).
Conditions et procédures du test
Afin de réaliser le test de Wilcoxon, on procède de la manière suivante :
On commence par calculer les différences entre les valeurs appariées, en veillant à supprimer les différences nulles, on note \(N\) le nombre de différences non nulles ;
On classe ces différences par ordre croissant des valeurs absolues (on ne tient pas compte du signe dans le classement);
On affecte à chaque différence son rang dans ce classement, s'il y a des ex-aequo, on attribue à chacun un rang égal à la moyenne des rangs qu'ils occupent ;
On calcule : \(w_+\) somme des rangs des différences positives et \(w_-\) somme des rangs des différences négatives ;
On note : \(w = min (w_{+}, w_{-})\) la plus petite des deux valeurs \(w_+\) et \(w_-\).
Règle de décision
Soit \(W\) la variable aléatoire qui prend la valeur \(w\) à l'issue de l'expérience aléatoire :
Si \(N \leq 25 \) la Table 10 donne, en fonction de \(N\), la valeur de \(w_\alpha\), telle que, sous \(H_0\), \(P (W \leq w_{\alpha}) = \alpha \) dans les cas \(\alpha = 0,05\) et \(\alpha = 0,01\) : on rejette l'hypothèse nulle si \(w \leq w_{\alpha}\) ;
Si \(N \geq 25\), lorsque \(( H_0 )\) est vraie, \(W\) suit approximativement la loi normale \(\sim \mathcal{N}(\mu, \sigma)\) , avec :
$$ \mu = \frac{N (N+1)}{4} ~~~~ et ~~~~ \sigma = \sqrt\frac {N (N+1) (2 N+1)}{24} $$
On calcule la valeur de la variable normale réduite : \(z = \frac{w - \mu}{\sigma}\) et on conclut, avec la Table 10, rejet de \(H_0\) si \(|z| > z_{\alpha}\).
Exemple
Lors d'une recherche, un étudiant de fin de cycle Master teste les temps de réponse (en secondes) des utilisateurs avant et après l'introduction de la nouvelle interface utilisateur. Les résultats sont les suivants :
Avant (secondes) : 12, 15, 14, 10, 13 Après (secondes) : 10, 14, 13, 9, 12
■ Calcul des différences : -2, -1, -1, -1, -1. ;
■ Classement des valeurs absolues des différences : 1, 1, 1, 1, 2. ;
■ Calcul de la somme des rangs pour les différences positives \(w_+\) = 0, puisqu'il n'y a pas de valeurs positives ;
■ Calcul de la somme des rangs pour les différences négatives \(w_-\) = 2,5 + 2,5 + 2,5 + 2,5 + 5 = 15 ;
■ La plus petite des deux sommes est \(w = min(0, 15) = 0\).
Nous allons ensuite comparer cette valeur à la table de Wilcoxon ( Annexe Statistique, Table : 10 ) pour déterminer si la différence est significative.
Nous remarquons que \(W = 0 \) est é à la valeur critique dans la table : \(0\) ( pour\(N = 5\) et \(\alpha = 0,05\)), nous rejetons donc l'hypothèse nulle, indiquant que la nouvelle interface utilisateur a amélioré la rapidité des utilisateurs.
6.3. Le test de Kruskal et Walis
Contexte
Soient \(k\) échantillons, indépendants et non exhaustifs : \(E_{1}, E_{2},........E_{k}\) de tailles : \(n_{1},n_{2},........n_{k}\).
Le principe étant de comparer les \(k\) moyennes expérimentales, ce qui revient donc à tester l'hypothèse nulle \(H_{0} : \mu_{1} = \mu_{2} = ...... \mu_{k}\).
Conditions et procédures du test
Afin de réaliser le test de Kruskal et Walis, on procède de la manière suivante :
On classe par ordre croissant l'ensemble des valeurs de ces \(k\) échantillons, puis on détermine le rang de chaque valeur, suivre la même procédure que les tests précédents s'il y a ex-aequo ;
Pour chaque échantillon \(E_i\), on note \(r_i\) la somme des rangs des valeurs de cet échantillon ;
On calcule la quantité :
$$ h = \frac{12}{n (n+1)} \left( \sum_{i=1}^{k} \frac{r_{i}^{2}}{n_{i}} \right) - 3 (n+1) $$
Note : \(n = \sum_{i=1}^{k} n_{i} \) désigne l'effectif total.
Règle de décision
Soit \(H\) la variable aléatoire qui prend la valeur \(h\) à l'issue de l'expérience aléatoire :
Si les \(n_i\) sont assez grands (borne classique : \(n_i > 5 \) pour tout \(i\)), alors, si \((H_0)\) est vraie, \(H\) suit la loi du \(\chi2\) à \(k-1\) degrés de liberté ;
Dans la Table 5 on lit la valeur \(\chi_{\alpha}^{2}\) telle que \( P (H \geq \chi_{\alpha}^{2} ) = \alpha \) et on rejette \((H_0)\) si \(h \geq \chi_{\alpha}^{2}\) ;
Si les \(n_i\) ne sont pas assez grands, on dispose de tables qui donnent la valeur \(h_{\alpha}\), telle que \(P ( H \geq h_{\alpha}) = \alpha \) ;
On rejette \((H_0)\) si on obtient \(h \geq h_{\alpha}\).
La Table 13 donne \(h_\alpha\) , pour \(\alpha = 0,05\) et \(\alpha = 0,01\) , dans le cas de trois échantillons de tailles inférieures ou égales à \(5\).
Exemple
Une étude est réalisée pour comparer l'efficacité de trois différentes campagnes de sensibilisation à l'utilisation sécurisée des réseaux sociaux. Chaque campagne est lancée dans une région différente, et après un mois, on évalue le niveau de sensibilisation des participants à travers un score sur 100. Les trois échantillons sont indépendants et les tailles des échantillons sont respectivement \(n_1 = 4\), \(n_2 = 5\), et \(n_3 = 6\). L'objectif est de comparer les trois campagnes pour déterminer s'il existe une différence significative dans les niveaux de sensibilisation moyens. L'hypothèse nulle est \( H_{0} : \mu_{1} = \mu_{2} = \mu_{3}\).
Les scores des participants sont les suivants :
■ Campagne 1 : 85, 78, 92, 88
■ Campagne 2 : 70, 75, 80, 85, 90
■ Campagne 3 : 65, 68, 72, 74, 78, 82
On classe ces valeurs par ordre croissant : 65, 68, 70, 72, 74, 75, 78 (Campagne 3, Campagne 1), 78 (Campagne 3), 80, 82, 85 (Campagne 2), 85 (Campagne 1), 85 (Campagne 3), 88, 90, 92.
La statistique de Kruskal-Wallis est donc :
$$ h = \frac{12}{15 \times 16} \left( \frac{52^2}{4} + \frac{45^2}{5} + \frac{31.5^2}{6} \right) - 3 \times 16 $$
$$ h = \frac{12}{240} \times \left( 676 + 405 + 165.375 \right) - 48 $$
$$ h = \frac{12}{240} \times 1246.375 - 48 $$
$$ h = 62.31875 - 48 $$
$$ h = 14.31875 $$
Décision
Pour un niveau de signification \(\alpha = 0,05\) et \(k-1 = 2\) degrés de liberté ( voir Table 13 , de l'Annexe Statistique ), la valeur critique de \(\chi_{\alpha}^{2}\) est d'environ 5,991. Puisque \(h = 14.31875\) est supérieur à 5,991, **nous rejetons l'hypothèse nulle** \(H_0\) et concluons qu'il existe une différence significative entre les niveaux de sensibilisation des participants selon la campagne utilisée.
6.4. Le coefficient de corrélation de rang de Spearman
Contexte
Sur une population, on considère deux variables aléatoires \(X\) et \(Y\), et on veut tester \(H_0\) : Absence de corrélation entre \(X\) et \(Y\).
On dispose généralement de \(n\) couples \((x_{i} , y_{i}) ~ de ~ valeurs ~de ~ X ~et~ de Y \) déterminées simultanément.
Dans ce cas, on range par ordre croissant, séparément, les valeurs \(x_{1}, x_{2}, ..... , x_{n}\) et \(y_{1}, y_{2}, ..... , y_{n}\).
Conditions et procédures du test
Afin de réaliser Le coefficient de corrélation de rang de Spearman, on procède de la manière suivante :
■ On vérifie que les variables sont ordinales, ou si elles sont quantitatives, elles ne suivent pas une distribution normale, ou les relations entre les variables ne sont pas linéaires ;
■ Les paires de données sont indépendantes.
■ Les échantillons doivent être d'une taille suffisante pour que le test soit valide. Toutefois, Spearman est robuste aux petits échantillons.
■ Attribuer des rangs aux valeurs de chaque variable. En cas de valeurs égales, attribuer à chaque valeur le rang moyen des positions qu'elles occupent.
Calculer les différences entre les rangs de chaque paire d'observations.
■ Élever au carré chaque différence obtenue.
■ Calculer la somme des carrés des différences (\( \sum d_i^2 \)).
■ Appliquer la formule de Spearman pour obtenir le coefficient de corrélation : $$ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $$ où \( n \) est le nombre d'observations.
Règle de décision
Pour interpréter le coefficient de corrélation de rang de Spearman \( r_s \), on utilise les critères suivants :
■ Si \( r_s \) est proche de +1 ou -1, cela indique une forte corrélation positive ou négative, respectivement ;
■ Si \( r_s \) est proche de 0, cela indique une absence de corrélation.
Pour tester l'hypothèse nulle \( H_0 \) selon laquelle il n'y a pas de corrélation entre les deux variables, on compare la valeur observée de \( r_s \) avec les valeurs critiques de la table de Spearman pour un niveau de signification donné (souvent \( \alpha = 0,05 \)) :
■ Si \( |r_s| \) est supérieur à la valeur critique, on rejette \( H_0 \), ce qui indique une corrélation statistiquement significative ;
■ Si \( |r_s| \) est inférieur ou égal à la valeur critique, on ne rejette pas \( H_0 \), ce qui signifie qu'il n'y a pas de preuve suffisante pour conclure à une corrélation significative.
Exemple
Une étude est réalisée pour examiner la relation entre la fréquence de publication des articles de blog par une équipe éditoriale et l'engagement moyen des lecteurs (nombre de commentaires par article). L'objectif est de déterminer s'il existe une corrélation entre ces deux variables ordinales. Les résultats sont obtenus pour 10 articles différents.
Données et rangs
Les données suivantes montrent la fréquence de publication (en jours) et l'engagement moyen (nombre de commentaires) pour chaque article. Les valeurs sont classées par ordre croissant pour déterminer les rangs.
Calcul du coefficient de corrélation de rang de Spearman
On calcule la différence des rangs pour chaque article, puis on élève cette différence au carré. Enfin, on applique la formule du coefficient de corrélation de rang de Spearman :
$$ r_s = 1 - \frac{6 \sum d_{i}^{2}}{n(n^2 - 1)} $$
où \( d_i \) est la différence entre les rangs de chaque paire d'observations, et \( n \) est le nombre d'observations.
Interprétation
Le coefficient de corrélation de Spearman \( r_s = -0.991 \) indique une forte corrélation négative entre la fréquence de publication et l'engagement moyen des lecteurs. Cela signifie que plus la fréquence de publication est élevée, moins l'engagement des lecteurs est important.
Résumé
Dans cet enseignement, nous avons exploré les concepts fondamentaux de l'inférence statistique, une branche essentielle des statistiques qui permet de tirer des conclusions sur une population à partir d'un échantillon de données. La séance vise à vous familiariser avec les différents outils et tests utilisés en inférence statistique.
Durant cette séance, nous avons introduit les concepts clés tels que l'estimation des paramètres, les tests d'hypothèse, et les différentes techniques de régression. L'objectif est de comprendre comment ces concepts sont appliqués pour analyser des données dans divers contextes.
Voici une revue des principaux concepts abordés lors de la séance :
Inférence statistique : Ensemble de méthodes permettant de tirer des conclusions sur une population à partir d'un échantillon ;
Estimation : Processus de détermination des valeurs approchées de paramètres inconnus d'une population, basées sur les données d'un échantillon ;
Test d'hypothèse : Méthode statistique utilisée pour évaluer la plausibilité d'une hypothèse en se basant sur des données échantillonnées ;
Test du Khi2 : Test statistique utilisé pour évaluer l'indépendance entre deux variables catégorielles ;
Analyse de la variance (ANOVA) : Technique statistique qui compare les moyennes de plusieurs groupes pour déterminer s'ils proviennent de la même population ;
Corrélation : Mesure de la force et de la direction de la relation entre deux variables ;
Régression : Technique statistique permettant de modéliser et d'analyser la relation entre une variable dépendante et une ou plusieurs variables indépendantes ;
Tests non paramétriques : Ensemble de tests statistiques qui ne reposent pas sur des hypothèses de distribution spécifiques pour les données ;
Bibliographie du Bloc
Le Support ne possède pas de bibliographie finale (dans sa version en ligne), les renvois sont insérés à la fin de chaque Bloc.
Abboud, N., & Audroing, J. F. (1989). Probabilités et inférence statistique. Nathan supérieur-économie.
Acree, M. C. (2021). The myth of statistical inference. Springer Nature.
Bhushan, V. (1985). Inférence statistique. Presses Université Laval.
Casella, G., & Berger, R. (2024). Statistical inference. CRC Press.
Cox, D. R. (2006). Principles of statistical inference. Cambridge university press.
Protassov, K. (2002). Analyse statistique des données expérimentales (No. BOOK). Les Ulis: EDP sciences.
Simard, C., & Desgreniers, E. (2015). Notions de statistique. Modulo.
Srivastava, M. K. (2009). Statistical Inference: Testing of Hypotheses. PHI Learning Pvt. Ltd.
Trosset, M. W. (2001). An introduction to statistical inference and Data analysis. Department of mathematics, College of William and Mary.
Questions de Synthèse
Qu'est-ce que l'inférence statistique et pourquoi est-elle essentielle dans l'analyse des données ?
Quelle est la différence entre une estimation ponctuelle et une estimation par intervalle ? Donnez un exemple pour chacun.
Comment formule-t-on une hypothèse nulle et une hypothèse alternative dans un test d'hypothèse ? Expliquez avec un exemple.
En quoi consiste le test du Khi2 et dans quelles situations est-il approprié de l'utiliser ?
Quelles sont les principales étapes pour effectuer une analyse de la variance (ANOVA) et quel est son objectif principal ?
Comment interprète-t-on le coefficient de corrélation de Pearson ? Que signifie un coefficient de -1, 0, et 1 ?
Quelle est la différence entre la régression linéaire simple et la régression multiple ? Quand utilise-t-on l'une plutôt que l'autre ?
Quels sont les avantages des tests non paramétriques par rapport aux tests paramétriques ? Donnez un exemple de test non paramétrique.
Comment peut-on vérifier si les résidus d'un modèle de régression sont normalement distribués ? Pourquoi est-ce important ?
En quoi consiste l'erreur de type I et l'erreur de type II dans le contexte des tests d'hypothèse ? Comment peut-on les minimiser ?
Comment interpréter les résultats d'une ANOVA lorsqu'on rejette l'hypothèse nulle ? Que signifie ce rejet en termes de comparaison des moyennes des groupes ?
Quelles sont les conditions d'application du test du Khi2 d'indépendance et comment interprète-t-on ses résultats ?
Q.C.M.
Le Q.C.M est composé de vingt questions qui se rapportent au sujet de l'inférence statistique ainsi que les thématiques et concepts vus durant la séance d'enseignement, pour visualiser et tester vos connaissances cliquez ICI :)
Fiches du cours & TD
Cette séance ne possède pas de Fiches à télécharger, nous aurons l'occasion, durant la séance de travail dirigé consacrée à cette dernière à l'aide des générateurs d'exercices ainsi que du compilateur Python
Pour aller plus loin
Pour aller un peu plus loin dans l'apprentissage des notions liées aux probabilités et à l'analyse combinatoire, vous pouvez consulter les documents et vidéos dont les liens suivent :
Ouvrage
Cet ouvrage, détaille en toute simplicité, le contenu des thématiques liées à l'inférence statistique en sciences humaines et sociales, l'ouvrage est consultable gratuitement sur cairn.info à partir de votre espace personnel : Méot, A. (2003). Introduction aux statistiques inférentielles: De la logique à la pratique. De Boeck Supérieur.
Support de Cours
Il s'agit du Support de Cours de monsieur Yves Tillé, largement consulté par les étudiants de diverses spécialités, un cours qui présente de manière concise les notions de probabilité et d'analyse combinatoire. Le Cours est en téléchargement libre en cliquant ICI :) .
Chaine YouTube
La chaine explique à l'aide d'un nombre d'épisode l'essentiel des concepts de l'inférence statistique, à ajouter à votre liste
Sur l'appli du cours
Sur l'Appli du Cours, vous trouverez le résumé du présent Bloc, ainsi que des séries de Travaux Dirigés qui lui sont liées.
On trouvera aussi des renvois à des contenus multimédias qui intéressent le Bloc.
Dans le volet de Notifications, une mise à jour est prévue, elle se fera suivant les questionnements formulés par les étudiants durant les séances de Cours et de Travaux dirigés.
Une mise à jour concerne aussi les examens des sessions précédentes que l'on corrigera dans les séances de travaux dirigés pour préparer les examens de l'année en cours.
Téléchargement du cours
En utilisant le lien ci-dessous, vous pouvez télécharger le Flipbook en format PDF :
Le coin Python
Dans ce coin Python, un tableau qui résume l'essentiel à connaître pour l'inférence statistique, avec des exemples tirés des sciences de l'information et de la communication.
Paramètre
Code Python
Exemple
Estimation Ponctuelle
import numpy as np
moyenne = np.mean(data)
print(moyenne)
Estimez la moyenne du temps passé par les utilisateurs sur un site de médias sociaux.
Calcul : moyenne = np.mean([15, 30, 45, 60, 75])
Explication : La moyenne estimée du temps passé par utilisateur est de 45 minutes.
Testez si la durée moyenne des visites sur un site d'actualités est différente de 50 minutes.
Calcul : t_stat, p_value = stats.ttest_1samp([15, 30, 45, 60, 75], 50)
Explication : Le test t permet de vérifier si la moyenne est significativement différente de 50 minutes.
Testez l'hypothèse que la distribution des types d'articles (tech, culture, sport) sur un site est équilibrée.
Calcul : chi2, p_value = stats.chisquare([50, 30, 20], [33, 33, 33])
Explication : Le test du Khi2 permet de vérifier si la distribution observée diffère de celle attendue.
Comparez le temps moyen passé sur trois sites d'information différents.
Calcul : f_stat, p_value = stats.f_oneway([20, 35, 50], [25, 40, 55], [30, 45, 60])
Explication : L'ANOVA teste si les moyennes des trois groupes sont significativement différentes.
Mesurez la corrélation entre le nombre de partages d'articles et le nombre de commentaires.
Calcul : corr, p_value = stats.pearsonr([10, 20, 30], [2, 4, 6])
Explication : Le coefficient de corrélation indique la force et la direction de la relation entre les deux variables.
Régression Linéaire
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(X, y)
print(model.coef_, model.intercept_)
Prédisez le nombre de visites en fonction du nombre de nouveaux articles publiés.
Calcul : model = LinearRegression().fit([[1], [2], [3]], [100, 150, 200])
Explication : Le modèle de régression permet de prédire le nombre de visites en fonction du nombre d'articles.
Comparez l'engagement des utilisateurs sur deux versions différentes d'un site web.
Calcul : w_stat, p_value = stats.wilcoxon([3, 5, 7], [4, 6, 8])
Explication : Le test de Wilcoxon est utilisé pour comparer deux groupes appariés non paramétriques.
Forum de Discussion
Le forum vous permet d'échanger autour de cette séance, vous remarquerez la présence d'un bouton d'abonnement afin que vous puissiez suivre les discussions au sujet de la recherche en sciences humaines et sociales, c'est l'occasion aussi pour l'enseignant de répondre aux préoccupations et questions des étudiants.