Estimation des modèles dichotomiques

Le maximum de vraisemblance est la méthode d'estimation la plus convenable aux modèles à variables dépendantes discrètes.

La vraisemblance

Définition

L'estimation du modèle dichotomique par la méthode de maximum de vraisemblance consiste à choisir le vecteur de paramètres 𝛽 de façon à maximiser la vraisemblance de Yi

La vraisemblance est, donc, la probabilité d'observer un échantillon, étant donné les paramètres du processus ayant engendré les données. La vraisemblance est donnée par :

Où : N:taille de l'échantillon constitué de paires {yi, xi } ;

i=1,2⋯⋯N ;

yi :variable dépendante ;

xi:variables explicatives;vecteur à 1×k dimension .

Ainsi, si les paires {yi, xi } sont indépendamment distribuées, la probabilité de l'échantillon est le produit des probabilités associées à chaque paire.

Soit f(y_i,x_i,β) la fonction de densité conjointe associée au couple {yi, xi } où f(.) est une fonction croissante à valeurs positives et β un vecteur k×1 de paramètres.

Propriétés de l'estimateur

L'estimateur du maximum de vraisemblance est définit par la solution du problème qui suit :

L'estimateur β ̂ est caractérisé par les propriétés suivantes :

  • Convergence : plimβ=β ;

  • Invariance à une transformation paramétrique : si β^*=t(β) alors β ̂^*=t(β ̂ ) ;

  • Efficacité asymptotique :β ̂ atteint la borne inférieure de Cramér-Rao ;

  • Normalité asymptotique : β ̂~N(β,[-E∂2 LogL/∂β' ∂β' ]-1).

Ainsi, à partir d'une fonction de répartition connue, P de densité p, la probabilité conditionnelle P(y_i=1/x_i)=F(x_i,β) détermine la probabilité d'observer la variable expliquée y_i :

P(yi=1/xi)=P(yi=1/xi )yi [1-P(yi=1/xi)](1-yi )=F(xi β)yi [1-F(xi β)](1-yi )

La vraisemblance d'un échantillon d'observations indépendantes s'écrit donc :

Et la Log-vraisemblance :

La valeur des paramètres qui maximise la vraisemblance de l'échantillon est celle qui satisfait la condition :

Notons que si xi contient un terme constant, les conditions de premier ordre impliquent que la moyenne des probabilités prédite doit être égale à la proportion de celle de l'échantillon. Cette implication présente une certaine similitude avec les équations linéaires estimées par la méthode des moindres carrés ordinaires.

Pour un échantillon de taille N, nous supposons l'exemple d'une vraisemblance déduite d'une distribution normale. La fonction de vraisemblance devient, ainsi, comme suit :

Afin d'estimer les paramètres βi de dimension k+1, nous devons, donc, résoudre la condition au premier ordre qui est la nullité du gradient de la log-vraisemblance. Cette dernière est non linéaire à cause des expressions 𝑓(Xi𝛽) et 𝐹(Xi𝛽) il n'est pas possible de donner une expression analytique simple de ces estimateurs, et leur calcul se fait généralement par la mise en œuvre d'un algorithme d'optimisation qui nécessite des prérequis solides pour les étudiants. Pour cela, nous avons jugé plus utile, de faire référence au logiciel Eviews afin de résoudre cette étape, en pratique.

Tests statistiques

Afin de tester la pertinence d'une hypothèse sur les paramètres estimés par la méthode du maximum de vraisemblance, particulièrement la nullité des coefficients, nous construisons une statistique de test. Cette dernière n'est qu'une fonction aléatoire des données et des paramètres estimés. Par la suite, nous comparons la valeur de la statistique avec la valeur théorique tabulée, en choisissant le niveau de risque α (généralement pris à 5%).

Les tests statistiques les plus utilisés dans le cadre du maximum de vraisemblance sont le rapport de vraisemblance (LRT : Likelihood Ratio Test), le test de Wald et le test du Multiplicateur de Lagrange (LM : Lagrange Multiplier). Ces trois tests suivent asymptotiquement une distribution de Khi-deux (χ2) avec k degrés de liberté (nombre de variables explicatives).

Toutefois, le test le plus naturel est le rapport de vraisemblance :

Où : β ̂c :est l'estimateur du maximum de vraisemblance sous la contraite.

Sur le plan pratique, afin de tester l'hypothèse H0: β12=⋯⋯=βk=0, nous faisons référence au rapport de Log-vraisemblanceL_R=-2(Ln(LR))-Ln(Lu)). Comme il a été précisé ci-dessus L_R suit une loi de χ2 sous l'hypothèse H0 à k degrés de liberté. Si la statistique LR est supérieure au χ2 théorique tabulée pour un risque α, l'hypothèse H0 sera rejetée. Ainsi, le modèle estimé comporte au moins une variable explicative significative.

Quant à la significativité des coefficients, elle est évaluée à l'aide des ratios « 𝒵-statistique », puisque le rapport de l'estimateur sur son écart type suit une loi normale. La statistique « 𝒵 » s'interprète, donc, à partir des probabilités critiques.

Par ailleurs, les coefficients estimés ne sont pas directement interprétables, en termes de valeur. Contrairement à ces modèles, les modèles à variables qualitatives (Logit comme Probit) détiennent l'inconvénient que la variation marginale d'un coefficient a un effet différent d'un individu à un autre. Autrement dit, dans les modèles Logit ou/et Probit, seuls les signes des estimateurs peuvent nous renseigner sur les signes des estimateurs peuvent nous informer de l'effet des variables explicatives sur la variable yi=1 de référence. Vu que l'effet marginal d'une variable explicative est :

∂E(yi/xi)/(∂xik )=P' (xi β)βk

L'élasticité quant à elle, est de :

(∂log⁡E(yi/xi))/(∂xik )=(P' (xi β)β)/(P(xi β))βk

En raison de la présence de la probabilité dans l'équation, l'effet marginal diffère donc, d'un groupe à un autre (Yi=1 ou Yi=0) . Pour cela, nous nous contenterons de l'interprétation du signe associé au régresseur.

Afin de tester l'ajustement global du modèle; nous ferons appel à la statistique nommée Pseudo-R2 mesurée par :

R2=1-[(Log (LU ))/(Log (LR )] (R2 de Mc Fadden)

Comparaison entre le modèle Logit et Probit

La modélisation de variables dichotomique tend vers l'utilisation de deux types de modèles similaires en termes d'ajustement statistique. Leurs deux distributions, normale et logistique, sont de la famille lois exponentielles. En effet, les différences en termes d'estimation sont apparentes lorsqu'il s'agit d'un échantillon très grand, vu que les deux distributions divergent aux extrémités (faibles et fortes valeurs de fonction de répartition).

Ainsi, la différence apparente est celle des valeurs estimées qui ne sont pas directement comparables. Ceci dit, afin de confronter le Probit au Logit, nous devons multiplier les coefficients du modèle Probit par π/√3≈1.81. Inversement, il faut multiplier les estimateurs du Logit par √3/π pour les comparer aux coefficients issus d'une modélisation Probit.