Le modèle latent

La variable latente Yi* est une variable inobservable contrairement à la variable binaire Yi, qui est donnée (observée). De ce fait, les variables latentes s'agissent de variables continues, non observables et représentatives du phénomène étudié ( Yi) et reflète donc les mécanismes économiques à l'œuvre. Par contre, la variable Yi est le résultat d'un processus sous-jacent.

La variable latente n'est qu'une solution au problème de mis en application des méthodes d'estimation des moindres carrés ordinaires(MCO) sur les variables dépendantes discrètes.

En considérant, donc, la variable latente Yi* :

Où Yi* est une variable aléatoire en présence du terme de l'erreur :

La règle de décision probabiliste devient alors :

Nous notons que la valeur seuil « c » est identique pour toutes les observations. Nous pouvons fixer arbitrairement la valeur seuil à 0 si « c » est un scalaire et si le vecteur des variables explicatives contient un terme constant. Ainsi, nous supposons que la proportion des (Yi=1) est élevée pour :

Soit P la probabilité que Yi*>0

L'écriture probabiliste de notre règle de décision dépend, donc, de la distribution statistique de la variable aléatoire de l'équation ε_i.

Par conséquent les probabilités de la réalisation des événements {Yi= 1} et {Yi=0} seront calculées en faisant référence à la loi statistique du terme d'erreur. Nous supposons que la distribution de εi est centrée par rapport à la moyenne ; de moyenne nulle nous obtenons :

Pi dépend, donc, de la distribution de εi du modèle de décision. Nous distinguons deux lois statistiques les plus utilisées en pratique :

  • εi suit une loi logistique afin d'estimer un modèle Logit ;

  • εi suit une loi de Plass Gauss (loi normale) pour estimer un modèle Probit.

ExempleDe variable latente (tiré du polycopié de cours : HURLIN, C. (2003))

L'exemple le plus répandu, afin d'expliquer une variable latente, trouve ses origines en bio-économétrie, précisément celui de l'insecticide :

Dans un espace fermé, un insecticide est diffusé dans l'air afin de déterminer la dose minimale permettant de tuer les insectes. De ce fait, à l'issu d'une période fixée, on observe les insectes i morts codifié par Yi= 0 et ceux encore vivants dont la valeur est Y = 1.

On suppose que Yi* traduit la capacité de résistance de chaque insecte, de manière à ce que la dose de produit est supérieure à ce seuil l'insecte est mort (Yi = 0), et qu'il reste vivant pour une dose inférieure (Yi= 1). Il s'agit alors de modéliser la probabilité de survie de l'insecte i en fonction de la dose d'insecticide et des observations faites sur Yi. On suppose pour cela qu'un certain dosage « c » est diffusé sur l'ensemble des insectes. On voit immédiatement que ce problème peut s'écrire de la façon suivante :

Où la variable latente Yi* peut s'écrire comme la somme d'une combinaison linéaire de caractéristiques propres à chaque insecte et d'un terme aléatoire.

Yi*=Xi β+εi

Si le terme aléatoire εi est distribué selon une loi normale, nous allons donc estimer un modèle Probit, si ce terme est distribué selon une loi logistique nous estimons le modèle logit.