Modèle linéaire généralisé

Description du modèle

Le modèle linéaire généralisé, aussi appelé modèle paramétrique linéaire,  peut être approché par le terme probabiliste dans le sens où la valeur simulé est le résultat d'une variable (aléatoire) suivant une certaine loi de probabilité (loi multinomiale) dépendant d'un certain nombre de paramètres. Plus exactement il s'agit de la loi conditionnelle, c'est-à-dire connaissant les valeurs du pixel et des pixels voisins dans le passé ainsi que des variables environnementales (indépendantes du temps). Le modèle est linéaire à une transformation près (modèle "logit").

Le modèle de régression logistique est un modèle linéaire généralisé (et donc paramétrique) dans lequel la variable réponse est qualitative et qui permet d'obtenir une prédiction de celle-ci en tenant compte d'un ensemble d'informations issues de variables explicatives. Lorsque la réponse possède plus de deux modalités, on parle de modèle de régression logistique multiple ou modèle de régression polychotomique (Hosmer et Lemeshow, 1989). D'autres développements plus récents concernant ce modèle ont été réalises par Kooperberg et al. 1997). Ce type de modèle logistique est particulièrement bien adapte à la problématique puisqu'il s'agit de prédire, pour chaque pixel, un type d’occupation du sol (variable modélisée à huit états). La spécificité de notre étude vient du fait que le modèle doit tenir compte, outre les variables d’environnement, d’un effet spatial (état de l’occupation du sol dans l'environnement du pixel) et d'un effet temporel (évolution de l’occupation du sol du pixel et de son environnement). En ce sens il s'agit d'adapter le modèle de régression logistique à notre cadre, un des enjeux les plus importants étant le choix de la forme et de la taille de l'environnement pris en compte par le modèle.
De façon générale, le modèle de régression logistique permet de modéliser, en fonction d'un certain nombre de paramètres, la probabilité pour que le type d’occupation du sol d'un pixel au temps t (c'est-à-dire la variable réponse) soit égal à une des huit catégories d’occupation du sol. Il s'agit donc d'estimer les paramètres inconnus du modèle, et ensuite les probabilités a posteriori de type d’occupation du sol sachant les valeurs des différentes variables explicatives. On utilise ensuite une règle de type bayésien consistant à affecter au temps t à un pixel donné l'indice de végétation ayant la plus forte probabilité a posteriori.

 

Régression logistique multiple spatio-temporelle

 

Indexons par i = 1, 2, …, N les pixels de la carte d’occupation du sol et notons  Ti l'ensemble des informations dont on dispose concernant le pixel n° i. D'un point de vue formel, le modèle de régression logistique multiple que nous adoptons peut se présenter sous la forme générale suivante :

αv est un paramètre associé au type d’occupation du sol v que l'on souhaite prédire pour le ième pixel et  γvTi un ensemble de paramètres lies à v ainsi qu'aux informations concernant toujours ce pixel n° i. Ainsi, le nombre total de paramètres mis en jeu dans ce modèle dépend uniquement du nombre de types d’occupation du sol et du nombre de variables explicatives. Dans l'expression (1) Prob(pixeli = v‌│Ti) représente la probabilité que l’occupation du sol du pixel i soit du type v lorsque les variables explicatives prennent les valeurs décrites par l'ensemble Ti. Notons que l'expression (1) modélise le rapport (son logarithme) de la probabilité qu'un pixel prenne la modalité v sur la probabilité que ce pixel prenne la modalité codée 8 ce qui permet d'intégrer la contrainte que la somme des huit probabilités est égale à 1.

Dans l'expression (1), nous devons intégrer l'effet temporel : celui-ci est pris en compte en faisant dépendre le type d’occupation du sol du pixel i du temps t c'est-à-dire en posant pixeli = pixeli(t). Par ailleurs l'information (ou plus exactement une partie de cette information) dépend du temps t – 1 : Ti = Ti(t – 1). L'idée consiste donc à calculer la probabilité qu'un pixel prenne un type d’occupation du sol v à l'instant t en fonction de l'information que l'on possède sur ce même pixel à l'instant précédent  t – 1; on répète cette procédure pour tous les pixels de la carte. Connaissant les cartes à t0-n  et t0, on peut estimer l'ensemble des paramètres de notre modèle de sorte à ajuster au mieux la carte à t0 (fin de la phase d’apprentissage). Il s’agit alors d'incrémenter le temps dans notre modèle pour prédire la carte à l'instant futur t0+n  à partir de la carte observée à l'instant t0.

Quant à l'effet spatial, il est pris en compte de la même façon que dans l'approche par réseau de neurones. Il est en effet naturel de penser que l’évolution de l’occupation du sol du pixel i dépend de celle des pixels environnants. Pour cela on considère un voisinage carré Vi autour du pixel n° i que l'on souhaite prédire et on extrait comme information du voisinage Vi le nombre de pixels prenant le type n°1 d’occupation du sol, le type n°2 d’occupation du sol, ... Cette façon de procéder revient à supposer une invariance isotrope, c'est-à-dire que le type d’occupation du sol autour du pixel i ne dépend pas de la direction. Dans la mise en oeuvre de la méthode, nous avons privilégié la simplicité de la forme du voisinage (carré). Lors de développements ultérieurs, on pourrait envisager d'autres formes que le carré (étoile, rectangle, ...) et varier s'il en résulte un gain ou pas en terme de prédiction. On peut également envisager une modélisation privilégiant certaines directions c'est-à-dire rompant avec l'hypothèse d'invariance isotrope. Notons cependant qu'il en résulterait un modèle avec un plus grand nombre de paramètres et que de ce point de vue on doit également composer avec la capacité à bien estimer un modèle qui serait trop complexe.

En combinant effet temporel et effet spatial, on est finalement amené à considérer le modèle suivant

 

 

Ti(t – 1) englobe l'information extraite du voisinage Vi(t – 1), c'est-à-dire tient compte de l’occupation du sol observée autour du pixel n° i à l'instant t – 1.

Enfin, Ti(t – 1) comprend également l'information issue des variables telle que la pente ou l'altitude décrites plus haut.

 

Mise en œuvre du modèle

La mise en œuvre du modèle repose, outre les références déjà citées, sur le travail de Cornez (2003). D'un point de vue pratique, la mise en oeuvre se décompose en deux étapes : une étape d'estimation et une étape de calibration.

 

Estimation

 

On estime les paramètres du modèle (αv et ceux contenus dans γvTi(t – 1) ). La procédure d'estimation est basée sur la maximisation de la vraisemblance pénalisée, critère bien connu en statistique pour la stabilité des solutions obtenues. L'algorithme d'optimisation utilise est de type Newton-Raphson. Remarquons que la pénalisation introduit un nouveau paramètre, appelle paramètre de pénalisation et note ε, qu'il faudra choisir. Comme cela a été dit précédemment, on utilise les cartes de la phase d’apprentissage pour estimer les paramètres, ceci pour différentes tailles de voisinage et valeurs ε.

 

Calibration

 

 Il s'agit de déterminer la taille de voisinage et le paramètre de pénalisation optimaux en ce sens que ces choix fourniront une prédiction de la répartition spatiale de la variable occupation du sol à t0+n la plus proche possible de celle observée. En comparant les différentes simulations – dont chacune est une combinaison spécifique de la taille de voisinage et de la valeur ε – à la réalité observée à t0+n, on repère la carte qui possède le plus petit nombre de pixels mal prédits; la taille de voisinage et le paramètre de pénalisation correspondants seront considérés comme étant optimaux (pour les équations de régression polychotomique formulées, cf. Villa et al., 2004). Cette optimisation est atteinte avec un voisinage d’ordre 7 et un paramètre de pénalisation ε égal 10.

 

 

 Validation et interprétation des résultats

 

 Résultats - Garrotxes

 

 Ce modèle, appliqué aux Garrotxes sur la base d’une phase d’apprentissage constituée des états de l’occupation du sol réalisés en 1980 et en 1989 et les variables d’environnement, pour simuler la répartition de l’occupation du sol en 2000 donne un taux de prédiction identique à celui obtenu avec le modèle SIG : 72.8 %. Comme toujours, ce taux de concordance avec la réalité observée tient compte de la répartition spatiale. Il s’agit d’une comparaison pixel par pixel dont la taille est d’environ 350 m². Les résultats du modèle paramétrique non linéaire épousent de manière différenciée la réalité. Ainsi la simulation des catégories d’occupation du sol relativement stables dans le temps est plus proche de la réalité que celle des catégories transitoires dans la dynamique de l’occupation du sol (cf. tab. 1). 

 

Occupation du sol et fréquence

Forêt de conifères

(40,9 %)

Forêt de feuillus

(11,7 %)

Broussailles

(15,1 %)

Landes à genêts

(21,6 %)

Landes à graminées

(5,7 %)

Prairies

(4,8 %)

Pourcentage de mal prédits

11.9 %

51.7  %

57.1 %

14,4 %

59,2 %

25,6 %

 Tab. 1 : Pourcentage de mal prédits (résidus) de la simulation de l’occupation du sol pour 2000, Garrotxes, par modèle linéaire généralisé Source : Paegelow et al., 2004

 

Le listing des états simulés pixel par pixel a été importé sous SIG pour l’exprimer sous forme de carte. La fig. 1 montre une comparaison du résultat de simulation par modèle paramétrique non linéaire avec la réalité observée (2000). 

 

 
Fig. 1 : Occupation du sol en 2000, Garrotxes, simulée par modèle linéaire généralisé (à gauche) et observée (à droite). Source : Paegelow et al., 2004

 

 

Résultats – Alta Alpujarra Granadina

 

La simulation de l’occupation du sol en 2001 par modèle linéaire généralisé (cf. figure ci-dessous) donne un résultat global meilleur que par modèle géomatique : 90.97 % de prédiction correcte. Le tableau n° 2 montre les résidus par catégorie d’occupation du sol. Le modèle linéaire généralisé génère une simulation très proche de la réalité observé mise à part trois catégories : les cultures abandonnées représentant 19 % en surface ainsi que la mosaïque de cultures, irriguées ou non irriguées, et l’espace urbain, les mines et ravines. Ces dernières catégories ont une extension en surface cumulée inférieure à 1 %. On observe que le score de prédiction est d’autant plus élevé que l’état de la variable est stable dans le temps.

 

 


Fig. 2 : Occupation du sol en 2001, Alta Alpujarra Granadina,
simulée par modèle linéaire généralisé (à gauche) et observée (à droite)

 

 

 

Occupation du sol et fréquence

Pourcentage de mal prédits

Forêt de feuillus (10.9 %)

3.51

Broussailles (33 %

3.15

Pâturages (20.8 %)

0.63

Reboisement de conifères (9.2 %)

3.54

Cultures abandonnées (18.8 %)

32.47

Cultures irriguées (5.8 %)

8.87

Cultures non irriguées (1 %)

4.81

Mosaïque de cultures (non) irriguées (0.3 %)

57.16

Urbain, mines, ravines (0.4 %)

100.00

Tab 2 : Pourcentage de mal prédits (résidus) de la simulation de l’occupation du sol pour 2001
Alta Alpujarra Granadina, par modèle linéaire généralisé