Professional Documents
Culture Documents
propose un certain nombre de mthodes de discrtisation "prtes lemploi", celle quil utilise par dfaut est
la mthode de Jenks, dite aussi "des seuils naturels" [25]. Mais il est galement possible de fixer soi-mme les bornes
de ses classes, et ce dautant plus aisment que le logiciel propose de visualiser la distribution statistique des modalits
de la variable sur un diagramme de distribution. Le choix de la mthode est adapter la variable reprsente (il peut
ou non tre utile disoler une valeur de rfrence, de faire ressortir ou non certains indicateurs de dispersion comme la
mdiane, lcart-type, il peut tre pertinent ou non dadopter une discrtisation par quantiles). Cependant, il faut
noter de manire gnrale que lil ne peroit aisment les variations de valeur au sein dune trame, quelle soit en
noir et blanc ou en couleur, que sur sept paliers au grand maximum, et que le plus souvent, pour une bonne lisibilit,
il sera prfrable de se limiter quatre ou cinq classes.
Les classes sont ensuite identifies dans la lgende par les valeurs des bornes mentionnes ct des caissons ou des
symboles qui leur sont affects sur la carte. Le choix de la mthode de discrtisation conditionne grandement le
rsultat cartographique comme le montre la figure 9, la mme variable tant reprsente selon quatre discrtisations
diffrentes. Ce choix nest donc pas faire la lgre. Pour un lecteur averti, il peut tre utile de faire apparatre sur la
carte le mode de discrtisation adopt.
p. 22 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
I figure 9 I
Cartes montrant les diffrences entre mthodes de discrtisation
Pour plus dinformations, il convient de se rfrer larticle disponible partir de lURL :
http://www.hypergeo.eu/spip.php?article374 sur les discrtisations en elles-mmes et au document suivant, disponible
partir de lURL : http://www.hypergeo.eu/article.php3?id_article=274 sur les cartes choroplthes.
2.3.3 Des lments clefs pour la lecture dune carte
La ralisation dune carte implique de faire figurer de manire systmatique un certain nombre dlments
indispensables, qui sont de vritables clefs de lecture de la carte elle-mme. Par ailleurs, elle peut tre enrichie de
certains lments dont lajout peut rester optionnel, on distinguera donc ces deux catgories dlments.
- Les lments incontournables
Le titre
Ces lments sont tout dabord un titre, rpondant synthtiquement aux questions : quoi, o, et ventuellement,
quand, concernant les informations reprsentes. Ces informations peuvent aussi se rpartir efficacement, et pour plus
de concision, entre le titre de la carte lui-mme et le titre du bloc de lgende.
La lgende
La carte doit galement comprendre une lgende, qui met en regard des variables visuelles utilises et les informations
reprsentes dcrites l encore de faon la fois complte et synthtique. Si linformation cartographie est une
variable quantitative, il est indispensable de mentionner en lgende lunit dans laquelle cette variable sexprime ;
si cest une variable continue que lon a discrtise, il est ncessaire de figurer prcisment les bornes des classes
(prcision de lexclusion ou de linclusion des bornes dans les classes mentionnes).
Lchelle
Une carte doit galement toujours comporter une chelle : une carte est en effet une reprsentation en rduction de
lespace que lil doit pouvoir en quelque sorte reconstituer grce la mention de cette chelle. Lchelle doit tre une
chelle graphique car la lecture en est bien plus immdiate que sur une chelle numrique, et elle a en outre lavantage
dtre dynamique (elle volue automatiquement dans le SIG en fonction de la taille de la carte ou du niveau de "zoom"
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 23
choisi par lutilisateur. Les outils SIG proposent une grande diversit dchelles graphiques la disposition des
cartographes. Il est recommand dutiliser un style dchelle le plus simple et le plus lisible possible, dont lunit de
distance est claire et dont les mentions numriques seront des chiffres ronds et non des distances peu usuelles ; il faut
galement faire attention lunit dans laquelle ces distances sexpriment (viter le mtre pour une carte rgionale ;
viter des repres numriques de 7,3 km et privilgier les valeurs rondes telles 10, 20, 50, 100). Exceptionnellement,
on peut se passer de faire figurer lchelle : les cartes de la France mtropolitaine, ou dans certains cas, des cartes par
rgions peuvent la grande rigueur se passer dune chelle car notre il est assez habitu sa reprsentation et ses
dimensions spatiales (les cartes de France du bulletin mto tlvis ne comportent pas, par exemple, de mention
dchelle car le tlspectateur est compltement familier de ces reprsentations et sait reconnatre sa ville sur les
diffrents points o sont figurs tempratures ou symboles mtorologiques). Cela dit, cela est vrai si la carte sadresse
un public habitu ce territoire et ses dlimitations ; dans le contexte dun lectorat plus large, on prfrera faire
figurer une chelle mme sur un territoire aux dimensions bien connues. Par contre, on vitera de surcharger la
reprsentation dune carte qui comporte la fois la reprsentation dun espace dlimit (zone dtude, dpartement,
rgion) et un carton de localisation (petit encart figurant, soit la France entire, soit de faon diffrentielle la zone
cartographie plus en dtail) : celui-ci nest l qu titre trs informatif et nest destin qu localiser plus globalement
la zone dlimite que lon tudie, il ny a pas lieu dy ajouter des repres dchelle.
I figure 10 I
Exemple dune carte mtropolitaine sans mention de lchelle
p. 24 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Enfin, quand on souhaite reprsenter la fois le territoire mtropolitain et loutre-mer, il faut veiller au fait que lchelle
varie souvent beaucoup dun territoire reprsent lautre et garder lesprit que la Guyane est bien plus tendue que
la Runion, et que cela doit tre mis en vidence par la prsence dune chelle.
La flche du Nord
Il est galement souvent utile de faire figurer sur une carte la flche indiquant le Nord. En effet, il arrive que lon soit
amen (assez rarement) tourner une carte pour des raisons de lisibilit et ne plus se conformer la convention qui
veut que le Nord gographique pointe vers le "haut" de la page. La mention du Nord devient alors indispensable.
Elle reste utile, mme sans rotation de la carte, quand on reprsente une zone plus limite du territoire, elle est alors,
au mme titre que lchelle, un lment utile lil pour se reprer. Elle devient plus facultative pour la reprsentation
plus petite chelle du territoire mtropolitain dans sa globalit, car tout-un-chacun dans cette dernire situation sait
intuitivement sans avoir besoin quon le lui rappelle que le Nord gographique se trouve en "haut" de la page.
La source
Enfin, la carte doit mentionner la source des informations quelle reprsente, de faon la fois synthtique et
exhaustive. Discrte sur la carte, elle renseigne nanmoins le lecteur sur la nature des donnes utilises, leurs auteurs,
leur date, autant dlments complmentaires ncessaires la bonne comprhension de la carte. Il faut y faire
apparatre lorganisme producteur et la date des donnes reprsentes (les variables que lon a cartographies) aussi
bien que les informations concernant lorigine et la date des fonds de cartes.
- Les lments optionnels
Lencart ou le carton de localisation
Quand la zone dintrt nest pas le territoire mtropolitain dans son ensemble, ou un autre territoire bien connu du
public auquel la carte est destine, il peut ne pas tre inutile dajouter la carte un "carton de localisation", en encart
de la carte elle-mme : le territoire dintrt est alors mis en valeur sur une reprsentation en taille trs rduite dun
territoire de rfrence bien connu du lectorat de la carte. Dans dautres situations, il peut tre ncessaire dagrandir, en
encart de la carte, une zone particulire du territoire : par exemple, sur de nombreuses cartographies de la France
mtropolitaine dans son ensemble, on ajoute un encart portant sur lIle-de-France, territoire aux entits spatiales peu
tendues et qualifies par des valeurs fortes pour de nombreuses problmatiques ce qui compromet un peu la lisibilit
sur ce territoire.
Les quadrillages/carroyages
Sur certaines cartes apparat un carroyage qui, le plus souvent, est destin faciliter le reprage visuel des distances.
Trs utilis sur les plans de ville, ou sur les cartes grande chelle, il na que peu de raisons a priori de figurer sur les
cartes produites sur des documents pidmiologiques ou de sant publique.
Le logo
En amont de la ralisation dune carte, il est ncessaire de se poser systmatiquement la question du destinataire du
document cartographique. Un document destin au grand public ou, au contraire, un public averti, nimplique pas
forcment les mmes choix ; on ne fera pas abstraction de cette question car elle conditionne autant le choix de la
variable reprsente, que la prsentation du titre, le choix des variables visuelles et la prsentation de la lgende :
vocable utiliser, prcaution prendre par rapport une donne qui pourrait tre sensible selon le public qui en sera
destinataire, choix des couleurs pour ne pas stigmatiser une zone gographique par rapport aux autres quand la
donne cartographie sous-entend un potentiel jugement de valeur. Il ne sagit pas, en se posant cette question et en
adaptant ses choix de cartographie son public, de fausser linformation que lon cartographie, mais plutt dtre
conscient que les possibilits de choix qui soffrent au cartographe lui permettent dajuster au mieux les modes de
reprsentation au message qui doit tre transmis. A contrario dailleurs, il est ncessaire de garder lesprit que,
justement, la varit des possibilits qui soffrent au cartographe peuvent dintroduire un message trompeur, et que la
dontologie du cartographe, cest aussi de savoir toujours garder justesse et prcision linformation cartographie.
- Lquilibre visuel dune carte
Voici en exemple une carte (figure 11) au format 15x15 cm environ, soit le format dans lequel on compose
gnralement une carte sous ArcGIS
IGN-GoFLA
, 1999.
Dans une tude sintressant aux effets long terme de la pollution atmosphrique sur les participants dune cohorte
(volet long terme du Programme de surveillance air et sant, cohorte de 20 000 agents dlectricit de France - gaz de
France), il tait intressant de regarder quelle est la proportion de sujets de la cohorte rsidant 2, 5, 10, 15 et 20 km
dune station de mesure de la qualit de lair afin de juger de la pertinence dutiliser les mesures de ces stations pour
estimer lexposition des sujets la pollution atmosphrique. La slection des codes postaux en fonction de leur
distance aux stations a t possible dans le SIG grce loutil de cration des zones tampon.
Ces oprations peuvent tre menes sur une ou plusieurs couches dinformations go-rfrences pour dlimiter des
zones de proximit (zones tampon) ou des zones dinfluence (polygones de Thiessen
1
) partir de la distance
euclidienne ( vol doiseau). Parmi les oprations sur plusieurs couches, on retrouve notamment lintersection
gomtrique mais aussi la jointure spatiale entre deux couches, c'est--dire quun lment gographique
(une commune par exemple) va tre enrichi des caractristiques des entits spatiales avec lesquelles il est intersect
(les valeurs estimes dun polluant) (figure 14).
1
Pour un ensemble de points rpartis dans le plan, les polygones de Thiessen dlimitent autour de chaque point la zone lintrieur de laquelle on
est plus proche du point considr que de tout autre point. En d'autres termes, on dlimite ainsi la zone d'influence de chaque point d'un point de
vue gomtrique.
p. 28 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
I figure 14 I
Crer un indicateur dexposition par jointure spatiale
La jointure spatiale de la couche de points des valeurs de SO
2
avec celle des limites de communes permet ici de calculer
une moyenne des valeurs par commune et ainsi, crer un indicateur dexposition la commune qui sera exploit dans
lanalyse des effets de la pollution atmosphrique sur la sant.
Parmi les oprations danalyse gographique, il existe galement le comptage de points lintrieur dun polygone
(qui peut servir au calcul de prvalence par quartier aprs avoir gocod des cas par exemple) ainsi que les oprateurs
de proximit pour la slection des plus proches voisins, par exemple, ou encore la fusion dentits spatiales pour
changer dchelle (fusionner des Iris pour obtenir des communes). Les exemples de traitements gographiques rendus
possibles par la mise en uvre des SIG sont nombreux.
Une fois les donnes gorfrences recueillies et intgres dans le SIG (indicateurs sanitaires, environnementaux et
sociodmographiques), il est possible den observer les interactions spatiales. Les tudes sant-environnement se
prtent bien lanalyse de la dpendance spatiale, et celle de la similitude de lincidence entre units spatiales
proches gographiquement. Pour une maladie comme le cancer, la dpendance spatiale peut tre attribue la
rpartition spatiale non alatoire dune exposition environnementale, dun ou plusieurs facteurs de risque connus on
inconnus de la maladie. La mise en vidence dune structure particulire de la rpartition spatiale implique souvent la
reconnaissance de la similarit de la frquence de la maladie dans des rgions spatiales proches gographiquement
[26]. Ceci revient mesurer lautocorrlation spatiale et donc, valuer lintensit de la relation entre la proximit des
lieux et leur degr de ressemblance (les objets proches se ressemblent plus que les objets loigns) [27]. Deux types
dindicateurs peuvent tre utiliss : la proximit spatiale (mesure du plus proche voisin, figure 15) et le degr de
ressemblance (indice de Moran, figure 16).
Les SIG permettent dapprhender ces notions en complment de lanalyse statistique plus pousse. En effet, certains
logiciels proposent de calculer des indices dautocorrlation, des matrices de voisins, etc. et den cartographier les
rsultats.
Cest le cas du logiciel de SIG ArcGIS
qui est dploy lInVS. Ce logiciel dispose notamment doutils qui permettent
une premire analyse descriptive des donnes gorfrences travers la reprsentation des rsultats des calculs
statistiques (figures 15, 16 et 16 bis).
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 29
Gnrer une matrice des voisins ou matrice de pondrations spatiales
I figure 15 I
Copie dcran de la construction dune matrice des voisins dans ArcGIS
Loutil construit une matrice de voisinages afin de reprsenter les relations spatiales entre les entits dun jeu de
donnes. chaque entit correspond un certain nombre dentits voisines contiges comportant des caractristiques
spcifiques (indicateurs de sant, occupation du sol, etc.). Cet outil peut tre utilis pour dlimiter une zone
dexposition par exemple.
Effectuer un test dautocorrlation spatiale (indice de Moran I)
I figure 16 I
Copie dcran de la reprsentation de lindice local de Moran dans ArcGIS
Lindice local de Moran est un indice dautocorrlation spatiale. Loutil que propose ArcGIS
).
I figure 20 I
tude exposition lamiante autour du CMMP dAulnay-sous-bois
Cette tude, mene conjointement par la Cellule de lInVS en rgion Ile-de-France et le DSE, comportait plusieurs volets
dont un centr sur lexposition aux rejets de fibres damiante dans lenvironnement par cette usine pratiquant
le broyage de matriaux, notamment de matriaux amiants, ayant fonctionn de 1938 1975. Grce aux archives et
aux informations sur le fonctionnement de latelier, on a pu effectuer une srie de modlisations de ces rejets en se
basant sur diffrents scnarios et ce pour les deux priodes de fonctionnement diffrent de lusine 1938-1959 et 1960-
1975. On a distingu deux priodes dtude car les modalits de ventilation et dtanchit des installations ont volu
entre ces deux moments du fait de travaux raliss dans latelier.
Les rsultats du modle ont t cartographis, aprs intgration des fichiers correspondant des grilles de points de
pas rgulier au SIG, sous la forme de courbes diso concentration, laide du module Spatial Analyst. La cartographie
propose utilise une slection de courbes effectue la lumire des diffrents seuils de risques et des seuils
rglementaires connus pour lexposition lamiante.
Outre le fait que la visualisation apporte une lisibilit optimale dun contexte, le SIG est en mesure daider estimer
la population impacte par les diffrents seuils cartographis selon les diffrents scnarios. En partant du postulat,
recevable puisque lon se trouve en zone urbaine assez dense et que la rpartition de la population se fait de manire
homogne sur lensemble du territoire de chacune des communes concernes, la part de la superficie totale de chaque
commune par les diffrentes courbes correspondant aux diffrents seuils est calcule. On en dduit leffectif de la
population impact par ces diffrents seuils, en fonction des scnarios. Une cartographie de synthse tous scnarios
confondus est galement propose (figure 20). La limite de ce travail rsidait principalement dans le fait que, dune
part, lestimation des effectifs de population concerne tait trs tributaire du scnario modlis, et dautre part,
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 35
elle tait trs dpendante des seuils retenus pour la cartographie, ce qui peut poser problme dans la mesure o la
relation entre lexposition aux fibres damiante et la survenue dun vnement sanitaire est considre comme tant
une relation sans seuil.
2.5.2 Lutilisation du SIG dans une tude de corrlation gographique
Dans ce type dtude, mettre en place un SIG peut permettre de :
dterminer lunit spatiale de rfrence utilise pour ltude ;
reprsenter des cas gocods au pralable selon lunit spatiale de rfrence choisie ;
tenter une harmonisation des donnes nayant pas la mme rsolution afin de les rendre compatibles entre elles
pour ltude ;
construire des indicateurs dexposition et des facteurs de confusion
2
. On va alors combiner les donnes existantes et
disponibles pour crer de nouvelles informations (indicateur dexposition au trafic, indicateur dexposition une
pollution de type industriel, etc.). Celles-ci sont ensuite reprises dans lanalyse statistique (dtection de cluster,
rgression de Poisson, etc.).
I figure 21 I
tude arsenic hydrique en Auvergne
2
Facteur de confusion : facteurs dexposition secondaires prendre en compte afin de mesurer lassociation entre lexposition principale tudie et
les effets constats sur la sant.
p. 36 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Dans ltude sur larsenic hydrique et les cancers en Auvergne, un certain nombre dindicateurs dexposition
et de confusion ont t construits au moyen du SIG. Parmi eux, on peut citer lexemple dun proxy de lexposition
environnementale larsenic prsent dans les produits phytosanitaires utilis dans la culture viticole. Le calcul de la
surface viticole par commune (en pourcentage) a t retenu comme un bon indicateur de lventuelle pollution
hydrique par les produits phytosanitaires pouvant contenir de larsenic et spcifiquement utiliss pour ce type dactivit
agricole (figure 21). Ce nouvel indicateur est un facteur de confusion dans lestimation de lexposition des populations
larsenic hydrique et est utilis dans lanalyse statistique mene dans un second temps.
Par ailleurs, dans ltude UIOM et cancers [13] dont lobjectif tait de dterminer si lincidence des cancers est plus
leve chez les populations ayant t expose aux rejets des incinrateurs dordures mnagres que dans la population
non expose, le SIG a t utilis pour construire plusieurs variables. Cette tude cologique spatiale a mis en uvre un
nombre important de donnes de sources et de natures diverses et a impliqu la mise en place et lexploitation dun
SIG complexe (coordonnes gographiques des 22 usines dincinration dordures mnagres (UIOM), les cas de
cancers fournis par quatre registres dpartementaux et gorfrencs lIris, donnes daltitude pour la modlisation
des rejets atmosphriques, contours des Iris, donnes dmographiques, etc.). Cest notamment grce au SIG quont t
dfinis les dpartements dtude et lunit de rfrence spatiale quest lIris, qua t identifie la population expose
aprs un gros travail de modlisation des rejets et dexploitation de ces modlisations dans le SIG, quont t
construites les variables de confusions destines prendre en compte les spcificits gographiques des dpartements
de ltude. Les rsultats de modlisations des missions dUIOM ont t rcuprs sous la forme de fichiers textes
correspondant des grilles de points de 200 m de pas et de 20 40 km de ct centres sur la chemine de
lincinrateur et comportant, pour chacun de ces points de la grille, les coordonnes X et Y ainsi que des valeurs de
concentrations et de dpts modliss. Par le croisement de ces panaches modliss et intgrs au SIG avec les Iris, on
a pu affecter chaque unit gographique de ltude une valeur de concentration et de dpts (figure 22) [31].
I figure 22 I
tude UIOM
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 37
Cette tude constitue un bon exemple de lutilisation des SIG pour la construction des indicateurs dexposition. Cest ici
le facteur dexposition principal qui est dcrit, mais le SIG a galement t mobilis pour la construction de facteurs
dexposition secondaires intervenant comme facteurs de confusion dans ltude, notamment un facteur dexposition au
trafic routier.
La plupart des tudes menes jusqu aujourdhui par le DSE impliquent une utilisation encore relativement simple des
SIG (reprsentation des donnes gorfrences, gotraitements et analyses assez lmentaires, croisement de
diverses donnes de sources et de natures diffrentes, calcul de proximit, etc.). Pour autant, cette approche spatiale,
travers les SIG de plus en plus sollicits dans le milieu de la sant publique, offre des possibilits essentielles dans le
domaine de la sant environnementale en permettant la visualisation et une meilleure connaissance du contexte
gographique, environnemental et social dune tude, la cration dindicateurs de pollution, le calcul de distance dune
population un site pollu, etc.
2.6 Exemples dutilisations des SIG en sant environnementale dans
la littrature
La littrature montre que les tudes en pidmiologie environnementale utilisent trs frquemment les SIG pour divers
aspects : le gocodage et la reprsentation des sujets dune tude ou des sources de pollution, la dfinition de la
population dtude, lidentification des sources de pollution potentielles et des voies dexposition, lutilisation de la
distance un point source comme proxy de lexposition pour valuer lexposition des personnes, lintgration de
donnes environnementales dans lanalyse dun fait de sant.
Lobjet de cette rapide prsentation nest absolument pas de donner une description exhaustive des utilisations des SIG
au travers dexemples donns par la littrature dtudes menes dans dautres pays, mais plutt, aprs avoir prsent
plusieurs tudes menes au DSE de lInVS, dlargir le champ de la prsentation. Voici deux brefs exemples dutilisation
des SIG en sant environnementale.
2.6.1 Croiser des donnes pour caractriser des populations potentiellement
exposes
Exemple : Use of GIS and exposure modeling as tools in a study of cancer incidence in a population
exposed to airborne dioxin [32].
Cette tude, ralise au Danemark, a utilis un modle simulant lexposition pour dlimiter le plus prcisment possible
dans lespace et dans le temps une population expose aux dioxines dans lair. Le SIG est utilis pour faire le lien entre
le modle dexposition et les donnes dmographiques du recensement, les donnes individuelles (adresses, sexe, ge),
les donnes de migration des sujets (dmnagements dans, autour ou lextrieur de la zone) et les donnes de
cancers. Le modle a permis de dcouper la zone dexposition en trois zones en fonction de lintensit de lexposition.
En rendant possible la superposition des donnes individuelles, sanitaires et dmographiques aux diffrentes zones
dexposition, le SIG a contribu caractriser les populations et dcrire avec des mthodes statistiques
complmentaires les liens sant environnement.
2.6.2 Cration dun indicateur dexposition
Exemple : Residential exposure to petrochemicals and the risk of leukemia: using geographic
information system tools to estimate individual-level residential exposure [33].
Dans une tude mene au sud de Tawan sur lexposition rsidentielle aux sources de pollution ptrochimique et le
risque de leucmies, Yu et al. ont utilis un SIG pour estimer un niveau individuel dexposition rsidentielle. La mesure
dexposition attribue au niveau individuel tient compte de la mobilit des sujets, du temps de rsidence, de la distance
aux installations ptrochimiques, de la direction du vent et de multiples sources de pollution ptrochimique. Dans le
SIG, les auteurs de ltude ont calcul la distance entre chaque lieu de rsidence et les centrodes des installations.
La distance aux sites est pondre par la direction des vents dominants. Les rsidences situes dans un rayon de plus
de 3 km autour des sites pollus ne sont pas considres comme exposes. Le SIG a ainsi permis de construire un
indicateur dexposition une pollution dorigine ptrochimique exploit ensuite pour la construction dun modle
statistique pour lanalyse.
p. 38 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
2.7 Conclusion et perspectives
Lapport des SIG, et plus globalement de la gographie en sant environnementale, nest plus dmontrer. Cet apport
est dautant plus important si la rflexion gographique est intgre au plus tt dans le design de ltude. En effet,
le SIG est considrer comme un outil de construction et de synthse des diffrentes variables dun modle et comme
base dune analyse spatiale.
Mais malgr toutes les possibilits quils offrent, dcrites prcdemment, il est indispensable de garder lesprit que les
SIG et la cartographie ont leurs limites. Les attentes sont parfois trop grandes vis--vis des SIG qui sont parfois vus
comme une solution technologique "miracle" permettant, par exemple, de surmonter certains obstacles rencontrs lors
dune tude.
- Ce que les SIG ne permettent pas de faire :
les donnes restent la plus importante des limites (disponibilit et qualit) et la mise en place dun SIG dpend,
comme le reste de ltude, de leur disponibilit, de leur qualit, etc. ;
les SIG ne permettent pas de surmonter les limites des tudes cologiques gographiques qui imposent de
considrer un groupe dindividus en supposant que tous ont les mmes caractristiques (socio-conomiques,
dexposition, etc.) ;
les rsultats issus dun SIG et de travaux cartographiques doivent tre considrs avec beaucoup de prcaution
a fortiori lorsquil sagit dtudes parfois sensibles ;
la cartographie ne reprsente souvent quun instant "t" alors quune exposition doit sanalyser dans la dure
mme si aujourdhui des outils danalyse spatio-temporelle (y compris parmi les SIG) commencent se dvelopper,
une mauvaise matrise des outils danalyse spatiale peut entraner une mauvaise interprtation des rsultats ;
une gestion et une administration rgulire du SIG sont indispensables pour en conserver la fiabilit (attention aux
mises jour). Par exemple, dans le cas dune estimation des populations exposes une pollution, il est
vraisemblable que cette population volue ou que de nouveaux sites apparaissent ;
- Quelles perspectives pour les SIG au DSE ?
Une nouvelle utilisation des SIG est dveloppe sur 2010-2011 au DSE, dans le cadre du projet europen European
Study of Cohorts for Air Pollution Effects. Il sagit de la construction dun modle Land Use Regression [34], en France,
pour lestimation dune exposition la pollution atmosphrique dvelopp pour la premire fois dans ltude Small
Area Variation In Air pollution and Health (SAVIAH) pour modliser les concentrations des NO
2
et bas sur les donnes
gographiques locales [35]. Il sagit dun exemple dutilisation de mthodes spatiales et des SIG dans des tudes
pidmiologiques individuelles.
Les possibilits quoffrent les SIG sont primordiales pour le dveloppement de cette mthode. En effet, cest dans le SIG
que sont construites les variables explicatives autour des stations de mesures utilises dans le modle LUR :
loccupation du sol, le rseau routier, les donnes de trafic, les donnes topographiques et mtorologiques (vents) et
dautres donnes encore (huit variables au maximum pour la lisibilit du modle). Les variables en sortie sont ensuite
exportes dans un logiciel statistique afin de construire le modle de rgression. Le modle est alors utilis pour
estimer les concentrations de polluants au lieu de rsidence de chaque personne incluse dans ltude.
Dun point de vue mthodologique, le SIG intervient en amont et en aval de lanalyse statistique. Les deux dmarches
sont complmentaires, voire mme souvent imbriques : lintgration des donnes spatialises, la construction
dindicateurs et les premires analyses descriptives prparent lanalyse statistique qui permettra, dans une ultime
tape, de cartographier les rsultats pour la communication du rapport final (SIR lisss par exemple, incertitudes,
rsidus de modles, etc.). Les deux disciplines ont une base commune : le choix de lchelle, de lunit spatiale de
ltude, des donnes gorfrences disponibles.
3. Mthodes statistiques
Sont dcrits ici quelques outils statistiques pour la dtection de clusters, la reprsentation cartographique et les tudes
de corrlation cologique utilises au DSE de lInVS. Pour une revue complte, il est indispensable de se rfrer aux
ouvrages "Applied spatial statistics for public health data" de Waller et Gotway [36] et "Spatial epidemiology:
methods and applications" de Elliott et al. [37] et au numro de Statistics in Medicine, ddi aux mthodes de
reprsentation cartographique [38].
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 39
Les outils statistiques utiliss en pidmiologie gographique ont connu un dveloppement important depuis la fin des
annes 1980 et notamment, grce au dveloppement des techniques de Monte Carlo par chanes de Markov.
Le dveloppement de ces outils tait li principalement la ncessit de prendre en compte une possible surdispersion
et autocorrlation spatiale qui ntaient pas prises en compte par les modles "classiques", et en particulier, par le
modle de Poisson. La surdispersion est dfinie par une variabilit du nombre de cas suprieure celle attendue par la
loi de Poisson. La prsence de surdispersion peut tmoigner dagrgats (clusters) ou de la tendance des donnes
lagrgation (clustering). Lautocorrlation spatiale est dfinie par la ressemblance des valeurs des taux dincidence
pour des zones voisines : le risque de maladie dune zone gographique nest pas indpendant de celui des zones
voisines.
Dans les tudes de corrlation cologique, le contrle des facteurs de confusion permet gnralement de rduire la
surdispersion et lautocorrlation. Mais celles-ci peuvent tre dues des facteurs non mesurs ou des erreurs dans les
donnes qui ont une structure spatiale et il est alors important dutiliser des modles appropris (modles avec effets
alatoires, modles baysiens hirarchiques) [14].
3.1 Dtection de clusters et global clustering
De nombreuses mthodes ont t dveloppes pour tester une tendance lagrgation de cas dune pathologie [4].
Elles ont pour objectif de mieux comprendre la distribution gographique des maladies et den tudier lhtrognit
spatiale.
Une approche consiste analyser globalement la distribution spatiale et temporelle dune maladie. Une deuxime
approche sintresse lestimation du risque dune maladie par rapport un point source.
Un cluster ou agrgat peut tre dfini comme une concentration de cas "anormalement leve", suprieure celle
attendue, dans un groupe de personnes, une zone gographique ou une priode de temps.
Les tests proposs dans le but de savoir si les vnements sont agrgs dans lespace peuvent tre classs selon leur
objectif.
De nombreux tests statistiques ont t dvelopps pour tudier la variabilit spatiale dune maladie, ceux-ci incluent
les tests globaux pour valuer la tendance globale au clustering ou lagrgation de lincidence dune maladie dans
une rgion dtude (les tests de corrlation spatiale, par exemple), les tests de dtection pour identifier la localisation
des clusters potentiels et tester si ces derniers sont significatifs et les tests focaliss ou de concentration utiliss quand
une information permet a priori de spcifier une coordonne gographique autour de la quelle la recherche dun
agrgat va se focaliser [36]. On prsente et discute ces trois types de tests. Les mthodes de global clustering tudient
la corrlation spatiale et dtectent la tendance des cas lagrgation. Les mthodes de dtection de cluster identifient
les regroupements de cas incohrents avec lhypothse nulle de "no clustering" et valuent leur niveau de
significativit. La dtection dun cluster significatif nimplique pas une tendance globale au clustering significative et
vice versa [39].
Les analyses de clusters peuvent tre classes selon le type de donnes quelles permettent dtudier [40]. Les deux
catgories de donnes sont dfinies par leur niveau de rsolution : elles sont soit agrges ou de comptage
(par exemple, le nombre de cas et la population par Iris ou commune de la zone gographique tudie) soit ponctuelles
ou individuelles (par exemple, les coordonnes spatiales des cas et de la population risque ou des tmoins).
Nous nous intressons ici aux donnes agrges.
3.1.1 Dtection de clusters et mthodes de balayage spatial
Lobjectif des mthodes de balayage spatial est la surveillance gographique dun territoire dans le but de dtecter les
zones pour lesquelles une incidence plus leve de cas dune maladie est observe, sans hypothses a priori.
Les mthodes de balayage spatial cherchent dtecter lemplacement des clusters dans la rgion tudie.
Elles appliquent des fentres (souvent des cercles) sur toute la rgion et dnombrent les cas et les individus risque
lintrieur et lextrieur de chaque fentre. Il existe diffrentes mthodes de balayage spatial, la mthode de
Openshaw, la mthode de Besag et Newell et la statistique de scan spatiale [41], et elles se distinguent entre autres
par la construction de la fentre quelles utilisent.
p. 40 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Mthodes de balayage spatial : la statistique de scan spatiale
Parmi les mthodes de dtection de clusters, la statistique de scan spatiale [42-44] est devenue la plus populaire.
Lobjectif est didentifier les zones ayant une incidence anormalement leve et qui sont les moins "cohrentes" avec
lhypothse nulle de risque constant. Cette mthode est base sur un test du rapport de la vraisemblance.
Cette mthode est trs puissante et sapplique aussi bien sur des donnes groupes que ponctuelles.
Une fentre, de forme prdfinie (cercles ou ellipses), de taille variable, balaye la zone dtude. Pour chaque fentre,
une statistique, base sur le rapport de vraisemblance et les nombres de cas observs et attendus, est calcule.
Les fonctions de vraisemblance scrivent selon le choix de la distribution thorique associe au nombre de cas.
Deux distributions peuvent tre dfinies : la loi de Poisson (donnes agrges ou lorsque le nombre de cas est
ngligeable face la taille de la population) et la loi binomiale (donnes individuelles des cas et tmoins). Lhypothse
alternative, pour chaque "position spatiale" et taille de fentre, est quil existe un risque lev lintrieur de la
fentre par rapport lextrieur de la fentre. La fentre qui correspond au maximum de vraisemblance est le cluster le
plus probable, celui qui a le moins de chance de survenir par hasard. Une valeur de p, calcule partir de simulations
de Monte Carlo, est assigne ce cluster. La mthode de Kulldorff permet dordonner les clusters selon leur rapport de
vraisemblance et identifier des clusters secondaires.
Le logiciel SaTScan
peut tre utilis pour mettre en uvre la statistique de scan spatiale (et spatio-temporelle).
Il sagit dun logiciel gratuit dvelopp par Kulldorff [44,45]. SaTScan
permet de :
dtecter des clusters spatiaux ou spatio-temporels, et de voir sils sont statistiquement significatifs ;
tester si la maladie est distribue alatoirement dans lespace, le temps ou dans lespace et le temps ;
effectuer rgulirement la surveillance dune maladie sur une zone gographique.
Le nombre de cas, la population et les coordonnes gographiques du centrode (ou du chef-lieu) de chaque unit de la
zone tudie doivent tre dfinis. Des covariables (sexe, classes dge, densit de population, score
socio-conomique) peuvent tre prises en compte. La taille du cluster maximal doit tre dfinie et peut-tre dfinie
en fonction des effectifs de population. Souvent, dans la littrature, les clusters avec moins de 20 % de la population
sont recherchs. On note que les clusters dtects ne peuvent pas tre visualiss dans SaTScan
.
Les avantages de cette mthode sont :
la prise en compte de covariables dans lanalyse ;
la prise en compte des tests multiples - une valeur globale de p est fournie pour le test ;
la localisation, mme approximative, du cluster qui cause le rejet de lhypothse nulle, est donne.
Les limites de cette mthode sont :
les fentres sont des cercles ou des ellipses. La forme des agrgats potentiels doit tre dfinie a priori. La partition
spatiale de la rgion tudie (et la partition temporelle de la priode de temps tudie) a une influence sur les
clusters dtects. La statistique de balayage spatial tend dtecter des clusters de taille plus grande que celle des
vrais clusters en englobant des rgions voisines ou il ny a pas de risque lev [47] ;
les frontires dun cluster sont "incertaines". La localisation dun cluster est "approximative".
Dautres mthodes de dtection de clusters ont t dveloppes notamment pour pouvoir dtecter des clusters de
forme arbitraire [47]. Mais, pour le moment, la mthode de balayage spatiale de Kulldorff est loutil le plus utilis pour
identifier des clusters potentiels [39,48].
On insiste sur le fait quil est important de prendre en compte au moins la densit de population et ventuellement, un
score socio-conomique dans la recherche dventuels clusters.
3.1.2 Tests focaliss (ou tests de concentration)
De nombreuses mthodes permettent destimer le risque de maladie en relation un point source. Ces mthodes ne
sintressent pas une tendance globale lagrgation mais lexamen de lexistence dagrgats en rfrence un
point spcifique.
Lorsque lon dispose dinformations sur la position dun "possible" cluster ou plutt sur la position dun point source,
la statistique de balayage spatial ne doit pas tre utilise en raison dune faible puissance induite par la prise en
compte de toutes les localisations possibles alors que la localisation "suppose" est dj connue.
Ces tests ncessitent une mesure du facteur de risque dans lespace. Souvent, la distance au point source tient lieu
dindicateur dexposition.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 41
Il est important que le point source soit identifi en amont de la dtection de clusters. Si au contraire, on commence
par dtecter le cluster le plus probable avant didentifier le possible point source proximit et que lon calcule ensuite
un test focalis, alors lhypothse teste nest plus la mme et la valeur de p du test nest pas correcte (page 252 de
[36]).
Plusieurs tests sont disponibles [49] : le test de Stone du maximum de vraisemblance et le test du score de risque
linaire entre autres.
- Tests de Stone
Le test de Stone du rapport du maximum de vraisemblance et le test de Stone du maximum de Poisson sont utiliss
pour tester une augmentation de risque en relation un point source prdfini [50,51].
Le test de Stone du rapport du maximum de vraisemblance est bas sur le rapport de vraisemblance. Il sagit dun test
semi-paramtrique. Un index de rang, croissant avec la distance au point source, est calcul pour chaque unit
gographique. Le nombre de cas observs est suppos indpendamment distribu selon une loi de Poisson.
Lhypothse nulle est lgalit des risques dans les diffrentes units gographiques. Lhypothse alternative est la
dcroissance monotone du risque avec laugmentation de la distance entre le point-source et les units gographiques
considres (leur centrode) ou plus prcisment la dcroissance monotone du risque avec laugmentation des rangs de
la distance entre le point-source et les units gographiques considres. Cette mthode est utilise en gnral avec la
distance mais peut tre utilise avec les rangs dun indicateur dexposition. La vraisemblance du modle sous
lhypothse alternative est compare celle sous lhypothse nulle. La significativit est examine grce des
mthodes de simulation.
Le test de Stone du maximum de Poisson dfinit une statistique de test gale la valeur maximale observe du risque
relatif (RR) obtenue en agrgeant les units gographiques ordonnes par rapport la distance du site en une zone de
taille croissante. La significativit est examine grce des mthodes de simulation.
Le test du rapport du maximum de vraisemblance est le plus utilis des deux et semble tre plus puissant [49].
Les tests de Stone sont trs utiliss en pidmiologie et en particulier dans les tudes britanniques [49;52-54].
Les tests de Stone peuvent tre utilis pour tester laugmentation de risque autour de plusieurs points source [52,54].
Mais ceci devrait tre fait seulement si les points source sont comparables en termes dexposition. Si une unit
gographique est proximit de plusieurs points source, une solution simple est de ne considrer que le point le plus
proche [49].
Lavantage de ces tests demeure dans le fait de ne pas avoir dfinir a priori la forme de la fonction de risque.
En revanche, un point faible des tests de Stone est que la surdispersion nest pas prise en compte. Les autres points
faibles ou difficults sont :
le choix arbitraire de la distance maximale ;
le choix arbitraire de la largeur des bandes autour du point source mme si cette slection est partiellement prise en
compte dans les tests de Stone [52,54];
le choix de la largeur des bandes quand plusieurs points source sont tudis. Il est difficile de dfinir les bandes
autour de plusieurs sites si, par exemple, certains se trouvent dans des communes rurales et dautres dans des
communes urbaines : pour certains points source et certaines distances, il pourrait ne pas y avoir de communes
concernes.
Le package DCluster du logiciel R peut tre utilis pour calculer les tests de Stone [55].
- Test du score de risque linaire
Le test propos Bithell et al. [53] et Bithell [56] est un test bas sur le rapport de vraisemblance. Comme le test de
Stone, il est utilis pour tester une diminution du risque avec laugmentation de la distance du site tudi.
Ce test alloue chaque unit un score li une certaine mesure du risque (une mesure de lexposition, la distance par
rapport au point source ou un rang). Ces scores sont alors somms pour toutes les units gographiques pour obtenir
un score global. Plusieurs scores peuvent tre considrs. Bithell et al. [53] ont utilis linverse de la distance et
linverse du rang de la distance du centre de chaque unit tudie par rapport au point source. Selon ces auteurs,
linverse de la distance est appropri pour dtecter un risque qui diminue avec la distance. Les rangs sont plus
appropris quand la proximit relative des cas au site est importante plutt que la distance en elle mme.
La significativit est examine grce des mthodes de simulation.
Des tudes de puissance ont montr que deux tests du score de risque linaire (en utilisant linverse de la distance et
linverse du rang de la distance) taient plus puissants que les tests de Stone [49].
p. 42 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Pour une prsentation des tests bass sur la statistique du score de vraisemblance, nous pouvons nous baser sur la
rfrence bibliographique [49].
Selon la rfrence utilise, ces tests peuvent tre conditionnels ou non conditionnels. Les tests conditionnels utilisent
une rfrence interne la zone tudie : sous lhypothse nulle, les risques sont gaux une constante inconnue .
Les tests non conditionnels utilisent une rfrence externe : sous lhypothse nulle, les risques sont gaux 1. Les tests
conditionnels considrent seulement la distribution des cas dans la rgion tudie et ils ignorent la diffrence entre le
nombre de cas observs et le nombre de cas attendus autour du site. Les tests non conditionnels sont sensibles un
possible excs de risque dans la rgion tudie compars une rfrence externe et une possible distribution spatiale
des cas observs.
"Ces tests focaliss ont une puissance faible pour dtecter les petites augmentations de risque souvent associes aux
exposition environnementales. Do la ncessit dutiliser plusieurs mthodes dans une mme tude" [5].
3.1.3 Global clustering tests
Ces mthodes sintressent lexistence dune htrognit globale de la distribution spatiale dune maladie.
Lobjectif de ces mthodes est dtudier la surdispersion et la corrlation spatiale et de dtecter la tendance des cas
"au clustering ". Ces mthodes ne donnent pas la localisation des clusters.
Il existe de nombreuses mthodes de global clustering, Kulldorff [57] en liste plus dune centaine. On prsente ici le test
de Potthoff et Whittinghill, le test de Moran et le test de Tango qui sont trs utiliss dans les tudes de corrlation
spatiale.
- Test de Potthoff et Whittinghill
La premire mthode consiste tester lexistence dune htrognit spatiale globale en termes de surdispersion.
Le test dhtrognit le plus simple est celui de Pearson utilisant la loi du Chi2. Le test de surdispersion de Potthoff-
Whittinghill est plus puissant dans le cas dune htrognit faible et il est largement utilis en pidmiologie.
Sous lhypothse nulle dune distribution alatoire des cas dune maladie, les taux dincidence sont les mmes sur toute
la zone tudie et les seules variations des cas observs sont lies aux fluctuations de la loi de Poisson. Le nombre de
cas observs est suppos suivre une loi de Poisson de moyenne et de variance gale au nombre de cas attendus.
Sous lhypothse alternative de lexistence dune surdispersion des cas, un certain nombre de cas apparaissent dans
certaines zones plus frquemment que ce qui tait prdit sous lhypothse dune distribution de Poisson. Le rapport
entre la variance et la moyenne du nombre de cas observs est suprieur 1.
Le test de Potthoff et Whittinghill [41] suppose que le rapport entre la variance et la moyenne est gale 1+, o est
dfini comme la variation extra-poissonienne. Pour valuer la surdispersion du risque de maladie, on value le rapport
|/ SE(|). En labsence de surdispersion et lorsque le nombre de zones gographiques est grand, la distribution de
|/ SE(|) suit approximativement une loi Normale N(0,1).
Le package DCluster de R peut tre utilis pour calculer le test de Potthoff et Whittinghill [55].
- La statistique de Moran
Une deuxime mthode value lexistence dune htrognit spatiale globale en termes dautocorrlation spatiale.
La statistique de Moran est lindice dautocorrlation spatiale le plus utilis. Cette statistique rsume le degr de
ressemblance des units gographiques voisines par une moyenne pondre de la ressemblance entre observations.
La statistique de Moran ne prend pas en compte lhtrognit des effectifs de population : une corrlation spatiale
significative pourrait tre explique par la proximit de zones fortement peuples et non pas par un cluster de taux
levs. Des versions alternatives de la statistique de Moran ont t proposes pour prendre en compte des effectifs de
population htrognes [39].
Le package spdep de R peut tre utilis pour calculer cet indice [46].
- La statistique de Tango
Tango a propos une statistique Excess Event Test pour lvaluation du global clustering [58,59]. La mthode de Tango
teste si les cas de maladie sont regroups dans des clusters lintrieur de la rgion dtude.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 43
3.1.4 Conclusion sur la dtection de clusters et le global clustering
Ces mthodes rpondent aux objectifs suivants : tester si une maladie est distribue alatoirement dans la rgion
tudie ; dtecter des zones incidence leve
Huang et al. [39] comparent ces diffrents tests pour rpondre aux questions suivantes : quelle mthode est la plus
approprie et/ou la plus puissante pour comprendre la distribution spatiale dune maladie ? Est-il possible de fournir un
guide pour lutilisation de ces mthodes statistiques quand appliques par exemple des donnes de cancer ?
Parmi les tests de global clustering considrs Moran, Besag et Newell, Tango le test de Tango semble le plus
puissant. Parmi les mthodes de dtection de cluster tudies la statistique de scan spatiale avec fentres circulaires
et elliptiques et dautres mthodes bases sur le rapport de vraisemblance... la statistique de Kulldorff avec fentres
elliptiques semble tre la plus puissante.
Ces tests danalyse de cluster ne peuvent tre considrs que comme des mthodes de "dpistage", derrire lesquelles
des tudes plus cibles doivent tre mises en uvre pour confirmer (ou pas) les hypothses quelles permettent de
dgager [60]. Dans cette logique, lutilisation de plusieurs tests, bass sur des hypothses et des mthodes
destimations diffrentes, parat tre une solution intressante. De plus, la convergence/cohrence des rsultats de ces
diffrents tests devrait tre recherche.
3.2 Reprsentation cartographique des maladies (disease mapping)
La reprsentation cartographique des indicateurs de sant permet la description de leur distribution spatiale, la mise en
vidence de zones avec un risque lev pour la suggestion dhypothses tiologiques (caractristiques partages par les
units gographiques). La difficult est de prsenter des images fiables des variations gographiques des indicateurs de
sant (sparer les relles variations et le bruit inhrent, modliser la structure de ces variations).
Les cartes de risque de maladies prsentent souvent le SMR. Le SMR est dfini par le rapport entre un nombre de cas
observs et un nombre de cas attendus sous lhypothse dune incidence de rfrence. Le SMR correspond
lestimateur du maximum de vraisemblance du RR, les fluctuations alatoires du nombre de cas de maladie observ
tant modlises par une loi de Poisson.
Mais, pour des maladies rares ou des petites units gographiques, les SMR peuvent tre instables et donner des excs
de risque apparents.
Ce problme est du au fait de considrer les risques indpendamment, dune unit gographique lautre, sans
prendre en compte lautocorrlation spatiale [6]. La corrlation ou dpendance implique que des zones proches
gographiquement ont des risques similaires (facteurs de risque communs non mesurs).
3.2.1 Instabilit de lestimateur de maximum de vraisemblance du RR
Soient Y_i le nombre observ de cas dans lunit gographique i, E_i le nombre attendu de cas et
i
u le RR de lunit i.
Pour le modle : ( )
i i i
E Poisson Y u ~
lestimateur de MV de
i
u est :
i
i
i i
E
Y
SMR = = u
avec variance : ( )
2
var
i
i
i
E
Y
= u
On observe que les petites units ou les units avec des petits effectifs peuvent avoir une variance associe aux SMR
trs grande estimation du risque instable. La variabilit des SMR est diffrente selon les units gographiques ce qui
peut donner une reprsentation cartographique bruite o les SMR les plus extrmes correspondent le plus
probablement aux units les moins peuples [26]. Lexemple suivant est pris de GeoBUGS [61] et illustre ce point.
Exemple : cancer de la lvre en cosse
Les taux de cancer de la lvre dans 56 counties de l'cosse pour la priode 1975-1980 ont t analyss par [62], [63] et
[14] entre autres.
p. 44 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Les SMR sont prsents dans la figure 23. Des figures 23, 24 et 25, on remarque que les valeurs les plus "extrmes"
sont bases sur un nombre faible de cas attendus.
Les cartes des probabilits dexcder 1 sont encore moins informatives que les cartes des SMR : elles ne montrent pas
les valeurs des risques, des "faibles" surincidences peuvent tre mises en vidence pour des units avec une forte
population [14].
Des mthodes de lissage des SMR ont t dveloppes pour produire des estimations plus fiables. Lintrt du lissage
est de permettre de mieux apprcier la structure spatiale sous-jacente en lissant le bruit caus par linstabilit des SMR
dans les zones petit nombre de cas.
I figure 23 I
Les SMR des 56 counties de lcosse
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 45
I figure 24 I
Le nombre de cas attendus varie entre 1.1 et 88.7
I figure 25 I
SMR et nombre de cas attendus
p. 46 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
I figure 26 I
Estimation baysienne des RR des 56 counties de lEcosse (modle Poisson-gamma)
3.2.2 Lapproche baysienne de lissage de taux
Lobjectif est de lisser les diffrences de prcision des estimations initiales, les SMR, en partageant linformation
quapportent les diffrentes units gographiques.
Les SMR peuvent tre lisss en utilisant des modles hirarchiques qui prennent en compte les donnes de toutes les
units gographiques pour obtenir des estimations plus stables dans chaque unit gographique.
Dans lapproche classiquement utilise, les observations de chacune des units gographiques sont considres comme
une ralisation dune variable alatoire ayant une distribution de Poisson dont le paramtre, correspondant au RR, est
considre comme fixe et inconnu. Dans lapproche baysienne, on suppose que ce paramtre est lui-mme une
variable alatoire distribuant les risques entre les diffrentes units, cette distribution tant appele distribution
a priori. Lestimation du RR est alors le rsultat de la combinaison de linformation suppose a priori et linformation
apporte par les observations. Lorsque linformation se situe essentiellement sur les donnes, la vraisemblance est
importante. Lorsque les observations sont peu informatives, la connaissance apporte par la loi a priori devient
primordiale. Un aspect essentiel de lapproche baysienne concerne le choix de la loi a priori qui peut tre dterminant
dans les rsultats [26].
Des modles spatiaux ou des modles non spatiaux peuvent tre utiliss.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 47
- Modles non spatiaux
Modle Poisson-Gamma
Une premire approche consiste en lintroduction dune distribution a priori sur lensemble des risques. Cette structure
globale sur tout le domaine empche les estimations de prendre des valeurs trop grandes [6].
Soit :
( )
i i i i
E Y u u Poisson ~
Les risques relatifs,
i
u , sont supposs tre indpendants et identiquement distribus selon la loi gamma :
) ( o v o v u , Ga ~ ,
i
de moyenne o v et variance
2
o v
La distribution de o v,
i
Y est binomiale ngative. La moyenne et la variance de o v,
i
Y sont respectivement :
| |
o
v
o v
i i
E Y = E , , | | | | | | ( ) v o v o v o v , 1 , , Var
i i i
Y Y Y E + E = .
Ce modle est plus "raisonnable" que le modle naf de Poisson. Il prend en compte la dispersion extra-poissonnienne.
- Estimation baysienne empirique
Siv eto sont supposs connus la distribution a posteriori de
i
u suit une loi gamma. Si on a des estimations veto,
alors :
) ( o v o v u , Ga ~ , , + +
i i i
E y y .
et lestimation a posteriori du RR de lunit i est :
| | ) 1 (
SMR
, ,
i i i i
i
i
E
y
e
o
v
e
o
v
o v u + =
+
+
= E y
une combinaison pondre du SMR de lunit i et de lestimation a priori. Le poids associ au SMR de lunit i est :
o
e
+
=
i
i
i
E
E
.
On remarque que pour les units avec une population importante lestimation sera domine par les donnes et sera
proche du SMR. Pour les units avec des effectifs faibles, le poids associ au SMR sera plus petit et le lissage sera plus
important. Les estimations seront moins variables que les SMR (figure 26). Cette approche a donc pour effet dattnuer
les contrastes initiaux lis aux diffrences de prcision des estimations.
Les estimations de v et o de la binomiale ngative peuvent tre obtenues par MV [62].
- Estimation compltement baysienne
Pour une approche baysienne, une loi a priori est assigne aussi aux paramtres v et o .
Modle Poisson-lognormal avec effet alatoire
Comme le modle Poisson-gamma, il sagit dun modle baysien hirarchique caractris par :
- un premier niveau (variabilit locale dvnements rares) : la vraisemblance qui modlise la structure des
observations. Le nombre observ de cas de cancer suit une distribution de Poisson :
) ( ~ ) (
i i i i
E Poisson Y u u
- un deuxime niveau (structure interzones) : la distribution des risques relatifs. Ce niveau permet d'introduire la
variabilit extra-Poisson :
i i
U + =
0
) log( | u
p. 48 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
o
0
| est un terme constant qui reprsente l'effet moyen commun toutes les units gographiques et
i
U sont des
effets alatoires gaussiens indpendants et identiquement distribus, ) , 0 ( ~
2
u i
N U o .
La dfinition des distributions a priori de
0
| et
2
u
o est aussi ncessaire. La distribution marginale de ce modle ne
peut pas tre calcule analytiquement. Il est ncessaire de faire appel des mthodes de simulation (algorithme de
Monte Carlo par chanes de Markov). Le logiciel WinBUGS peut tre utilis [64].
Ce modle est plus flexible que le modle Poisson-gamma, il permet dintgrer facilement des covariables et une
structure spatiale entre les risques relatifs.
Modles spatiaux
Une deuxime approche consiste modliser une structure de dpendance spatiale entre les risques relatifs.
Les risques relatifs de chacune des units sont dans ce cas influencs par les risques des units voisines. On dcrit ici le
modle propos par Besag, York et Molli [65] qui est le plus utilis. Ce modle partage le risque rsiduel en un effet
alatoire non spatial et un effet spatialement structur qui suit un modle gaussien autorgressif conditionnel.
Un autre modle frquemment utilis est le modle multivari gaussien [36].
Une tendance grande chelle, nord-sud par exemple, peut tre prise en compte dans ce modle (en incluant les
coordonnes gographiques des centrodes des units spatiales).
Modle BYM (Besag, York and Molli)
Le modle hirarchique baysien de Besag, York et Molli est caractris par :
- un premier niveau (variabilit locale ou intrazone) : la vraisemblance qui modlise la structure des observations.
Le nombre observ de cas de cancer suit une distribution de Poisson :
) ( ~ ) (
i i i i
E Poisson Y u u
- un deuxime niveau (structure inter zones) : la loi a priori des risques relatifs qui rsume une information globale sur
la similarit des risques
i
u , sur leur moyenne et leur variabilit. Ce niveau permet d'introduire la dpendance spatiale :
i i i
V U + + =
0
) log( | u
avec U et V effets alatoires dcrivant l'htrognit et la corrlation spatiale, respectivement (U et V
indpendants). Les effets alatoires U et V peuvent tre considrs comme des variables latentes capturant les
effets de facteurs de risque inconnus ou non mesurs non structurs spatialement et structurs spatialement,
respectivement.
La composante d'htrognit est suppose suivre une loi normale dfinie par :
) , 0 ( ~
2
u i
N U o
o
2
u
o contrle la variabilit des RR, dans sa composante non spatiale.
La composante spatiale suppose que les units spatiales proches gographiquement tendent avoir des RR similaires.
Le modle gaussien autorgressif conditionnel, modle CAR intrinsque, permet de prendre en compte cette hypothse
avec :
|
|
|
.
|
\
|
= =
= =
=
i j
ij
v
i j
ij
i j
j ij
j j i
w w
v w
N i j v V V
2
, ~ ) , (
o
o les poids
ij
w dcrivent la proximit gographique des units i et j et
2
v
o contrle la variabilit conditionnelle des
RR, dans sa composante spatiale. Le critre de proximit gographique le plus souvent retenu est celui d'adjacence.
Les units i et j sont voisines si elles partagent une frontire commune : 1 =
ij
w si les units i et j sont voisines et
0 =
ij
w sinon (figure 27). Ce modle suppose que la distribution conditionnelle de leffet
i
V dans lunit
gographique i est une loi normale centre en la moyenne des effets de ses units voisines et de variance inversement
proportionnelle au nombre de voisins. Seul le paramtre
2
v
o est libre.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 49
I figure 27 I
Exemple de la notion de voisinage selon le critre dadjacence pour un modle CAR
Le modle CAR intrinsque a l'avantage d'tre facilement estimable. En effet, ses distributions conditionnelles
compltes ont une forme analytique connue ce qui permet de recourir l'chantillonneur de Gibbs. En revanche,
ce modle est impropre : sa moyenne est non dfinie et sa variance est infinie. La contrainte 0 =
i
i
V doit tre
impose pour rendre le modle identifiable.
Les variances
2
u
o et
2
v
o modulent les niveaux d'htrognit globale et locale respectivement. Leur comparaison
nest pas immdiate car
2
v
o est une variance conditionnelle qui dpend de la structure spatiale dfinie par les poids
{ }
ij
w alors que
2
u
o est une variance marginale. Pour cela, il est utile de calculer aussi lcart-type empirique de
i
V ,
une estimation de la variabilit marginale des effets alatoires spatialement structurs. Plus
2
u
o est petit, plus les
effets alatoires ont tendance tre similaires entre toutes les units gographiques. Plus
2
v
o est petit, plus les effets
alatoires ont tendance tre similaires entre units gographiques voisines. Il faut remarquer que, dans ce modle, un
seul paramtre,
2
v
o , contrle la dpendance spatiale : si
2
v
o est petit les rsidus dpendent fortement de leur voisins
mais la composante spatiale est "faible" dans le sens quelle contrle peu la variabilit rsiduelle [14].
Deux paramtres dcrivent la dpendance spatiale dans le modle multivari gaussien.
Les distributions a priori de
0
| ,
2
v
o et
2
u
o doivent aussi tre spcifies. Le choix des distributions a priori des
paramtres de variance est dlicat [14].
p. 50 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
Un gradient gographique, une variation lente et rgulire grande chelle, nord-sud par exemple, peut tre aussi pris
en compte dans ce modle (en incluant les coordonnes gographiques des centrodes des units spatiales, par
exemple).
Le rsultat attendu est la loi a posteriori du risque de maladie. La distribution a posteriori est le produit de la
distribution a priori et de la fonction de vraisemblance. Si les donnes sont informatives, la vraisemblance dominera la
valeur estime du RR ; dans le cas contraire, l'information apporte par la loi a priori aura un poids plus important.
Les modles hirarchiques baysiens permettent d'intgrer ces deux types d'information. Lestimation des paramtres
de ce modle fait appel des intgrales qui ne sont pas calculables par des mthodes analytiques. Il est ncessaire de
faire appel des mthodes de simulation (algorithmes stochastiques de Monte Carlo par Chanes de Markov).
Le modle BYM a l'avantage de modliser simultanment l'htrognit globale et l'htrognit locale des effets
alatoires. L'introduction de
i
V permet de ne pas leur imposer la mme variance pour chaque unit gographique
puisque le nombre de voisins est diffrent pour chaque unit. Ce modle donne un lissage mixte : un compromis entre
lissage global (obtenu par un modle Poisson-gamma, par exemple) et lissage local (obtenu par un modle avec
seulement la composante spatiale, par exemple).
Les modles spatiaux posent le problme de choix de la structure spatiale des risques relatifs. La dfinition de voisinage
est ncessaire pour le modle BYM. Le voisinage le plus souvent utilise suppose que deux units spatiales sont
voisines si elles partagent une frontire commune. Dautres voisinages peuvent tre dfinis notamment partir de la
distance entre les centrodes des units de la zone dtude.
Le modle multivari gaussien peut tre aussi utilis. Dans ce cas, la fonction de covariance doit tre dfinie. Pour ce
modle, partir dune centaine dunits spatiales, les temps de calcul peuvent tre longs.
La faiblesse de ces deux modles est lie au fait que les units spatiales ne sont pas de forme rgulire ou de
population constante.
La mise en uvre de ces modles baysiens est facilite par lutilisation du logiciel WinBUGS [64]. Ce logiciel repose
sur lestimation de la loi a posteriori par la mthode de simulation stochastique appele chantillonneur de Gibbs.
Cet algorithme permet de simuler un chantillon de la loi a posteriori jointe des paramtres du modle. Si l'algorithme
a converg, c'est--dire simule correctement et suffisamment sous cette loi jointe, les infrences statistiques sont faites
sur les lois a posteriori marginales de chacun des paramtres. Dans le cadre de nos travaux, nous nous intressons
particulirement la loi a posteriori marginale de chaque RR dont on retient la moyenne comme estimation
baysienne. Il est essentiel d'tudier la convergence de tels algorithmes.
- Modles spatio-temporels
Les risques de maladie peuvent varier dans lespace et dans le temps. Les modles spatio-temporels sont utiliss pour
dcrire lvolution dans le temps de la structure spatiale des maladies. Rcemment, plusieurs modles ont t
proposs. Ces modles peuvent tre classs en trois catgories selon la structure dvolution temporelle du risque de
chaque zone : les modles paramtriques (forme prdfinie linaire, quadratique) [66], les modles indpendants
(les risques de chaque priode sont estims indpendamment des priodes prcdentes) [67] et les modles de lissage
(ils permettent des tendances sans en prdfinir la forme) [68-70]. Lvolution temporelle pour une zone gographique
est dtermine par la somme de leffet principal temps et des termes potentiels dinteraction qui incluent le temps.
Abellan et al. [71] montrent lintrt dun modle spatio-temporel pour lanalyse des malformations congnitales en
Angleterre. Linclusion de la composante temporelle permet dtudier la stabilit de la distribution spatiale des
maladies dans le temps. Ce qui renforce linterprtation pidmiologique. Les auteurs soulignent quen effet deux
situations trs diffrentes peuvent donner le mme nombre de cas "cumul" dans le temps dans une zone
gographique : a) un taux daccumulation des cas constant dans le temps ce qui donne une distribution spatiale de la
maladie tudie constante dans le temps ou b) un taux daccumulation qui varie fortement dans le temps et de manire
diffrente pour certaines zones gographiques ce qui donne une distribution spatiale dans le temps particulirement
variable. Dans le premier cas, la distribution spatiale constante dans le temps pourrait tre explique par des facteurs
de risque constants dans le temps (sociodmographiques, environnementaux). Dans le deuxime cas, elle pourrait
tre due des facteurs de risque courte latence qui pourraient crer des excs de cas dans des brefs intervalles de
temps ou ces variations pourraient tre dues des changements "radicaux" denregistrement des cas.
Ugarte et al. [72] comparent diffrents modles spatio-temporels baysiens pour slectionner ceux qui sont les plus
adapts des donnes avec peu de fentres temporelles en gnral, les donnes ne sont pas disponibles sur des
longues priodes. Pour cela, les auteurs ont analyss les donnes de mortalit par cancer colorectal dans la rgion de
Navarre en Espagne pour la priode 1983-2002 (40 units gographiques et quatre fentres temporelles de
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 51
cinq ans) et ils ont effectus des simulations pour analyser diffrents scnarios. La conclusion est quaucun modle ne
ressort comme tant le meilleur et que pour des analyses en routine le choix du modle reste complexe.
Lestimation de ces modles est faite en gnral via les algorithmes MCMC qui ncessitent un nombre lev
ditrations afin de garantir la convergence indispensable toute estimation. Les modles spatio-temporels tant
complexes les mthodes MCMC peuvent tre trs coteuses en temps, modles estims en heures, voire en jours.
De plus, le nombre de fois ou il est ncessaire dutiliser les algorithmes MCMC peut tre trs important dans
lestimation de ces modles. En effet, il est indispensable de faire des analyses de sensibilit aux diffrents paramtres
des modles (distribution a priori, par exemple). De nombreux travaux de recherche sont consacrs acclrer et
simplifier les algorithmes MCMC dans des modles baysiens complexes. Rcemment, Rue et al. [73] ont dvelopp
INLA (Integrated Nested Laplace Approximations), un package de R, qui permet linfrence baysienne de modles
latents gaussiens. Cette mthode dinfrence repose sur des approximations de Laplace. La mthode dveloppe
permet une infrence baysienne rapide, modles estims en quelques minutes, mais qui est limite aux modles
latents gaussiens.
Plus de recherches sont ncessaires cause de la complexit de ces modles mais il sagit dun sujet de recherche trs
prometteur.
3.2.3 Conclusion sur les mthodes de disease mapping
Les mthodes prsentes ont pour objectif de fournir des reprsentations cartographiques des risques qui soient le plus
informatives possibles. Lintrt du lissage est de permettre de mieux apprcier la structure spatiale sous-jacente en
lissant le bruit caus par linstabilit des SMR dans des units petit nombre de cas. Lenjeu de ces mthodes est de
lisser les risques relatifs pour liminer le bruit li aux petits effectifs et en mme temps, de ne pas trop lisser les risques
relatifs pour pouvoir mettre en vidence leur structure spatiale. La distribution gaussienne utilise dans le modle CAR
peut amener un degr lev de lissage. Des modles alternatifs ont t dvelopps pour permettre des ventuelles
discontinuits, des changements abrupts dans la distribution spatiale des risques [74]. Le lissage conduit rduire la
sensibilit de la dtection des units RR lev. Pour remdier cet inconvnient et augmenter cette sensibilit,
Richardson et al. [75] proposent dexploiter la distribution a posteriori des risques relatifs et dfinissent des rgles de
dcision pour dtecter les zones risque lev. Richardson et al. proposent de calculer partir des rsultats des
simulations, la probabilit a posteriori que les risques relatifs soient suprieurs 1 (avec une probabilit suprieure
80 %).
Lobjectif de ces tudes est de dcrire la variabilit spatiale de la frquence de la maladie. Elles permettent non
seulement de mettre en vidence des contrastes entre les valeurs des indicateurs de sant mais aussi de suggrer et
guider la recherche de facteurs de risque environnementaux pour formuler des hypothses tiologiques. Ces tudes ont
donc toute leur place dans le cadre de lactivit de veille sanitaire [7,14,26].
Dans les publications rcentes, les principaux modles dvelopps sont axs autour de la description spatiale et spatio-
temporelle des variations du risque d'une ou plusieurs maladies. Les modles conjoints de plusieurs cancers sont
dvelopps pour rechercher des similitudes entres cancers (exposition environnementale commune) et aider gnrer
des hypothses [76-79]. Les modles conjoints de plusieurs maladies permettent de modliser un effet spatialement
structur commun aux maladies tudies. Cet effet alatoire cre un lien de dpendance indirect entre les maladies
tudies et joue le rle de substitut pour les facteurs dexposition spatialement structurs mais non mesurs qui
peuvent expliquer la rpartition spatiale du risque de maladies. Il peut tre intressant danalyser plusieurs maladies
conjointement pour mettre en vidence des tendances de risque similaires qui pourraient reflter des facteurs de risque
communs. De plus, une analyse multivarie peut donner une meilleure prcision de lestimation du risque dune
maladie en rcoltant des informations (borrowing strength) sur dautres maladies.
L'analyse de sources de donnes multiples se dveloppe aussi dans les tudes pidmiologiques en vue notamment
d'amliorer la fiabilit des diagnostics.
Les limites de ce type dtudes sont lies la faiblesse des effectifs, la difficult de prendre en compte le temps de
latence suite une exposition, la nature de la maladie qui est le plus souvent multifactorielle, au problme
dvaluation de lexposition (souvent de faible intensit et/ ou multiple), au problme des migrations surtout un
chelon gographique fin.
Dautres points importants pour la cration de bonnes cartes concernent le choix de lunit gographique, le choix de la
mthode de discrtisation et le respect des rgles de smiologie graphique (chapitre 2).
p. 52 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
3.3 Modles de rgression
Lobjectif des analyses de rgression dite "cologiques" est destimer lassociation entre les variations gographiques
dun indicateur de sant et celles de variables environnementales [6].
Le fait dtudier une maladie rare ou des petites units spatiales conduit utiliser un modle de rgression de Poisson.
Les modles sont les "mmes" que ceux utiliss pour la reprsentation cartographique.
Mais il est important de souligner que les objectifs de la reprsentation cartographique et de la rgression spatiale sont
diffrents et la stratgie de modlisation doit reflter cette diffrence [14]. Lobjectif de la reprsentation
cartographique est la prdiction des risques relatifs par unit gographique alors que lobjectif de la rgression
cologique est lestimation de la relation entre indicateur de sant et exposition.
Pour la prsentation des modles, il convient de se rfrer la section "Reprsentation cartographique".
Nous insistons ici sur quelques points qui nous paraissent importants.
On rappelle que le modle de rgression de Poisson classique est rarement adapt cause de la sur-dispersion qui
nest pas prise en compte. Il est adapt quand la variabilit intrazone est ngligeable compare la variabilit
interzones (large zone dtude et/ou maladies communes). Le modle Poisson-lognormal avec un effet alatoire
capturant le log du RR rsiduel/ inexpliqu peut tre alors utilis.
Il est peu raliste de supposer lindpendance des rsidus de la rgression : en gnral, les nombres de cas dans des
zones voisines gographiquement prsentent de la dpendance spatiale rsiduelle. Dans le cadre de la reprsentation
cartographique, cette dpendance peut tre exploite dans lestimation des risques en lissant localement entre units
voisines. Dans le cadre de la rgression, la dpendance doit tre prise en compte et les mthodes statistiques
classiques ne sont pas adaptes lanalyse de donnes dpendantes. Le modle BYM peut tre utilis. Il est important
de vrifier la sensibilit des rsultats la structure spatiale considre et aux distributions a priori des paramtres de
variance.
Les modles de rgression cologiques posent le problme de choix de la structure spatiale des rsidus.
Diffrentes modlisations de lautocorrlation des rsidus existent dans la littrature. Pour une revue de la littrature,
il convient de se reporter louvrage de Richardson [80]. Pour une comparaison de diffrents modles spatiaux,
cest larticle de Best et al. Qui fait office de rfrence [81]. Limpact de la modlisation de la dpendance spatiale des
rsidus sur lestimateur cologique doit toujours tre tudi. Latouche et al. [82] ont tudi limpact de la modlisation
dune sur-structure spatiale des rsidus : le modle imposait une structure spatiale alors que la variabilit spatiale de
lindicateur sanitaire tait compltement explique par la variable dexposition. Le modle BYM tait utilis et ne
semblait pas sous-estimer la relation cologique.
Lee and Durban [83] proposent le modle "smooth-CAR" qui permet de sparer la tendance gographique grande
chelle et la corrlation spatiale locale.
Le choix dintroduire une tendance dans le modle de rgression nest pas facile car lexposition environnementale
dintrt peut avoir aussi une structure spatiale. Si cette tendance peut tre due des facteurs de risque non mesurs
alors elle doit tre incluse dans le modle [14].
Nous avons prsent lapproche baysienne, une approche frquentiste est possible aussi, mais peu de modles ont t
explors. Un exemple est le "modle additif binomial ngatif" dcrit par Thurston et al. [84]. Ce modle permet de
prendre en compte la surdispersion (modle binomial ngatif) et de modliser la dpendance spatiale grande chelle
(modle additif gnralis).
Ces modles spatiaux peuvent dpendre fortement de lunit utilise. Modliser les coordonnes gographiques des
cas comme un processus ponctuel spatial est une approche alternative qui permet de ne plus devoir choisir une unit
spatiale [85]. La difficult est de dfinir une fonction dintensit qui modlise la distribution de la population risque.
Les variables cologiques sont souvent mesures sur diffrentes chelles qui ne sont pas toujours embotes.
En gnral, une transformation des donnes est effectue pour les mettre toutes la mme chelle ce qui implique une
perte importante dinformation. Des modles existent qui permettent de traiter des donnes de sant, de population et
dexposition disponibles des chelles diffrentes [19].
Linfrence doit tre faite au niveau agrge de la zone tudie, il est difficile de transposer les rsultats au niveau
individuel. Ce point est discut dans le chapitre 1.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 53
4. Un outil dinvestigation rapide en sant environnement :
The Rapid Inquiry Facility
Le Rapid Inquiry Facility (RIF) a t cr pour traiter rapidement des questions pidmiologiques et de sant publique.
Il a t conu par lquipe du SAHSU du Dpartement dpidmiologie et sant publique de lImperial College de
Londres (www.sahsu.org), afin danalyser des donnes sanitaires en relation avec des expositions environnementales.
Cest un outil qui permet de croiser des donnes sanitaires, environnementales, dmographiques, de prendre en
compte des facteurs de confusion et dassocier lensemble gographiquement.
RIF est bas sur un systme dinformation gographique et constitue une extension gratuite du logiciel de SIG
ArcGIS
9. Il permet aux utilisateurs un accs aux fonctionnalits quoffre un SIG sans avoir besoin de connaissances
approfondies du logiciel. Mais lapplication tant intgre dans ArcGIS
intervient en deuxime position une fois la base de donnes construite. Mais RIF est
bas sur "la philosophie" SIG. Le logiciel de SIG est le support des dveloppements de RIF qui en est une extension.
Un simple onglet sajoute linterface habituelle. On a donc accs toutes les fonctionnalits classiques dArcGIS
(ajout de couches, symbologie, mise en page, etc.). Le SIG est utilis pour ses capacits de croisement de donnes,
danalyse et de communication (cartographie) et son utilisation est simplifie au maximum afin dtre accessible aux
non-connaisseurs du logiciel. Il permet de dfinir rapidement une population expose, par rapport son loignement
au site, en crant des cercles concentriques autour du point source dune part ou par rapport aux valeurs dexposition,
si disponibles. Il permet la visualisation et lanalyse dun contexte environnemental grce lajout dinformations sur
loccupation du sol, le rseau routier, etc.
3
Lien informatique vers une source de donnes construire dans les outils dadministration du panneau de configuration du poste de travail.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 55
I figure 29 I
Architecture de la base de donnes de RIF
Il est important de rappeler que RIF est ax sur linvestigation de problmes grande chelle (sur des petites units
gographiques comme la commune, lIris, llot). En Grande-Bretagne, lunit gographique utilise est, par exemple,
le zip code (code postal denviron 10 000 personnes) ou encore le district (plus petite unit du recensement national,
environ 400 personnes) et les rgions pouvant tre utilises comme niveau de comparaison comptent autour de
10 millions de personnes.
RIF peut tre utilis pour deux types dtude : lanalyse de risque autour dun point source prdfini et la cartographie
des indicateurs de sant (RIF) Documentation: How to use the RIF ?).
Lobjectif de lanalyse de risque autour dun point source est de dcrire le risque sanitaire proximit du site tudi :
observe-t-on un risque sanitaire plus lev proximit du site ? Pour cela, il faut avoir dfini la zone potentiellement
expose et des ventuelles classes dexposition. RIF permet alors de calculer les ratios standardiss (mthode de
standardisation indirecte), SMR, leurs intervalles de confiance et de tester lhomognit de ces indicateurs. Pour cela,
le test dhomognit du chi2 et le test de tendance linaire sont raliss. La figure 30 est une copie dcran de RIF lors
du calcul des SMR autour de plusieurs points sources (pour cet exemple, la distance est utilise comme proxy de
lexposition et les SMR sont calculs par classe de distance).
La reprsentation cartographique des maladies permet de dcrire la distribution gographique du risque dune
pathologie :
le risque de maladie varie-t-il spatialement ?
observe-t-on en moyenne ce que lon attendait dans chacune des units gographiques ?
si des "carts" sont observs, ont-ils une disposition gographique particulire tendance lagrgation spatiale,
gradient gographique ?
Pour cela, il est possible de produire les cartes des ratios standardiss. Le lissage baysien des ratios standardiss est
mis en uvre (modle Poisson-Gamma et modle BYM) pour pouvoir prendre en compte linstabilit de cet indicateur
dans lanalyse de petites units gographiques. La figure 31 est une impression dcran de RIF o apparat le module
de reprsentation cartographique dindicateurs sanitaires. On peut ainsi noter que loutil dtermine lui-mme les
bornes de la classification selon une mthode de discrtisation par dfaut (mthode des seuils naturels) ainsi que la
gamme de couleurs pour la reprsentation.
ACCESS / ORACLE
Base de donnes
ArcGIS
Zones gographiques
(dcoupage administratif)
Co facteurs (donnes
sociodmographiques)
Numrateur: cas de cancers,
donnes de mortalit, etc.
Dnominateur: donnes du
recensement de la population
LIEN ODBC Dmarrer RIF
Dfinir la zone dtude
Dfinir la zone de comparaison
Donnes spatiales
Sorties et exports
Dfinir linvestigation
Lancer ltude
Visualiser les
donnes en sortie
Cartes
SaTScan
WinBUGS
Rapports
Contours gographiques, donnes
dexposition (occupation du sol,
sites industriels, etc.), informations
contextuelles
Lancer
des
modules
externes
p. 56 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
La dmarche mthodologique de description des donnes dans RIF est parfaitement balise et la plupart des outils sont
dj paramtrs, ce qui permet aux utilisateurs dtre guids tape par tape. Ainsi, malgr le fait quil sagisse dune
extension du logiciel ArcGIS
et WinBUGS
est aussi utilis. Une analyse spatio-temporelle est faite pour dtecter des agrgats circulaires ou elliptiques.
Lincidence du cancer du poumon et lincidence du cancer du rein sont significativement plus leves chez la population
potentiellement expose pour deux des six priodes tudies. Ces ratios sont calculs en prenant en compte les deux
covariables supplmentaires.
La reprsentation cartographique du cancer du poumon obtenue avec RIF et les rsultats de SaTScan
sont prsents.
Deux clusters significatifs sont identifis. Quand on inclut les deux covariables, aucun cluster nest identifi avec
SaTScan
.
Cette tude dmontre lutilit de RIF comme outil danalyse rapide de risque de maladie dans une population dfinie et
comme outil dexploration de la distribution gographique dune maladie en connexion avec SaTScan
.
Utiliser des mthodes qui permettent dexplorer la structure spatiale et temporelle dune maladie aide identifier des
populations et des facteurs potentiellement dintrt pour des investigations ultrieures.
Dans cette tude, des excs de risque pour les cancers du poumon et du rein sont mis en vidence chez la population
potentiellement expose. Mais, cette analyse ne fait pas (et ne peut pas faire) le lien entre risque de cancer et
exposition. Linclusion de covariables qui pourraient expliquer ces excs de risque est indispensable.
RIF permet damliorer la capacit et lefficacit dinvestigations de sant publique de maladies lies lenvironnement
comme le cancer.
Ltude de Ferrandiz et al. [89] est un autre exemple intressant de lutilisation de RIF. Ici, il est utilis pour explorer
lassociation entre la mortalit de maladies cardiovasculaires et la "duret" de leau de boisson.
Dune manire gnrale, il sagit dtudes descriptives qui ont pour objectif de dcrire ltat de sant dune population
vivant proximit dune source polluante partir de donnes disponibles, il sagit en particulier de comparer
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 59
lincidence/mortalit avec celle dune population de rfrence et mettre en vidence ou pas une ventuelle
surincidence/mortalit en relation avec un risque environnemental. Lide est de sappuyer sur des donnes recueillies
en routine.
4.3 Dveloppement de RIF
Une version mise jour du RIF est prvue pour 2010. La mise jour des donnes devrait tre facilite pour les tudes
menes en routine. Des modles statistiques pour lanalyse des ventuelles relations sant-environnement et des
modles statistiques pour la reprsentation spatio-temporelle des maladies devraient tre mis en uvre.
Le dveloppement de RIF se ralise dans le cadre des projets EUROHEIS et EUROHEIS2 et du National Environmental
Public Health Tracking Network du CDC.
Le National Institute for Public Health and the Environment (RIVM) est en train de dvelopper un projet dans lequel
loutil RIF est un lment essentiel.
- Les projets europens EUROHEIS (2000-2003) et EUROHEIS2 (2007-2010)
Lobjectif du projet EUROHEIS (http://www.euroheis.org/) tait damliorer lanalyse de donnes sanitaires pour
lestimation des associations entre pollution environnementale et maladie et pouvoir rpondre rapidement des
menaces environnementales en amliorant les connaissances et la comprhension de la gestion des risques sanitaires
[90].
Loutil RIF tait dvelopp et mis en uvre pour explorer les liens entre exposition des polluants environnementaux
et risques sanitaires potentiels. Il a t ncessaire de faire linventaire des bases de donnes gographiques existantes
dans chaque pays participant au projet, de vrifier leur disponibilit, accessibilit et cot, et de recueillir des
informations sur leur qualit et exhaustivit, ceci pour des donnes de sant, dmographiques, environnementales et
socio-conomiques.
Lutilit de RIF tait dmontre par des cas dtude raliss dans chaque pays participant au projet.
Lobjectif du projet EUROHEIS2 est damliorer lanalyse, la communication et la diffusion dinformation sur les risques
sanitaires associs des pollutions environnementales locales ou rgionales.
Ce projet poursuit le dveloppement du systme dinformation sant et environnement RIF dbut dans EUROHEIS.
Le projet se focalise sur les outils et mthodes pour lvaluation rapide des risques sanitaires lis lenvironnement.
Un des enjeux est linclusion dans RIF des mthodes de reprsentation cartographique spatio-temporelle des maladies
potentiellement lies une exposition environnementale. Une des difficults est la diversit des donnes des diffrents
pays participant au projet.
- Le national EPHT Network du CDC
La technologie des SIG et les mthodes danalyse spatiale associes sont au centre du systme de surveillance de ltat
de sant des populations aux tats-Unis. Lquipe du SAHSU, en partenariat avec le CDC, adapte loutil RIF des
programmes de surveillance sanitaire de certains tats dans le cadre du programme national de surveillance en sant
publique et environnement. Le but tant dvaluer les relations spatio-temporelles entre une pathologie et une
exposition environnementale.
- Le programme Small Area Health Analyses (SMARHAGT) du RIVM
Lobjectif du programme SMARHAGT du RIVM est de dvelopper un outil permettant la surveillance de la sant
environnementale, lanalyse de groupement de cas, lvaluation de risque lchelle nationale, rgionale et locale
partir de donnes dexposition et de sant disponibles en routine.
Les objectifs spcifiques sont :
faciliter la reprsentation cartographique des maladies en utilisant RIF, pour explorer les liens entre exposition
environnementale et indicateurs sanitaires ;
faciliter des tudes de corrlation gographique ;
faciliter lutilisation des mthodes de dtection de clusters spatiaux ou spatio-temporels ;
construire des bases de donnes nationales avec des expositions environnementales, des indicateurs
dmographiques et socio-conomiques gorfrencs pour tre utiliss une chelle locale.
p. 60 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
4.4 Conclusion : utilit et limites de RIF
RIF a t dvelopp pour rpondre rapidement des questions "environnement-sant". Cest un outil de description
des donnes de sant. Il ne permet pas destimer une relation entre des pathologies et des sources de pollution mais de
formuler des hypothses, quant un ou des facteurs explicatifs. Le lien direct avec des logiciels comme SaTScan
et
WinBUGS
dESRI
reprsente aussi une contrainte non ngligeable mme si aujourdhui, le monde de la sant est quasi
exclusivement quip par ESRI
.
La mise en place dun projet RIF doit faire lobjet dun plan dtude comme pour toute tude pidmiologique.
Sagissant dtudes locales, il faut avoir dfini : la zone dtude et la zone potentiellement expose, la population de
rfrence, lunit gographique danalyse.
En rsum, squiper de RIF peut savrer intressant pour mener rapidement des tudes descriptives en labsence de
spcialistes SIG et de statisticiens. Lors dinvestigations en sant environnement, il est rare que lon sarrte des
analyses descriptives. En gnral, des analyses statistiques mettant en uvre des mthodes plus pousses sont
ncessaires.
Par ailleurs, RIF sappuie sur la mise en place dune base de donnes relie un SIG et dont ladministration est lourde.
Par consquent, nous pensons que RIF doit tre envisag dans les tudes ayant une base de donnes sanitaires ne
ncessitant pas de mises jour rgulires. Pour autant, lobjectif est dexploiter cette base de donnes pour rpondre
diffrentes investigations.
5. Conclusion
Ce document a t construit dans lobjectif de montrer les diffrents types dtudes spatiales en sant environnement,
de balayer un certain nombre de mthodes statistiques et SIG, de fournir des rfrences bibliographiques diverses sur
lutilisation des statistiques spatiales et des SIG en sant. Au terme de ce travail, il semble intressant de revenir sur ces
diffrentes mthodes en proposant des axes de dveloppement et damlioration.
Lapproche spatiale en sant environnement permet damliorer la description dun fait de sant en le replaant dans
son contexte environnemental, notamment lorsquun lien avec lenvironnement est suspect. Les mthodes danalyse
gographique mises en uvre aussi bien au moyen des SIG que par les statistiques spatiales contribuent ainsi
dvelopper la connaissance sur ces vnements sanitaires et sur les populations et les territoires quils concernent.
Ce faisant, elles sinscrivent pleinement dans les missions qui sont celles de lInVS. Mais les mthodes statistiques et les
utilisations des SIG qui permettent de prendre en compte la rpartition spatiale dun fait de sant et dun contexte
environnemental sont nombreuses et leur mise en uvre ncessite une rflexion approfondie.
Nous avons centr ce travail sur les tudes cologiques dans lesquelles lon traite des donnes agrges et non
individuelles. Malgr un certain nombre de biais et de difficults dinterprtation lis prcisment la nature agrge
des donnes, ces tudes prsentent certains avantages, notamment en termes de puissance statistique, dtendue de la
zone et de la population dtude. Elles peuvent aider gnrer des hypothses quant leffet dune exposition sur la
sant au niveau agrg. Ces hypothses permettent, dans un deuxime temps, damorcer une rflexion sur la causalit
de cet effet. Lobjectif de ces tudes est destimer les risques lis la survenue dvnements rares, soit pour obtenir
une reprsentation cartographique des risques, la plus informative possible, soit pour quantifier les liens entre un
indicateur sanitaire et des covariables environnementales. De nombreux travaux sont consacrs au dveloppement
mthodologique des tudes cologiques gographiques en sant-environnement et concernent en particulier les
mthodes de dtection de clusters, les modles spatiaux, spatio-temporels, les modles conjoints de plusieurs maladies
ou de sources de donnes multiples, la convergence des algorithmes MCMC et, plus gnralement, lestimation dans le
contexte baysien. Paralllement, lutilisation accrue des SIG en sant environnementale rend compte de son intrt
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 61
dans les problmatiques traites. Il convient de poursuivre les dveloppements mthodologiques avec lobjectif
daffiner les mthodes danalyse mises en uvre dans la construction des indicateurs dexposition et des covariables.
Il faut galement encourager lamlioration de la collecte des donnes en vue dun go-rfrencement de meilleure
qualit.
Les projets europens tels que EUROHEIS et EUROHEIS2 et le dveloppement doutils tels que RIF ont permis de
diffuser les tudes cologiques gographiques dans plusieurs Instituts de sant publique europens et au CDC, et de
rendre les mthodes associes ces tudes plus accessibles. Les programmes SMARHAGT du RIVM et le National EPHT
du CDC ont fait le choix dutiliser pleinement ces outils en les intgrant dans leurs rflexions en sant
environnementale. Ces diffrents projets sont la preuve que, malgr les biais et les difficults induits par les tudes
gographiques, celles-ci trouvent aujourdhui de plus en plus leur place dans le champ de lpidmiologie
environnementale.
Les travaux de dveloppement mthodologique devront avoir comme objectif de tenter de rduire ces biais.
Lapport des tudes de corrlations gographiques ne nous semble pas devoir tre remis en cause, mais un certain
nombre de conditions doivent tre vrifies : il faut notamment quune mesure de lexposition soit disponible, quil soit
possible de prendre en compte les facteurs de confusion potentiels, que lunit spatiale soit adapte aux objectifs de
ltude. Combiner des donnes dexposition individuelles ou intra-unit spatiale avec les donnes agrges permet
damliorer ce type dtude [17,18]. Par ailleurs, en gnral, dans les tudes de corrlations gographiques, les
donnes de sant sont agrges sur des priodes relativement longues (de 10 ans ou plus) et linformation temporelle
nest pas exploite. Utiliser des modles spatio-temporels permettrait dajouter une composante temporelle et
dobserver dventuelles interactions spatio-temporelles.
Enfin, un des axes de ces dveloppements concerne plus particulirement les tudes dinvestigations autour dun point
source, pour lesquelles il semble plus pertinent de raliser une tude multicentrique autour de sites prsentant les
mmes caractristiques dmission [52-54;91;92].
Nous avons dcrit lapproche spatiale telle quelle est intgre aujourdhui dans les tudes que nous sommes amens
conduire dans le cadre de notre travail au DSE de lInVS. Nous continuerons suivre les dveloppements
mthodologiques qui tendent rduire les biais constats dans les tudes cologiques.
De manire plus gnrale, la connaissance gographique, parce quelle implique la connaissance des territoires et des
populations, semble trouver pleinement sa place dans les missions qui sont celles dun institut comme lInVS. Une telle
rflexion gographique doit donc tre de plus en plus souvent intgre dans ses travaux, comme cest le cas pour de
nombreuses tudes de sant menes dans dautres pays, et notamment dans les pays anglo-saxons.
6. Rfrences bibliographiques
[1] Beale L, Abellan JJ, Hodgson S, Jarup L. Methodologic issues and approaches to spatial epidemiology. Environ
Health Perspect 2008;116(8):1105-10.
[2] Elliott P, Wakefield JC, Best NG, Briggs DJ. Spatial epidemiology: methods and applications. In: Elliott P, Wakefield
JC, Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications.Oxford: Oxford University Press;
2000. p. 3-14.
[3] Goria S, Le Tertre A. Les tudes locales autour d'un point source - Les diffrentes mthodes statistiques, leurs
avantages et leurs inconvnients. Note mthodologique. Saint-Maurice: Institut de veille sanitaire; 2010. 8 p.
Disponible partir de l'URL : http://www.invs.sante.fr
[4] IRSN. Les tudes pidmiologiques des leucmies autour des installations nuclaires chez l'enfant et le jeune
adulte: revue critique. 2008.
[5] Lawson AB, Biggeri A, Williams FLR. A review of modelling approaches in health risk assessment around putative
sources. In: Lawson AB, Biggeri A, Bhning D, Lesaffre E, Viel JF, Bertollini R, (dir.). Disease mapping and risk
assessment for public health. Chichester: Wiley; 1999. p. 231-45.
[6] Guihenneuc-Jouyaux C. Statistical modelization of geographic variations: a major challenge in epidemiology and
statistics. Rev Epidemiol Sant Publique 2002;50(5):409-12.
p. 62 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
[7] Richardson S. Problmes mthodologiques dans les tudes cologiques sant-environnement. CR Acad Sci Paris,
Sciences de la Vie/Life Sciences 2000;323:611-6.
[8] Best NG, Cockings S, Bennett JE, Wakefield JC, Elliott P. Ecological regression analysis of environmental benzene
exposure and childhood leukaemia: sensitivity to data inaccuracies, geographical scale and ecological bias. Journal
of the Royal Statistical Society, Series A 2001;164:155-74.
[9] Cordier S, Chevrier C, Robert-Gnansia E, Lorente C, Brula P, Hours M. Risk of congenital anomalies in the vicinity
of municipal solid waste incinerators. Occup Environ Med 2004;61(1):8-15.
[10] Maheswaran R, Haining RP, Pearson T, Law J, Brindley P, Best NG. Outdoor NOx and stroke mortality: adjusting
for small area level smoking prevalence using a Bayesian approach. Statistical methods in medical research
2006;15(5):499-516.
[11] Nieuwenhuijsen MJ, Toledano MB, Bennett J, Best N, Hambly P, de HC et al. Chlorination disinfection by-products
and risk of congenital anomalies in England and Wales. Environ Health Perspect 2008;116(2):216-22.
[12] Richardson S, Monfort C, Green M, Draper G, Muirhead C. Spatial variation of natural radiation and childhood
leukaemia incidence in Great Britain. Stat Med 1995;14(21-22):2487-501.
[13] Fabre P, Daniau C, Goria S, de Crouy-Chanel P, Empereur-Bissonnet P. tude d'incidence des cancers proximit
des usines d'incinration d'ordures mnagres. Saint-Maurice: Institut de veille sanitaire; 2008. 139 p. Disponible
partir de l'URL : http://www.invs.sante.fr
[14] Wakefield J. Disease mapping and spatial regression with count data. Biostatistics 2007;8(2):158-83.
[15] Salway R. Statistical issues in the analysis of ecological studies, Ph.D. Thesis Imperial College School of Medicine,
University of London; 2003.
[16] Wakefield JC, Salway R. A statistical framework for ecological and aggregate studies. Journal of the Royal
Statistical Society, series A 2001;164:119-37.
[17] Salway R, Wakefield J. A hybrid model for reducing ecological bias. Biostatistics 2008;9(1):1-17.
[18] Jackson C, Best N, Richardson S. Hierarchical related regression for combining aggregate and individual data in
studies of socio-economic disease risk factors. Journal of the Royal Statistical Society, Series A 2008;171(1):159-
78.
[19] Best N, Ickstadt K, Wolpert R. Spatial Poisson regression for health and exposure data measured at disparate
resolutions. Journal of the American Statistical Society 2000;95:1076-88.
[20] Fortunato L, Guihenneuc-Jouyaux C, Tirmarche M, Laurier D, Hmon D. Misspecification of within-area exposure
distribution in ecological Poisson models. Environ Ecol Stat 2009;16:341-53.
[21] Fleuret S, Thouez JP. Gographie de la sant, un panorama. Paris : Economica; 2007.
[22] Nuckols JR, Ward MH, Jarup L. Using geographic information systems for exposure assessment in environmental
epidemiology studies. Environ Health Perspect 2004;112(9):1007-15.
[23] Bguin M, Pumain D. La reprsentation des donnes gographiques: statistique et cartographie. Armand Colin d.;
1994. 192 p.
[24] Bertin J. Smiologie graphique: les diagrammes, les rseaux, les cartes. Paris : EHESS; 1999.
[25] Jenks GF, Caspall FC. Error on choroplethic maps: definition, measurement, reduction. Annals of the Association of
American Geographers 1971;61(2):217-44.
[26] Colonna M. Habilitation diriger des recherches Universit Joseph Fourier, Grenoble; 2006.
[27] Pumain D, Saint-Julien T. L'analyse spatiale, localisation dans l'espace. Armand Colin d. Paris: 2008. 166 p.
[28] Ord JK, Getis A. Local spatial autocorrelation statistics: distributional issues and an application. Geographical
Analysis 1995;27(4):286-306.
[29] Vandentorren S. Exposition environnementale l'amiante chez les personnes riveraines d'anciens sites industriels
et affleurements naturels. tude cas-tmoins partir des donnes du Programme national de surveillance du
msothliome. Saint-Maurice: Institut de veille sanitaire; 2009. Disponible partir de l'URL :
http://www.invs.sante.fr.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 63
[30] Counil E, Daniau C, Isnard H. tude de sant publique autour d'une ancienne usine de broyage d'amiante : le
Comptoir des minraux et matires premires Aulnay-sous-Bois (Seine-Saint-Denis) - Pollution environnementale
entre 1938 et 1975 : impacts sanitaires et recommandations. Saint-Maurice: Institut de veille sanitaire; 2007.
254 p. Disponible partir de l'URL : http://www.invs.sante.fr.
[31] De Crouy-Chanel P. tude SIG de la corrlation entre exposition indirecte l'amiante et asbestose. Geomatique
Expert 2007;54:28-32
[32] Poulstrup A, Hansen HL. Use of GIS and exposure modeling as tools in a study of cancer incidence in a population
exposed to airborne dioxin. Environ Health Perspect 2004;112(9):1032-6.
[33] Yu CL, Wang SF, Pan PC, Wu MT, Ho CK, Smith TJ et al. Residential exposure to petrochemicals and the risk of
leukemia: using geographic information system tools to estimate individual-level residential exposure. Am J
Epidemiol 2006;164(3):200-7.
[34] Hoek G, Beelen R, de Hoogh K, Vienneau D, Gulliver J, Fischer P et al. A review of land-use regression models to
assess spatial variation of outdoor air pollution. Atmos Environ 2008;42:7561-78.
[35] Best N, Ickstadt K, Wolpert R, Briggs D. Combining models of health and exposure data: the SAVIAH study. In:
Elliott P, Wakefield JC, Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications.Oxford: Oxford
University Press; 2000. p. 393-414.
[36] Waller LA, Gotway CA. Applied Spatial Statistics for Public Health Data. Hoboken, New Jersey: Wiley; 2004.
[37] Elliott P, Wakefield JC, Best NG, Briggs DJ. Spatial epidemiology: methods and applications. Oxford: Oxford
University Press; 2000.
[38] Disease mapping with a focus on evaluation. Stat Med 19; 2000.
[39] Huang L, Pickle LW, Das B. Evaluating spatial methods for investigating global clustering and cluster detection of
cancer cases. Stat Med 2008;27(25):5111-42.
[40] Demattei C. Dtection d'agrgats temporels et spatiaux, Ph.D. Thesis Universit Montpellier 1 UFR de mdecine,
Montpellier; 2006.
[41] Wakefield JC, Kelsall JE, Morris SE. Clustering, cluster detection, and spatial variation in risk. In: Elliott P,
Wakefield JC, Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications. Oxford: Oxford University
Press; 2000. p. 128-52.
[42] Kulldorff M, Nagarwalla N. Spatial disease clusters: detection and inference. Stat Med 1995;14(8):799-810.
[43] Kulldorff M, Huang L, Pickle L, Duczmal L. An elliptic spatial scan statistic. Stat Med 2006;25(22):3929-43.
[44] Kulldorff M. A spatial scan statistic. Commun Stat Theory Methods 1997;26(6):1481-96.
[45] Kulldorff M. SaTScan User Guide for version 7.0; 2006.
[46] Bivand RS, Pebesma EJ, Gomez-Rubio V. Applied spatial data analysis with R. Springer; 2008.
[47] Tango T, Takahashi K. A flexibly shaped spatial scan statistic for detecting clusters. Int J Health Geogr 2005;4:11.
[48] Assuncao R, Costa M, Tavares A, Ferreira S. Fast detection of arbitrarily shaped disease clusters. Stat Med
2006;25(5):723-42.
[49] Morris SE, Wakefield JC. Assessment of disease risk in relation to a pre-specified source. In: Elliott P, Wakefield JC,
Best NG, Briggs DJ, (dir.). Spatial epidemiology: methods and applications.Oxford: Oxford University Press;
2000;153-84.
[50] Bithell JF, Stone RA. On statistical methods for analysing the geographical distribution of cancer cases near nuclear
installations. J Epidemiol Community Health 1989;43(1):79-85.
[51] Stone RA. Investigations of excess environmental risks around putative sources: statistical problems and a
proposed test. Stat Med 1988;7(6):649-60.
[52] Elliott P, Shaddick G, Kleinschmidt I, Jolley D, Walls P, Beresford J et al. Cancer incidence near municipal solid
waste incinerators in Great Britain. Br J Cancer 1996;73(5):702-10
[53] Bithell JF, Dutton SJ, Draper GJ, Neary NM. Distribution of childhood leukaemias and non-Hodgkin's lymphomas
near nuclear installations in England and Wales. BMJ 1994;309(6953):501-5.
p. 64 / Introduction aux statistiques spatiales et aux systmes dinformation gographique Institut de veille sanitaire
[54] White-Koning ML, Hemon D, Laurier D, Tirmarche M, Jougla E, Goubin A et al. Incidence of childhood leukaemia in
the vicinity of nuclear sites in France, 1990-1998. Br J Cancer 2004;91(5):916-22.
[55] Gomez-Rubio V, Ferrandiz-Ferragud J, Lopez-Quilez A. Detecting clusters of disease with R. Journal of
Geographical Systems 2005;7(2):189-206.
[56] Bithell JF. The choice of test for detecting raised disease risk near a point source. Stat Med 1995;14(21-22):2309-
22.
[57] Kulldorff M. Tests of spatial randomness adjusted for an inhomogeneity: a general framework. Journal of the
American Statistical Association 2006;101(475):1289-305.
[58] Tango T. A class of tests for detecting 'general' and 'focused' clustering of rare diseases. Stat Med 1995;14(21-
22):2323-34.
[59] Tango T. A test for spatial disease clustering adjusted for multiple testing. Stat Med 2000;19(2):191-204.
[60] Chirpaz E, Colonna M, Viel JF. [Cluster analysis in geographical epidemiology: the use of several statistical
methods and comparison of their results]. Rev Epidemiol Sante Publique 2004;52(2):139-49.
[61] Thomas A, Best N, Lunn DJ, Arnold R, Spiegelhalter D. GeoBUGS User Manual; 2004.
[62] Clayton D, Kaldor J. Empirical Bayes estimates of age-standardized relative risks for use in disease mapping.
Biometrics 1987;43(3):671-81.
[63] Breslow NE, Clayton DG. Approximate inference in generalised linear mixed models. Journal of the American
Statistical Association 1993;88:9-25.
[64] Lunn DJ, Thomas A, Best N, Spiegelhalter D. WinBUGS- a Bayesian modelling framework: concepts, structure, and
extensibility. Statistics and Computing 2000;10:325-37.
[65] Besag J, York J, Molli A. Bayesian image restoration, with two applications in spatial statistics (with Discussion).
Annals of the Institute of Statistical Mathematics 1991;43(1):1-59.
[66] Bernardinelli L, Clayton DG, Pascutto C, Montomoli C, Ghislandi M, Songini M. Bayesian analysis of space-time
variation in disease risk. Stat Med 1995;14(21-22):2433-43.
[67] Waller LA, Carlin BP, Xia H, Gelfand AE. Hierarchical spatio-temporal mapping of disease rates. Journal of the
American Statistical Association, 1997;92:607-17.
[68] Knorr-Held L. Bayesian modelling of inseparable space-time variation in disease risk. Stat Med 2000;19(17-
18):2555-67.
[69] MacNab YC, Dean CB. Autoregressive spatial smoothing and temporal spline smoothing for mapping rates.
Biometrics 2001;57(3):949-56.
[70] MacNab YC, Dean CB. Spatio-temporal modelling of rates for the construction of disease maps. Stat Med
2002;21(3):347-58.
[71] Abellan JJ, Richardson S, Best N. Use of space-time models to investigate the stability of patterns of disease.
Environ Health Perspect 2008;116(8):1111-9.
[72] Ugarte MD, Goicoa T, Ibanez B, Militino AF. Evaluating the performance of spatio-temporal Bayesian models in
disease mapping. Environmetrics 2009;20:647-65.
[73] Rue H, Martino S, Chopin N. Approximate bayesian inference for latent gaussian models by using integrated
nested Laplace approximations (with discussion). Journal of the Royal Statistical Society, series B 2009;71:319-92.
[74] Green PJ, Richardson S. Hidden Markov models and disease mapping. Journal of the American Statistical
Association 2002;97:1055-70.
[75] Richardson S, Thomson A, Best NG, Elliott P. Interpreting posterior relative risk estimates in disease mapping
studies. Environ Health Perspect 2004;112:1016-25.
[76] Best N, Hansell AL. Geographic variations in risk: adjusting for unmeasured confounders through joint modelling of
multiple diseases. Epidemiology 2009;20(3):400-10.
[77] Dabney AR, Wakefield JC. Issues in the mapping of two diseases. Statistical methods in medical research
2005;14:83-112.
Institut de veille sanitaire Introduction aux statistiques spatiales et aux systmes dinformation gographique / p. 65
[78] Held L, Natario I, Fenton SE, Rue H, Becker N. Towards joint disease mapping. Statistical methods in medical
research 2005;14:61-82.
[79] Tzala E, Best N. Bayesian latent variable modelling of multivariate spatio-temporal variation in cancer mortality.
Statistical methods in medical research 2008;17:97-118.
[80] Richardson S. Spatial models in epidemiological applications. In: Green PJ, Hjort NL, Richardson S, (dir.). Highly
Structured Stochastic Systems.Oxford: Oxford Statistical Science Series; 2003. p. 237-59.
[81] Best N, Richardson S, Thomson A. A comparison of Bayesian spatial models for disease mapping. Stat Methods
Med Res 2005;14(1):35-59.
[82] Latouche A, Guihenneuc-Jouyaux C, Girard C, Hemon D. Robustness of the BYM model in absence of spatial
variation in the residuals. Int J Health Geogr 2007;6:39.
[83] Lee DJ, Durban M. Smooth-CAR mixed models for spatial count data. Computational Statistics and Data Analysis
2009;53:2968-79.
[84] Thurston SW, Wand MP, Wiencke JK. Negative binomial additive models. Biometrics 2000;56(1):139-44.
[85] Diggle PJ, Tawn JA, Moyeed RA. Model-based geostatistics (with discussion). Appl Statist 1998;47:299-350.
[86] Ball W, LeFevre S, Jarup L, Beale L. Comparison of different methods for spatial analysis of cancer data in Utah.
Environ Health Perspect 2008;116(8):1120-4.
[87] Hodgson S, Nieuwenhuijsen MJ, Hansell A, Shepperd S, Flute T, Staples B et al. Excess risk of kidney disease in a
population living near industrial plants. Occup Environ Med 2004;61(8):717-9.
[88] Hodgson S, Nieuwenhuijsen MJ, Elliott P, Jarup L. Kidney disease mortality and environmental exposure to
mercury. Am J Epidemiol 2007;165(1):72-7.
[89] Ferrandiz J, Abellan JJ, Gomez-Rubio V, Lopez-Quilez A, Sanmartin P, Abellan C et al. Spatial analysis of the
relationship between mortality from cardiovascular and cerebrovascular disease and drinking water hardness.
Environ Health Perspect 2004;112(9):1037-44.
[90] Kokki E, Ranta J, Penttinen A, Pukkala E, Pekkanen J. Small area estimation of incidence of cancer around a known
source of exposure with fine resolution data. Occup Environ Med 2001;58(5):315-20.
[91] Elliott P, Richardson S, Abellan JJ, Thomson A, de HC, Jarup L et al. Geographic density of landfill sites and risk of
congenital anomalies in England. Occup Environ Med 2009;66(2):81-9.
[92] Evrard AS, Hemon D, Morin A, Laurier D, Tirmarche M, Backe JC et al. Childhood leukaemia incidence around
French nuclear installations using geographic zoning based on gaseous discharge dose estimates. Br J Cancer
2006;94(9):1342-7.
Institut de veille sanitaire
12 rue du Val dOsne
94 415 Saint-Maurice Cedex France
Tl. : 33 (0)1 41 79 67 00
Fax : 33 (0)1 41 79 67 67
www.invs.sante.fr
ISSN : 1958 -9719
ISBN-NET : 978-2-11-128246-9
Dpt lgal : mars 2011
Introduction aux statistiques spatiales et aux systmes dinformation
gographique en sant environnement
Application aux tudes cologiques
Les variations spatiales des indicateurs de sant et des facteurs dexpositions environnementales sont tudies en pidmiologie
dans un but descriptif et afin de suggrer des hypothses tiologiques.
Lobjectif de ce travail est de prsenter et discuter les principaux outils et mthodes mettant en uvre des systmes dinformation
gographiques (SIG) et les statistiques spatiales utilises dans les tudes cologiques gographiques. Ce travail sintresse aux
tudes cologiques dans lesquelles les variables (indicateurs de sant et facteurs de risque) sont mesures lchelle dune unit
gographique (commune, lots regroups pour linformation statistique (Iris), etc.) et non lchelle de lindividu. Sont dcrites
et discutes des mthodes statistiques adaptes lanalyse des relations entre indicateurs sanitaires et indicateurs dexposition
des facteurs de risques environnementaux. La modlisation et lanalyse statistique de ces donnes posent un certain nombre
de difficults mthodologiques : la forte variabilit, la dpendance spatiale, lexistence de diffrentes chelles spatiales, etc. Sont
prsents les outils statistiques les plus utiliss pour rpondre ces difficults.
Les possibilits quoffrent la mise en uvre des SIG et lexploitation des donnes gographiques sont prsentes en sappuyant sur
des exemples concrets de travaux mens au Dpartement sant environnement (DSE) de lInstitut de veille sanitaire (InVS) ainsi que
quelques exemples issus de la littrature, en insistant sur les prcautions qui doivent accompagner leur utilisation.
Introduction to spatial statistics and geographic information systems
in environmental health
Application to ecological studies
Spatial variations of health indicators and factors of environmental exposures are studied in epidemiology for descriptive
purposes and to suggest etiological hypotheses.
The objective of this study is to present and discuss the main tools and methods implementing geographic information systems
(GIS) and the spatial statistics used in ecological and geographical studies. This work focuses on ecological studies in which
variables (health indicators and risk factors) are measured at the scale of a geographical unit (county, census block, etc.)
rather than on the individual level. Statistical methods adapted to analyzing relationships between health indicators and
indicators of exposure to environmental risk factors are described and discussed. Modeling and statistical analysis of these
data raise a number of methodological difficulties: high variability, spatial dependence, existence of different spatial scales,
etc. The most widely used statistical tools to address these difficulties are presented.
The possibilities related to the GIS implementation and the operating of geographical data are presented based on concrete
examples of activities conducted at the Department of Health and Environment of the French Institute for Public Health
Surveillance, as well as some examples from the literature, emphasizing the precautions that must accompany their use.
Mars 2011
Sant environnement
Citation suggre :
Goria S, Stempfelet M, de Crouy-Chanel P. Introduction aux mthodes statistiques et aux systmes d'information gographique
en sant environnement Application aux tudes cologiques. Saint-Maurice: Institut de veille sanitaire; 2011. 65 p. Disponible
partir de l'URL : http://www.invs.sante.fr.
Mots cls : tude cologique gographique, systme information gographique, statistiques spatiales, reprsentation
cartographique des maladies, dtection de clusters spatiaux