Professional Documents
Culture Documents
RESUMEN
Cuando los puntos se diferencian unos de otros por alguna cualidad (especie,
sexo, tamaño), se emplean técnicas para el análisis de patrones marcados. Si las mar-
cas son continuas, generalmente la hipótesis nula a testar es la de independencia de
marcas, y se emplean herramientas como la función de correlación de marca, la fun-
cion K ponderada por marca o la función Km. Son pertinentes también los test de de-
pendencia entre marcas y posiciones, que determinan si pueden o no emplearse mé-
todos geoestadísticos para el análisis de las marcas. Como herramienta exploratoria
espacialmente explícita se puede emplear la medida de suma de marca.
Si las marcas son discretas, las herramientas suelen ser versiones cruzadas o
multivariadas de las funciones "univariadas": K-cruzada, G-cruzada, J-cruzada, así
76 MARCELINO DE LA CRUZ ROT
Después del análisis exploratorio y los test anteriores, el paso natural sería ajus-
tar los parámetros de algún proceso estocástico (Neyman-Scott, Strauss, Geyer, etc.)
como explicación de la génesis del patrón. El ajuste puede realizarse usando funcio-
nes sumario (método del contraste mínimo, buscando los parámetros del modelo que
minimizan las diferencias entre sumario teórico y sumario empírico) o mediante fun-
ciones de verosimilitud y pseudo-verosimilitud, a partir de modelos especificados en
función de la intensidad condicional del patrón que consideren tanto la componente
de interacciones estocásticas entre puntos como la componente de tendencia espacial
(lo que permite tratar con patrones inhomogéneos). Este capítulo es una versión am-
pliada de De la Cruz (2006).
3.1. INTRODUCCIÓN
Una de las aplicaciones para las que se suelen emplear las técnicas de
análisis de patrones de puntos es para inferir la existencia de interacciones
Métodos para analizar datos puntuales 77
100
0
0 100 0 100
a) b)
0 100
c)
Figura 3.1. Ejemplos de patrones aleatorio o de Poisson (a), agregado (b) y regular (c)
A) B)
0.5
1500
0.0
1000
L(r)
K(r)
-0.5
500
-1.0
0
0 5 10 15 20 25 0 5 10 15 20 25
r r
C) D)
50
6
0
4
πr ) − 1
-50
2
K(r) − πr
2
(K(r)
-100
2
-150
0 5 10 15 20 25 0 5 10 15 20 25
r
Figura 3.2. Diferentes estimadores de las propiedades de segundo orden. En línea continua va-
lor observado y en línea discontinua valor teórico a) Función K(r) del patrón aleatorio de la Fi-
gura 3.1. b) Función L(r) [=(K(r)/π)1/2-r] del mismo patrón. c) K(r)-πr2. d) [K(r)/πr2]-1. Las
desviaciones entre la función empírica y la teórica se distinguen mucho mejor con la función L,
especialmente a distancias r cortas.
Métodos para analizar datos puntuales 81
Asimismo, y dado que el límite del área de estudio suele ser arbitrario, es
necesario introducir un factor que corrija el "efecto borde" (Fig. 3.3). Los "efec-
tos borde" surgen porque los puntos que aparecen fuera de los límites del área
de estudio no son tenidos en cuenta para estimar K(r) aunque se encuentren a
una distancia menor de r de un punto situado dentro del área. Si no se tienen
en cuenta, los efectos borde producen estimaciones sesgadas de K(r), especial-
mente para valores grandes de r. Una revisión de los métodos de corrección
del efecto borde puede consultarse en Haase (1995) y Goreaud y Pelissier
(1999). De todas formas, dado que los mecanismos que corrigen el efecto bor-
de no son perfectos, se suele recomendar no calcular K(r) más allá de r < 1/3
de la longitud del lado más corto del área de estudio (Baddeley y Turner, 2005)
o hasta r < (A/2)1/2 en el caso de áreas no rectangulares, (Dixon 2002c). Otros
autores (Lancaster y Downes, 2004) han puesto de manifiesto la importancia
de comprobar si el efecto borde es necesario en el contexto del estudio ecoló-
gico que se realice (no tendría sentido corregirlo, por ejemplo, en el análisis de
poblaciones completas con límites naturales).
Figura 3.3. Algunos métodos de corrección del efecto borde. Izquierda: método de Ripley. A las
estimaciones de los puntos próximos al borde se les da un peso proporcional a la porción del cír-
culo que queda fuera del límite del área de estudio (para compensar por los puntos no registrados
y que podrían encontrarse en las inmediaciones). Centro: método del área tampón. La estima-
ción de la función K(r) sólo se hace a partir de los puntos incluidos dentro de un área de menor
tamaño que la original, de forma que los puntos que quedan en el área "tampón" externa se pue-
den contar (no hay efecto borde). El grosor del área tampón debe ser igual al valor máximo de r
para el que se va a estimar la función. Derecha: método de la traslación toroidal (sólo posible en
áreas de estudio rectangulares): el patrón se repite en todos los lados del área de estudio, asu-
miendo que es representativo de lo que no se ha registrado fuera.
Figura 3.4. Izquierda: "mapa de Getis" de los valores de L(r=10) en el patrón de puntos de la figura
3.1. En cualquier punto del mapa, la función L(r) (en este caso representada para r=10) alcanza el
valor señalado por el tono o las isolíneas. Los tonos más claros o los valores más altos representan zo-
nas donde localmente (a la escala representada) existe agrupamiento. La interpretación más intuitiva
del mapa sería la de la derecha, donde se representa el valor de λK(r). En este caso, en cada punto del
mapa, existen tantos vecinos como indiquen el tono o las isolíneas, dentro de un círculo de radio
r=10. Dado que la densidad de puntos es λ = 0.0115, el valor teórico de N(r) es λπr2 = 3.61. Valores
superiores indican zonas de agrupamiento y valores inferiores zonas de repulsión. Podría realizarse
un test poinwise para determinar, a esta escala concreta, qué valores son significativamente mayores
o menores que el valor teórico. Valores diferentes de r proporcionarían mapas diferentes.
Métodos para analizar datos puntuales 83
3.0
0.015
2.5
2.0
0.010
O(r)
g(r)
1.5
0.005
1.0
0.5
0.000
0.0
0 20 40 60 0 20 40 60
r (cm) r (cm)
Figura 3.5. Izquierda. Función de correlación de par del patrón de puntos de la comunidad
gipsófila de la Figura 3.6. Derecha. Función O-ring del mismo patrón. El valor teórico de la
función de correlación de par en un patrón CSR es 1. Valores de g(r) >1 indican que las distan-
cias entre puntos de valor alrededor de r son más frecuentes de lo que serían en un proceso CSR.
En este caso, al tratarse de valores de r pequeños (< 20 cm), la gráfica indica existencia de
agrupamiento. Cuando la función de correlación de par tiene sólo un pico, el tamaño medio de
los agregados puede estimarse a partir de la escala para la que el valor de g(r) cae hasta 1 (en este
caso, alrededor de 20 cm, lo que coincide con la estimación a partir de L(r) en la Figura 3.6). La
función O-ring es una versión reescalada de la función de correlación de par [O(r) = λ g(r)],
por lo que la única diferencia entre la representación gráfica de ambas es la numeración de la es-
cala. El valor teórico de O(r) es la intensidad del proceso, en este caso 0.052; la interpretación de
la forma de la función puede hacerse de forma análoga a la de g(r).
mente, tendría el valor πr2). Los valores críticos del test se calculan habi-
tualmente empleando el método de Monte Carlo.
Si se trata de un test de tipo local o pointwise, es decir, para una distancia
r concreta, se simula un número elevado s de patrones de Poisson con la
misma intensidad (es decir, con la misma densidad) y en un área del mismo
tamaño y forma que la del patrón observado. Los valores de la función de
cada uno de ellos se ordenan y bien se representan en forma de "envuelta"
para cada valor de r los valores máximo y mínimo alcanzados o bien se cal-
culan y representan gráficamente los percentiles apropiados, por ejemplo el
2.5% y el 97.5%, para formar una envuelta que representa un intervalo de
confianza local del 95 % (Fig. 3.6, Fig. 3.7, Dixon 2002b, Moller y Waagepeter-
sen 2007). Para una distancia r concreta, valores de la función observada
fuera de los límites de la envuelta rechazarían la hipótesis nula, con el nivel
de significación establecido. Cuanto mayor sea el número de simulaciones,
mayor será la precisión del intervalo de confianza. Martens et al. (1997) con-
sideran que el test tiene escasa validez cuando el producto α · s < 5.
300
250
2
15000
200
1
10000
L(r)
y (cm)
150
K(r)
0
100
5000
-1
50
0
0
0 20 40 60
0 50 100 150 200 250 300 0 20 40 60
r (cm)
x (cm)
Figura 3.6. Izquierda. Patrón espacial de puntos de una comunidad gipsófila del centro de la Penínsu-
( )
la Ibérica (Escudero et al. 2005). Cada punto representa una planta adulta. Centro. Función K(r) del
patrón observado (línea continua) y envueltas con los máximos y mínimos valores obtenidos en 99 si-
mulaciones de patrones CSR de la misma intensidad (líneas discontinuas). Derecha. Función L(r) [=
(K(r)/π)1/2-r] del mismo patrón. La linea continua en L(r) = 0 representa el valor teórico. Las líneas
discontinuas punteadas representan las mismas envueltas que en la figura central (pointwise test). Las
líneas discontinuas rayadas representan las envueltas de un test global, es decir el valor teórico 0 ±
dcrit, siendo dcrit la discrepancia máxima obtenida a partir de la simulación de 99 patrones CSR de la
misma intensidad y el cálculo para cada uno de ellos de d i = sup r Lˆi (r ) − L (r ) . Lˆi (r ) es la función L
de cada patrón simulado y L (r ) el valor teórico. A pesar de que los límites de confianza del test global
son mucho más amplios que los del test local, la hipótesis nula de CSR queda rechazada con un nivel de
significación α = 1/(1+99) = 0.01. Como las desviaciones de la función L ocurren por encima de la
envuelta superior, podemos concluir que el patrón es agregado. Por otro lado, la distancia r en la que
aparece el valor máximo de la función L indica el tamaño del agregado o mancha típica (en este caso, al-
rededor de 20 cm).
86 MARCELINO DE LA CRUZ ROT
etc. Se calcula dicha diferencia tanto para el patrón observado como para
cada uno de los simulados. La significación del test (p-valor) lo da la pro-
porción de diferencias simuladas mayores o iguales que la diferencia abso-
luta del patrón observado.
Es importante volver a señalar que los test pointwise sólo tienen senti-
do si se realizan para una distancia r concreta establecida de antemano. El
examen "global" de la relación entre el estimador elegido de la función K y
sus envueltas pointwise sólo tiene valor como análisis exploratorio, pero no
tiene validez estadística formal, ya que infraestima el error tipo I. Goreaud
y Pelissier (2000: 12) han calculado a partir de simulaciones que, para un
patrón de Poisson, un intervalo de confianza local con un nivel de signifi-
cación α = 1% tiene un error global del 8.8 %, mientras que para los α loca-
les del 5% y 10 % el error global es del 36% y 56% respectivamente.
3
2
2
1
1
0
L(r)
L(r)
L(r)
0
-1
-1
-2
0
-3
-2
0 5 10 15 20 25 0 5 10 15 20 0 5 10 15 20 25
r r r
Figura 3.7. Función L(r) [= (K(r)/π )1/2 –r ] de los patrones aleatorio (izquierda), agrupado (centro)
y uniforme (derecha) de la figura 3.1. La curva negra continua representa la función L(r) empírica.
La línea continua en L(r)=0 representa el valor teórico de la hipótesis CSR. Las líneas discontinuas
punteadas representan los máximos de la función L en 99 simulaciones de patrones CSR (pointwise
test). Las líneas discontinuas rayadas representan los valores críticos (1%) de un test global según la
aproximación de Ripley (1979): ± 1.68 A / N , siendo A la superficie del área de estudio y N el nú-
mero de puntos de cada patrón. En la gráfica de la izquierda la función L(r) empírica queda dentro de
la banda definida por el intervalo de confianza, por lo que no se puede rechazar la hipótesis de CSR
(es decir el patrón de puntos sería una realización de un proceso de Poisson). En la gráfica del centro,
la L(r) empírica tiene valores mayores que los del límite superior del intervalo de confianza a partir
de r = 2 metros, por lo que se puede rechazar la hipótesis de CSR con un riesgo α = 1 % a favor del
agrupamiento a escalas mayores de 2 metros. El valor máximo de L(r) aparece con r = 6-7 m, lo que
indicaría que es ese el tamaño más frecuente de los agregados. En la gráfica de la derecha, la L(r) em-
pírica tiene valores menores que el límite inferior del intervalo de confianza entre 5 y 8 metros, lo que
indicaría una fuerte inhibición entre los puntos a esa escala y permitiría rechazar también, con el
mismo α la hipótesis de CSR.
2
G ( y ) = 1 − e − λ ·π · y (3.4)
1
E ( y) = (3.5)
2· λ
4 −π
Var ( y ) = (3.6)
4·π ·λ
y − E ( y)
Z CE = (3.7)
Var ( y )
Métodos para analizar datos puntuales 89
Al igual que con la función K y sus derivados, los test de la función G pue-
den realizarse de forma local (pointwise) o global (simultánea). El procedi-
miento es semejante. Para los test simultáneos, Dixon (2002c) cita tres tipos de
estadísticos que se pueden calcular a partir de la distribución observada y teó-
rica, como el estadístico tipo Kolmogorov-Smirnov: sup y Gˆ ( y ) − G ( y ) , el es-
derson-Darling:
∫{Gˆ ( y) − G ( y)} / G ( y)[1 − G ( y)] dy . La significación de
2
1.0 1.0
a b
0.8 0.8
G(y) observada
0.6 0.6
G(y)
0.4 0.4
0.2 0.2
0.0 0.0
0.5
0.2
0.4
c d
0.1
0.3
0.0
0.2
^ (y) − G( y)
^ (y) − G( y)
0.1 -0.1
G
G
0.0 -0.2
-0.1
-0.3
-0.2
-0.4
0 5 10 15 0 5 10 15
distancia al vecino más cercano (y) distancia al vecino más cercano (y)
Figura 3.8. Diferentes representaciones de la función G. a): Comparación de la función G(y) del patrón alea-
torio de la figura 3.1 (línea continua) con la función G(y) de un patrón CSR de la misma intensidad (línea
punteada). Las dos funciones son bastante semejantes. Nótese que, a diferencia de la función K, el rango de
valores de para los que se puede representar G(y) viene dado por la mínima y máxima distancia entre vecinos
próximos(en este caso alrededor de 15). b). G(y) teórica frente a G(y) observada para el patrón de la figura
3.1b (línea continua) y el patrón 3.1c (línea punteada). La diagonal discontinua sirve como referencia de la
representación que tendría un patrón CSR. La línea continua es prácticamente siempre mayor que la diago-
nal, indicando que cualquier distancia y entre vecinos más próximos está más representada de lo que estaría
en un patrón CSR, o lo que es lo mismo, que el patrón es agregado. En el caso de la línea punteada, el resulta-
do es el contrario, lo que sugiere la existencia de regularidad. c). Diferencia entre la función G(y) observada y
teórica del patrón de la figura 3.1b (línea continua) con las envueltas simultaneas de un test global
(sup y Gˆ ( y ) − G ( y ) , líneas discontinuas) obtenido a partir de 99 simulaciones de patrones CSR. En este
tipo de tests, si la distribución observada queda dentro de la envuelta no existe evidencia en contra de la hipó-
tesis nula (es decir, el patrón observado es una realización del tipo de proceso simulado, CSR). Si la curva ob-
servada sale por debajo de de la envuelta a distancias "cortas" quiere decir que existen menos vecinos a distan-
cias cortas de lo que sería "normal", evidenciando la existencia de un patrón regular o de un proceso de
inhibición a distancias cortas. Por el contrario, si la distribución observada supera la envuelta superior a dis-
tancias cortas significa que existen más distancias cortas de lo que sería normal, lo que es compatible con un
proceso de agrupamiento. Evidentemente, la hipótesis de CSR es rechazada con un nivel de significación α
= 0.01. Como la función observada es mayor que la teórica, se confirma que el patrón es agregado. d). Dife-
rencia entre la función G(y) observada y teórica del patrón de la figura 3.1c con las envueltas resultantes de
un test pointwise. En este caso, las distancias entre vecinos de 3 a 8 son mucho menos frecuentes de lo nor-
mal, poniendo de manifiesto inhibición a estas distancias.
Métodos para analizar datos puntuales 91
2
F ( x ) = 1 − e − λ ·π · x (3.10)
tanto para construir estadísticos que testen CSR como para diagnosticar
gráficamente el ajuste del patrón observado a un proceso CSR. Diggle
(2003:28) propone emplear la suma de las diferencias cuadradas entre am-
∫
bas: u1 = [ Fˆ ( x) − Gˆ ( x)]2 , y obtener la distribución muestral del estadísti-
x
co mediante simulación Monte Carlo, análogamente a los test comentados
anteriormente. Fortin y Dale (2005: 37) recomiendan emplear la suma de
las diferencias absolutas entre ambas funciones, S a = ∑ Fˆ ( x) − Gˆ ( x) , y
x
además la representación gráfica frente a la distancia x de la diferencia en-
tre ambas funciones, Fˆ ( x) − Gˆ ( x) . Van Lieshout y Baddeley (1996) combi-
naron las funciones F y G para construir la función J:
1 − G ( x)
J ( x) = (3.11)
1 − F ( x)
Para un patrón CSR, J(x) =1; desviaciones de J(x) < 1 y J(x) >1 indican
respectivamente agrupamiento o regularidad. Una de las ventajas de la fun-
ción J es que puede calcularse sin necesidad de corregir el efecto borde
(Baddeley et al. 2000). Fortin y Dale (2005: 48) denominan a esta función H(t).
χ2 = I(n-1) (3.13)
( xi − x ) 2
n
χ =∑
2
(3.14)
i =1 x
94 MARCELINO DE LA CRUZ ROT
HSC1 HSC2
650
650
600
600
550
550
500
500
450
450
400
400
300 350 400 450 500 550 600 300 350 400 450 500 550 600
DBH
gremios
50
FX
NS
40
NX
OT
30
TD
20
10
0
1.2
1.02
HSC1
HSC2
H0:
1.1
1.00
0.98
1.0
kmm( r)
0.96
Kmm(r)
0.9
0.94
0.8
0.92
0.7
0.90
0.6
0 5 10 15 20 25 0 20 40 60 80 100
r (m) r (cm)
Figura 3.10. Izquierda: Función de correlación de marca para el diámetro a la altura del pecho
(dbh) en la parcela experimental de Chamusquín. El valor teórico esperado en el caso de inde-
pendencia entre las marcas es kmm(r) = 1. Como suele ser habitual para esta variable en am-
bientes forestales, kmm(r) < 1 para r pequeñas, indicando la existencia de repulsión entre indi-
viduos de parecido diámetro a distancias cortas. Derecha: Función K ponderada por marca
(Kmm), normalizada, del tamaño de los individuos de las dos cohortes de H. squamatum. Si las
marcas se distribuyesen independientemente, Kmm(r) sería igual a K(r), la función K del pa-
trón sin marcar, y por lo tanto, la función normalizada [=Kmm(r)/K(r)] sería igual a 1 para to-
das las distancias r. Aunque no se han construido envueltas mediante permutaciones de las
marcas para testar la significación estadística de las diferencias respecto a la hipótesis nula de
independencia entre las marcas (H0), resulta evidente en la gráfica que existen diferencias en la
distribución de las marcas en las dos cohortes. En la primera cohorte (HSC1), hasta distancias
de 40 cm, Kmm(r) es siempre mayor que K(r) (lo que quiere decir que las plántulas grandes tien-
den a aparecer juntas). En la segunda cohorte (HSC2) ocurre justo lo contrario (lo que indica
que el tamaño de los individuos cercanos tiende a ser diferente y, en conjunto, inferior al tama-
ño medio de la cohorte). Este resultado sugiere que la génesis de las jerarquías de tamaños de las
dos cohortes está mediada por mecanismos ecológicos diferentes.
Métodos para analizar datos puntuales 97
⎛ ⎞
K mm ( r ) = Ε 0 ⎜⎜ ∑ m( x0 ) m( xn )1(0 <|| xn − x0 ||≤ r ) ⎟⎟ /(λμ m2 ), r > 0 (3.17)
⎝ [ xn , m ( xn ) ]∈N m ⎠
K mm ( r )
K mm ( r ) = (3.18)
K (r )
98 MARCELINO DE LA CRUZ ROT
1 1
K m (r ) =
var(m) N r
∑∑ (m − μ
i j
i m )( m j − μ m ) (3.19)
Dado que los datos que definen un patrón de puntos con marcas con-
tinuas son muy semejantes a los que se emplean en la geoestadística (es
decir, se parecen mucho a los valores de una variable continua regionali-
zada estimados en un conjunto de puntos de muestreo), puede plantearse
la conveniencia de emplear herramientas geoestadísticas, como el semiva-
riograma u otras, para analizar la estructura espacial de la variable consi-
derada. De modo general puede rechazarse dicha opción (Penttinen 2006,
Schlather et al 2004) ya que las herramientas geoestadísticas asumen que
existe independencia entre la localización de los puntos de muestreo y el
valor de las marcas, mientras que lo más común en los estudios ecológicos
será que el valor de la marca en un punto (por ejemplo, el diámetro de un
árbol) dependa de la existencia de otros puntos en las inmediaciones (por
ejemplo, de otros árboles que compitan por los recursos y, por lo tanto,
afecten al crecimiento). Tan sólo en los casos en los que pueda demostrarse
la independencia entre la posición de los puntos y el valor de las marcas
(los denominados patrones marcados geoestadísticamente), sería pertinente
emplear métodos geoestadísticos.
Métodos para analizar datos puntuales 99
Figura 3.11. La medida de suma de marca SR(x) (mark-sum measure, columna izquierda)
es una herramienta de carácter exploratorio que resume localmente la contribución de
puntos y marcas de un patrón, con el objetivo de visualizar la heterogeneidad a gran escala.
En cada localidad x representa la suma de las marcas de todos los puntos presentes dentro
de un radio R alrededor de la misma. La medida de suma de punto IR(x) (point-sum
measure, columna central), es un estimador de la intensidad local (de la densidad de
puntos dentro de un círculo de radio R alrededor de cada localidad x). La medida de suma
de marca normalizada [SR(x)/ IR(x), columna derecha] describe la contribución de las
marcas del patrón. En la fila superior se representan las medidas correspondientes al
patrón marcado de HSC1 (Fig. 3.9), para R = 25 cm. En la fila inferior, las medidas
correspondientes a HSC2, para R= 20 cm. Tonalidades más claras indican valores más
altos de la correspondiente medida. Dado que se trata de patrones agrupados, existen
zonas en donde tanto la suma de marca como la suma de punto tienen valor 0 (en negro).
La suma de marca normalizada (que tiene en cuenta el número de individuos y, por lo
tanto, el agrupamiento), pone de manifiesto que la distribución espacial de los tamaños no
es homogénea ya que hay zonas (resaltadas por las curvas de nivel) con valores muy altos.
Métodos para analizar datos puntuales 101
Bajo la hipótesis de independencia (la hipótesis nula es que los dos pro-
cesos son independientes), el valor teórico esperado para K*12(r) = πr2, in-
dependientemente de cómo sea la estructura espacial del patrón que porta
cada tipo de marca. Por lo tanto, al igual que en el caso de la función K uni-
variada, se puede y se suele trabajar con la función L*12(r) = (K*12(r)/π)1/2.
En el caso de que se cumpla la hipótesis nula, L*12(r)= r, por lo que se puede
testar si L*12(r) – r = 0 a cada distancia r. Valores de L*12(r) – r > 0 indican
atracción entre los dos procesos a la distancia r; valores < 0 indican repul-
sión. Al igual que en el caso de la función univariada, los valores críticos de
L*12(r) – r se calculan también con simulación Monte-Carlo, aunque aquí es
más complicado que en el caso univariado ya que las simulaciones deben
mantener el patrón espacial de cada proceso individual a la vez que rompen
la posible dependencia que exista entre ellos. En el caso de que los procesos
individuales puedan ser descritos por modelos paramétricos, la simulación
de estos permite fácilmente estimar los valores críticos del test (Dixon 2002c;
ver ejemplo en apartado 3.5, Fig. 3.20). Cuando la forma del área de estudio
es rectangular, el método no paramétrico de desplazamiento toroidal (toroi-
dal shift) es una alternativa razonable (y de hecho se usa con gran frecuen-
cia). El método consiste en mantener constantes las coordenadas de uno de
los patrones y desplazar una idéntica pequeña distancia aleatoria en las di-
recciones x e y todos los puntos del otro patrón. El área de estudio se trata
matemáticamente como un toro (con los bordes superior e inferior conecta-
dos y los bordes izquierdo y derecho conectados) de tal forma que los pun-
tos que con el desplazamiento "salen" del área por un lado reingresan por el
lado contrario. El desplazamiento aleatorio y el cálculo de L*12(r) se repite
un número elevado de veces para obtener los valores críticos del test. He y
Duncan (2000) usan este método para, entre otras cosas, analizar la asocia-
ción entre pares de especies en un bosque de abeto de Douglas y averiguar
el efecto de la mortalidad sobre dicho patrón.
ción K, K(r)12 = K(r)21 = K(r)11 = K(r)22 = K(r), es decir, todas las funciones
cruzadas serían iguales a la función K univariada del patrón completo
(Dixon 2002a). Las desviaciones de la hipótesis nula de etiquetado aleatorio se
evalúan mediante diferencias entre pares de funciones K. K(r)11 - K(r)22 eva-
lúa si un patrón está más o menos agrupado que el otro (y a qué escala,
Fig. 3.12). K(r)11 - K(r)12 y K(r)22 -K(r)12 evalúan la segregación de los proce-
sos, es decir, evalúan si un tipo de punto tiende a estar rodeado por otros
puntos del mismo tipo (Fig. 3.12). La inferencia se basa habitualmente en
simulación Monte Carlo mediante la permutación aleatoria de las marcas
sobre las coordenadas del patrón completo.
Supervivencia - Mortalidad
700
15000
600
500
5000
400
K1 − K2
^
0
y
300
-5000
^
200
-15000
100
0
10000
5000
5000
K1 − K12
K2 − K12
0
^
0
^
^
-5000
-5000
SUPERVIVENCIA MORTALIDAD
700
14
15
600
12
500
10
10
400
L12( r)
8
L12(r)
300
5
200
4
2
100
0
0
0
0 100 200 300 400 500 600 0 50 100 150 200 0 50 100 150 200
x r r
Gij ≠ Gji. Por otro lado, si los puntos de tipo i son independientes de los
puntos de tipo j, Gij(y) sería igual que Fj(y), la función de espacio vacío de
los puntos j (Upton y Fingleton 1989: 246), por lo que estadísticos que com-
paren ambas, como los comentados para el caso univariado, o la función J
cruzada (Van Lieshout y Baddeley 1999),
1 − Gij ( x)
J ij ( x) = (3.22)
1 − Fj ( x)
que debería ser igual a 0 si los dos patrones son independientes. Valores
positivos o negativos de T(y) indicarían respectivamente atracción o re-
pulsión entre los patrones. De un modo más general, Diggle (2003: 99)
propone las funciones
3
H 3 ( y ) = {1 − F ( y )} − ∏{1 − F j ( y )} (3.25)
j =i
Métodos para analizar datos puntuales 107
m
I ( y ) = ∑ pi J ii ( y ) − J ( y ) (3.26)
i =1
N ii /( N i − N ii ) N ij /( N i − N ij )
Si = log ; Sij = log (3.27)
( N i − 1) /( N − N i ) N i /( N − N j − 1)
N ij − Ε N ij
Z ij = , (3.28)
Var N ij
Tabla 3.1. Resultados del análisis de tabla de contingencia de vecino más cercano para el patrón
multivariado de Savannah River (Fig. 3.9). "Árbol" indica el árbol focal y "NN" el vecino más cerca-
no (FX: Fraxinus caroliniana; NX: Nyssa aquatica; NS = Nyssa sylvatica, TD: Taxodium
distichum; OT: otras especies). Obs es la frecuencia observada y Esp la frecuencia esperada en la ta-
bla de contingencia. S es el índice de segregación. Cuando el "Árbol" y "NN" son la misma especie
(señalado en negrita), se trata de Si; valores de Si > 0 indican que la especie está segregada (sus indi-
viduos están rodeados por vecinos de la misma especie con mayor frecuencia de la esperada de un eti-
quetado aleatorio; Si < 0 indica lo contrario, y Si = 0 indica compatibilidad con etiquetado aleatorio.
Cuando "Árbol" y "NN" son diferentes especies, Sij mide la afinidad de la especie i (la "Árbol") con la
especie j ("NN"). Sij> 0 indica que las frecuencias observadas en la celda Nij de la tabla de contingen-
cia son mayores que las esperadas, o lo que es lo mismo, que existe asociación positiva entre la especie
i y la especie j. Sij < 0 indica lo contrario, y Sij = 0 indica compatibilidad con etiquetado aleatorio.
Hay que tener en cuenta que se trata de un índice asimétrico, y en general Sij ≠ Sji. La significación
de los índices se testa indirectamente con el estadístico Zij (columna Z) cuyo p-valor, aproximado
asintóticamente, aparece en la columna correspondiente (en realidad lo que se testa es la hipótesis
nula de que la frecuencia observada en la celda Nij es igual a la frecuencia esperada). En la parcela de
Savannah River, la mayoría de las especies están segregadas (Si > 0, p< 0.0001), a excepción de
Taxodium distichum. La asociación con especies diferentes es en general negativa (Sij < 0 en la ma-
yoría de los casos). Para este resultado existen diversas posibles explicaciones, como diferentes reque-
rimientos de microhábitat para cada especie, crecimiento clonal, parches con diferente historia de
perturbaciones, etc. La ausencia de segregación en Taxodium puede indicar una historia de extrac-
ción selectiva o cualquier otra diferencia con el resto de las especies (Dixon 2002a).
Árbol NN Obs Esp S Z p-valor
FX FX 82 32.99 0.62 8.08 0.0000
FX NS 23 43.63 -0.35 -3.73 0.0002
FX NX 23 45.76 -0.38 -4.05 0.0001
FX OT 6 12.77 -0.35 -2.04 0.0410
FX TD 22 20.86 0.03 0.28 0.7820
NS FX 26 43.63 -0.27 -3.09 0.0020
NS NS 117 57.05 0.54 8.05 0.0000
NS NX 38 60.13 -0.26 -3.44 0.0006
NS OT 8 16.78 -0.34 -2.34 0.0194
NS TD 16 27.41 -0.26 -2.43 0.0150
NX FX 29 45.76 -0.24 -2.87 0.0041
NX NS 40 60.13 -0.23 -3.11 0.0019
NX NX 112 62.77 0.42 6.39 0.0000
NX OT 14 17.60 -0.11 -0.94 0.3484
NX TD 20 28.74 -0.18 -1.82 0.0682
OT FX 5 12.77 -0.47 -2.47 0.0135
OT NS 8 16.78 -0.40 -2.54 0.0112
OT NX 7 17.60 -0.50 -3.02 0.0025
OT OT 33 4.83 1.14 10.77 0.0000
OT TD 7 8.02 -0.07 -0.39 0.6952
TD FX 29 20.86 0.19 2.04 0.0418
TD NS 29 27.41 0.03 0.36 0.7180
TD NX 19 28.74 -0.24 -2.18 0.0295
TD OT 7 8.02 -0.06 -0.38 0.7008
TD TD 14 12.97 0.04 0.25 0.8011
110 MARCELINO DE LA CRUZ ROT
Tabla 3.2. Resultados del análisis de tabla de contingencia de vecino más cercano para el patrón
multivariado de Savannah River (continuación). Segregación:tipo de test, global o de cada espe-
cie (FX: Fraxinus caroliniana; NX: Nyssa aquatica; NS = Nyssa sylvatica, TD: Taxodium
distichum; OT: otras especies). G.L.: grados de libertad. χ2: Valor del estadístico. p asintótico y
p M C: p-valor del estadístico, aproximado asintóticamente o mediante simulación Monte Carlo.
Primera fila: Test global de etiquetado aleatorio. A diferencia de los test de la tabla 3.1, que consi-
deraban cada par de especies por separado, el test global testa la hipótesis de que en todas las celdas
de la tabla de contingencia las frecuencias observadas son iguales a las esperadas. El test se basa en
el estadístico C (ver texto) que se distribuye como una χ2 en el caso de etiquetado aleatorio (valor
señalado en la tabla). El p-valor se calcula de la probabilidad de observar valores de C iguales o
mayores (estimada asintóticamente o mediante simulaciones Monte Carlo). El valor de C obteni-
do en este caso es, significativamente, mucho mayor del que existiría con etiquetado aleatorio, lo
que confirma la existencia de segregación. Filas 2 a 6: Test específicos de segregación para cada es-
pecie. En este caso lo que se testa es, para cada especie, si las frecuencias con las que aparecen el res-
to de las especies como vecinos más próximos es similar a las esperadas si se diese etiquetado alea-
torio. El estadístico Ci se calcula y testa de forma similar al anterior. En este caso, tan sólo
Taxodium (TD) presenta un Ci compatible con etiquetado aleatorio, mientras que las demás es-
pecies tiene valores significativamente elevados, lo que indicaría segregación.
n·(a·d − c·b) 2
χ2 = (3.30)
F1·F 2·C1·C 2
en la que n es el número total de cuadrados de muestreo. Si el χ2 es signifi-
cativamente mayor que el de una distribución chi-cuadrado con 1 grado
de libertad (valor crítico = 3.841) se admite que los patrones de ambos ti-
pos están asociados. El signo de la asociación viene dado por el signo de la
diferencia entre los productos de las diagonales de la tabla. Así, si (a·d – c·b)
> 0 existe asociación positiva o atracción entre ambos patrones, mientras
que si (a·d – c·b) < 0, existe asociación negativa o repulsión.
tipo A
presente ausente
presente
a b F1
tipo B
ausente
c d F2
C1 C2
Figura 3.14. Tabla de contingencia del test de asociación espacial para recuentos multivariantes.
Cuando no se dispone del mapa de puntos sino simplemente unos "recuentos" o inventarios en cuadra-
dos de muestreo, puede analizarse la asociación entre los diferentes tipos de puntos realizando un aná-
lisis de la tabla de contingencia en la que se tabulen la frecuencia de sus presencias y ausencias. Si tipo
A y tipo B son los dos tipos de puntos (especies, sexos, etc) cuya asociación se va a analizar, a represen-
ta el número de cuadrados de muestreo en los que aparecen los dos tipos conjuntamente; b es el número
de cuadrados en los que aparece el tipo B pero no el A; c es el número de cuadrados en los que aparece el
tipo A pero no el B; d es el número de cuadrados en que no aparecen ni A ni B; F1 y F2 son, respectiva-
mente, la suma de la fila 1 y la suma de la fila 2 de la tabla de contingencia (es decir, el número total de
cuadrados en los que, respectivamente, aparece y no aparece el tipo B); C1 y C2, análogamente, son las
sumas de las columnas (y representan, respectivamente, el número de cuadrados en los que aparece y
no aparece el tipo A). Siendo n el número total de cuadrados de muestreo, el estimador χ2 = [n (a·d-
c·b)2/(F1·F2·C1·C2)] seguiría una distribución Chi-cuadrado con 1 grado de libertad si los dos tipos
fuesen independientes. Si el valor del χ2 calculado es mayor que el valor crítico de una distribución chi-
cuadrado con 1 grado de libertad (= 3.841) se admite que los patrones de ambos tipos están asociados
significativamente, a la escala determinada por el tamaño de los cuadrados de muestreo. La aso-
ciación es positiva si (a·d – c·b) > 0 ó negativa si (a·d – c·b) < 0.
112 MARCELINO DE LA CRUZ ROT
4
3
3
2
2
L(r)
L(r)
1
1
0
0
-1
-1
-2
-2
0 20 40 60 0 20 40 60
r (cm) r (cm)
Figura 3.15. Ajuste de un proceso de Poisson agrupado mediante el método ad hoc basado en la
función K de Ripley. Izquierda: En línea continua, función L(r) de la comunidad gipsófila de la
figura 3.6. Líneas discontinuas finas: envueltas pointwise de la simulación de patrones CSR de
la misma intensidad. Curva punteada fina, "tanteo" con la función teórica del proceso agrupado
{K(r; σ, ρ)= πr2 + ρ -1 [1-exp(-r2/4σ2)} con valores de σ = 5.0 y ρ = 3.33e-03. Curva
discontinua gruesa (gris): Función ajustada tras la minimización de la función D(σ,ρ) con el
algoritmo de Nelder y Mead (1965). Los parámetros ajustados son σ = 6.80 y ρ = 2.48e-03.
Derecha: Curvas continua y discontinua gruesa igual que en la figura de la izquierda. Curvas
discontinuas finas: envueltas obtenidas tras la simulación de 99 procesos agrupados de Poisson
de la misma intensidad que el original y con los parámetros ajustados en la etapa anterior.
Curva punteada fina: valor medio de la función L en 99 las simulaciones.
El ajuste ad hoc del proceso de Strauss o de cualquier otro del que se conoz-
ca explícitamente la formula matemática de la función sumario que lo describe
(función K o la que sea) se realiza de forma similar. La única diferencia aprecia-
ble estriba en el valor de la constante de ajuste c que mientras para otros proce-
sos de naturaleza agregada debe seguir siendo de c ≤ 0.25, para procesos de na-
turaleza similar a CSR o regular se establece en c = 0.5 (Diggle 2003).
se acepta que el patrón pueda ser descrito por el modelo ajustado (Fig.
3.15). Aunque ésta ha sido la forma tradicional del ajuste ad hoc en ecolo-
gía, desde un punto de vista estadístico lo ideal sería emplear una función
distinta a la función K (por ejemplo la G, H, J, etc) para realizar el test de
Monte Carlo (Diggle 2003).
A pesar del desarrollo reciente de métodos formales basados en el
análisis de la verosimilitud, los métodos ad hoc siguen siendo útiles tanto
por su utilidad para una rápida exploración de un rango de modelos como
por el método de evaluación visual directa del ajuste del modelo que pro-
porcionan. De hecho son los que siguen empleándose mayoritariamente
en los análisis ecológicos de patrones de puntos. Interesantes ejemplos re-
cientes son la modelización del patrón de establecimiento de árboles en
zonas aclaradas del bosque tropical por Batista y Maguire (1998) o del pa-
trón de reclutamiento de plántulas de Pinus uncinata en el Sistema Ibérico
por Camarero et al. (2005a).
λ(u, x) = β (3.34)
Expresados de esta forma, los modelos pueden ajustarse con cierta di-
ficultad con el método de máxima verosimilitud o más fácilmente con el
método de máxima pseudo-verosimilitud (Baddeley y Turner, 2000). Esta
Métodos para analizar datos puntuales 117
donde ψ y ϕ son los parámetros que hay que estimar. El término B(u) re-
presenta la "tendencia espacial" (trend) o el efecto de covariables espacia-
les, mientras que el término C(u, x) representa las "interacciones estocásti-
cas" del proceso de puntos. Este término, por ejemplo, no aparece si el
modelo es de un proceso de Poisson. En algunos casos puede que haya
que realizar una re-parametrización del modelo para adaptarlo a la forma
loglineal. Por ejemplo, la intensidad condicional del proceso de Strauss
adopta la forma loglineal si se hace B(u) ≡ 1 y C(u, x) = t(u, x), y los pará-
metros se toman como ψ = log β y ϕ = log γ (Baddeley y Turner 2006).
80 TS TPS
80
60
60
y
y
40
40
20
20
0 20 40 60 80 120 0 20 40 60 80 120
x x
PVL PVC
80
80
60
60
y
y
40
40
20
20
0 20 40 60 80 120 0 20 40 60 80 120
x x
Figura 3.16. Intensidad de los patrones de los diferentes gremios forestales en la parcela de
Chamusquín (estimada mediante un kernel gausiano isotrópico). TPS: tolerantes parciales a la
sombra; TS: tolerantes a la sombra; PVC: pioneras de vida corta; PVL: pioneras de vida larga.
Se aprecia una falta de homogeneidad en todos los patrones y gradientes de variación distintos
para cada uno de ellos.
Tabla 3.3. Análisis secuencial de la desviación en el ajuste de modelos Poisson homogéneos e inhomo-
géneos a los patrones de los gremios forestales de la parcela de Chamusquín (fig. 3.9). Gremio: patrón
de puntos al que se le ajusta el modelo (PVC= pioneras de vida corta; PVL= pioneras de vida larga,
TS= tolerantes a la sombra, TPS= tolerantes parciales a la sombra). Modelo: tipo de modelo ajustado
[homogéneo= proceso de Poisson homogéneo; x+y = proceso de Poisson inhomogéneo, con compo-
nente espacial polinómica de orden 1; (x + y)2 = proceso de Poisson inhomogéneo, con componente es-
pacial polinómica de orden 2]. G.l. Resid.: grados de libertad del modelo ajustado. Desv. Resid.: des-
viación (deviance) del modelo ajustado. Δ G.l.: disminución de grados de libertad (respecto al modelo
inmediato). Δ Desviación: disminución de la desviación respecto al modelo reducido inmediato.
P(>|Chi|): p-valor del test de cociente de verosimilitud (likelihood ratio test). Cuando el análisis ex-
ploratorio de los datos sugiere que la intensidad del patrón no es constante (ver Fig. 3.16), el modelo
más simple que se puede ajustar es el de un proceso de Poisson inhomogéneo (ver sección 3.4.3). El
ajuste de modelos más sencillo en la actualidad consiste en expresar la intensidad condicional del proce-
so en forma loglineal y emplear el método de máxima pseudo-verosimilitud para estimar los paráme-
tros. En el caso del proceso de Poisson (homogéneo o inhomogéneo) la máxima pseudo-verosimilitud es
equivalente a la máxima verosimilitud (Baddeley y Turner 2006) por lo que los diferentes modelos
ajustados al mismo patrón se pueden comparar (siempre que sean anidados) con el test del cociente de
verosimilitud. En la tabla se representan, para cada gremio, las características (grados de libertad y des-
viación residual) de los tres modelos ajustados, desde el más sencillo (Poisson homogéneo) al más com-
plicado (Poisson inhomogéneo con superficie cuadrática). El test de cociente de verosimilitud evalúa si
la disminución en la desviación residual (Δ Desviación) que se obtiene con un modelo más complicado
(con más parámetros) "compensa" la pérdida de grados de libertad (Δ G.l.) respecto al modelo más sen-
cillo. Para todos los gremios, excepto para TPS, los modelos más complicados reducen significativa-
mente la desviación residual. En el caso de TPS, el modelo de Poisson inhomogéneo con una superficie
de orden 1 (x+y) reduce significativamente la desviación respecto al modelo de Poisson homogéneo,
pero la reducción del Poisson inhomogéneo cuadrático [(x+y)2] respecto al inhomogéneo sencillo
(x+y) no es estadísticamente significativa.
Gremio Modelo G.l. Resid. Desv. Resid. ΔG.l. Δ Desviación P(>|Chi|)
PVC homogéneo 1282 893.61
x+y 1280 887.66 2 5.95 0.05
(x + y)2 1277 873.61 3 14.05 0.003
TS TPS
2.5
L(r)
0.5
-0.5
-0.5
0 5 10 15 20 25 0 5 10 15 20 25
r r
PVL PVC
3
3
2
2
L(r)
L(r)
1
1
0
0 5 10 15 20 25 0 5 10 15 20 25
r r
Figura 3.17. Función L (curva continua gruesa) de los gremios forestales de la parcela de
Chamusquín. En cada caso, las líneas discontinuas gruesas representan las envueltas obte-
nidas tras la simulación de 99 modelos Poisson inhomogéneos ajustados a cada patrón, con
polinomio de segundo grado en x e y como componente de tendencia espacial (excepto en
PVL, de grado 1). La línea discontinua fina representa el valor medio de todos los obteni-
dos en las simulaciones y puede emplearse como referencia de el valor esperado de cada mo-
delo ajustado. Se observa cómo las funciones de los gremios TPS y PVC quedan dentro del
espacio delimitado por sus envueltas, por lo que se puede considerar que el modelo de Pois-
son inhomogéneo los describe razonablemente bien. En el caso de TS y PVL, la función em-
pírica sobresale por encima de las envueltas superiores, lo que sugiere la necesidad de in-
corporar en sus modelos una componente de interacción que dé cuenta del agrupamiento
que se pone de manifiesto en las curvas.
122 MARCELINO DE LA CRUZ ROT
TPS
sat=4
sat=10
sat=9
sat=8
sat=7
sat=6
sat=5
-155
sat=1
sat=2
log PL
sat=3
-160
-165
2 4 6 8 10
r
Figura 3.18. Perfil de pseudo-verosimilitud para el ajuste de un proceso de Geyer al patrón del
gremio de especies tolerantes parciales a la sombra (TPS). Como el proceso de Geyer tiene dos
parámetros irregulares (r, la distancia que define dos puntos como vecinos íntimos, y s, la satu-
ración), el perfil se construye ajustando modelos para diferentes combinaciones de valores de r y
s (en el ejemplo, y a partir de las gráficas de la función K, se consideró probar valores para am-
bos parámetros entre 1 y 10). La gráfica representa el logaritmo de la máxima pseudo-verosimi-
litud alcanzada por cada combinación de parámetros. El valor máximo se obtiene para r = 2 y s
= 4, por lo que se fijaron dichos valores en el modelo.
TPS PVL
4
2
3
1
2
L(r)
L(r)
1
0
0
-1
-1
0 5 10 15 20 25 0 5 10 15 20 25
r r
Figura 3.19. Función L (línea gruesa continua) de los gremios TPS y PVL y envueltas (líneas
gruesas discontinuas) procedentes de 99 simulaciones de los procesos de Geyer inhomogéneos
ajustados en cada caso. En esta ocasión la función empírica queda dentro del intervalo definido
por las envueltas por lo que se puede considerar que los modelos ajustados describen razonable-
mente bien cada patrón.
124 MARCELINO DE LA CRUZ ROT
0.5
1.0
0.0
L12(r)
0.5
-0.5
0.0
-1.0
-0.5
0 5 10 15 20 25 0 5 10 15 20 25
r r
1.5
0.0
1.0
L12(r)
-0.5
0.5
-1.0
0.0
-1.5
-0.5
0 5 10 15 20 25 0 5 10 15 20 25
r r
Figura 3.20. Análisis de las relaciones entre patrones individuales de un patrón marcado mul-
tivariado, siguiendo la hipótesis de independencia. La línea gruesa continua representa la fun-
ción L cruzada (o bivariada). Las líneas gruesas discontinuas representan las envueltas obteni-
das tras 99 simulaciones en cada caso. Como se trata de una parcela de contorno irregular y los
patrones individuales tienen una distribución no estacionaria, no es posible realizar las simula-
ciones con el método de thoroidal shift. En su lugar se han simulado 99 realizaciones de los mo-
delos paramétricos ajustados a cada tipo de patrón. La línea fina punteada representa el valor
medio de las funciones simuladas. La distribución de los árboles del gremio de pioneros de vida
corta (PVC) es independiente de la de tolerantes a la sombra (TS) y tolerantes parciales a la
sombra (TPS). El gremio de pioneros de vida larga (PVL) presenta atracción a corta distancia
con los tolerantes a la sombra y es casi independiente de los TPS.
Métodos para analizar datos puntuales 125
AGRADECIMIENTOS