Bolker Et Al

revisión
Generalizadas modelos lineales mixtos: una guía

práctica para la ecología y la evolución
Benjamin M. Bolker 1 , Mollie E. Brooks 1 , Connie J. Clark 1 , Shane W. Geange 2 ,

John R. Poulsen 1 , M. Henry H. Stevens 3 y Jada-Simone S. White 1
1 Departamento de Botánica y Zoología, Universidad de Florida, PO Box 118525, Gainesville, FL 32611-8525, EE.UU.
2 Facultad de Ciencias Biológicas de la Universidad Victoria de Wellington, PO Box 600, 6140 Wellington, Nueva Zelanda
3 Departamento de Botánica de la Universidad de Miami, Oxford, OH 45056, EE.UU.
¿Cómo deben los ecologistas y biólogos evolutivos analizar datos no normales variación de azar en el espacio y tiempo [11] o entre los individuos [12] . Los
que implican efectos aleatorios? datos no normales tales como recuentos o estudios teóricos hacen hincapié en los efectos de la variabilidad en la dinámica de
proporciones menudo desafían procedimientos estadísticos clásicos. modelos la población [13,14] . Además, la estimación de la variabilidad permite a los biólogos
mixtos lineales generalizados (GLMMs) proporcionar un enfoque más flexible para extrapolar los resultados estadísticos a individuos o poblaciones más allá de la
para el análisis de datos no normal cuando efectos aleatorios están presentes. muestra de estudio.
La explosión de la investigación sobre GLMMs en la última década ha
generado una gran incertidumbre para los profesionales en ecología y Los investigadores se enfrentaron con los datos no normales a menudo tratan de
evolución. A pesar de la disponibilidad de técnicas precisas para la estimación accesos directos, como la transformación de datos para lograr la normalidad y la
de parámetros GLMM en casos sencillos, GLMMs complejos son difíciles de fi homogeneidad de la varianza, utilizando pruebas no paramétricas o confiar en la solidez
cio y la inferencia estadística tales como pruebas de hipótesis sigue siendo de ANOVA clásica a la no normalidad de los diseños equilibrados [15] . Theymight ignorar
difícil. Revisamos el uso (y abuso) de GLMMs en ecología y evolución, discutir por completo randomeffects (pseudoreplicación comprometiéndose así) o tratarlos como
estimación y inferenceandsummarize 'mejores prácticas' dataanalysis factores fi ja [dieciséis] . Sin embargo, tales accesos directos pueden fallar (por ejemplo,
procedimientos para los científicos se enfrentan a este reto. datos de recuento con muchos valores cero no se pueden hacer normal mediante
transformación). Incluso cuando tienen éxito, podrían violar las suposiciones estadísticas
(incluso pruebas no paramétricas hacen supuestos, por ejemplo, de la homogeneidad de
la varianza entre los grupos) o limitar el alcance de la inferencia (no se puede extrapolar
estimaciones de efectos fijos a nuevos grupos).
Generalizadas modelos lineales mixtos: herramientas poderosas pero
desafiantes
Los conjuntos de datos en ecología y evolución (EE) a menudo quedan fuera del alcance En lugar de shoehorning sus datos en estadística clásica
de los métodos que se enseñan en las clases de introducción a la estadística. Cuando las marcos, los investigadores deben utilizar métodos estadísticos que
estadísticas básicas se basan en datos distribuidos normalmente, EEDATA son a menudo coinciden con sus datos. modelos mixtos lineales generalizados (GLMMs)
binario (por ejemplo, presencia o ausencia de una especie en un sitio [1] , El éxito combinan las propiedades de dos marcos estadísticos que se utilizan
reproductor [2] , El estado de infección de individuos o expresión de un trastorno genético [3] ampliamente en EE, modelos lineales mixtos (que incorporan efectos aleatorios) y
), proporciones (por ejemplo, la proporción de sexos [4] , las tasas de infección [5] o las los modelos lineales generalizados (que manejan datos no normales mediante el
tasas de mortalidad dentro de los grupos) o recuentos (número de plántulas emergentes [6] uso de funciones de enlace y la familia exponencial [por ejemplo, normal, Poisson
, Número de garrapatas en polluelos de urogallos rojos [7] o tamaños de embrague de o] distribuciones binomiales). GLMMs son la mejor herramienta para el análisis de
cigüeñas [2] ). Donde los métodos estadísticos básicos tratan de cuantificar los efectos los datos no normales que implican efectos aleatorios: Todo lo que hay que
exactos de cada variable predictora, problemas de eficiencia energética a menudo hacer, en principio, es especificar una distribución, función de enlace y la
implican efectos aleatorios, cuyo propósito es lugar para cuantificar la variación entre las estructura de los efectos aleatorios. Por ejemplo, en Recuadro 1 , Se utiliza un
unidades. Los tipos más comunes de efectos aleatorios son los bloques en experimentos GLMM para cuantificar la magnitud del genotipo - interacción medio ambiente en la
o estudios de observación que se replican a través de sitios o tiempos. Los efectos respuesta de Arabidopsis a la herbivoría. Para ello, seleccionamos una
aleatorios también abarcan variación entre los individuos (whenmultiple respuestas distribución de Poisson con un enlace logarítmica (típico de los datos de conteo) y
aremeasured por individuo, como la supervivencia de la descendencia múltiple o sexo especificar que el número total de frutos por planta y las respuestas a la
proporciones de múltiples camadas), genotipos, especies y regiones o períodos de fertilización y el recorte podría variar al azar en toda la población ya través de
tiempo. Mientras que los genetistas y biólogos evolutivos durante mucho tiempo han genotipos dentro de una población.
estado interesados en la cuantificación de la magnitud de la variación entre los genotipos [8
- 10] , Los ecologistas han comenzado recientemente a apreciar la importancia
Sin embargo, GLMMs son sorprendentemente difícil de usar incluso para los
estadísticos. Aunque varios paquetes de software pueden manejar GLMMs ( tabla
1 ), Algunos ecologistas y biólogos evolutivos son conscientes de la gama de
opciones o de los posibles peligros. En la revisión de documentos en EE desde
Autor correspondiente: Bolker, BM ( bolker@ufl.edu ). 2005
0169-5347 / $ - see front matter 2008 Elsevier Ltd. Todos los derechos reservados. doi: 10.1016 / j.tree.2008.10.008 127
revisión Trends in Ecology and Evolution vol.24 No.3
Restringido de máxima verosimilitud (REML): una alternativa a la ML que estima los parámetros
Glosario
de efectos aleatorios (es decir, las desviaciones estándar) de media sobre los valores de los
parámetros fijo de efecto; estimaciones REML de desviaciones estándar son generalmente
estadística bayesiana: un marco estadístico basado en la combinación de datos con información
menos sesgada que las estimaciones ML correspondiente.
previa subjetiva sobre valores de los parámetros a fin de obtener probabilidades a posteriori de
los diferentes modelos o valores de parámetros.
Parcialidad: inexactitud de la estimación, especí fi camente la diferencia esperada entre una

estimación y el valor real. encontrado por Google Scholar, 311 de 537 GLMM análisis (58%) utilizan estas
Bloquear los efectos aleatorios: efectos que se aplican igualmente a todos los individuos dentro de un herramientas de forma inapropiada de alguna manera ( ver material complementario
grupo (bloque experimental, especie, etc.), lo que lleva a un solo nivel de correlación dentro de los
en línea ). Aquí damos un amplio y práctico resumen de los procedimientos GLMM.
grupos.
efectos aleatorias continuas: efectos que conducen a las correlaciones entre los grupos que
varían con la distancia en el espacio, el tiempo o la historia filogenética. Mientras que en sí son GLMMs incontrovertible, que describe cómo usarlos
para analizar los datos estadísticos necesariamente toca temas
efectos aleatorios cruzados: múltiples efectos aleatorios que se aplican independientemente Toan
oncontroversial thedebate comoel sobre las pruebas de hipótesis nula [17] , La
individuales, tales como bloques de andspatial temporales en el mismo diseño, donde la variabilidad temporal
validez de regresión paso a paso [18] y el uso de la estadística bayesiana [19] .
actúa sobre todos los bloques espaciales igualmente.
familia exponencial: una familia de distribuciones estadísticas que incluyen las distribuciones Otros han discutido a fondo estos temas (por ejemplo, [17 -
normal, binomial, Poisson, exponencial y gamma.
Los efectos fijos: factores cuyos niveles son determinados experimentalmente o cuyo interés radica 19] ); reconocemos la dificultad sin dejar de ser agnóstico. Primero se discuten
en los efectos fi específicos de cada nivel, tales como efectos de las covariables, las diferencias
los algoritmos de estimación disponibles para ttingGLMMs fi todata a FI
entre los tratamientos e interacciones.
ndparameter estimates.We continuación, se describen los procedimientos de
Frecuentista estadísticas (basado en la toma de muestras): un marco estadístico basado en el cálculo
de las distribuciones esperadas de estadísticas de prueba en muestras repetidas de un mismo inferencia para construir intervalos de con fi anza en los parámetros, comparar
sistema. Las conclusiones se basan en las probabilidades de observar los fenómenos extremos. y seleccionar modelos y comprobar hipótesis con GLMMs. Por último, se
resumen razonables 'mejores prácticas' para el uso de estas técnicas para
Los modelos lineales generalizados (GLM): modelos estadísticos que asumen los errores de la
responder a las preguntas ecológicas y evolutivas.
familia exponencial; valores predichos son determinados por variables de predicción discretas y
continuas y por la función de enlace (por ejemplo, regresión logística, regresión de Poisson) (que
no debe confundirse con PROC GLM en SAS, que estima los modelos lineales generales, tales
como ANOVA clásica.). Estimacion
La estimación de los parámetros de un modelo estadístico es un paso clave en la
efectos aleatorios individuales: efectos que se aplican a nivel de cada individuo (es decir,
mayoría de los análisis estadísticos. Para GLMMs, estos parámetros son los
'bloques' de tamaño 1).
estadísticas teoría de la información y criterios de información: un marco estadístico basado en el
parámetros fijo-efectos (efectos de las covariables, las diferencias entre los
cálculo de la distancia relativa esperada de modelos de la competencia de un verdadero modelo tratamientos y las interacciones: en
hipotético. Recuadro 1 , Estos son el conjunto global de la fruta por individuo y los efectos de la
modelos lineales mixtos (LMMS): modelos estadísticos que asumen errores distribuidos
fertilización, de recorte y su interacción en el set de la fruta) y los parámetros de
normalmente y también incluyen ambos efectos jos y aleatorios fi, tales como ANOVA que
efectos aleatorios (las desviaciones estándar de los efectos aleatorios: en Recuadro
incorporan un efecto aleatorio.
función de enlace: una función continua que define la respuesta de las variables a predictores en 1 , La variación en el conjunto de la fruta, la fertilización, el recorte y efecto de la
un modelo lineal generalizado, como logit y probit enlaces. La aplicación de la función de enlace interacción a través de los genotipos y poblaciones). Muchas de las herramientas
hace que el valor esperado de la respuesta lineal y las variaciones esperadas homogénea. estadísticas modernas, includingGLMMestimation, fi cio estos parámetros por
máxima verosimilitud (ML). Para los análisis simples donde las variables de
cadena de Markov Monte Carlo (MCMC): una técnica estadística bayesiana que los parámetros
respuesta son normales, todos los tratamientos tienen tamaños iguales de muestra
de muestras de acuerdo con un algoritmo estocástico que converge en la distribución de
probabilidad posterior de los parámetros, combinando la información de la probabilidad y la (es decir, el diseño es equilibrado) y todos los efectos aleatorios son efectos
distribución posterior. anidado, los métodos de ANOVA clásicos basados en diferencias de sumas de
cuadrados de computación dan las mismas respuestas como enfoques ML. Sin
máxima verosimilitud (ML): un marco estadístico que fi nds los parámetros de un modelo que
embargo, esta equivalencia se rompe por LMM más complejas o para GLMMs: para
maximiza la probabilidad de los datos observados (la probabilidad). (Véase la máxima
hallar estimaciones ML, hay que integrar las probabilidades para todos los valores
verosimilitud restringida).
La selección del modelo: cualquier método para determinar la mejor de un conjunto de modelos posibles de los efectos aleatorios ( [20,21] Box 2 ). Para GLMMs este cálculo es en el
estadísticos candidatos. herramientas de información teórica como AIC, que también permiten modelo de mejor de lento, y en el peor (por ejemplo, para un gran número de randomeffects)
promediado, se prefieren generalmente a los métodos más antiguos tales como regresión paso a paso. computacionalmente imposible.
modelos anidados: modelos que son subconjuntos de un modelo más complejo, derivado mediante el
establecimiento de uno o más parámetros del modelo más complejo para un valor particular (a menudo
cero).
efectos aleatorios anidados: múltiples efectos aleatorios que están estructurados jerárquicamente, como Los estadísticos han propuesto diversas formas de aproximar la
especies dentro del género o subsitios dentro de los sitios dentro de las regiones.
probabilidad para estimar los parámetros GLMM, incluyendo pseudo- y
cuasi-verosimilitud penalizado (CVP [22 -
sobredispersión: la aparición de una mayor variación en los datos que lo predicho por un modelo
estadístico. 24] ), aproximaciones de Laplace [25] y Gauss-Hermite cuadratura (GHQ [26] ),
los residuos de Pearson: residuos de un modelo que se puede utilizar para detectar valores Así como de Monte Carlo algoritmos de la cadena de Markov (MCMC) [27] ( tabla
atípicos y no homogeneidad de la varianza. 1 ). En todos estos enfoques, hay que distinguir entre la estimación ML
Efectos aleatorios: factores cuyos niveles son la muestra de una población más grande, o cuyo
estándar, que estima las desviaciones estándar de los randomeffects
interés radica en la variación entre ellos en lugar de thespeci fi ceffectsof cada nivel.
suponiendo que la fi jo-efecto estimaciones son precisamente correcto, y la
Theparametersof randomeffects son los standarddeviationsof variationat aparticular nivel (por
ejemplo entre los bloques experimentales). Las precisas de fi niciones de 'fijada' y 'al azar' son estimación de máxima verosimilitud restringida (REML), una variante con un
controvertidos; el estado de las variables particulares depende del diseño experimental y el promedio de más de algunas de las incertidumbre en los parámetros fijos de
contexto [16,53] . efecto [28,29] .
128
Recuadro 1. Ejemplo A GLMM: genotipo por medio ambiente interacción en la respuesta de Arabidopsis a la herbivoría
Se utilizó para estimar GLMMs gen por medio de la interacción tan grande como los efectos fijos). A pesar de la tendencia general de nutrientes para permitir que
Arabidopsis respuesta a la herbivoría simulada [54,55] . Los efectos fijos cuantificar los efectos las plantas para compensar los daños (nutriente fijo -
globales (en todos los genotipos) de la fertilización y el recorte; los efectos aleatorios cuantificar la interacción de recorte) es débil, inferimos fuerte interacción gen por medio ambiente a nivel de los
variación entre genotipos y poblaciones de los parámetros de efectos fijos. Los efectos aleatorios genotipos individuales.
son un foco primario, en lugar de una variable estorbo.
Debido a que la variable de respuesta (frutos totales por persona) fue datos de recuento, empezamos
con un modelo de Poisson (enlace de registro). La media del número de frutos por planta dentro de
genotipo grupos de tratamiento fue a veces
< 5, así que utilizamos aproximación de Laplace. Nuestro modelo de efectos 'total' utilizado fijo (+
saturación de nutrientes + nutriente clipping) y dos conjuntos de
efectos aleatorios que cruzaban estos efectos fijos con poblaciones y genotipos dentro de las
poblaciones. A pesar de que las poblaciones se encuentran dentro de tres regiones más grandes, que
ignoramos estructura regional debido a la replicación insuficiente. También se incluyeron dos
variables experimentales de diseño en todos los modelos, utilizando efectos fijos debido a su reducido
número de niveles (tanto <4; Recuadro 4). métodos de estimación de Laplace para el modelo
completo convergieron fácilmente.
Los residuales indicaron sobredispersión, por lo que volver a montar los datos con un modelo
cuasi-Poisson. A pesar del parámetro de escala prevista grande (10.8), gráficos exploratorios no
encontraron pruebas de valores atípicos en el nivel de los individuos, los genotipos o poblaciones.
Utilizamos cuasi-AIC (QAIC), utilizando un grado de libertad para los efectos aleatorios [49] , Para
randomeffect y después para de efectos fijos selección del modelo.
anota QAIC indicaron que el modelo con todos los efectos aleatorios de nivel de genotipo (de
nutrientes, el recorte y su interacción) y ninguna agrupación a nivel de población era mejor; un
modelo con la variación a nivel de población en conjunto fruta en general era casi tan bueno ( re QAIC
= 0,6), y los modelos con variación a nivel de población en la fertilización o efectos recorte (pero no
ambos) eran razonables ( re QAIC < 10). Debido a que estos modelos dieron estimaciones de
efectos fijos casi idénticos, el modelo de promedio era innecesario. comparaciones QAIC apoyaron
un fuerte efecto de nutrientes promedio en todos los genotipos (diferencia de tres veces en el
cuajado), con efectos más débiles de recortes (50% de disminución en el cuajado, re QAIC = 1,9) y
de nutrientes
Figura I. Los efectos aleatorios de los genotipos para cada modelo de parámetros-diferencias de valores de parámetros
interacción de recortes (aumento doble o compensat-
específicos del genotipo de la media global. paneles diagonales dan etiquetas (intercepción = log cuajado de control;
ing efectos: re QAIC = 3,4). nutriente = aumento de la fruta registro de establecer debido a nutrientes; recorte = disminución debido a la saturación;
El patrón de efectos aleatorios ( Figura I ) Indica una considerable interacción = nutriente recorte
heterogeneidad entre los genotipos, con una desviación estándar de 1 (al menos interacción) y balanzas para subtramas. El color indica la región de origen.
ML subestima de efectos aleatorios desviaciones estándar, excepto en paquetes estadísticos ha fomentado el uso de GLMMs en muchas áreas de EE,
grandes conjuntos de datos, pero es más útil para comparar modelos con incluyendo la ecología del comportamiento y de la comunidad, la biología y la
diferentes efectos fijos. conservación genética cuantitativa y evolutivos [30] . Por desgracia, la CVP
CVP es el más simple y más ampliamente utilizado aproximación GLMM. produce estimaciones de los parámetros sesgados si las desviaciones estándar
Su implementación en ampliamente disponibles de la
Tabla 1. Capacidades de los diferentes paquetes de software para GLMManalysis: estimationmethods, el alcance de los modelos estadísticos que pueden ser métodos de inferencia fi tted y
disponibles
cuasi-verosimilitud Laplace Gauss efectos Wald x 2 o pruebas Grados de el muestreo espacial sobredispersión
sancionado cuadratura de aleatorios de Wald F libertad MCMC continua /
Hermite cruzados correlación
temporal
SAS PROC GLIMMIX T T un T un T T BW, S, KR T QL
PROC NLMIXED T T BW, S, KR dist
R glmmPQL T T BW T QL
glmmML T T
glmer T ( T) T ( T) QL
glmmADMB T dist
GLMM T T? T T QL
GenStat / T T T T dist
ASREML
AD Model T T T T
Builder
HLM T
GLLAAMM T dist
(Stata)
WinBUGS T T
Abreviaturas: BW, entre - dentro; dist, distribución ed específico (por ejemplo, binomial negativo); KR, Kenward-Roger; QL, cuasi-verosimilitud; S, Satterthwaite.
un Versión 9.2 solamente.
129
Cuadro 2. Estimación: detalles que evalúan las probabilidades GLMM
Considere de datos x con un único efecto aleatorio u ( por ejemplo, la diferencia de cuadras de la El método de Laplace se aproxima la probabilidad suponiendo que la distribución de la
media global) con una varianza s 2 ( por ejemplo, la varianza entre los bloques) y de efectos fijos probabilidad ( no la distribución de los datos) es aproximadamente normal, haciendo que la
parámetro m ( por ejemplo, la diferencia esperada entre dos tratamientos). La probabilidad general función cuadrática probabilidad en la escala logarítmica y permitiendo el uso de una expansión
es R PAG( u j s 2) de Taylor de segundo orden.
2) L (x j m, u) re u: el primer término [P ( u j s 2)] da la probabilidad de sacar un valor determinado bloque u de
la distribución de bloque (normalmente distribuido), mientras que el segundo término [L (x j m, u)] da

Gauss-Hermite cuadratura se aproxima a la probabilidad escogiendo subdivisiones óptimo en el
la probabilidad de observar los datos dados el efecto del tratamiento y el valor de bloque particular. que para evaluar el integrando. Adaptativo GHQ incorpora información de un ajuste inicial para
Integrando calcula la probabilidad promedio de todos los valores posibles de bloque, ponderada aumentar la precisión.
por su probabilidad [28] . Procedimientos para la estimación de parámetros GLMM se aproximan a
la probabilidad de varias maneras diferentes ( Tabla I ): cadena de Markov Monte Carlo algoritmos secuencialmente muestra de valores aleatorios de
los parámetros de efectos fijos, los niveles de los efectos aleatorios ( u en el ejemplo anterior) y
los parámetros de efectos aleatorios ( s 2 más arriba), en una forma que converge en la
suplentes cuasi-verosimilitud penalizados entre (i) la estimación de parámetros fijos por el ajuste distribución de estos valores.
de una GLM con una varianza - matriz de covarianza sobre la base de un ajuste LMM y (ii) la
estimación de las varianzas y covarianzas mediante el ajuste de un LMM con varianzas
desiguales calculados a partir de la anterior ajuste GLM. Pseudos-verosimilitud, una técnica Estos procedimientos son innecesarios para los modelos lineales mixtos, aunque el uso
muy relacionado, estima las variaciones en la etapa ii diferente y calcula un parámetro de equivocado de técnicas GLMM para analizar LMM está muy extendida en la literatura ( ver
escala para dar cuenta de sobredispersión (algunos autores utilizan estos términos suplemento en línea ).
indistintamente).
Tabla I. Las técnicas para la estimación de parámetros GLMM, sus ventajas y desventajas y los paquetes de software que los implementan Técnica
ventajas desventajas Software

Sancionado cuasi-verosimilitud flexible, ampliamente implementado Probabilidad de inferencia apropiada; sesgada de varianza PROC GLIMMIX (SAS), GLMM (Genstat),
grande o pequeños medios glmmPQL (R), glmer (R)
aproximación de Laplace Más precisa que la CVP Más lento y menos flexible que la CVP PROC GLIMMIX [56] , Glmer (R), glmm.admb (R),
AD Model Builder, HLM
Gauss-Hermite cuadratura Más preciso que Laplace Más lento que Laplace; limitado a 2 - 3 efectos PROC GLIMMIX [56] , PROC NLMIXED (SAS), glmer
aleatorios (R), glmmML (R)
cadena de Markov Monte Carlo altamente fl, número arbitrario exible Muy lento, un desafío técnico, marco bayesiano WinBUGS, JAGS, MCMCpack, (R), AD Model
efectos de azar; preciso Builder
efectos aleatorios son grandes, especialmente con datos binarios (es decir, datos En contraste con los métodos que se integran de forma explícita sobre efectos
binomial con un solo individuo por observación) aleatorios para calcular la probabilidad, métodos MCMC generan muestras
[31,32] . Los estadísticos han implementado varias versiones mejoradas de CVP, aleatorias de las distribuciones de valores de parámetros para fijo y efectos
pero estos no están disponibles en los paquetes de software más comunes ( [32,33] aleatorios. MCMC se utiliza generalmente en un marco bayesiano, que incorpora
). Como regla general, la CVP funciona mal para los datos de Poisson cuando la información previa sobre la base de conocimiento previo sobre los parámetros o
media del número de cuentas por combinación de tratamiento es inferior a cinco, o poco informativos (débiles) distribuciones previas especificaciones es para indicar la
para datos binomiales donde los números esperados de los éxitos y fracasos de falta de conocimiento. Inferencia se basa en estadísticas de resumen (media, moda,
cada observación están a menos de cinco (que incluye binaria datos) [30] . Sin cuartiles, etc.) de la distribución posterior, que combina la distribución a priori con la
embargo, nuestra revisión de la literatura encontró que el 95% de los análisis de probabilidad [34] . Bayesiano MCMC da respuestas similares a las de máxima
las respuestas binarias (n = 205), 92% de las respuestas de Poisson withmeans probabilidad se acerca cuando los conjuntos de datos son se supone un
menos de 5 (n = 48) y 89% de las respuestas binomiales con menos de 5 éxitos conocimiento previo altamente informativo y poco (es decir, cuando los priores son
por grupo (n = 38) que se utiliza CVP. débiles). A diferencia de los métodos discutidos anteriormente, MCMCmethods se
extienden fácilmente a considerar múltiples efectos aleatorios [27] , Aunque se
requieren grandes conjuntos de datos. Además de su bayesiano de sabor (que
Otra desventaja de CVP es que se calcula una cuasi-verosimilitud en lugar de podría disuadir a algunos usuarios potenciales), MCMC implica varios detalles
una verdadera posibilidad. Muchos estadísticos sienten que los métodos basados técnicos fi cultades de culto, potencialmente, incluyendo asegurándose de que el
en la verosimilitud no deben ser utilizados para la inferencia (por ejemplo, pruebas modelo estadístico está bien planteado; la elección de los priores apropiadas [35] ; la
de hipótesis, ocupando el AIC) con quasilikelihoods (ver sección de inferencia a elección de los algoritmos e fi cientes para grandes problemas [36] ; y evaluar cuando
continuación [26] ). las cadenas se han quedado el tiempo suficiente para la estimación fiable [37 - 39] .
Los estadísticos también están desarrollando herramientas alternativas que
Dos aproximaciones más precisas están disponibles aprovechen las ventajas computacionales de MCMC dentro de un marco frequentist [40,41]
[25,30] . Además de reducir el sesgo, Laplace aproximación ( Box 2 [25] ) Se , Pero estos enfoques no han sido ampliamente probado.
aproxima a la verdadera probabilidad GLMM en lugar de un cuasi-verosimilitud,
permitiendo el uso de la inferencia basada en probabilidad. cuadratura de
Gauss-Hermite [26] es más preciso todavía, pero es más lento que la
aproximación de Laplace. Debido a que la velocidad de GHQ disminuye
rápidamente con el aumento de los números de efectos aleatorios, no es factible
para análisis con más de dos o tres factores aleatorios. Aunque muchas herramientas de estimación sólo están disponibles en algunos
paquetes de estadística, o se di fi culto a utilizar, la situación
130
Figura 1. Árbol de decisiones para GLMM apropiado y la inferencia. Condiciones en el Poisson y distribuciones binomiales a lo largo de la rama derecha se refieren a cuasi-verosimilitud penalizado (CVP) reglas de oro [30] : Utilizar CVP,
distribuciones de Poisson deben tener media> 5 y binomiales distribuciones deben tener el mínimo del número de éxitos y fracasos
> 5. mcem = Monte Carlo expectativa de maximización [40] .
está mejorando gradualmente a medida que los desarrolladores de software y utilizando pruebas de hipótesis (es decir, pruebas de modelos anidados más
editores a mejorar sus ofertas. ¿Qué técnica de estimación es más útil en una simples againstmore complexmodels) [42] o mediante el uso de enfoques
situación dada depende de la complejidad del modelo, así como el tiempo de informationtheoretic, que utilizan medidas de capacidad de predicción esperada
cálculo, la disponibilidad del software y la aplicabilidad de los diferentes métodos para clasificar los modelos o el promedio de sus predicciones [43] . métodos
de inferencia ( Figura 1 ). bayesianos tienen el mismo alcance general como enfoques frecuentistas o
información teórica, pero difieren en sus bases filosóficas, así como en los
procedimientos de fi específicos utilizados.
Inferencia
Después de estimar los valores de los parámetros para GLMMs, el siguiente paso
es la inferencia estadística: es decir, extraer conclusiones estadísticas y biológicas Evaluación de la hipótesis
de los datos mediante el examen de las estimaciones y sus confianza intervalos, Wald Z, x 2, t y F GLMMs pruebas para probar una hipótesis nula de no efecto
pruebas de hipótesis, seleccionando el mejor modelo (s) y evaluar diferencias en la ajustando las estimaciones de los parámetros o combinaciones de parámetros
bondad de fi cio entre los modelos. Se discuten tres tipos generales de inferencia: por sus errores estándar estimados y comparar la estadística de prueba que
prueba de hipótesis, comparación de modelos y enfoques bayesianos. prueba de resulta en cero [44] . Wald Z y x 2 pruebas sólo son apropiados para GLMMs sin
hipótesis frequentist compara estadísticas de prueba (por ejemplo, F estadísticas de sobredispersión, mientras Wald t y F pruebas dan cuenta de la incertidumbre en
ANOVA) a sus distribuciones esperadas bajo la hipótesis nula, la estimación de las estimaciones de sobredispersión [29] . Esta incertidumbre depende del
una pag valor para determinar si se puede rechazar la hipótesis nula. La selección número de grados de libertad residuales, que pueden ser culto fi muy dif para
del modelo, por el contrario, compara los bene fi de modelos candidatos. Uno calcular debido a que el número efectivo de parámetros utilizados por un
puede seleccionar modelos, ya sea por randomeffect encuentra en algún lugar entre 1 (es decir, una única desviación
estándar
131
Recuadro 3. Inferencia detalles
Inferencia de conclusiones (por ejemplo, la prueba de hipótesis) de los resultados de los análisis de los niveles de efectos aleatorios). Los paquetes de software varían enormemente en su
de GLMM puede ser un reto, y en algunos casos aún estadísticos no están de acuerdo sobre los acercamiento a la computación df [61] . El enfoque más simple (el valor predeterminado en SAS)
procedimientos adecuados ( Tabla I ). Aquí destacamos dos desafíos particulares, efectos de utiliza el número mínimo de df aportado por efectos aleatorios que afectan el término siendo
cálculo de límites y grados de libertad. probado [29] . Las aproximaciones Satterthwaite y Kenward-Roger (KR) [29,62] utilizar reglas más
complicadas para aproximarse a los grados de libertad y ajustar los errores estándar. KR, sólo está
disponible en SAS, realiza generalmente mejor (al menos para LMM [63] ). En nuestra revisión de la
efectos de frontera
literatura, más análisis SAS (63%, n = 102) que se utiliza el método predeterminado (que es 'en el
Muchas pruebas asumen que los valores nulos de los parámetros no están en el límite del margen
mejor de aproximada, y puede ser impredecible' [64] ). Un enfoque alternativo utiliza la matriz de
permitido. En particular, la hipótesis nula para efectos aleatorios ( s = 0) viole esta hipótesis, ya que
sombrero, que se puede derivar estimaciones fromGLMM. El tamaño de la muestra
las desviaciones estándar debe ser 0 [45] . Probabilidad ratio de pruebas que comparan el cambio
en la desviación entre los modelos anidados que difieren por v términos de efectos aleatorios contra
una x 2 con la distribución v
norte menos la traza t ( es decir, la suma de los elementos diagonales) de la matriz sombrero
proporciona una estimación de los grados residuales de libertad
grados de libertad ( x 2 v) son conservadoras, lo que aumenta el riesgo de errores tipo II. Las mezclas
[43,51] . Si el df residual ajustado son> 25, estos detalles son menos importantes.
de x 2 v y x 2 v 1 distribuciones son apropiados en casos sencillos [57 - 59] ; para un único parámetro de
varianza ( v = 1), esto es equivalente a dividir el estándar x 21 pag valor por 2 [29] . enfoques
En cuenta los efectos de límites y cálculo de grados de libertad apropiados sigue siendo difícil.
información teórica sufren de problemas análogos [48,60] .
Los investigadores deben utilizar correcciones apropiadas cuando están disponibles, y comprender
los sesgos que se producen en los casos en que tales correcciones no son viables (por ejemplo,
ignorando los efectos de contorno hace pruebas de efectos aleatorios conservadores).
El cálculo de los grados de libertad
Los grados de libertad (gl) para los efectos aleatorios, necesarios para Wald t o
F pruebas o AIC do, debe estar entre 1 y norte 1 (donde norte es el número
Tabla I. Técnicas para inferencias GLMM, sus ventajas y desventajas y los paquetes de software que les implantó el método
ventajas desventajas Software
pruebas de Wald ( Z, x 2, t, F) Ampliamente disponibles, flexible, bien para problemas de límites; pobres de efectos aleatorios; t y GLIMMIX, NLMIXED (SAS), glmmPQL
cuasi-verosimilitud (QL) F requerir df residual (R)
prueba de razón de verosimilitud Mejor que las pruebas de Wald para efectos aleatorios Malo para efectos fijos sin muestras de gran tamaño; efectos de NLMIXED (SAS), lme4 (R)
contorno; inadecuado para QL
criterios de información Evita procedimientos escalonados; proporciona los pesos efectos de contorno; no pag valor; requiere estimación df residual GLIMMIX, NLMIXED (SAS), lme4 (R)
del modelo y de promediado; QAIC aplica a los datos para AIC do
overdispersed
criterio de información de la penaliza de forma automática la complejidad del Requiere muestreo MCMC WinBUGS
desviación modelo
parámetro) y norte 1 (es decir, un parámetro para cada nivel adicional del se prefieren para la inferencia en efectos aleatorios [47]
efecto aleatorio; [29] Box 3 ). Para efectos aleatorios, estas pruebas (en común ( Figura 1 ).
con varias otras herramientas GLMM de inferencia) sufren de efectos de
contorno debido a que los valores nulos de los parámetros se encuentran en el La selección del modelo y el promedio
borde de su rango factible ( [45] Box 3 ): Es decir, las desviaciones estándar LR pruebas pueden evaluar la significación de los factores particulares o,
sólo puede ser mayor y no menos de su valor hipótesis nula de cero. equivalentemente, elegir el mejor de un par de modelos anidados, pero algunos
investigadores han criticado la selección del modelo a través de este tipo de
comparaciones por pares como un abuso de la prueba de hipótesis [18,43] .
El cociente de probabilidad (LR) prueba determina la contribución de un solo procedimientos de selección de modelo de información teórica, por el contrario,
factor (aleatorio o fijo fi) mediante la comparación de la fi t (medido como la permiten la comparación de múltiples modelos, nonnested. El criterio de información
desviación, es decir, 2 veces la relación loglikelihood) para los modelos con y sin el de Akaike (AIC) y los criterios de información relacionada (IC) utiliza la desviación
factor, a saber los modelos anidados. Aunque ampliamente utilizado a través de la como una medida de fi t, la adición de un término para penalizar modelos más
estadística, la prueba LR no se recomienda para las pruebas de fi efectos jos en complejos
GLMMs, porque es poco fiable para la pequeña a moderada tamaño de las muestras (es decir, un mayor número de
(tenga en cuenta que las pruebas de LR sobre los efectos fijos, o cualquier parámetros). En lugar de estimar pag valores, los métodos de información teórica
comparación de modelos con diferentes efectos fijos, también requieren ML, en lugar estiman estadísticas que cuantifican la magnitud de la diferencia entre los modelos
de REML, las estimaciones) [28] . La prueba de LR sólo es adecuada para pruebas de en el poder predictivo esperado, que se puede entonces evaluar usando reglas de
efectos fijos cuando tanto la relación entre el tamaño total de la muestra para el oro [43] . ICs también proporcionan una base natural para un promedio de
número de niveles xedeffect fi siendo probado [28] y el número de niveles estimaciones de los parámetros y las predicciones a través de modelos, que puede
randomeffect (bloques) [44,46] son grandes. Hemos encontrado poco de orientación proporcionar una mejor estimación, así como la confianza intervalos que
y no hay normas concretas de pulgar en la literatura sobre este tema, y recomendaría representan correctamente para la incertidumbre del modelo [17] . Las variantes de
contra el uso de la prueba de LR para los efectos fijos a menos que el tamaño y el AIC son útiles cuando los tamaños de las muestras son pequeños (AIC do), cuando
número de bloques muestra total son muy grandes. La prueba de LR es los datos se overdispersed (cuasi-AIC, QAIC) o cuando uno quiere identificar el
generalmente apropiado para la inferencia de factores aleatorios, aunque se número de parámetros en un modelo de 'verdadero' (criterio bayesiano o
necesitan correcciones para hacer frente a problemas de límites similares a los de las información de Schwarz, BIC) [43] . Las principales preocupaciones con el uso de
pruebas de Wald [28,45] . En general, debido a las pruebas de Wald hacen AIC para GLMMs (efectos de contorno [48]
suposiciones más fuertes, LR prueba
y la estimación de grados de libertad para los efectos aleatorios

[49] ) Reflejan las de las pruebas estadísticas clásicas ( Recuadro 3 ).
132
Recuadro 4. Procedimientos: la creación de un modelo completo
Aquí describimos un marco general para la construcción de un modelo completo (más complejo), el El no converge (advertencias o errores): reducir la complejidad del modelo o cambiar la configuración
primer paso en el análisis GLMM. Después de este proceso, se puede entonces evaluar los de optimización (asegúrese de que las respuestas resultantes tienen sentido). Prueba otros
parámetros y comparar los submodelos como se describe en el texto principal y en Figura 1 . algoritmos de estimación.
Cero componentes de la varianza o de singularidad (advertencias o errores):
1. Especificar fijos (tratamientos o covariables) y efectos aleatorios (bloques experimentales, compruebe que el modelo es adecuadamente de fi nido e identi fi cable (es decir, todos los
espaciales o temporales, personas, etc.). Incluir interacciones sólo es importante. Restringir el componentes se pueden estimar teóricamente). Reducir la complejidad del modelo.
modelo a priori a un nivel de complejidad posible, sobre la base de reglas empíricas (> 5 - 6
niveles de efectos aleatorios por efecto aleatorio y> 10 - 20 muestras por nivel de tratamiento o Adición de información para el modelo (covariables adicionales o nuevos grupos de efectos
unidad experimental) y el conocimiento de muestra adecuado tamaños obtuvieron a partir de aleatorios) puede aliviar los problemas, como se centrado covariables continuas restando su
estudios anteriores [64,65] . media [50] . Si es necesario, eliminar los efectos aleatorios del modelo completo, dejando caer
(i) los términos de interés biológico menos intrínseca, (ii) los términos con muy pequeñas
2. Elija una función de distribución de error y el enlace (por ejemplo, distribución de Poisson y el varianzas estimadas y / o gran incertidumbre, o (iii) los términos de interacción. (Errores de
enlace para datos de recuento, distribución binomial y enlace logit de los datos de proporción log). convergencia o cero variaciones podrían indicar los datos insu fi ciente.)
3. comprobación gráfica: son las varianzas de los datos (transformado por la función de enlace) a
través de categorías homogéneas? Son respuestas de transformada lineal de datos con
respecto a los predictores continuos? ¿Hay valores atípicos individuos o grupos? Qué 6. supuestos vuelva a verificar el modelo final (como en el paso 3) y comprobar que las
distribuciones dentro de los grupos coinciden con la distribución asumida? estimaciones de parámetros e intervalos de confianza son razonables (intervalos de confianza
gigantescas podrían indicar problemas de ajuste). La magnitud de los residuos estandarizados
4. Montar GLMs de efectos fijos tanto a la (agrupada) conjunto de datos completo y dentro de cada nivel de debe ser independiente de los valores ajustados. Evaluar sobredispersión (la suma de los
los factores aleatorios [28,50] . Los parámetros estimados debe ser aproximadamente una distribución residuos al cuadrado de Pearson debe ser x 2 repartido [66,67] ). Si es necesario, cambiar las
normal en todos los grupos (parámetros de nivel de grupo pueden tener grandes incertidumbres, distribuciones o estimar un parámetro de escala. Compruebe que un modelo completo que
especialmente para grupos con tamaños de muestra pequeños). Ajuste modelo según sea necesario incluye cayó efectos aleatorios con pequeñas desviaciones estándar da resultados similares al
(por ejemplo, función de enlace cambio o añadir covariables). modelo final. Si los diferentes modelos conducen a sustancialmente diferentes estimaciones de
los parámetros, considere un promedio de modelo.
5. Colocar la GLMM completa.
Insu memoria del ordenador ient ic f o demasiado lento: reducir la complejidad del modelo. Si la estimación
se realiza correctamente en un subconjunto de los datos, pruebe con un algoritmo de estimación más
eficiente (por ejemplo, CVP en su caso).
enfoques bayesianos la estimación de grados de libertad para F pone a prueba, pero sólo se ha
enfoques bayesianos de inferencia GLMM ofrecen varias ventajas sobre los aplicado muy poco [52] .
métodos frecuentistas y teoría de la información [50] . En primer lugar, MCMC
proporciona con fi intervalos de confianza en los parámetros GLMM (y por tanto procedimientos
pruebas de que esos parámetros podrían plausiblemente igual a cero) de una Teniendo en cuenta toda esta información, ¿cómo se debe utilizar realmente GLMMs
manera que naturalmente promedio de más de la incertidumbre en tanto los para analizar los datos ( Recuadro 4 )? Por desgracia, no se puede recomendar un
parámetros fi xedand de efectos aleatorios, evitando muchos de los procedimiento único, universal, porque diferentes métodos son apropiados para
aproximaciones de culto dif fi utilizados en hipótesis frequentist pruebas. En diferentes problemas (ver
segundo lugar, las técnicas bayesianas de fi ne probabilidades modelo posterior Figura 1 ) Y, tal como se desprende de los debates recientes [42] , Cómo se analizan
que automáticamente penalizemore complexmodels, proporcionando una manera los datos depende en gran medida de enfoque filosófico de uno (por ejemplo,
de seleccionar o promedio de los modelos. Debido a estas probabilidades pueden pruebas de hipótesis frente a la selección de modelos, frequentist frente bayesiana).
ser muy difíciles de calcular, análisis Bayesiano suelen utilizar dos En cualquier caso, se recomienda encarecidamente que los investigadores proceder
aproximaciones comunes, la Bayesiano (BIC) y la desviación (DIC) criterios de con cautela al asegurarse de que tienen una buena comprensión de los conceptos
información [51] . El BIC es similar a la AIC, y de manera similar requiere una básicos de los modelos mixtos lineales generalizados y antes de tomar la zambullida
estimación del número de parámetros ( Recuadro 3 ). El DIC hace suposiciones en GLMMs, y respetando las limitaciones de sus datos.
más débiles, calcula automáticamente una penalización por la complejidad del
modelo y se calcula automáticamente por el programa WinBUGS ( http://www.mrcbsu.cam.ac.uk/bugs
). A pesar de la incertidumbre entre los estadísticos acerca de sus propiedades [51] Después de construir un modelo completo ( Recuadro 4 ), Uno debe elegir
, El CID está ganando rápidamente popularidad en los círculos ecológicos y entre las filosofías de la inferencia. La primera opción es la regresión por pasos
evolutivos. hacia atrás clásica usando la prueba de LR para probar efectos aleatorios y Wald x
2 pruebas, Wald F pruebas o muestreo MCMC para poner a prueba fi efectos jos,
efectos que no difieren significativamente de cero descartar. Mientras que los
estadísticos desaconsejan regresión paso a paso automático con muchos
También se puede utilizar enfoques bayesianos para calcular con fi potenciales predictores, la prueba de hipótesis disciplinado para pequeñas
intervalos de confianza para los parámetros del modelo estimados por métodos cantidades de reducción de modelos todavía se considera adecuado en algunas
frecuentistas [52] mediante el uso de un algoritmo especializado MCMC que las situaciones [28] . Alternativamente, las herramientas de información teórica pueden
muestras de la distribución posterior de los parámetros (suponiendo priors poco seleccionar modelos de complejidad adecuada [43] . Este enfoque fi nds el modelo
informativos). Este enfoque representa una alternativa prometedora que se con la capacidad de predicción más alta estimada, sin datos snooping,
lleva a la incertidumbre en los parámetros tanto fi xed- y de efectos aleatorios suponiendo que se puede estimar con precisión el número de parámetros (es
en cuenta, aprovecha la computacional e fi ciencia de los enfoques decir, grados de free-
frecuentistas y evita las dificultades de
133
dom) para efectos aleatorios [49] . Lo ideal sería que, en lugar de seleccionar el 2 Vergara, P. y Aguirre, JI (2007) Fecha de entrada, la edad y la cría
el éxito en la cigüeña blanca Ciconia ciconia. J. Biol aviar. 38, 573 - 579 3 Pawitan, Y. et al. ( 2004)
modelo de 'mejor', uno promedio en todos los modelos fi tting razonablemente bien
Estimación de los factores genéticos y ambientales para los rasgos binarios usando datos de la
(por ejemplo, re AIC < 10), utilizando ya sea IC o herramientas bayesianos [43] , A
familia. Stat. Medicina. 23, 449 -
pesar de la complejidad adicional de este paso podría ser innecesario si las 465 4 Kalmbach, E. et al. ( 2001) El aumento de la proporción de sexos esfuerzo reproductivo
predicciones del modelo son similares o si la comprensión cualitativa en lugar de descendencia inmalebiased: un estudio experimental en una especie con dimorfismo sexual
predicción cuantitativa es el objetivo del estudio. invertido. Proc. Biol. Sci. 268, 2175 - 2179 5 Smith, A. et al. ( 2006) El papel de la transmisión
vectorial independiente en la infección por tripanosoma roedores? Int. J. Parasitol. 36, 1359 - 1366 6
Jinks, RL et al. ( 2006) La siembra directa de la ceniza ( Fraxinus excelsior L.) y sicomoro ( Acer
Por último, uno podría suponer que todos los efectos incluidos en el modelo pseudoplatanus L.): los efectos de la fecha de siembra, herbicidas preemergentes, el cultivo, y la
completo son realmente presente, ya sea estadísticamente significativo o no. Uno protección de emergencia de las plántulas y la supervivencia. Por. Ecol. Gestionar. 237, 373 - 386 7
podría entonces estimar los parámetros e intervalos de confianza del modelo Elston, DA et al. ( 2001) Análisis de agregación, un ejemplo práctico: el número de garrapatas en
polluelos de urogallos rojos. parasitología 122, 563 - 569 8 Gilmour, AR et al. ( 1985) El análisis de
completo, evitando cualquier dato snooping problemas, pero el pago de la pena de
los datos binomial por un modelo mixto lineal generalizado. Biométrika 72, 593 - 599 9 Kruuk, LEB et
mayor variación en las predicciones; muchos análisis bayesianos, especialmente los
al. ( 2002) el tamaño de la cornamenta de ciervo: heredabilidad y selección, pero hay evolución. Evolución
de grandes conjuntos de datos donde la pérdida de precisión es menos importante, 56, 1683 - 1695 10 Wilson, AJ et al. ( 2006) de acoplamiento del medio ambiente de la selección y
toman este enfoque [50] . los límites de heredabilidad evolución. PLoS Biol. 4, E216
Es importante distinguir entre los efectos aleatorios como una molestia (como
en los diseños experimentales clásicos bloqueados) y como variable de interés
(como en muchos estudios de genética evolutiva, o en los estudios ecológicos se
centraron en la heterogeneidad). Si los efectos aleatorios son parte del diseño 11 Chesson, P. (2000) Los mecanismos de mantenimiento de la diversidad de especies.
experimental, y si los algoritmos de estimación numérica no se descomponen, Annu. Rev. Ecol. Syst. 31, 343 - 366
12 Melbourne, BA y Hastings, A. (2008) Riesgo de extinción depende
entonces uno puede optar por conservar todos los efectos aleatorios cuando la
en gran medida de factores que contribuyen a la estocasticidad. Naturaleza 454, 100 - 103 13
estimación y análisis de los efectos fijos. Si los efectos aleatorios son un foco del
Fox, GA y Kendall, BE (2002) estocasticidad demográfica y la
estudio, uno debe elegir entre el mantenimiento de todos ellos, seleccionando efecto de reducción de la varianza. Ecología 83, 1928 - 1934 14 P fi ster, CA y Stevens, FR
alguna por comparación etapas o todo el modelo o modelos de promedio. (2003) La variación individual y
ambiental estocasticidad: trascendencia para el modelo de matriz
predicciones. Ecología 84, 496 - 510 15 Quinn, GP y Keough, MJ (2002) Diseño experimental y
Datos
Análisis para los biólogos. Cambridge University Press 16 Crawley, MJ (2002) Estadística
Conclusión Informática: Una introducción a los Datos
Los ecologistas y los biólogos evolutivos tienen mucho que ganar fromGLMMs. Análisis del uso de S-PLUS. John Wiley & Sons 17 Johnson, JB y Omland, KS (2004) La
selección del modelo en ecología y
GLMMs permiten el análisis de diseños bloqueados en experimentos ecológicos
evolución. Tendencias Ecol. Evol. 19, 101 - 108 18 Whittingham, MJ et al. ( 2006) ¿Por qué seguimos
tradicionales con la cuenta o las respuestas proporcionales. Mediante la
utilizando el modelado paso a paso en la ecología y el comportamiento? J. Anim. Ecol. 75, 1182 - 1189 19
incorporación de efectos aleatorios, GLMMs también permiten a los biólogos a Ellison, AM (2004) inferencia bayesiana en la ecología. Ecol. Letón. 7, 509 -
generalizar sus conclusiones a los nuevos tiempos, lugares y especies. GLMMs
tienen un valor incalculable cuando la variación aleatoria es el foco de atención, 520
20 Browne, WJ y Draper, D. (2006) Una comparación de Bayesiano y
sobre todo en los estudios de la heterogeneidad ecológica o la heredabilidad de
métodos basados en la probabilidad para modelos multinivel fi tting. Bayesiano anal.
los caracteres discretos.
1, 473 - 514
21 Lele, SR (2006) la variabilidad del muestreo y las estimaciones de la densidad
En esta revisión, se ha animado a los biólogos para elegir las herramientas dependencia: un enfoque compuesto de verosimilitud. Ecología 87, 189 - 202 22 Schall, R. (1991)
adecuadas para el análisis GLMM, y para usarlos Estimación en modelos lineales generalizados con al azar
efectos. Biométrika 78, 719 - 727
wisely.Withtherapidadvancementof herramientas estadísticas, muchos de los
23 Wol dedo, R. y O'Connell, M. (1993) lineales generalizados mixto
desafíos enfatizadas aquí desaparecerá, dejando sólo el reto fundamental de modelos: un enfoque pseudo-verosimilitud. J. Statist. Comput. Simulación 48, 233 - 243
plantear cuestiones biológicas viables y recopilación de datos suficientes para
contéstales. 24 Breslow, NE y Clayton, DG (1993) inferencia aproximado en
modelos mixtos lineales generalizados. Mermelada. Stat. Assoc. 88, 9 - 25 25 Raudenbush, SW et
al. ( 2000) Máxima verosimilitud para los modelos lineales generalizados con efectos aleatorios
Expresiones de gratitud
anidados vía de alto orden, multivariante aproximación de Laplace. J. Comput. Grafico.
Nos gustaría dar las gracias a Denis Valle, Paulo Brando, Jim Hobert, Mike McCoy, Craig Osenberg,
Estadístico.
Will White, Ramon Littell y los miembros de la lista-mixed-modelos RSIG de correo (Douglas Bates,
9, 141 - 157
Ken Beath, Sonja Greven, Vito Muggeo, Fabian Scheipl y otros) para comentarios útiles. Josh Banta
26 Pinheiro, JC y Chao, CE (2006) Laplaciano e fi ciente y adaptativa
y Massimo Pigliucci proporcionaron datos y orientación sobre la
algoritmos de cuadratura de Gauss para los modelos lineales generalizados mixtos multinivel. J.
Comput. Grafico. Estadístico. 15, 58 - 81 27 Gilks, WR et al. ( 1996) La introducción de la cadena de
Arabidopsis ejemplo. SWG fue financiada por una beca Fulbright Nueva Zelanda -
Markov Monte Carlo. En
Ministerio de Investigación, Ciencia y Tecnología Premio Estudiante de tercer ciclo.
Cadena de Markov Monte Carlo en la práctica ( Gilks, WR, ed.), Pp. 1 - 19, Chapman y Pasillo 28
Pinheiro, JC y Bates, DM (2000) Los modelos de efectos mixtos en S y S-
Dato suplementario
Los datos complementarios asociados a este artículo se pueden encontrar, MÁS. Springer 29 Littell, RC et al. ( 2006) SAS para modelos mixtos. ( 2ª ed), SAS
en la versión en línea, en doi: 10.1016 / j.tree.

Publicación
2008.10.008 .
30 Breslow, NE (2004) ¿A dónde CVP? En Actas de la Segunda
Seattle Simposio en Bioestadística: Análisis de datos correlacionados ( Lin,
referencias DY y Heagerty, PJ, eds), pp. 1 - 22, Springer
1 Milsom, T. et al. ( 2000) Los modelos de hábitat de distribución de especies de aves: una ayuda para la 31 Rodriguez, G. andGoldman, N. (2001) La mejora de los procedimientos de estimación
gestión de los pantanos costeros de pastoreo. J. Appl. Ecol. 37, 706 - 727 para los modelos multinivel con respuesta binaria: un estudio de caso. JR Stat. Soc. Ser. Un Stat.
Soc. 164, 339 - 355
134
32 Goldstein, H. y Rasbash, J. (1996) aproximaciones mejoradas para 50 Gelman, A. y Hill, J. (2006) Análisis de datos mediante regresión y
modelos multinivel con respuestas binarias. JR Stat. Soc. Ser. Un Stat. Soc. 159, 505 - 513 Multinivel / Modelos jerárquicos. Cambridge University Press 51 Spiegelhalter, DJ et al. ( 2002)
Bayesianmeasures de la complejidad del modelo y fi cio. JR Stat. Soc. segundo 64, 583 - 640 52
33 Lee, Y. y Nelder, JA (2001) Hierarchical modelos lineales generalizados: Baayen, RH et al. ( 2008) modelo de efectos mixtos con efectos aleatorios cruzados para los sujetos
una síntesis de modelos lineales generalizados, modelos de efectos aleatorios y dispersiones y objetos. J. Mem. Lang. 59, 390 - 412 53 Gelman, A. (2005) Análisis de varianza: por qué es más
estructurados. Biométrika 88, 987 - 1006 34 McCarthy, M. (2007) Métodos bayesianos para la importante que
ecología. Cambridge
University Press nunca. Ana. Stat. 33, 1 - 53 54 Banta, JA et al. ( 2007) Evidencia de adaptación local a la variación
35 Berger, J. (2006) El caso para el análisis Bayesiano objetivo. bayesiano ambiental de grano grueso en Arabidopsis thaliana. Evolución 61, 2419 -
Anal. 1, 385 - 402 36 Carlin, BP et al. ( 2006) Elementos de inferencia bayesiana jerárquica. En Modelado
jerárquico para las Ciencias Ambientales: Métodos y Aplicaciones Estadísticas ( Clark, JS y 2432
Gelfand, AE, eds), pp. 3 - 55 Banta, JA (2008) Tolerancia a meristemdamage apical en Arabidopsis
thaliana ( Brassicaceae): una mirada más cercana y la imagen más amplia. Tesis doctoral,
24, Oxford University Press Universidad de Stony Brook 56 Schabenberger, O. (2007) Crecer rápido: SAS 1 9.2 mejoras en el
37 Cowles, MK y Carlin, BP (1996) de la cadena de Markov Monte Carlo procedimiento GLIMMIX. SAS Global Forum 2007, 177 ( www2.sas.com/proceedings/forum2007/177-2007.pdf
diagnóstico de convergencia: un estudio comparativo. Mermelada. Stat. Assoc. )
91, 883 - 904
38 Brooks, SP y Gelman, A. (1998) Los métodos generales para la vigilancia 57 Ser, SG y Liang, KY. (1987) propiedades asintóticas de máximo
convergencia de las simulaciones iterativas. J. Comput. Grafico. Estadístico. 7, 434 - 455 estimadores de probabilidad y pruebas de coeficiente de riesgo bajo condiciones no estándar. Mermelada.
Stat. Assoc. 82, 605 - 610 58 Stram, DO y Lee, JW (1994) Varianza pruebas de componentes en el
39 Paap, R. (2002) ¿Cuáles son las ventajas de inferencia basado en MCMC
modelos de variables latentes? Stat. Neerl. 56, 2 - 22 fi longitudinal fijada modelo de efectos. biometría 50, 1171 - 1177 59 Goldman, N. y Whelan, S.
40 Booth, JG y Hobert, JP (1999) Maximizar lineal generalizado (2000) Las pruebas estadísticas de gamma-
modelo mixto probabilidades con un algoritmo automatizado Monte Carlo EM. JR Stat. Soc. Ser. tasa de heterogeneidad distribuido en los modelos de evolución de la secuencia en la filogenética. Mol.
B metodológica 61, 265 - 285 41 Lele, SR et al. ( 2007) clonación de datos: fácil estimación de Biol. Evol. 17, 975 - 978 60 Dominicus, A. et al. ( las pruebas de 2006) Probabilidad de relación en la
máxima verosimilitud para los modelos ecológicos complejos utilizando la cadena de Markov genética del comportamiento: problemas y soluciones. Behav. Gineta. 36, 331 - 340 61 Aukema, BH et al.
Bayesiano métodos de Monte Carlo. Ecol. Letón. 10, 551 - 563 42 Stephens, PA et al. ( 2005) Teoría ( 2005) La cuantificación de fuentes de variación en el
de la Información y la prueba de hipótesis: una llamada a la pluralidad. J. Appl. Ecol. 42, 4 - 12 43
Burnham, KP y Anderson, DR (2002) Selección del modelo y frecuencia de hongos asociados con el escarabajo del abeto:
implicaciones para la prueba de hipótesis y la metodología de muestreo en las relaciones de
escarabajos de corteza-simbionte. Por. Ecol. Gestionar. 217, 187 -
Multimodelo Inferencia: Un enfoque práctico de información teórica. 202 62 Schaalje, GB et al. ( 2001) Aproximaciones a las distribuciones de las estadísticas de prueba
Springer-Verlag 44 Agresti, A. (2002) Análisis de datos categóricos. Wiley-Interscience 45 en modelos lineales mixtos complejos utilizando SAS PROC MIXED.
Molenberghs, G. y Verbeke, G. (2007) Relación de Probabilidad, la puntuación, y
SUGI (SAS Grupo Internacional de Usuarios) 26, 262 ( procedimientos www2.sas.com/ / sugi26 /
Wald pruebas en un espacio de parámetros restringido. A.m. Stat. 61, 22 - 27 46 Demidenko, E. p262-26.pdf )
(2004) Los modelos mixtos: Teoría y Aplicaciones. Wiley 63 Schaalje, G. et al. ( 2002) Adecuación de las aproximaciones a las distribuciones de los estadísticos de
Interscience 47 Scheipl, F. et al. ( 2008) El tamaño y el poder de las pruebas para una variación de prueba en modelos lineales mixtos complejos. J. Agric. Biol. Reinar. Stat. 7, 512 - 524 64 Gotelli, Nueva
efectos aleatorios cero o regresión polinómica en el aditivo y lineales mixedmodels. Jersey y Ellison, AM (2004) Una cartilla de Estadísticas ecológicos.
Comput. Stat. Anal datos. 52, 3283 - 3299 48 Greven, S. (2008) Los problemas no tradicionales Sinauer Associates 65 Harrell, FJ (2001) Regresión estrategias de modelado. Springer 66
en la inferencia de aditivo y Lindsey, JK (1997) La aplicación de modelos lineales generalizados. Springer 67 Venables, W. y
Modelos lineales mixtos. Cuvillier Verlag Ripley, BD (2002) Estadística Aplicada modernas con S.
49 Vaida, F. y Blanchard, S. (2005) información de Akaike para Condicional
modelos de efectos mixtos. Biométrika 92, 351 - 370 Saltador
135

Bolker Et Al

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bolker Et Al

Uploaded by

Copyright:

Available Formats

revisión

Generalizadas modelos lineales mixtos: una guía

Benjamin M. Bolker 1 , Mollie E. Brooks 1 , Connie J. Clark 1 , Shane W. Geange 2 ,

Parcialidad: inexactitud de la estimación, especí fi camente la diferencia esperada entre una

Cuadro 2. Estimación: detalles que evalúan las probabilidades GLMM

la distribución de bloque (normalmente distribuido), mientras que el segundo término [L (x j m, u)] da

ventajas desventajas Software

Recuadro 3. Inferencia detalles

y la estimación de grados de libertad para los efectos aleatorios

Recuadro 4. Procedimientos: la creación de un modelo completo

en la versión en línea, en doi: 10.1016 / j.tree.

You might also like