You are on page 1of 214

f ( x)

1 x
2

2
Mg Hugo Fernando Ayan

Contenidos
Programa Analtico ....................................................................................................... 7
Gua de Trabajos Prcticos ............................................................................................ 9
Programa de Examen Final ......................................................................................... 11
Estadstica y Biometra ................................................................................................... 13
Organizacin de Datos ................................................................................................ 15
Variables cualitativas o categricas ............................................................................. 15
Variables cuantitativas ................................................................................................ 16
Otras formas de clasificacin....................................................................................... 16
Modalidad - Clases...................................................................................................... 17
Tablas estadsticas ....................................................................................................... 17
Distribucin de frecuencias ......................................................................................... 18
Eleccin de intervalos para variables continuas ........................................................... 20
Representaciones Grficas........................................................................................... 22
Grficos para variables cualitativas ............................................................................. 24
Diagramas de sectores ................................................................................................. 25
Pictogramas ................................................................................................................ 25
Grficos para variables cuantitativas ........................................................................... 25
Diagramas diferenciales .............................................................................................. 26
Diagramas integrales ................................................................................................... 26
Grficos para variables discretas ................................................................................. 26
Grficos para variables continuas ................................................................................ 27
Histogramas ................................................................................................................ 27
Polgonos de frecuencias ............................................................................................. 27
Diagrama de barras de error ........................................................................................ 29
Diagramas de dispersin ............................................................................................. 30
Funciones matemticas lineales y cuadradas................................................................ 31
Funcin lineal y ecuacin de la recta ........................................................................... 31
Funcin lineal como propiedad de los sistemas generales ............................................ 32
Interpretacin geomtrica ............................................................................................ 32
Funcin cuadrtica ...................................................................................................... 34
Estudio de la funcin ................................................................................................... 35
Medidas descriptivas estadsticas ................................................................................ 41
Estadsticos de tendencia central ................................................................................. 41
Mediana ...................................................................................................................... 42
Moda .......................................................................................................................... 43
Estadsticos de posicin: Cuartiles (Ql)........................................................................ 45
Estadsticos de posicin: Percentiles ............................................................................ 45
Deciles ........................................................................................................................ 46
Medidas de dispersin ................................................................................................. 47
Amplitud (A) o Rango................................................................................................. 47
Varianza ...................................................................................................................... 49
Desviacin estndar .................................................................................................... 49
Grados de libertad ....................................................................................................... 49
Propiedades del desvo standard .................................................................................. 50
Coeficiente de Variacin ............................................................................................. 50
Asimetra o sesgo ........................................................................................................ 51
Apuntamiento (Curtosis) ............................................................................................. 52
Clculo de Probabilidades ........................................................................................... 55
Experimentos y Sucesos Aleatorios (condiciones) ....................................................... 55
2

Nociones de Probabilidad ............................................................................................ 57


Probabilidad Clsica.................................................................................................... 57
Probabilidad Frecuencial ............................................................................................. 58
Axiomas...................................................................................................................... 58
Probabilidad Condicional ............................................................................................ 59
Independencia Estadstica ........................................................................................... 60
Modelos discretos ....................................................................................................... 60
Experimentos de Bernoulli .......................................................................................... 60
Modelo Matemtico .................................................................................................... 60
Modelo Probabilstico Binomial .................................................................................. 61
Variable Aleatoria ....................................................................................................... 62
Funcin de Probabilidad .............................................................................................. 63
Funcin de densidad v.a. discreta ................................................................................ 65
Esperanza Matemtica................................................................................................. 65
Varianza Poblacional .................................................................................................. 66
Distribucin Normal.................................................................................................... 67
Distribucin Normal estandarizada .............................................................................. 69
Tabla ........................................................................................................................... 70
Distribucin de Estadsticos Muestrales ...................................................................... 72
Distribucin muestral de un estadstico ....................................................................... 72
Distribucin del Estadstico media muestral ................................................................ 73
Teorema Central del Lmite ......................................................................................... 76
Distribucin T de Student ........................................................................................ 76
Muestreo ..................................................................................................................... 78
Muestreo probabilstico ............................................................................................... 78
Distribucin Chi-cuadrado ....................................................................................... 80
Distribucin de Probabilidad de Variables Discretas.................................................... 81
q
p().................................................................................................................... 82
Los Modelos Simblicos (Matemticos) ...................................................................... 83
El Estimador ............................................................................................................... 85
Estimacin: puntual y por intervalos ........................................................................... 85
Estimacin puntual ...................................................................................................... 85
Estimacin por intervalos ............................................................................................ 85
Propiedades deseables en los estimadores.................................................................... 85
Intervalos de confianza para los principales parmetros El caso de la media ................ 86
El Caso de Desconocer la Varianza Poblacional .......................................................... 89
Probabilidad normal presentada en una y dos colas ..................................................... 91
Intervalos de confianza para OTROS parmetros ........................................................ 91
Contrastes de Hiptesis ............................................................................................... 95
Ensayo de una cola ...................................................................................................... 97
Intervalo de Confianza y Contraste de Hiptesis.......................................................... 99
Contrastes para la media.............................................................................................. 99
Tests de una cola con varianza conocida.................................................................... 100
Test de dos colas con varianza desconocida ............................................................... 102
Contrastes para la varianza ........................................................................................ 106
Contraste bilateral ..................................................................................................... 106
Contrastes unilaterales............................................................................................... 107
Inferencia basada en dos muestras ............................................................................. 109
Anlisis de la Varianza .............................................................................................. 117
Especificacin del modelo ......................................................................................... 118
Algo de notacin relativa al modelo .......................................................................... 121
3

Forma de efectuar el contraste ................................................................................... 121


Consideraciones a los supuestos del modelo .............................................................. 126
Normalidad ............................................................................................................... 126
Homogeneidad de varianza: prueba de Levene ......................................................... 127
Homogeneidad de varianza: grfico de dispersin .................................................... 128
Independencia ........................................................................................................... 128
Ventajas y limitaciones del Anlisis de la Varianza ................................................... 129
Comparaciones Mltiples .......................................................................................... 130
Regresin y Correlacin ............................................................................................ 131
Relaciones entre variables y regresin ....................................................................... 131
Diagramas de dispersin o nube de puntos ................................................................ 132
Prediccin de una variable en funcin de la otra. ....................................................... 133
Cmo reconocer relacin directa e inversa. ............................................................... 133
Cmo reconocer buena o mala relacin ..................................................................... 134
Covarianza de dos variables X e Y ............................................................................ 135
Coeficiente de correlacin lineal de Pearson .............................................................. 135
Propiedades de r ........................................................................................................ 136
Otros coeficientes de correlacin ............................................................................... 140
Regresin .................................................................................................................. 140
Modelo de regresin lineal simple ............................................................................. 141
Cmo medir la bondad de una regresin? ................................................................ 143
Bondad de un ajuste .................................................................................................. 144
Otros modelos de regresin ....................................................................................... 145
Modelos de anlisis de regresin ............................................................................... 146
Errores de Prediccin ................................................................................................ 150
El coeficiente de regresin y la reduccin del error en la estimacin .......................... 152
Validacin de los supuestos....................................................................................... 155
Regresin mltiple .................................................................................................... 157
Series de Tiempo....................................................................................................... 159
Definicin de serie de tiempo .................................................................................... 159
Descomposicin de una serie de tiempo .................................................................... 160
Pruebas No Paramtricas ........................................................................................... 165
Aleatoriedad de una muestra: Test de rachas ............................................................. 165
Normalidad de una muestra: Test de D'Agostino ....................................................... 167
Contraste de Wilcoxon para muestras apareadas ........................................................ 167
Aproximacin normal en el contraste de Wilcoxon.................................................... 168
Contraste de Kruskal-Wallis ...................................................................................... 168
Tablas de Contingencia ............................................................................................. 170
Diseo de Experimentos................................................................................................ 175
Concepto, Objetivo e Importancia ............................................................................. 175
Necesidad de realizar la Experimentacin y la Investigacin ..................................... 176
Etapas fundamentales de la Experimencin Agropecuaria ......................................... 176
El Mtodo Cientfico ................................................................................................. 177
Modelos .................................................................................................................... 178
Tipos de variabilidad. ................................................................................................ 180
Planificacin de un experimento ................................................................................ 181
Resumen de los principales conceptos. ...................................................................... 188
Principios bsicos en el diseo de experimentos. ....................................................... 188
Fuentes de Error ........................................................................................................ 190
Estructura de parcelas................................................................................................ 190
Diseo de la estructura de parcelas ............................................................................ 191
4

Algunos diseos clsicos ........................................................................................... 191


Completamente aleatorizado ..................................................................................... 191
Comparaciones mltiples .......................................................................................... 192
Prueba de Tukey ....................................................................................................... 192
Prueba de Fisher ........................................................................................................ 194
Bloques completos aleatorizados ............................................................................... 195
Cuadrado latino ......................................................................................................... 198
Estructura de tratamientos ......................................................................................... 200
Experimentos Factoriales .......................................................................................... 201
Glosario de trminos estadsticos .................................................................................. 202
Glosario de trminos estadsticos .................................................................................. 202

Condicin de Regularidad

Promedio mnimo de 4 (cuatro)


80 % asistencia (terica prctica).
Aprobar 2 parciales con un mnimo de 4 (cuatro).
Se puede recuperar 1 (un) parcial.
Aprobar la parte prctica con un mnimo de 4 (cuatro).

Examen final para alumnos regulares


Aquellos alumnos que renan las condiciones de regularizacin, podrn rendir
examen final en forma oral, sobre los contenidos durante el dictado del presente
ciclo lectivo.
Examen final para alumnos libres
Aquellos alumnos que no alcancen las condiciones mnimas de regularidad, podrn
rendir la asignatura en condicin de alumnos libres, con examen final escrito y oral
sobre todos los contenidos del programa
Bibliografa Bsica
DI RIENZO, J. CASANOVES, F. GONZALEZ, L. TABLADA, M. DIAZ, M.P.
ROBLEDO, C. BALZARINI, M. (1999) Estadstica para Ciencias Agropecuarias.
Screen Ed. 2da
CASANOVES, F. DI RIENNZO, J. ROBLEDO, C. (1998) Bases para Estadstica
Experimental. Screen Ed.
AYAN H F. 2009. Estadstica y Biometra. Sede Universitaria Chamical. Apunte
de la ctedra (en fotocopiadora)
Bibliografa sugerida
MONTGOMERY, DOUGLAS C. (1991) Diseo y Anlisis de Experimentos. Ed.
Grupo Iberoamericana 589 p.
BERENSON, M.L. LEVINE, D.M. (1992) Estadstica para Administracin y
Economa. Interamericana. 720 p.
MENDENHALL, W. WACKRLY, D., SCHEAFFER, R. (1994) Estadstica
Matemtica con Aplicaciones. 2da. Ed. Grupo Iberoamericana. 464 p.

Programa Analtico

Unidad N 1: Estadstica Descriptiva


Contenidos: Formulacin del problema. Necesidad y finalidad de la Investigacin. Poblacin
y Muestra. Variables. Tipos de variables. Distribuciones de frecuencia de una variable
aleatoria. Representaciones grficas de los resultados de estudios experimentales u
observacionales. Medidas de resumen de la distribucin de frecuencias de una variable
aleatoria en una muestra. Funciones matemticas lineales y cuadradas. Funcin lineal y
ecuacin de la recta. Interpretacin geomtrica. Funcin Cuadrtica. Interpretacin
geomtrica. Medidas descriptivas. Estadsticos de Tendencia central. Estadsticos de posicin.
Medidas de dispersin.

Unidad N 2: Distribucin de Variables Aleatorias


Contenidos: Espacio muestral. Eventos. Concepto de Probabilidad. Evento Aleatorio.
Concepto de variable aleatoria. Distribucin de una variable aleatoria. Funcin de distribucin
acumulada. Funcin de densidad para variables aleatorias discretas y continuas. Medidas
resumen de la distribucin de una variable aleatoria. Esperanza y Varianza de variables
aleatorias. Propiedades. Cuantiles de una distribucin.

Unidad N 3: Distribucin en el muestreo


Contenidos: La funcin de densidad normal. Estandarizacin. Funcin de distribucin
acumulada normal. Uso de la tabla para distribucin normal. Distribucin del Estadstico
media muestral. Teorema central de lmite. Distribucin "t de Student". Distribucin de la
diferencia de dos medias muestrales (varianzas conocidas y desconocidas). Distribucin de
la varianza muestral. Distribucin "Chi-Cuadrado" ( 2).

Unidad N 4: Inferencia Estadstica. Estimacin de Parmetros.


Contenidos: Estimacin puntual. Propiedades de los buenos estimadores. Estimacin por
intervalo. Procedimiento general para encontrar un intervalo de confianza para un parmetro
distribucional. Interpretacin del intervalo de confianza. Estimacin por intervalo de la
esperanza de la distribucin de una variable aleatoria normal. Clculo del tamao muestral
para obtener un intervalo de confianza para con una amplitud determinada.

Unidad N 5: Inferencia Estadstica. Prueba de Hiptesis


Contenidos: Concepto de prueba de Hiptesis. Hiptesis Nula y Alternativa. Procedimiento de
la prueba de Hiptesis. Errores de Tipo I y Tipo II. Relacin entre los intervalos de Confianza
y las Pruebas de Hiptesis. Prueba de Hiptesis acerca de la esperanza de una distribucin
cuando se conoce 2. Estimacin por intervalos para la esperanza de una distribucin normal
cuando se conoce 2. Prueba de hiptesis acerca de la esperanza de una distribucin normal
cuando 2 es desconocida.

Unidad N 6: Inferencia sobre la Esperanza y la Varianza de una y dos


distribuciones normales.
Contenidos: Estimacin por intervalos para la esperanza de una distribucin normal cuando
2
es desconocida. Contraste de hiptesis referente a la varianza de una distribucin normal.
Estimacin por intervalo de la varianza de una distribucin. Estimacin por intervalo referente
a las varianzas de dos distribuciones. Distribucin F. Prueba de hiptesis referente a las
esperanzas de dos distribuciones con varianzas conocidas y desconocidas. Observaciones
apareadas: prueba de hiptesis y estimacin por intervalo.

Unidad N 7: Anlisis de Regresin y Correlacin Lineal


Contenidos: Anlisis de Regresin Lineal. Estimacin de la Recta de Regresin. Mtodo de
los Mnimos Cuadrados. Estimaciones y Predicciones. Los supuestos del Anlisis de
Regresin. Anlisis de los Residuales. Anlisis de la variacin en la variable dependiente Y.
Prueba de Hiptesis. Anlisis de Correlacin Lineal. Los supuestos del Anlisis de
correlacin. Coeficiente de Correlacin Lineal. Prueba de Hiptesis. Regresin Mltiple.
Series de Tiempo. Definicin. Descomposicin de una serie de tiempo.

Unidad N 8: Pruebas No Paramtricas. Anlisis de Datos Categorizados


Contenidos: Pruebas No Paramtricas. Test de Rachas. Test de DAgostino. Contraste de
Wilcoxon para muestras apareadas. Contraste de Kruskal-Wallis. Tablas de Contingencia.
Medidas de Asociacin. Pruebas de hiptesis de homogeneidad de proporciones. Pruebas de
hiptesis de independencia. Pruebas de bondad de ajuste.

Unidad N 9: Anlisis de la varianza


Contenidos: Definiciones preliminares. Diseo completamente aleatorizado. El anlisis de la
varianza de efectos fijos a un criterio de clasificacin. El ANAVA y los cuadrados medios. La
particin de la suma de cuadrados y la tabla de ANAVA. Supuestos del ANAVA. Anlisis de
los residuales. Pruebas a posteriori "el test de Tukey" y el de Fisher.

Gua de Trabajos Prcticos

Prctico 1: Estadstica Descriptiva


Contenidos: Tablas de frecuencia de una variable aleatoria. Representaciones grficas de los
resultados. Medidas de resumen de la distribucin de frecuencias de una variable aleatoria en
una muestra. Funciones lineal y cuadrtica

Prctico N 2: Variables Aleatorias


Contenidos: Eventos. Probabilidad. Variable aleatoria. Funcin de densidad para variables
aleatorias discretas y continuas. Medidas resumen de la distribucin de una variable aleatoria.
Esperanza y Varianza de variables aleatorias.

Prctico N 3: Distribucin en el muestreo


Contenidos: La funcin de densidad normal. Estandarizacin. Funcin de distribucin
acumulada normal. Uso de la tabla para distribucin normal. Distribucin del Estadstico
media muestral. Uso de la tabla "t de Student". Distribucin de la diferencia de dos medias
muestrales (varianzas conocidas y desconocidas). Distribucin de la varianza muestral. Uso
de la tabla "Chi-Cuadrado" ( 2).

Prctico N 4: Estimacin de Parmetros


Contenidos: Estimacin puntual. Estimacin por intervalo. Interpretacin del intervalo de
confianza. Clculo del tamao muestral.

Prctico N 5: Prueba de Hiptesis


Contenidos: Prueba de Hiptesis. Hiptesis Nula y Alternativa. Errores de Tipo I y Tipo II.
Estimacin por intervalos para la esperanza de una distribucin normal con y sin 2 conocida.

Prctico N 6: Inferencia sobre la esperanza y varianza de una y dos


distribuciones normales
Contenidos: Prueba de Hiptesis acerca de la esperanza de una distribucin cuando se conoce
2
y cuando la misma es desconocida. Contraste de hiptesis referente a la esperanza y
varianza de una distribucin normal. Estimacin por intervalo referente a las varianzas de
dos distribuciones. Uso de la tabla para la distribucin F.

Prctico N 7: Regresin Lineal


Contenidos: Estimacin de la Recta de Regresin. Los supuestos del Anlisis de Regresin.
Anlisis de los Residuales. Prueba de Hiptesis. Anlisis de Correlacin Lineal. Anlisis de
Regresin Lineal Mltiple. Series de Tiempo.

Prctico N 8: Pruebas No Paramtricas. Anlisis de Datos


Categorizados
Contenidos: Pruebas no paramtricas. Test de Rachas. Test de DAgostino. Contraste de
Wilcoxon. Contraste de Kruskal-Wallis.Inferencia en tablas de contingencia. Interpretacin.
Medidas de asociacin para tablas de contingencia. Pruebas de Hiptesis de homogeneidad de
proporciones.

Prctico N 9: Anlisis de la varianza


Contenidos: La tabla de ANAVA. Supuestos del ANAVA. Anlisis de los residuales.
Preuebas a Posteriori. Test de Tukey y Fisher.

10

Programa de Examen Final


(COMBINADO)

Bolilla N 1
1.1 Necesidad y finalidad de la Investigacin. Poblacin y Muestra.
1.2 Espacio muestral. Eventos. Concepto de Probabilidad.
1.3 La funcin de densidad normal. Estandarizacin.
1.4 Estimacin puntual. Propiedades de los buenos estimadores.
1.5 Concepto de prueba de Hiptesis.
1.6 Prueba de Hiptesis acerca de la esperanza de una distribucin cuando se conoce 2.
Estimacin por intervalos para la esperanza de una distribucin normal cuando se conoce
2
.
1.7 Anlisis de Regresin Lineal.
1.8 Pruebas No Paramtricas. Tablas de Contingencia.
1.9 ANAVA: Definiciones preliminares.

Bolilla N 2
2.1 Variables. Tipos de variables.
2.2 Evento Aleatorio. Concepto de variable aleatoria.
2.3 Funcin de distribucin acumulada normal. Uso de la tabla para distribucin normal.
2.4 Estimacin por intervalo. Procedimiento general para encontrar un intervalo de confianza
para un parmetro distribucional.
2.5 Hiptesis Nula y Alternativa.
2.6 Prueba de hiptesis acerca de la esperanza de una distribucin normal cuando 2 es
desconocida. Estimacin por intervalos para la esperanza de una distribucin normal
cuando 2 es desconocida.
2.7 Estimacin de la Recta de Regresin.
2.8 Test de Rachas. Medidas de Asociacin para tablas de contingencia.
2.9 Diseo completamente aleatorizado

Bolilla N 3
3.1 Distribuciones de frecuencia de una variable aleatoria.
3.2 Distribucin de una variable aleatoria. Funcin de distribucin acumulada.
3.3 Distribucin del Estadstico media muestral.
3.4 Interpretacin del intervalo de confianza.
3.5 Procedimiento de la prueba de Hiptesis.
3.6 Contraste de hiptesis referente a la varianza de una distribucin normal.
3.7 Regresin: Mtodo de los Mnimos Cuadrados.
3.8 Test de DAgostino. Hiptesis de homogeneidad de proporciones para tablas de
contingencia.
3.9 El anlisis de la varianza de efectos fijos a un criterio de clasificacin.

Bolilla N 4
4.1 Representaciones grficas de los resultados de estudios experimentales u observacionales.
4.2 Funcin de densidad para variables aleatorias discretas y continuas.
4.3 Teorema central de lmite.
4.4 Estimacin por intervalo de la esperanza de la distribucin de una variable aleatoria
normal.
4.5 Errores de Tipo I y Tipo II.
4.6 Estimacin por intervalo de la varianza de una distribucin.
11

4.7 Los supuestos del Anlisis de Regresin. Anlisis de los Residuales.


4.8 Contraste de Wilcoxon. Pruebas de hiptesis de independencia para tablas de
contingencia.
4.9 El ANAVA y los cuadrados medios.

Bolilla N 5
5.1 Medidas de resumen de la distribucin de frecuencias de una variable aleatoria en una
muestra. Funcin lineal.
5.2 Medidas resumen de la distribucin de una variable aleatoria.
5.3 Distribucin "t de Student". Distribucin de la diferencia de dos medias muestrales
(varianzas conocidas y desconocidas).
5.4 Clculo del tamao muestral para obtener un intervalo de confianza para
con una
amplitud determinada.
5.5 Relacin entre los intervalos de Confianza y las Pruebas de Hiptesis.
5.6 Estimacin por intervalo referente a las varianzas de dos distribuciones. Distribucin F.
5.7 Anlisis de la variacin en la variable dependiente Y. Prueba de Hiptesis.
5.8 Pruebas de bondad de ajuste para tablas de contingencia.
5.9 La particin de la suma de cuadrados y la tabla de ANAVA.

Bolilla N 6
6.1 Medidas descriptivas. Estadsticos de Tendencia central. Estadsticos de posicin.
Medidas de dispersin. Funcin cuadrtica.
6.2 Esperanza y Varianza de variables aleatorias. Propiedades. Cuantiles de una distribucin.
6.3 Distribucin de la varianza muestral. Distribucin "Chi-Cuadrado" ( 2).
6.4 Prueba de hiptesis referente a las esperanzas de dos distribuciones con varianzas
conocidas y desconocidas. Observaciones apareadas: prueba de hiptesis y estimacin por
intervalo.
6.5 Anlisis de Correlacin Lineal. Los supuestos del Anlisis de correlacin. Coeficiente de
Correlacin Lineal. Prueba de Hiptesis. Regresin Mltiple. Serie de Tiempo
6.6 Contraste de KrusKal-Wallis.
6.7 Supuestos del ANAVA. Anlisis de los residuales. Una Prueba a posteriori "el test de
Tukey y Fisher.

12

Estadstica y Biometra
Estadstica:
relacin de datos numricos presentada de forma ordenada y sistemtica?
Es algo ms: permite dar luz y obtener resultados, y por tanto beneficios, en
cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad
intrnseca, no puedan ser abordadas desde la perspectiva de las leyes
determinsticas.
Ciencia auxiliar para todas las ramas del saber; su utilidad se entiende mejor si
tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado
de incertidumbre... y la Estadstica ayuda en la incertidumbre, trabaja con ella y nos
orienta para tomar las decisiones con un determinado grado de confianza.
Definicin 1:
Ciencia que estudia cmo debe emplearse la informacin y cmo dar una gua de
accin en situaciones prcticas que entraan incertidumbre.
Usos y Abusos
Los crticos de la estadstica afirman que a travs de ella es posible probar
cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en
este campo y de lo polifactico de los mtodos estadsticos.
Muchos "investigadores" tendenciosos han cometido abusos con la estadstica,
elaborando "investigaciones" de intencin, teniendo previamente los resultados que
les interesan mostrar a personas ingenuas y desconocedoras de los hechos.
Otros, por ignorancia o negligencia, abusan de la estadstica utilizando modelos
inapropiados o razonamientos ilgicos y errneos que conducen al rotundo fracaso
de sus investigaciones.
Lincoln L. Chao (Estadstica para Ciencias Administrativas, en Biblioteca), hace
referencia a uno de los ms estruendosos fracasos, debido a los abusos en la toma de una
muestra
Se trata del error cometido por la Digest que, en sus pronsticos para las elecciones
presidenciales en EE.UU. para 1936, afirm que Franklin D. Roosvelt obtendra
161 votos electorales y Alfred Landon, 370. La realidad mostr a Roosvelt con 523
votos y a Landon con 8 solamente.
El error se debi a que la muestra fue tomada telefnicamente a partir de la lista de
suscriptores de la Digest y, en 1936, las personas que se daban el lujo de tener
telfonos y suscripciones a revistas no configuraban una muestra representativa de
los votantes de EE.UU. y, por ende, no poda hacerse un pronstico confiable con
tan sesgada informacin.

Divisin
La estadstica se divide en dos grandes ramas de estudio que son:
Estadstica descriptiva
Estadstica matemtica o inferencial

13

Estadstica Descriptiva o Deductiva


Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos
que resumen y presentan la informacin contenida en ellos.
Estadstica Inferencial o Inductiva
Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta
estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor
de datos.
Desarrolla modelos tericos que se ajusten a una determinada realidad con cierto grado de
confianza.
Cuando se realiza un estudio de investigacin, se pretende generalmente inferir o
generalizar resultados de una muestra a una poblacin.
Este proceso de inferencia se efecta por medio de mtodos estadsticos basados en la
probabilidad.
Individuos, Poblacin y Muestra
Individuos o elementos: personas u objetos que contienen cierta informacin que se
desea estudiar.
Poblacin: representa el conjunto grande de individuos que deseamos estudiar y
generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogneo que
rene unas caractersticas determinadas.
Muestra: La muestra es el conjunto menor de individuos (subconjunto de la
poblacin accesible y limitado sobre el que realizamos las mediciones o el
experimento con la idea de obtener conclusiones generalizables a la poblacin )
La muestra debe ser representativa de la poblacin y con ello queremos decir que
cualquier individuo de la poblacin en estudio debe haber tenido la misma
probabilidad de ser elegido.
Por qu estudiar muestras?
Ahorra tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
Como consecuencia del punto anterior ahorraremos costos.
Estudiar la totalidad de los elementos o personas con una caracterstica
determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de
realizar.
Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las
observaciones y mediciones realizadas a un reducido nmero de individuos pueden
ser ms exactas y plurales que si las tuvisemos que realizar a una poblacin.
La seleccin de muestras especficas nos permitir reducir la heterogeneidad de una
poblacin al indicar los criterios de inclusin y/o exclusin.
En Resumen
Individuos o elementos: personas u objetos que contienen cierta informacin que
se desea estudiar.
Poblacin: conjunto de individuos o elementos que cumplen ciertas propiedades
comunes.
Muestra: subconjunto representativo de una poblacin.

14

Parmetro: funcin definida sobre los valores numricos de caractersticas


medibles de una poblacin.
Estadstico: funcin definida sobre los valores numricos de una muestra.
Ejemplo
Consideremos la poblacin formada por todos los estudiantes de la UNLaR. La
altura media de todos los estudiantes es el parmetro . El conjunto formado por
los alumnos de la Sede Chamical es una muestra de dicha poblacin y la altura
media de esta muestra, X , es un estadstico.

Organizacin de Datos
VARIABLES
Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.
Algunas de ellas son absolutamente predecibles con exactitud: son las variables
determinsticas.
Por ejemplo el rea de un cuadrado (figura geomtrica) de 20 cm de lado es 400
cm2
A = L2
En la realidad, el problema no es tan sencillo, la medicin del rea de una baldosa
aproximadamente cuadrada, de aproximadamente 20 cm de lado, puede dar como
resultado: 399, 400 401 cm2. Incluso en mediciones repetidas de la misma
baldosa. Esto puede deberse a varias causas : irregularidad de la baldosa ,
dilatacin o contraccin debida a la temperatura, errores humanos o instrumentales
en la medicin u otras absolutamente desconocidas. Este fenmeno genera las
variables llamadas aleatorias ( probabilsticas o estocsticas)
A = L2 +
donde psilon es el desvo no explicado respecto al valor esperado L2
Variables Estadsticas
Es una caracterstica o propiedad determinada del individuo o elemento, sea
medible o no. Esta propiedad hace que los elementos de un grupo puedan diferir de
las de otro grupo en la muestra o poblacin de estudio.
Cuando hablemos de variable haremos referencia a un smbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad (valor) de un conjunto determinado, que
llamaremos dominio de la variable o rango. En funcin del tipo de dominio, las
variables las clasificamos del siguiente modo:

Variables cualitativas o categricas


Este tipo de variables representan una cualidad o atributo que clasifica a cada caso
en una de varias categoras. La situacin ms sencilla es aquella en la que se
clasifica cada caso en uno de dos grupos (hombre/mujer). Son datos dicotmicos o
binarios.
Como resulta obvio, en muchas ocasiones este tipo de clasificacin no es
suficiente y se requiere de un mayor nmero de categoras (color de los ojos, grupo
sanguneo, profesin, etctera).
Dos Escalas
Escalas Nominales
Escalas Ordinales
15

Nominal
sta es una forma de observar o medir en la que los datos se ajustan por categoras
que no mantienen una relacin de orden entre s

" dulce" , " amargo" , " agrio"


Ordinal
son aquellas en la que es posible establecer un orden entre ellas.
Ej: si estudiamos la llegada a la meta de un corredor en una competicin de 20
participantes, su clasificacin C es tal que:

1 ,2 ,3 ,4 ,...,10

Variables cuantitativas
son las que tienen por modalidades cantidades numricas con las que podemos
hacer operaciones aritmticas. Dentro de este tipo de variables podemos distinguir
dos grupos:
Discretas
cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de
sus modalidades. Suelen tomar solamente valores enteros (nmero de hijos,
nmero de partos, nmero de hermanos, etc). Es obvio que cada valor de la
variable es un nmero natural.

Continuas
cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades.
Ej. el peso X de un nio al nacer. En este caso los valores de las variables son nmeros
reales, es decir:
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como
discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisin
del aparato de medida de esa variable.
Ej. si medimos la altura en metros de plantas con dos decimales de precisin, podemos
obtener:

...,1.50,1 .51,1.52,1 .53,...

En realidad lo que ocurre es que con cada una de esas mediciones expresamos que
el verdadero valor de la misma se encuentra en un intervalo de radio 5.10 -3. Por lo
tanto, cada una de las observaciones de X representa ms bien un intervalo que un
valor concreto.

Otras formas de clasificacin


Variable Dependiente: es la v. motivo de nuestro inters, cuyos valores dependen
de otras variables que pueden influir en ella. Tambin se la llama v. de respuesta.
Por ejemplo la sobrevida, respuesta al tratamiento, evolucin, etc.
Variable Independiente: es la que modifica de una u otra manera a la v.
dependiente, llamndose tambin segn el caso factor de riesgo, factor predictivo,
etc.
16

Variable Asociada: se denomina as a aquella v. independiente que no modifica


por su sola presencia a la v. dependiente, pero que al combinarse con otra variable,
si influye notoriamente a la anterior.

Modalidad - Clases
Las modalidades son las diferentes situaciones posibles que puede presentar la
variable. (p. Ej. cuando una variable es continua) y conviene reducir su nmero,
agrupndolas en una cantidad inferior de clases.
Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo
que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a
una y slo una de las clases.
Resumen
Variable cualitativa nominal: Aquella cuyas modalidades son de tipo nominal.
Variable cualitativa ordinal: Modalidades de tipo nominal, en las que existe un
orden.
Variable cuantitativa discreta: Sus modalidades son valores enteros.
Variable cuantitativa continua: Sus modalidades son valores reales.

Tablas estadsticas
Consideremos una poblacin estadstica de n individuos, descrita segn un carcter o
variable C cuyas modalidades han sido agrupadas en un nmero k de clases, que
denotamos mediante c1,c2,c3,...ck. Para cada una de las clases ci, i = 1,2,...,k, introducimos
las siguientes magnitudes:
Frecuencia absoluta
(de un determinado valor ni ) al nmero de veces que se repite dicho valor .
Frecuencia relativa
Es el cociente fi, entre las frecuencias absolutas de dicha clase y el nmero total de
observaciones, es decir:

fi

ni
n

Frecuencia absoluta acumulada


( de un determinado valor ni ) a su frecuencia absoluta ms la suma de las
frecuencias absolutas de todos los valores anteriores
i

Ni

n1 n2

n3 ... ni

nj
j 1

Frecuencia relativa acumulada


Fi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos
de la poblacin que estn en alguna de las clases y que presentan una modalidad
inferior o igual a la ci, es decir:
Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que
17

ni

n1 n2 ... nk

i 1

o lo que es lo mismo
k

fi
i 1

i 1

ni
n

i 1 i

n
1
n

Si las frecuencias relativas las multiplicamos por 100 obtenemos los %

Distribucin de frecuencias
Llamaremos distribucin de frecuencias al conjunto de clases junto a las
frecuencias correspondientes a cada una de ellas. Una tabla estadstica sirve para
presentar de forma ordenada las distribuciones de frecuencias. Su forma general es
la siguiente:

Variable

Frecuencia
Absoluta

Frecuencia
Relativa

Frec. Abs.
Acumulada

Frec. Rel.
Acumulada

ni

fi

Ni

Fi

c1

n1

...

...

cj

nj

...

...

ck

nk

N1 = n1

...
n

N j n1 n2 ...n j

...
nk
n

fk

N1
n

F1

...

nj

fj

n
Ejemplo completar tabla
li-1 -- li

n1
n

f1

fj

...
Fj

Nj
n

f1 ... f j

...

...

Nk = n

Fk = 1

1
ni

fi

Ni

0 -- 10

60

f1

60

10 -- 20

n2

0,4

N2

18

20 -- 30

30

f3

170

30 -- 100

n4

0,1

N4

100 -- 200

n5

f5

200

Sabemos que la ltima frecuencia acumulada es igual al total de observaciones, luego n =


200. Como N3=170 y n3=30, entonces:
N2 = N3-n3=170-30=140
Adems al ser n1=60, tenemos que:
n2 = N2-n1=140-60=80
Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia
relativa correspondiente:

f4

n4
n

n4

f 4 * n 0,1x200 20

As:
N4= n4+N3=20+170 =190
Este ltimo clculo nos permite obtener:
n5= N5-N4=200-190=10
Al haber calculado todas las frecuencias absolutas, obtenemos las relativas:

f1
f3
f5

n1
n
n3
n
n5
n

60
0,3
200
30
0,15
200
10
0,05
200

li-1 -- li

ni

fi

Ni

0 -- 10

60

0,3

60

10 -- 20

80

0,4

140

20 -- 30

30

0,15

170

19

30 -- 100

20

0,1

190

100 -- 200

10

0,05

200

200

Eleccin de las clases


En cuanto a la eleccin de las clases, deben seguirse los siguientes criterios en
funcin del tipo de variable que estudiemos:
Cuando se trate de variables cualitativas, las clases ci sern de tipo nominal
En el caso de variables cuantitativas, existen dos posibilidades:
Si la variable es discreta, las clases sern valores numricos x1,...xK
Si la variable es continua las clases vendrn definidas mediante lo que denominamos
intervalos. En este caso, las modalidades que contiene una clase son todos los valores
numricos posibles contenidos en el intervalo, el cual viene normalmente definido de la
forma:

li 1 , li

x : li

x li

o En estos casos llamaremos amplitud del intervalo a las cantidades:


ai = li-li-1
o y marca de clase ci, a un punto representativo del intervalo. Si ste es acotado,
tomamos como marca de clase al punto ms representativo:

ci

li li
2

Eleccin de intervalos para variables continuas


Nmero de intervalos a elegir y sus tamaos respectivos.
La notacin ms comn que usaremos para un intervalo es:

lj

lj

l j 1, l j

El primer intervalo, l0 -- l1, podemos cerrarlo en el extremo inferior para no excluir


la observacin ms pequea, l0:

l0 l1

l0 ,l1

El nmero de intervalos, k, a utilizar no est determinado de forma fija y por tanto


tomaremos un k que nos permita trabajar cmodamente y ver bien la estructura de
los datos:

N intervalos

si n no es muy grande

1 3,22 log n en otro caso

20

Ejemplo
Si el nmero de observaciones que tenemos es n = 100, un buen criterio es agrupar las
observaciones en k
100 10 intervalos. Sin embargo si tenemos n = 1.000.000, ser
mas razonable elegir k 1 3,22log n 20 intervalos, que
k
1.000 .000 1.000
La amplitud de cada intervalo: ai = li -li-1 suele tomarse constante, considerando la
observacin ms pequea y ms grande de la poblacin ( l x
x m ax )
0
m in y l k
para calcular la amplitud total, A, de la poblacin:
A = lk - l0
de forma que la amplitud de cada intervalo sea:
A
ai a i 1,2,...,k donde a
k
Observacin
Podra ocurrir que la cantidad a fuese un nmero muy desagradable a la hora de
escribir los intervalos a = 10,325467). En este caso, es recomendable variar
simtricamente los extremos, l0 < xmin < xmax < lk, de forma que se tenga que a es
un nmero ms simple (Ej. a = 10).
Ejemplo
Sobre un grupo de n = 21 terneros se realizan las siguientes observaciones de sus pesos,
expresados en kilos:
X~x1,x2,,x21
58

42

51

54

40

39

49

56

58

57

59

63

58

66

70

72

71

69

70

68

64

En primer lugar hay que observar que si denominamos X a la variable peso de


cada ternero esta es una variable de tipo cuantitativa y continua. Por tanto a la
hora de ser ordenados los resultados en una tabla estadstica, esto se ha de hacer
agrupndolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto
grado de precisin. Para que la perdida de informacin no sea muy relevante
seguimos el criterio de utilizar
k
n
21
En este punto podemos tomar bien k = 4 o bien k = 5. Arbitrariamente se elige una
de estas dos posibilidades. Por ejemplo, vamos a tomar k = 5.
Lo siguiente es determinar la longitud de cada intervalo, ai i 1,2,...,5 . Lo ms
cmodo es tomar la misma longitud en todos los intervalos, ai = a (aunque esto no
tiene por qu ser necesariamente as), donde:

21

A 33
6,6
5 5
A l5 l0 72 39 33

l0

xm in

39

l5

xm ax

72

Entonces tomaremos k = 5 intervalos de longitud a = 6,6 comenzando por l1 = xmin


= 39 y terminando en l5=72:
Intervalos
M. clase
f.a.
f.r.
f.a.a.
f.r.a.
li-1 -- li

ci

ni

fi

Ni

Fi

i=1

39 -- 45,6

42,3

0,1428

0,1428

i=2

45,6 -- 52,2

48,9

0,0952

0,2381

i=3

52,2 -- 58,8

55,5

0,2857

11

0,5238

i=4

58,8 -- 65,4

62,1

0,1428

14

0,6667

i=5

65,4 -- 72

68,7

7
21

0,3333
1

21

Representaciones Grficas
A pesar de la gran ayuda que prestan las tablas y cuadros con informacin
organizada, no todos los pblicos alcanzan a comprenderla o no disponen del
tiempo suficiente para analizarla.
Es por ello que la mayora de los investigadores acostumbran a reforzar la
descripcin a travs de dibujos, generalmente con formas geomtricas, que ayudan
a visualizar el comportamiento de las variables tratadas.
Definicin
Un grfico o diagrama es un dibujo complementario a una tabla o cuadro, que permite
observar las tendencias de un fenmeno en estudio y facilita el anlisis estadstico de las
variables all relacionadas.
Componentes
Ttulo adecuado: El cual debe ser claro y conciso, que responda a las preguntas:
Qu relaciona, cundo y dnde se hicieron las observaciones.
El cuerpo: o grfico en s, cuya eleccin debe considerar el o los tipos variables a
relacionar, el pblico a quien va dirigido y el diseo artstico del grfico.
Notas de pie de grfico: Donde se presentan aclaraciones respecto al grfico, las
escalas de los ejes, o se otorgan los crditos a las fuentes respectivas.
Es de anotar que por medio de grficos tendenciosos se pueden deformar o resaltar
situaciones o estados, que presentados en un grfico apropiado, mostraran un
comportamiento normal.

22

Generalmente una informacin es distorsionada por algunas de las siguientes


causas: ejemplo
La relacin entre los ejes no es la ms apropiada
Variacin de La Inflacin en Argentina
1995-2000

Como se puede observar, el grfico No.2 realza el decrecimiento de la variable inflacin,


El No.1 intenta mostrar una estabilizacin o decrecimiento parsimonioso. Los dos grficos
son incorrectos debido a que no conservan una proporcin adecuada entre sus ejes.

Este grfico tiene una buena proporcin entre los ejes.


23

Pero, la distorsin se debe a la mala numeracin en el eje Y pues, el punto de origen O


ha sido eliminado y asignado un valor arbitrario, la escala es inadecuada para resaltar el
decrecimiento inflacionario de los dos ltimos periodos
Las situaciones observadas son errneas o tendenciosas y se deben corregir asignando
escalas apropiadas a los ejes y utilizando la siguiente regla:

Donde:

Lx: Longitud del eje horizontal


Ly: Longitud del eje vertical

La longitud del eje vertical es igual a tres cuartos de la longitud del eje horizontal.

Grficos para variables cualitativas


Diagramas de barras: representamos en el eje de las abscisas modalidades y en
ordenadas las frecuencias absolutas o bien, las frecuencias relativas.
40
35
30
25
20
15
10
5
0

1er trim.

2do trim.

3er trim.

4to trim.

Para comparar varias poblaciones entre s, existen otras modalidades. Cuando los
tamaos de las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas.
90
80
70
60
50
40
30
20
10
0

Este
Oeste
Norte

1er trim. 2do trim. 3er trim. 4to trim.

24

Diagramas de sectores
Tambin llamados tortas. Se divide un crculo en tantas porciones como clases
existan, de modo que a cada clase le corresponde un arco de crculo proporcional a
su frecuencia absolutas o relativas.

1er trim.

2do trim.

3er trim.

4to trim.

El arco de cada porcin se calcula usando la regla de tres:

360

ni

xi

360.ni
n

Pictogramas
Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades
de la variable. Estos grficos se hacen representado a diferentes escalas un mismo
dibujo.

Grficos para variables cuantitativas


Para las variables cuantitativas, consideraremos dos tipos de grficos, en funcin de
que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias
acumuladas.
25

Diagramas diferenciales
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se
representa el nmero o porcentaje de elementos que presenta una modalidad dada.

Diagramas integrales
Son aquellos en los que se representan el nmero de elementos que presentan una
modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias
acumuladas .
Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuacin las diferentes representaciones grficas que pueden realizarse para
cada una de ellas as como los nombres especficos que reciben.

Grficos para variables discretas


Cuando representamos una variable discreta, usamos el diagrama de barras
cuando pretendemos hacer una grfica diferencial. Las barras deben ser estrechas
para representar el que los valores que toma la variable son discretos. El diagrama
integral o acumulado tiene, por la naturaleza de la variable, forma de escalera.
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el nmero de caras,
X, obtenindose los siguientes resultados X ~ 2, 1, 0, 1,3, 2, 1, 2.
Solucin
En primer lugar observamos que la variable X es cuantitativa discreta, presentando
las modalidades:
X = 0, 1, 2, 3.
xi ni
fi
Ni Fi
0
1
1/8
1
1/8
1
3
3/8
4
4/8
2
3
3/8
7
7/8
3
1
1/8
8
8/8
n=8
1

26

Grficos para variables continuas


Cuando las variables son continuas, utilizamos como diagramas diferenciales los
histogramas y los polgonos de frecuencias.

Histogramas
Se construyen a partir de la tabla estadstica, representando sobre cada intervalo, un
rectngulo que tiene a este segmento como base.
0.66

0.50

frecuencia relativa

0.33

0.17

0.00
0.0022

0.0030

0.0037

0.0045

0.0053

PS

Polgonos de frecuencias
Se construyen fcilmente si tenemos representado previamente el histograma.
Consiste en unir mediante lneas rectas los puntos del histograma que corresponden
a las marcas de clase.
0.66

0.50
frecuencia relativa

0.33

0.17

0.00
0.0022

0.0030

0.0037

0.0045

0.0053

PS

Polgono de frecuencias acumulado


El diagrama integral para una variable continua se denomina tambin polgono de
frecuencias acumulado, y se obtiene como la poligonal definida en abscisas a
partir de los extremos de los intervalos en los que hemos organizado la tabla de la
variable, y en ordenadas por alturas que son proporcionales a las frecuencias
acumuladas. Dicho de otro modo, el polgono de frecuencias absolutas es una
primitiva del histograma.

27

Ejemplo
Intervalos

ci

ni

Ni

0 -- 2

2 -- 4

4 -- 6

6 -- 8
8 10

7
9

3
2
12

10
12

Grfico de Lneas
Usado bsicamente para mostrar el comportamiento de una variable cuantitativa a
travs del tiempo. Consiste en segmentos rectilneos unidos entre s, los cuales
resaltan las variaciones de la variable por unidad de tiempo.
Para su construccin ha de procederse de la siguiente manera: en el eje de las
ordenadas se marcan los puntos de acuerdo con la escala que se est utilizando. En
el caso de una escala aritmtica, distancias iguales en el eje, representan distancias
iguales en la variable.
Variacin de La Inflacin en Argentina
1995-2000

28

El eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el


nmero de tems que ha de presentarse, as como la longitud del eje. Es de anotar la
conveniencia de mostrar la interrupcin y acercamiento del eje a su origen
cuando esto haya ocurrido.
Grfico de Lneas Compuesto
Cuando se tienen varias variables a representar, con el fin de establecer
comparaciones entre ellas (siempre que su unidad de medida sea la misma); se
utiliza plasmarlos en un slo grfico, el cual es el resultado de representar varias
variables en un mismo plano.
Variacin de la Inflacin y el Salario

Diagrama de barras de error


Para comparar dos o ms grupos se realiza habitualmente en trminos de su valor
medio, En el grfico se compara el ndice de masa corporal en una muestra de
hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su
95% intervalo de confianza. El hecho de que dichos intervalos no se solapen, no
implica necesariamente que la diferencia entre ambos grupos pueda ser
estadsticamente significativa, pero s nos puede servir para valorar la magnitud de
la misma.

29

Diagramas de dispersin
Se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el
valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la
relacin entre el peso y la talla de un sujeto. En l grfico puede observarse
claramente como existe una relacin directa entre ambas variables, y valorar hasta
qu punto dicha relacin puede modelizarse por la ecuacin de una recta. Este tipo
de grficos son, por lo tanto, especialmente tiles en la etapa de seleccin de
variables cuando se ajusta un modelo de regresin lineal.

30

Funciones matemticas lineales y cuadradas


En matemticas, muchos problemas comprenden conjuntos de pares ordenados de
nmeros. Un conjunto de pares ordenados de nmeros reales recibe el nombre de relacin
binaria. El conjunto de los primeros elementos de una relacin binaria se llama dominio de
la relacin. El conjunto de los segundos elementos es el codominio o imagen de la
relacin. Para el conjunto (x, y) las cantidades de x e y suelen llamarse variables. El
conjunto de valores para la variable x es el dominio, y x suele llamarse variable
independiente, el conjunto de valores que toma la variable y es el codominio, y a y se le
denomina por lo general, variable dependiente. Cuando A partir del contexto, resulta claro
el nmero de variables, una relacin binaria puede llamarse sencillamente, relacin.
Si una relacin es tal que en ella a cada elemento del dominio le corresponde uno y slo un
elemento del codominio, se dice que esta en relacin de una funcin.
La funcin es una regla matemtica que asigna a cada valor de entrada uno y slo un valor
de salida.

Funcin lineal y ecuacin de la recta


La construccin y lectura de grficos son necesidades imprescindibles en el mundo actual.
No es posible comprender un diario si no se tiene idea de cmo interpretar un grfico.
Como primer acercamiento observemos el siguiente grfico que contiene informacin
simple de leer.
En las empresas ferroviarias se utilizan diagramas similares a estos para programar la
sealizacin a lo largo de la va frrea.

En el eje vertical se han marcado los puntos O, A, B, C, D, y E que son estaciones


ferroviarias. En el eje horizontal se ha representado el tiempo medido en horas. Cada lnea
quebrada indica la posicin del tren, cuyo nmero est marcado sobre la misma, en
funcin del tiempo. Observemos que algunos trenes no llegan a la ltima estacin y
algunos no paran en ciertas estaciones.
Veamos algunas preguntas que podemos hacer para interpretar el grfico:
1) A qu hora sale el tren n 2?
31

2) A qu hora llega a la estacin E el tren n 4?


3) Cunto tiempo transcurre entre la salida del tren n 3 y el n 4?
4) Cunto tarda el tren n 1 en ir de la estacin O a la estacin B?
5) Cunto tiempo el tren n 1 est detenido en la estacin B?
6) Cunto tiempo transcurre en la estacin D desde la partida del tren n 1 hasta que pasa
el tren n 6?
7) Hasta donde llega el tren n 3?
8) A qu hora y en qu lugar se cruzan los trenes n 1 y n 2?
9) Si un pasajero llega a la estacin O a las 12:30 hs. y quiere llegar a la estacin E, qu
opciones tiene?
10) Si un pasajero llega a la estacin O a las 10 hs. y toma el tren n 3, cmo hace para
llegar a la estacin E?. A qu hora llega?. Qu le hubiera convenido hacer para llegar
antes?
11) Es siempre la misma la velocidad del tren n 2?. Y la del tren n 1?. En qu lugar es
mayor?
Como habamos mencionado antes, una funcin es una regla que permite asignar a cada
uno de los elementos x de un conjunto A un nico elemento y de otro conjunto B.
A diario tenemos ejemplos de estas asignaciones: el mdico dosifica un antibitico en
funcin del peso del beb, nos cobran el pasaje en funcin de la distancia recorrida, la
distancia recorrida es funcin de la velocidad alcanzada, etc.

Funcin lineal como propiedad de los sistemas generales


Una funcin es lineal cuando cumple todas estas propiedades:
o Si aplicamos una entrada u1(x) obtenemos una salida particular y1(x)
o Si aplicamos una entrada u2(x) obtenemos una salida particular y2(x)
o Entonces si aplicamos u3(x)=c1u1(x)+c2u2(x) obtenemos una salida
y3(x)=c1y1(x)+c2y2(x) para todos los pares de entradas u1(x) y u2(x) y para todos
los pares de constantes c1 y c2.
Esto incluye tambin a las funciones lineales diferenciales.

Interpretacin geomtrica

32

En el anlisis matemtico y en la geometra, una funcin lineal de una variable real es una
funcin matemtica de la forma:

Donde m y b son constantes.


Una funcin lineal de una nica variable independiente x suele escribirse en la forma
siguiente

Que se conoce como ecuacin de la recta en el plano xy.


o m es denominada la pendiente de la recta.
o b es la ordenada en el origen, el valor de y para x= 0, es el punto (0,b).
Ejemplo en el plano xy

En la figura se ven tres rectas, que corresponden a las ecuaciones lineales siguientes:

En esta recta el parmetro m= 1/2, esto es el crecimiento de la recta es 1/2, cuando


aumentamos x en una unidad, y aumenta en 1/2 unidad, el valor de b es 1, luego la recta
corta el eje y en el punto y= 1
La ecuacin:

Tiene el valor de la pendiente m= 1/2, igual que en el caso anterior, por eso estas dos
rectas son paralelas, como el valor de b= -1, esta recta corta el eje de las y en el punto y= 1.
La tercera ecuacin, es:

33

la pendiente de la recta, el parmetro m= 2, indica que cuando el valor de x aumenta en


una unidad, el valor de y la hace en dos unidades, el corte con el eje y, lo tiene en y= 1,
dado que el valor de b= 1.
En el caso de una recta el valor de m se corresponde al ngulo de inclinacin de la recta
con el eje de las x a travs de la expresin:

Funcin cuadrtica
De vital importancia en matemticas y fsica es la funcin cuadrtica o de segundo grado.
Las funciones cuadrticas son las que responden a la forma y=ax2+bx+c. Su grfica es una
parbola. Las parbolas son grficas simtricas respecto de un eje que pasa por el vrtice.
En su estudio es conveniente conocer la orientacin de la parbola, los puntos de cortes
con los ejes, tanto con el eje OX como con el eje OY y el vrtice de la parbola.

Grficas de funciones cuadrticas.

Donde a, b y c son constantes y a es distinto de 0.


La representacin grfica en el plano XY haciendo:

Esto es:

Es una parbola vertical, orientada hacia arriba o hacia abajo segn el signo de a.
34

Estudio de la funcin
Corte con el eje y

La funcin corta el eje y en el punto y = f(0), es decir, la parbola corta el eje y cuando x
vale cero (0):

lo que resulta:

La funcin corta el eje y en el punto (0, c), siendo c el termino independiente de la funcin.
Corte con el eje x
La funcin corta al eje x cuando y vale 0:

las distintas soluciones de esta ecuacin de segundo grado, son los casos de corte con el
eje x, que se obtienen por la expresin:

Donde:

se le llama discriminante, :

35

Segn el signo del discriminante podemos distinguir:


> 0, la ecuacin tiene dos soluciones, por tanto la parbola cortara al eje x en dos
puntos: x1 y x2.
B2 4ac > 0
2 intersecciones
Ejemplo:
Ecuacin de la parbola:
y = 2x2 5x + 1
10 y
8
6
4
2

0
-12

-10

-8

-6

-4

-2

10

12

-2
-4

= 0, la ecuacin tiene una nica solucin en x1, la parbola solo tiene un punto en comn
con el eje x, el cual es el vrtice de la funcin donde las dos ramas de la parbola
confluyen.
b2 4ac = 0
1 interseccin
Ejemplo:
Ecuacin de la parbola:
y = x2 + 6x + 9
14

12
10
8
6
4
2

0
-12

-10

-8

-6

-4

-2

10

12

< 0, la ecuacin no tiene solucin real, y la parbola no corta al eje x.


b2 - 4ac < 0
No hay interseccin
Ejemplo:
Ecuacin de la parbola:
y = x2 + 2x 3

36

0
-12

-10

-8

-6

-4

-2

10

12

-2
-4
-6
-8
-10

Interseccin con el eje X


Para determinar las coordenadas de cada punto de interseccin, si sta existe, de la
parbola con el eje X, debe resolverse la siguiente ecuacin cuadrtica:
ax2 + bx + c = 0
La parbola tiene un y slo un punto de interseccin con el eje Y. Las coordenadas de ese
punto son: ( 0 , c )
Eje de simetra
Cada parbola tiene un eje de simetra cuya ecuacin es:

b
2a

Ejemplo: Determina la ecuacin del eje de simetra de la parbola de ecuacin:


y = 3 x 2 12 x + 7.
Respuesta: La ecuacin del eje de simetra es:

12
2.3

x
10

y
8
6
4
2

0
-12

-10

-8

-6

-4

-2

10

12

-2
-4
-6

37

Vrtice ( V )
Toda parbola tiene un y slo un vrtice ( V ) de coordenadas:

b 4.a.c b 2
,
2.a
4.a

Ejemplo: Determina las coordenadas del vrtice ( V ) de la parbola de ecuacin:


y = x2 + 2x 8
Respuesta:

Las coordenadas del vrtice son:

2 4.1. 8 2 2
,
2.1
4.1

1, 9

6y
4
2

0
-14 -12 -10

-8

-6

-4

-2

10

12

14

-2
-4
-6
-8
-10
Dominio de la funcin ( Dom f )
El dominio de la funcin cuadrtica es R .
Dom f = R
Recorrido de la funcin ( Rec f )
El recorrido de la funcin cuadrtica est determinado por:

38

a > 0

Rec f =

4ac b2
,
4a

a < 0

Rec f =

4 a c b2
4a

Un ejemplo de un fenmeno que se puede describir a travs de una funcin cuadrtica, es


el siguiente: se lanza una pelota, desde el suelo, hacia arriba. Se quiere conocer la altura
alcanzada por la pelota en cada segundo contado a partir del momento en que fue lanzada.
La funcin que permite obtener la altura de la pelota en cada segundo, es una funcin
cuadrtica que depende de la inclinacin con la cual se lanz y de la fuerza que se le
imprimi al lanzamiento, de acuerdo a ciertas leyes de la Fsica.
Si se obtiene, en un caso especfico, la funcin
f(x)=-2x2+8x
entonces, en el instante inicial (0 segundos transcurridos) la pelota est en el suelo, es
decir, tiene altura igual a cero:
f(0)=-2(0)2+8(0)=0
Para saber cul es la altura (en metros, por ejemplo, en este caso) de la pelota en el instante
en que ha transcurrido 1 segundo, se hace x=1 y se calcula
f(1)=-2(1)2+8(1)=-2+8=6
y cuando han transcurrido 2 segundos:
f(2)=-2(2)2+8(2)=-8+16=8
Puede hacerse una tabla como la que se muestra a continuacin:
0 0
1 6
2 8
3 6
4 0

1) La pelota vuelve a caer al suelo a los 4 segundos de haber sido lanzada.


2) La altura mxima la alcanza al haber transcurrido 2 segundos a partir de su
lanzamiento.
3) La velocidad de la pelota va disminuyendo desde que es lanzada hasta que llega a 8
metros de altura (a los 2 segundos de su lanzamiento). Esto se puede ver al calcular la
cantidad de metros que subi desde el segundo 0 hasta el segundo 1, que es
f(1)-f(0)=6-0=6 metros,
y compararla con la cantidad de metros que subi entre los segundos 1 y 2:
f(2)-f(1)=8-6=2
Luego ocurre algo curioso, entre los segundos 2 y 3, la pelota comienza a descender y
recorre exactamente 2 metros:
39

f(2)-f(3)=8-6=2
Y entre los segundos 3 y 4 vuelve a recorrer la distancia que recorri en el primer segundo:
f(3)-f(4)=6-0=6
esto se refleja grficamente en la simetra de la curva con respecto a la recta vertical x=2.

Decir que esta curva es simtrica respecto a la recta x = 2, significa que si se rotara el
plano tomando la recta como eje, de manera que todo lo que est a la izquierda de la recta
pase a la derecha y viceversa, se obtendra una curva idntica a la original.
En otras palabras, si un observador imaginario, diminuto, se situara en algn punto de la
recta, lo que vera de la curva al mirar hacia la izquierda, sera idntico a lo que vera a su
derecha.
En trminos algebraicos, se tiene que la imagen, por medio de la funcin f (x)= -2x2+8x ,
de dos nmeros que estn a la derecha y a la izquierda de 2 y a la misma distancia de 2,
debe ser la misma.
Por ejemplo, los nmeros 1/2 y 7/2 son equidistantes de 2, pues

Y sus imgenes son iguales:

40

Medidas descriptivas estadsticas

Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que
junto a una medida que indique el valor alrededor del cual se agrupan los datos, se
asocie una medida que haga referencia a la variabilidad que refleje dicha
fluctuacin.
La tendencia central de los datos.
La dispersin o variacin con respecto a este centro.
Los datos que ocupan ciertas posiciones.
La simetra de los datos.
La forma en la que los datos se agrupan.
Medidas representativas de un conjunto de datos estadsticos

Estadsticos de tendencia central


la media
la mediana
la moda
En ciertas ocasiones estos tres estadsticos suelen coincidir, aunque generalmente no es as.
Cada uno de ellos presenta ventajas e inconvenientes.
La Media
Es la medida mas popular.

Media =

Es decir, tenemos una muestra de n observaciones: x1, x2,,xn. Su media


muestral es:

Suma de las observaciones


Nmero de observaciones

( x1

x2

...

xn )

De forma compacta:

1
n

xi
i 1

41

Propiedades de la media
La suma de los desvos de los valores de la variable, calculado con respecto de la
media aritmtica es = 0

La media aritmtica del producto de una constante por una variable es = a la


constante por la media aritmtica de la variable:

La media aritmtica de la suma de dos variables es = a la suma de sus respectivas


medias aritmticas:

Mediana

Es el valor de la serie de datos que se sita justamente en el centro de la muestra


(un 50% de valores son inferiores y otro 50% son superiores).
Los datos deben ordenarse de menor a mayor
No presentan el problema de estar influido por los valores extremos, pero en
cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera
cada valor por el nmero de veces que se ha repetido).

Ejemplo:
Los salarios de siete empleados fueron los siguientes (en miles de $) :
28, 60, 26, 32, 30, 26, 29.
Cul es la mediana?
Nro. de observaciones es impar
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
26,26,28,29,30,32,60
Supongamos que se agrega al grupo el Salario de un empleado ms ($31.000).
Cul es la mediana?
Nro. de observaciones es par
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
Hay dos valores en el medio!
26,26,28,29, 29.5, 30,31,32,60

42

Moda

Es el valor de la variable que ms se repite en la muestra.

El gerente de una tienda de ropa posee la siguiente informacin sobre el talle de los
pantalones que se vendieron ayer:
31, 34, 36, 33, 28, 34, 30, 34, 32, 40.
La Moda es 34
En muchos casos, la moda nos da informacin mas valiosa que la mediana: 33.2.
Ejemplo
Vamos a utilizar la distribucin de frecuencias con datos de la estatura (altura a la
cruz) de los terneros de un lote a remate.

Variable

Frecuencias
absolutas

Frecuencias
relativas

(Valor) Simple Acumulada Simple Acumulada


1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30

1
4
4
2
1
2
3
3
4
3
3

1
5
9
11
12
14
17
20
24
27
30

3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%

3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%

Media aritmtica:

Luego:

Por lo tanto, la estatura media de este grupo de es de 1,253 cm.

Mediana: La mediana de esta muestra es 1,26 cm, ya que por debajo est el 50% de
los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de
frecuencias relativas acumuladas.

43

Variable

Frecuencias
absolutas

Frecuencias
relativas

(Valor) Simple Acumulada Simple Acumulada


1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29

1
4
4
2
1
2
3
3
4
3

1
5
9
11
12
14
17
20
24
27

3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%

3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%

1,30

30

10,0% 100,0%

Como el valor 1,26 se repite en 3 ocasiones, la media se situara exactamente entre el


primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la
divisin entre el 50% inferior y el 50% superior.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto
esta seria cuenta con 3 modas.
Variable

Frecuencias
absolutas

Frecuencias
relativas

(Valor) Simple Acumulada Simple Acumulada


1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30

1
4
4
2
1
2
3
3
4
3
3

1
5
9
11
12
14
17
20
24
27
30

3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%

3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%

Media y Mediana
La media es sensible a observaciones extremas y a outliers.

La mediana solo es sensible a cambios en su entorno que la cruzan. Por ello, se


dice que la mediana es un estimador robusto de la tendencia central.

La media y la mediana de una distribucin simtrica se encuentran muy cerca. Si


la distribucin es exactamente simtrica, la media y la mediana coinciden.

44

Distribuciones simtricas y asimtricas


Una distribucin es simtrica si el lado derecho e izquierdo del histograma con
respecto a la mediana son aproximadamente iguales.
Un distribucin es asimtrica hacia la derecha si el lado derecho del histograma se
extiende sobre un mayor nmero de valores (intervalos) que el lado izquierdo.
Una distribucin es asimtrica hacia la izquierda si el lado izquierdo del
histograma se extiende sobre un mayor nmero de valores (intervalos) que el lado
derecho.
Aspecto general de una distribucin
La figura muestra la distribucin de ventas de libros por individuo en la feria del
libro. Esta distribucin es asimtrica hacia la derecha. Es decir hay muchas ventas
de 3 o 4 libros y pocas ventas de 10 libros.
25
20
15
10
5
0
1

10

11

12

Estadsticos de posicin: Cuartiles (Ql)

Son un caso particular de los percentiles. Hay 3, y se definen como:

Estadsticos de posicin: Percentiles

Los percentiles son otro conjunto de medidas de tendencia no central de una


distribucin.

Dividen los datos ordenados en 100 partes iguales.

El percentil 25 es el primer cuartil ...

Ejemplo
Supongamos que el 78% de los resultados es menor o igual a 600 puntos.
Entonces, 600 es el percentil 78 de la distribucin.
45

Percentiles frecuentemente utilizados


Primer decil
= percentil 10
Primer cuartil, Q1, = percentil 25
Segundo cuartil,Q2, = percentil 50
Tercer cuartil, Q3, = percentil 75
Noveno decil
= percentil 90

En el caso de una variable continua, el intervalo donde se encuentra Pk li 1 li


se calcula buscando el que deja debajo de si al k% de las observaciones. Dentro de
l, Pk se obtiene segn la relacin:

Deciles

Se definen como los valores de la variable que dividen a las observaciones en 10


grupos de igual tamao.
Ms precisamente, definimos D1,D2, ..., D9 como:

Ejemplo

Dada la siguiente distribucin en el nmero de cras de cien perras, calcular sus


cuartiles
xi

ni

Ni

14

14

10

24

15

39

26

65

20

85

15

100

n = 100

46

Solucin

Medidas de dispersin

En el anlisis estadstico no basta el clculo e interpretacin de las medidas de


tendencia central o de posicin, ya que, por ejemplo, cuando pretendemos
representar toda una informacin con la media aritmtica, no estamos siendo
absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y
superiores a la media aritmtica.

Amplitud (A) o Rango


Rango
Una manera de medir la dispersin es calcular el recorrido de la distribucin
emprica, es decir, la diferencia entre las observaciones mxima y mnima.
Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda
informacin sobre la dispersin existente entre ambos valores extremos.
El rango depende slo de las observaciones mxima y mnima, que podran ser
observaciones atpicas.
Podramos mejorar nuestra descripcin de la dispersin fijndonos, por ejemplo,
tambin en la dispersin del 50% de los valores centrales de nuestros datos.
Un conjunto de estadsticos de utilidad son los cuartiles de una distribucin.
Ejemplo :
muestra:
4, 4, 5, 7, 8, 9
Solucin:
dato mayor H = 9
dato menor L = 4
A=94=5

La amplitud seala que los 6 datos se encuentran dentro de una distancia de 5


unidades en la recta numrica.

47

Rango intercuartlico
Es la diferencia entre el percentil 75% y el percentil 25%
Diagrama de caja
Los cinco nmeros resumen de una distribucin son representados grficamente
por un diagrama de caja.

L - Observacin mxima
Q3 - Tercer cuartil
Q2 - Mediana
Q1 - Primer cuartil
S - Observacin mnima
Los lados inferior y superior de la caja van del primer al tercer cuartil. Por tanto, la
altura de la caja es la amplitud del 50% de los datos centrales.
El segmento del interior de la caja indica la mediana. Los extremos de los
segmentos perpendiculares a los lados superior e inferior indican, respectivamente,
los valores mximo y mnimo de la distribucin.

Q1

Q2

Q3

Facturacion_sucursales_zona_norte
350
300
250
200
150
100
50
0

Facturacion_sucursales_zona_sur

240
200
160
120
80
40
0

48

Varianza

La varianza, S2, se define como la media de las diferencias cuadrticas de n


puntuaciones con respecto a su media aritmtica, es decir:

s2

( x1 x ) 2 ( x 2

s2

x ) 2 ... ( x n
n 1

1
n 1

(x i

x)2

x)2

Para datos agrupados en tablas, usando las notaciones establecidas anteriormente, la


varianza se puede escribir como
n

xi
Desviacin estndar

S2

x ni

i 1

n 1

La varianza no tiene la misma magnitud que las observaciones (ej. si las


observaciones se miden en metros, la varianza lo hace en m2). Si queremos que la
medida de dispersin sea de la misma dimensionalidad que las observaciones
bastar con tomar su raz cuadrada. Por ello se define la desviacin estndar, S,
como

Grados de libertad

Por qu calculamos la varianza dividiendo por n - 1, en lugar de dividir por n?


Como la suma de las desviaciones es 0, la ltima desviacin es una combinacin
lineal de las n - 1 desviaciones restantes.
Por lo tanto, no estamos calculando el promedio de n nmeros independientes (los
desvos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por
ello, promediamos la suma de los desvos al cuadrado dividiendo por n -1.
Al numero n -1 se lo denomina grados de libertad de la varianza o de la
desviacin tpica.

Ejemplo

Calcular la varianza y desviacin estndar de las siguientes cantidades medidas en


metros:
3,3,4,4,5

Solucin
Para calcular dichas medidas de dispersin es necesario calcular previamente el
valor con respecto al cual vamos a medir las diferencias. sta es la media:
49

La varianza es:

siendo la desviacin estndar su raz cuadrada:

La desviacin estndar y la varianza son las medidas de separacin con respecto a la


media

Propiedades del desvo standard

S mide la dispersin respecto a la media. Debe emplearse solo cuando se escoge la


media como medida central de la distribucin.
S = 0 solo ocurre cuando no hay dispersin: todas las observaciones toman el
mismo valor. De lo contrario S > 0.
Cuanto ms dispersin hay entre las observaciones, mayor es s.
S, al igual que la media, se encuentra fuertemente influenciado por las
observaciones extremas.

Descripcin de una distribucin asimtrica

Una distribucin asimtrica con unas pocas observaciones en la cola larga de la


distribucin tendr un desvo standard grande. En tal caso, s no proporciona
informacin til sobre la dispersin de la distribucin.
Como en una distribucin muy asimtrica la dispersin de cada una de las colas es
muy distinta, es imposible describir bien la dispersin con un solo nmero.
Los cinco nmeros resumen proporcionan mejor informacin sobre la dispersin de
la distribucin.
Es preferible utilizar los cinco nmeros resumen en lugar de la media y el desvo
standard para describir una distribucin asimtrica

Coeficiente de Variacin

El coeficiente de variacin es una medida de dispersin relativa.


Muestra la dispersin de una distribucin en relacin a su media.
Se utiliza para comparar distintas distribuciones.
Su frmula es:

CV
x
50

Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no
lo es si la media es 500.

Ejemplo

Comparamos pesos de elefantes y ratas:

Asimetra o sesgo

Asimetra: El concepto de asimetra se refiere a si la curva que forman los valores


de la serie presenta la misma forma a izquierda y derecha de un valor central
(media aritmtica)

Coeficiente de asimetra de Pearson

S KP

x M ed
S

SKP = 0 Distribucin simtrica; existe la misma concentracin de valores a la


derecha y a la izquierda de la media.
SKP > 0 Distribucin a simtrica positiva; existe mayor concentracin de valores
a la derecha de la media que a su izquierda.
51

SKP < 0 Distribucin a simtrica negativa; existe mayor concentracin de valores


a la izquierda de la media que a su derecha.

Apuntamiento (Curtosis)

El Coeficiente de Curtosis analiza el grado de concentracin que presentan los


valores alrededor de la zona central de la distribucin.

Distribucin Mesocrtica

Presenta un grado de concentracin medio alrededor de los valores centrales de la


variable (el mismo que presenta una distribucin normal).

Distribucin Leptocrtica

Presenta un elevado grado de concentracin alrededor de los valores centrales de la


variable.

52

Distribucin Platicrtica
Presenta un reducido grado de concentracin alrededor de los valores centrales de
la variable.

Coeficiente de Curtosis

g2

1
n

xi

ni
2

1
n

xi

ni

g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Ejemplo
Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura
(altura a la cruz) de los terneros de un lote a remate visto anteriormente.
Variable

Frecuencias
absolutas

Frecuencias
relativas

(Valor)

Simple

Acum

Simple

Acum

1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30

1
4
4
2
1
2
3
3
4
3
3

1
5
9
11
12
14
17
20
24
27
30

3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%

3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%

Recordemos que la media de esta muestra es 1,253


53

g2

1
30
1
30

0,00004967
2

1,39

0,03046667

El Coeficiente de Curtosis de esta muestra es -1,39. Se trata de una distribucin


Platicrtica, es decir, con una reducida concentracin alrededor de los valores
centrales de la distribucin.

54

Clculo de Probabilidades
Introduccin
Si el nico propsito del investigador es describir los resultados de un experimento
concreto, los mtodos analizados anteriormente pueden considerarse suficientes.
Si lo que se pretende es utilizar la informacin obtenida para extraer conclusiones
generales sobre todos aquellos objetos del tipo de los que han sido estudiados,
entonces estos mtodos constituyen slo el principio del anlisis, y debe recurrirse
a mtodos de inferencia estadstica, los cuales implican el uso inteligente de la
teora de la probabilidad.
El clculo de probabilidades nos suministra las reglas para el estudio de los
experimentos aleatorios o de azar, constituyendo la base para la estadstica
inferencial.
Para trabajar con el clculo de probabilidades es necesario fijar previamente cierta
terminologa.

Experimentos y Sucesos Aleatorios (condiciones)


Se puede repetir indefinidamente, siempre en las mismas condiciones
Antes de realizarlo, no se puede predecir el resultado que se va a obtener
El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de
resultados posibles
A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo
denotaremos normalmente mediante la letra E , S u
Los elementos del espacio muestral se denominan sucesos elementales

e1 , e2

e1 , e2 son sucesoselementale s

Cualquier subconjunto de E ser denominado suceso aleatorio, y se denotar


normalmente con las letras A, B,...

A, B

A, B son sucesosaleatorios

Sucesos aleatorios que aparecen con gran frecuencia en el clculo de probabilidades son
los siguientes:
Suceso seguro:
Es aquel que siempre se verifica despus del experimento aleatorio, es
decir, el mismo E

E es el sucesoseguro

55

Suceso imposible:
Es aquel que nunca se verifica como resultado del experimento aleatorio.
Como debe ser un subconjunto de E, la nica posibilidad es que el suceso imposible sea el
conjunto vaco ()

Suceso contrario a un suceso A:


Tambin se denomina complementario de A y es el suceso que se verifica
si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con
el smbolo A

Ejemplo 1
Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:

56

A1: (suma igual a 2):


A2: (suma igual a 3):
A3: (suma igual a 4):
A4: (suma igual a 5):
A5: (suma igual a 6):
A6: (suma igual a 7):
A7: (suma igual a 8):
A8: (suma igual a 9):
A9: (suma igual a 10):
A10: (suma igual a 11):
A11: (suma igual a 12):

Nociones de Probabilidad
Los eventos aleatorios no son predecibles con absoluta certeza, no obstante
podemos medir el grado de confianza con que se hace un pronstico, sobre la
ocurrencia o no de un determinado suceso.

Probabilidad Clsica
Si un evento puede ocurrir de n maneras, equiprobables y mutuamente excluyentes,
de las cuales m maneras son favorables al suceso A; se define probabilidad del
suceso A como:

Ejemplo
Lanzamos un dado de seis caras una vez, y queremos saber,

57

Probabilidad Frecuencial
Si un experimento se repite n veces ( n
A, entonces es de esperarse que:

), de las cuales m veces se presenta el suceso

La proporcin de veces que se presenta el suceso A tiende a estabilizarse en un nmero


entre 0 y 1 llamado probabilidad de A.
Ejemplo
Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del
nmero 2 en 16 veces, en tal caso

Axiomas
La probabilidad slo puede tomar valores comprendidos entre 0 y 1(no puede haber
sucesos cuya probabilidad de ocurrir sea del 200% ni del 5%.
La probabilidad del suceso seguro es 1, es decir, el 100%.
La probabilidad del suceso imposible debe ser 0.
La probabilidad de la interseccin de dos sucesos debe ser menor o igual que la
probabilidad de cada uno de los sucesos por separado, es decir:

La probabilidad de la unin de sucesos debe ser mayor que la de cada uno de los
sucesos por separado:
58

La probabilidad del suceso contrario de A, debe valer:

Probabilidad Condicional
Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama
probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento A
dado que ya se ha presentado el suceso B.

Ejemplo
A un grupo de personas se le pregunta sobre la intencin de voto para las prximas
elecciones.

P (vote dado que es masculino)=

P (vote dado que es femenino)=


59

Independencia Estadstica

Por ejemplo la probabilidad de obtener un nmero impar en el segundo lanzamiento de un


dado, no depende de si en el primer lanzamiento se obtuvo un nmero impar.

Modelos discretos
Experimentos de Bernoulli
Consideremos un experimento aleatorio con las siguientes caractersticas.
El experimento slo tiene dos posibles resultados, uno llamado
xito y el otro llamado fracaso.
La probabilidad de xito es p, y la de fracaso (1-p).
Ejemplo
Lanzamiento de una moneda.
Observar el 1 al lanzar el dado.
Encuestar a una persona y preguntar estado civil.
Medir un rbol y ver si cumple o no con una caracterstica especfica.

Modelo Matemtico
Sea

1 si hay xito
X
0 si hay

fracaso

60

Funcin de Probabilidad de X
p(x) = px(1-p)1-x si x =0 x=1
Notacin
X

Ber(p)

Significa que X sigue un modelo probabilstico Bernoulli con probabilidad de xito


p.
Definicin
Nos referiremos a una sucesin de experimentos de Bernoulli, cuando
Cada realizacin del experimento tenga slo dos posibles resultados,
xito o fracaso.
La probabilidad de xito es siempre la misma en cada realizacin ,
digamos, p.
Cada realizacin del experimento de Bernoulli es independiente de
las dems.

Modelo Probabilstico Binomial


Consideremos una sucesin de experimentos de Bernoulli, donde la probabilidad
de xito es p.
Definamos la v.a.
X = nmero de xitos en n realizaciones de una sucesin de experimentos de
Bernoulli.
Notacin
X

Bin(n,p)

Diremos que X sigue un modelo probabilstico Binomial con parmetros n y p.


Propiedades
La funcin de probabilidades asociada a esta v.a. es

p( x) P( X x)

n
x

p x (1 p) n x , x 1,2,...., n

Propiedades
El valor esperado de esta variable es
E(X) = n*p
La varianza de X es
V(X) = n*p*(1-p)
61

Ejemplo
Suponga que el 5% de la poblacin de pinos presenta alguna alteracin que
impide su talacin.
Si para desarrollar determinado estudio se tom una m.a. de 30 pinos
a)Cul es la probabilidad que 1 presente alguna alteracin?
b) Cul es el nmero esperado de pinos de la muestra con alguna alteracin?
c) Cul es la probabilidad que entre 2 y 3 pinos estn con alguna alteracin?

Variable Aleatoria
Definicin
Una variable aleatoria es una funcin definida sobre un espacio muestral a los nmeros
reales. Si ese espacio muestral especificado como dominio es numerable, decimos que la
variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.
Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.
Si su valor puede predecirse = variables determinsticas.
Por ejemplo el rea de un cuadrado
(figura geomtrica) A = L2
Si su valor SOLO puede conocerse al observarlo = variables aleatorias.
Al querer medir el rea de una baldosa aproximadamente cuadrada, puede dar diferentes
resultados. Incluso en mediciones repetidas de la misma baldosa . Esto puede deberse a
varias causas : irregularidad de la baldosa , cambios debida a la temperatura, errores
humanos o instrumentales en la medicin u otras absolutamente desconocidas. Este
fenmeno genera las variables llamadas aleatorias, probabilsticas o estocsticas
En Biologa, en general, el gran nmero de factores que intervienen en el valor de una
variable y las caractersticas del sistema hombre-instrumento de medicin, hacen que las
variables que manejemos sean variables aleatorias
El valor observado X entonces puede descomponerse en
X= m + e
Ejemplo
Consideremos el experimento que consiste en elegir al azar 50 perros y medir su peso. La
ley que asocia a cada perro con su peso es una variable aleatoria (continua).

15.
18

R
20
23
26

28.... etc

62

Esta correspondencia es una funcin del espacio muestral E en el conjunto de los nmeros
reales R.
A esta funcin la llamaremos variable aleatoria y la denotaremos por X.

En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria


X: el nmero de sellos obtenido:

X (c) = 0
X (s) = 1

En la tirada de dos dados si X es la suma obtenida:

Funcin de Probabilidad
Las variables aleatorias, transforman eventos del espacio muestral en eventos numricos,
los cuales desde luego, tienen asociada una probabilidad de ocurrencia.
Funcin de Probabilidad
f (x) = p (X = x)
Es una funcin definida sobre una variable aleatoria a los reales en el intervalo
[0,1] que cumple con los axiomas de la teora de la probabilidad.

63

Funcin de Distribucin

F (x) = p (X = x)
Es la acumulada de una funcin de probabilidad

- : Limite inferior de la variable X


Ejemplo
En el Lanzamiento de una Moneda,
X: Nmero de Sellos

X es la Suma Obtenida en el Lanzamiento de dos Dados:

64

Funcin de densidad v.a. discreta

Esta funcin se representa grficamente del mismo modo que la distribucin de


frecuencias relativas acumuladas

Funcin de densidad v.a. continua

Esperanza Matemtica
Media Aritmtica Poblacional

65

En el tratamiento de las medidas de tendencia central, resaltamos la importancia de


la media aritmtica de una variable, como parmetro representativo de una muestra
En el anlisis poblacional, la media aritmtica de una variable aleatoria, se define
como el promedio ponderado de los diferentes valores que puede asumir la variable
X, usando como ponderaciones las probabilidades respectivas de ocurrencia.

Si X es discreta

Si X es continua
Esta integral no siempre existe y en ese caso, se dir que la variable no tiene esperanza
Ejemplo
X es la Suma Obtenida en el Lanzamiento de Dos Dados

En promedio la suma obtenida en N tiradas es de 7. Si pagramos en pesos la suma


obtenida en cada lanzamiento, deberamos cobrar ms de 7 pesos para obtener utilidad en
el juego.

Varianza Poblacional
Similarmente a la definicin de la media aritmtica poblacional, la varianza se define
como:

66

Distribucin Normal
Curva de densidad
Una curva de densidad describe el aspecto general de una distribucin.
El rea por debajo de la curva, entre cualquier intervalo de valores, es la proporcin
de todas las observaciones que estn situadas en dicho intervalo.
El rea total bajo una curva de densidad es 1.
Dentro de las distribuciones continuas de probabilidad la ms importante, por la
frecuencia con que se encuentra y por sus aplicaciones tericas, es la DISTRIBUCIN
NORMAL o de Laplace-Gauss
La curva normal adopta un nmero infinito de formas, determinadas por sus
parmetros, expresada por la funcin: f(x) =

f ( x)

1 x
2

2
donde:
(media) y (desviacin estndar) son parmetros de la distribucin
x = valores observados de la variable en estudio
e = 2.718 (base de Ln)
Caractersticas de la distribucin Normal

Tiene forma de campana, es asinttica al eje de las abscisas (para x =


)
Simtrica con respecto a la media ( ) donde coinciden la mediana (Me) y la moda
(Mo )
Los puntos de inflexin tienen como abscisas los valores

Distribuciones normales
Todas las distribuciones normales tienen la misma forma general.
La curva de densidad de una distribucin normal se describe por su media y su
desvo standard .
La media se sita en el centro de la curva simtrica, en el mismo lugar que la
mediana.
Si se cambia sin cambiar se provoca un desplazamiento de la curva de
densidad a lo largo del eje de las abscisas sin que cambie su dispersin.
La desviacin tpica controla la dispersin de la curva normal.

indica la posicin de la campana (parmetro de centralizacin)


67

2(o equivalentemente, ) ser el parmetro de dispersin.


Cuanto menor sea, mayor cantidad de masa de probabilidad habr concentrada
alrededor de la media (grafo de f muy apuntado cerca de ) y cuanto mayor sea
ms aplastado ser.

La curva con mayor desvo standard es la curva que presenta mayor dispersin.
La desviacin tpica es la medida natural de la dispersin de una distribucin
normal. La forma de una curva normal no solo queda completamente determinada
por y , sino que adems es posible situar a simple vista en la curva.
Cuando nos alejamos de , en cualquier direccin, la curva pasa de descender
rpidamente a descender suavemente.
Estos puntos de inflexin estn situados a una distancia de .

68

En Distribuciones normales:
El 68 % de las observaciones se encuentra entre
El 95 % de las observaciones se encuentra entre
El 99.7 % de las observaciones se encuentra entre

.
2 .
3 .

68% de los datos

95% de los datos

99.7% de los datos

Distribucin Normal estandarizada


Cmo calcular probabilidades asociadas a una curva normal especfica?
Dado que tanto como pueden asumir infinitos valores lo que hace impracticable
tabular las probabilidades para todas las posibles distribuciones normales, se utiliza la
distribucin normal reducida o estandarizada
Se define una variable z =

x
2

Ejemplo
una variable aleatoria sigue el modelo de una distribucin normal con media 10 y
varianza 4:
X ~ N (10, 4)

x
2

x 10
2
Z ~ N (0, 1)
69

Tabla
La columna de la izquierda indica el valor cuya probabilidad acumulada queremos
conocer.
La primera fila nos indica el segundo decimal del valor que estamos consultando.
Queremos conocer la probabilidad acumulada en el valor 2,75.Buscamos en la columna de
la izquierda el valor 2,7 y en la primera fila el valor 0,05. La casilla en la que se
interseccionan es su probabilidad acumulada (0,99702, es decir 99.7%).
X
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9

0,00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159
0,8416
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,97725
0,98214
0,98610
0,98928
0,99180
0,99379
0,99534
0,99653
0,99744
0,99813

0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,97778
0,98257
0,98645
0,98956
0,99202
0,99396
0,99547
0,99664
0,99752
0,99819

0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,97831
0,98300
0,98679
0,98983
0,99224
0,99413
0,99560
0,99674
0,99760
0,99825

0,03
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,97882
0,98341
0,98713
0,99010
0,99245
0,99430
0,99573
0,99683
0,99767
0,99831

0,04
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,97932
0,98382
0,98745
0,99036
0,99266
0,99446
0,99585
0,99693
0,99774
0,99836

0,05
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,97982
0,98422
0,98778
0,99061
0,99286
0,99461
0,99598
0,99702
0,99781
0,99841

0,06
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,98030
0,98461
0,98809
0,99086
0,99305
0,99477
0,99609
0,99711
0,99788
0,99846

0,07
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,98077
0,98500
0,98840
0,99111
0,99324
0,99492
0,99621
0,99720
0,99795
0,99851

0,08
0,5319
0,5714
0,6103
0,6480
0,6844
0,7090
0,7517
0,7813
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,98124
0,98537
0,98870
0,99134
0,99343
0,99506
0,99632
0,99728
0,99801
0,99856

0,09
0,5359
0,5723
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,98169
0,98574
0,98899
0,99158
0,99361
0,99520
0,99643
0,99736
0,99807
0,99861

La tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de la


curva por la izquierda hasta dicho valor.
No nos da la probabilidad concreta en ese punto.
En una distribucin continua en el que la variable puede tomar infinitos valores, la
probabilidad en un punto concreto es prcticamente despreciable.
Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486
Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115
Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574

70

el salario medio de los empleados de una empresa se distribuye segn una


distribucin normal, con media 5. y desviacin tpica 1. Calcular el porcentaje de
empleados con un sueldo inferior a 7.
Lo primero que haremos es transformar esa distribucin en una normal
estandarizada, para ello se crea una nueva variable (Z) que ser igual a la anterior
(X) menos su media y dividida por la desviacin estndar

x
2

x 5
1
7 5
2
1

La probabilidad acumulada para el valor 2 (equivalente a la probabilidad de


sueldos inferiores a 7). Es 0,97725
El porcentaje de empleados con salarios inferiores a 7, es del 97,725%.
Cul es la probabilidad de que un valor de z est entre -2.03 y 2.03 ?
En un ejemplo , vimos que la probabilidad de que z estuviera entre 0 y 2.03= 0.47882
La misma rea hay entre 0 y -2.03 , por lo tanto
P ( -2.03< z< 2.03) = 0.95764
Cul es la probabilidad de que un valor de z sea mayor a 1.25 ?
1.- La probabilidad de 0 < z < + = 0.500
2.- La probabilidad de 0 < z < 1.25 = 0.39435
3.- La probabilidad de z > 1.25 =
0.500 - 0.39435= 0.10565
Hallar P( -0.34 < z <

P(0 < z <0.34) = 0.13307 = P(-0.34 < z < 0)


P (0 < z < ) = 0.50000
P( -0.34 < z < ) = 0.13307 + 0.50000 = 0.63307
Hallar P( 0.34 < z < 2.30)
P(0< z <0.34) = 0.13307
P( 0 < z < 2.30) = 0.4893
P (0.34 < z < 2.30) = 0.48930 - 0.13307 = 0.35623
Ejercicio :
La vida media de los habitantes de un pas es de 68 aos, con una varianza de 25.
Se hace un estudio en una pequea ciudad de 10.000 habitantes:
a) Cuntas personas superarn previsiblemente los 75 aos?
b) Cuntos vivirn menos de 60 aos?
a) Personas que vivirn (previsiblemente) ms de 75 aos

71

75 68
1,4
5

P (X > 75) = (Z > 1,4) = 1 - P (Z < 1,4) = 1 - 0,9192 = 0,0808


Luego, el 8,08% de la poblacin (808 habitantes) vivirn ms de 75 aos.
b) Personas que vivirn (previsiblemente) menos de 60 aos

60 68
5

1,6

P (X < 60) = (Z < -1,6) = 1 - P (Z < 1,6) = 0,0548


Luego, el 5,48% de la poblacin (548 habitantes) no llegarn probablemente a esta edad.

Distribucin de Estadsticos Muestrales


Introduccin
El estudio de determinadas caractersticas de una poblacin se efecta a travs de
diversas muestras que pueden extraerse de ella.
Consideremos todas las posibles muestras de tamao n en una poblacin. Para cada
muestra podemos calcular un estadstico (media, desviacin estndar,
proporcin,...) que variar de una a otra. As obtenemos una distribucin del
estadstico que se llama distribucin muestral.
Supongamos que tenemos una variable aleatoria, cuya distribucin es f (x)
Supongamos, por simplicidad, que obtenemos una muestra aleatoria simple con
tamao n
X1, X2, ... Xn
Entonces, un estadstico es cualquier funcin h definida sobre X1, X2, ... Xn y que
no incluye parmetro desconocido alguno:
Y = h (X1, X2, ... Xn)
La distribucin de dicho estadstico Y la vamos a denominar g (y)

Distribucin muestral de un estadstico


F (x) es la distribucin de la v. a. bajo estudio
G (y) es la distribucin del estadstico que tenemos
Es vital conocer la distribucin muestral del estadstico de inters para poder
efectuar inferencias sobre el parmetro correspondiente.
Esto es, para efectuar inferencias sobre la media poblacional , necesitamos
conocer la distribucin muestral de

Las dos medidas fundamentales de esta distribucin son la media y la desviacin


estndar, tambin denominada error estndar.

72

Distribucin del Estadstico media muestral


Cada muestra de tamao n que podemos extraer de una poblacin proporciona una
media. Si consideramos cada una de estas medias como valores de una variable
aleatoria podemos estudiar su distribucin que llamaremos distribucin muestral
de medias.
Si tenemos una poblacin normal N(, ) y extraemos de ella muestras de tamao
n, la distribucin muestral de medias sigue tambin una distribucin normal

Error estndar o Desviacin estndar de la distribucin muestral


Si la poblacin no sigue una distribucin normal pero n>30, aplicando el llamado
Teorema central del lmite la distribucin muestral de medias se aproxima
tambin a la normal anterior.
Veremos primero el caso de que la distribucin sea normal, con media y varianza 2
La media de la distribucin muestral de medias es
La varianza de la distribucin muestral de medias es 2/n
recordemos: La desviacin estndar de la distribucin muestral suele ser denominada:
error estndar de tal estadstico (ej:., error estndar de la media, etc.)
Ejemplo
Una poblacin se compone de 5 nmeros: 2,3,6,8 y 11 considerar todas las
muestras posibles de tamao 2 que puedan extraerse con reemplazamiento de esta
poblacin. Se pide encontrar:
la media de la poblacin

2 3 6 8 11
5

30
5

La desviacin tpica de la poblacin

)2

(x
n

16 9 0 4 25
5
3.2

(2 6) 2 (3 6) 2 (6 6) 2 (8 6) 2 (11 6) 2
5
54
5

10.8

la media de la distribucin de medias


(2,2) (2,3) (2,6) (2,8) (2,11)
(3,2) (3,3) (3,6) (3,8) (3,11)
(6,2) (6,3) (6,6) (6,8) (6,11)
(8,2) (8,3) (8,6) (8,8) (8,11)
(11,2) (11,3) (11,6) (11,8) (11,11)
2
2.5
4
5
6.5
2.5
3
4.5
5.5
7
4
4.5
6
7
8.5
5
5.5
7
8
9.5
73


= 20
150 / 25 = 6

6.5
22.5

7
30

8.5
35

9.5
42.5

11

Desviacin estndar de la distribucin muestral de medias (error estndar de medias).


(2 6) 2 (2.5 6) 2 (4 6) 2 (5 6) 2 (6.5 6) 2 (2.5 6) 2 (3 6) 2 (4.5 6) 2
(5.5 6) 2 (7 6) 2 (4 6) 2 (4.5 6) 2 (6 6) 2 (7 6) 2 (8.5 6) 2 (5 6) 2
(5.5 6) 2 (7 6) 2 (8 6) 2 (9.5 6) 2 (6.5 6) 2 (7 6) 2 (8.5 6) 2 (9.5 6) 2
(11 6) 2
25
16 12.25 4 1 0.25 12.25 9 2.25 0.25 1 4 2.25 6 1 6.25 1 0.25
1 4 12.25 0.25 1 6.25 12.25 25
25
135
25
2.32

5.4

Distribucin muestral de la media. Ejemplo 1


400

300

200

100
Desv. est. = 4.75
Media = 99.9
N = 3600.00

82 84 86 88 90 92 94 96 98 10 10 10 10 10 11 11 11 11
.0 .0 .0 .0 .0 .0 .0 .0 .0 0. 2. 4. 6. 8. 0. 2. 4. 6.
0 0 0 0 0 0 0 0 0

N10

Distribucin poblacional (dist. Normal):


Media =100
(Varianza =225)
Desv. Estndar =15
Distribucin muestral de la media:
Tamao muestral =10
Media =100
(Varianza =225/10=22.5)
74

Desv. Estndar = 22.5

4.74

Distribucin muestral de la media. Ejemplo 2

Distribucin poblacional (dist. Normal):


Media =100
Desv. Estndar =15
Distribucin muestral de la media:
Tamao muestral =20
Media =100
(Varianza =225/20=11.3)
Desv. Estndar =3.35
Distribucin muestral de la media. Ejemplo 3

Distribucin poblacional subyacente (dist. Normal):


Media=100
Desv.Estndar=15
Distribucin muestral de la media:
Tamao muestral =50
75

Media =100
(Varianza =225/50=4.5)
Desv. Estndar=2.12
Ejemplo
Las notas de cierto examen se distribuyen segn una normal de media 5,8 y
desviacin estndar 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes est comprendida entre 5 y 7
La poblacin es N(5,8;2,4), con n =16 la distribucin muestral de medias se
distribuye N(5,8;0,6)
Si

X es la media de la muestra hemos de calcular la probabilidad


X < 7)= P(-1.33 < z < 2)=

P(5 <
= P (z < 2)-[1-P (z < 1.33)] = 0,8854

La forma de la distribucin muestral de la media tiende a ser normal. En concreto, la


distribucin muestral se acercar ms y ms a la distribucin normal (media y varianza
2
/n) a medida que se aumente el tamao de cada muestra.

Teorema Central del Lmite


S tenemos un grupo numeroso de variables independientes y todas ellas siguen el
mismo modelo de distribucin (cualquiera que ste sea), la suma de ellas se
distribuye segn una distribucin normal.

Sea X una v. a. con esperanza y varianza finita 2. Sea


la media muestral de
una muestra aleatoria de tamao n y z la variable aleatoria definida como:
Z

n
Entonces, la distribucin z se aproxima a la distribucin normal estndar cuando n se
aproxima a infinito

Distribucin T de Student
Cuando la distribucin de la que obtenemos las medias muestrales es gaussiana
(distr.normal), la expresin anterior se distribuye segn la distribucin t de Student con
tn-1 grados de libertad.
Esta distribucin es bsica para efectuar inferencias entre dos medias.

X
S
n

76

En la practica la 2 es desconocida. Se podra estimar a partir de una muestra. Lo cual se


logra sustituyendo por el desvo estndar muestral S
Funcin de densidad de una t de Student

La distribucin de Student tiene propiedades parecidas a N (0,1) :


Es de media cero, y simtrica con respecto a la misma;
Es algo ms dispersa que la normal, pero la varianza decrece hasta 1 cuando
el nmero de grados de libertad aumenta;
Comparacin entre las funciones de densidad de t1 y N (0,1)

Para un nmero alto de grados de libertad se puede aproximar la distribucin de


Student por la normal, es decir:

tn

N 0,1

Cuando aumentan los grados de libertad, la distribucin de Student se aproxima a


la distribucin normal estandarizada. (ver tabla de distribucin)

77

Ver Tabla de cuantiles

Muestreo
Definicin:
Proceso que nos permite la extraccin de una muestra a partir de una poblacin
Hay dos tipos bsicos de muestreo:
Muestreo probabilstico. En este tipo de muestreo, la probabilidad de aparicin en
una muestra de cualquier elemento de la poblacin es conocida (o calculable). Es el
nico cientficamente vlido, y es sobre el que nos extenderemos especialmente.
Muestreo no probabilstico. Es aquel en el que la seleccin de los elementos de la
muestra no se hacen al azar.

Muestreo probabilstico
Este muestreo garantiza que, a la larga, las muestras que se van obteniendo de la poblacin
sean representativas de la misma. Vamos a ver varios tipos de muestreo probabilstico.
Muestreo aleatorio simple
Muestreo estratificado
Muestreo por conglomerados
Muestreo por etapas (o polietpico)
Muestreo sistemtico (?)
1. Muestreo aleatorio simple
Es aquel en el que, a priori, todos los elementos de la muestra tienen la misma
probabilidad de aparicin.
Supongamos que tengamos una poblacin de 50.000 individuos, y que tenemos un
listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es
elegir al azar a 100 individuos de esos 50.000.
2. Muestreo estratificado
En el muestreo estratificado, los investigadores han de dividir a los sujetos en
diferentes subpoblaciones (o estratos), en funcin de cierta caracterstica relevante,
y despus lo que hacen es un muestro aleatorio simple de cada estrato.
Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada
individuo del estrato habr de tener la misma probabilidad de ser escogido como
parte de la muestra.
Ejemplo:
Supongamos que, en Chamical, 70% de los nios de primaria van a escuela pblica y el
30% a privada. Si queremos 1000 nios, lo que haremos es dividir los alumnos en 2
78

estratos (pblica y privada) y se eligen aleatoriamente 700 nios de la pblica y


aleatoriamente 300 de la concertada.
3. Muestreo por conglomerados
En el muestreo por conglomerados, en lugar de considerar cada elemento de la
poblacin, lo que consideramos son conglomerados de elementos. El proceso es
elegir aleatoriamente uno o varios conglomerados y la muestra estar formada por
TODOS los elementos de los conglomerados.
Ejemplos:
-En las encuestas durante las elecciones, los conglomerados pueden ser las mesas
electorales, y lo que se hace es escoger algunas mesas al azar (y de ah se toman
todos los votos de las mesas seleccionadas).
-En otros ejemplos, los conglomerados pueden ser los bloques de viviendas, los
municipios, etc.
4. Muestreo por etapas
En este caso se combina el muestreo aleatorio simple con el muestreo por
conglomerados:
Primero se realiza un muestreo por conglomerados (ej., si los conglomerados son
colegios en Chamical, se seleccionan aleatoriamente varios de ellos).
Segundo, no se eligen todos los alumnos (como ocurrira en un muestro por
conglomerados), sino que se elige una muestra aleatoria. (Dicha muestra puede ser
obtenida por muestreo aleatorio simple o puede ser estratificado.)
Es decir, hemos tenido 2 etapas de muestreo. Y claro est, es posible tener ms de 2
etapas...
5. Muestreo aleatorio sistemtico
Supongamos que tengamos una lista de N elementos (ej., estudiantes de secundaria)
y necesitamos una muestra de tamao n. En este caso, lo que se hace es
ordenarlos (ej., en funcin de los apellidos) y despus se elige aleatoriamente un
elemento entre los N/n=k primeros, y luego se elige de manera sistemtica el que
est k lugares despus del primer elemento, y as sucesivamente.
Ejemplo:
Tenemos 10000 estudiantes (en una lista) y queremos obtener una muestra de 100
estudiantes. Primero elegimos al azar un estudiante entre los 10000/100=100 primeros
(supongamos que salga el 26), el segundo elemento ser el estudiante 100+26 (126), el
siguiente ser el 226, luego el 326, etc.

Muestreo no probabilstico
1. Muestreo sin norma (o de conveniencia)
Se elige a una muestra por ser conveniente, fcil, econmica. Pero no se hace en
base a un criterio de aleatoridad.
Ejemplo: las encuestas en los peridicos electrnico.
2. Muestreo intencional
En este caso, si bien el muestreo no es probabilstico, los investigadores procuran
que se garantice la representatividad de la muestra

79

Distribucin Chi-cuadrado
La funcin Chi-cuadrado es igual a la funcin normal elevada al cuadrado.
Esto es, el producto de dos distribuciones de Gauss es una distribucin de Chicuadrado.
Si de una poblacin normal, o aproximadamente normal, se extraen muestras
aleatorias e independientes, y se le calcula el estadstico 2 usando el valor muestral
de la varianza y el poblacional con:

n 1 S2
2

Al igual que la T-Student, el valor total del rea bajo la curva es igual a la unidad,
pero la diferencia principal es que esta no es simtrica respecto al origen, sino que
se extiende desde 0 hasta + porque no puede ser negativa.
A medida que los grados de libertad aumentan, la curva cambia de forma y sus
valores se han tabulado (ver tabla)

La distribucin de 2 se usa principalmente para analizar dispersiones. Se compara


la dispersin muestral expresada a travs de sus cuadrados medios (CM) contra la
dispersin poblacional cuantificada a travs de la varianza ( 2).
Ejemplo 1
Un bioqumico sospecha que su microcentrfuga no mantiene constante su
velocidad mientras trabaja, lo cual le da una variabilidad indeseada en sus
determinaciones. Para controlarla, consigue un tacmetro regulado y mide cada
minuto la velocidad durante 10 minutos. Los resultados fueron:
una velocidad promedio en las 10 mediciones de 3098 rpm
Desvo de 100,4 rpm.
Testear para un error relativo mximo del 2% o menos, si la centrfuga es
estable.
El desvo estndar aceptable es: mx = 2% de 3098 rpm = 62 rpm. Luego:
mx 62 rpm: la micro centrfuga es estable
80

mx > 62 rpm: la micro centrfuga no es estable

n 1 S2
2

10 1 100,4
2
62

23,6

De la Tabla de valores crticos surge:


2
0 , 99;9
2
0 , 991;9

21,666
27,877

Distribucin de Probabilidad de Variables Discretas


DISTRIBUCION DE PROBABILIDAD
Es una regla de correspondencia que asocia cada valor (x)de una variable aleatoria X con
su respectiva probabilidad p(x =X) o con alguna funcin de sta
Las distribuciones de probabilidad son necesarias para realizar INFERENCIA (extrer
conclusiones respecto a una poblacin a partir de una muestra)

Previamente es necesario conocer el comportamiento de las muestras tomadas de una


poblacin
81

Es decir conocer la distribucin en el muestreo de la caracterstica en estudio

M
3

2
q

p()

1
En la mayora de los casos, para conocer p() es necesario conocer la
distribucin de la variable y el tipo de muestreo
tipo de muestreo

p(x)

p()

tanto p(x) como p() son DISTRIBUCIONES DE PROBABILIDAD


DISTRIBUCION DE PROBABILIDAD
FORMAS DE REPRESENTACION
tablas
Con cualquier tipo de variable
graficos
Modelos simblicos = Solamente con variables numricas
QU SE REPRESENTA?

82

VARIABLES
CATEGORICAS

FUNCIN DE
PROBABILIDAD

p( X

p(x)

0 .4
0 .3
0 .2

x)

0 .1
0
1

VARIABLES
NUMERICAS
DISCRETAS

FUNCIN DE
DISTRIBUCIN

F(X )
VARIABLES
NUMERICAS
CONTINUAS

p( X

F(x)

x)
f(x)

FUNCIN DE
DENSIDAD

f ( x)

dF ( x)
dx

OTRA FORMA DE VER LA FUNCION DE DISTRIBUCIN

F ( a)

P( x a )

VARIABLES DISCRETAS
F(x)

VARIABLES CONTINUAS
F(x)

a
F (a)

a
a

p ( x)
x a

F (a)

f ( x).dx

Los Modelos Simblicos (Matemticos)


Constan de una forma (formula) en la cual intervienen algunos valores constantes
(parametros) para cada poblacin, pero diferentes de una a otra
EJEMPLOS
En la distribucin binomial

p( x) Cxn p x (1

p)

x
n y p

Variable en estudio
parmetros

x
l
e

Variable en estudio
parmetro
Base de ln = 2,718...

En la distribucin Poisson
x

p( x)

.e

x!

83

Definiciones de Media y Varianza en una Distribucin de Probabilidad

x. p ( x)

MEDIA

VARIANZA

(x

) 2 . p ( x)

84

Estimacin de Parmetros
En una poblacin cuya distribucin es conocida pero desconocemos algn
parmetro, podemos estimar dicho parmetro a partir de una muestra
representativa.

El Estimador
Es un valor que puede calcularse a partir de los datos muestrales y que proporciona
informacin sobre el valor del parmetro.
Por ejemplo la media muestral es un estimador de la media poblacional.
La proporcin observada en la muestra es un estimador de la proporcin en
la poblacin.

Estimacin: puntual y por intervalos


Veremos 2 tipos de estimadores:
Estimacin puntual: Aqu obtendremos un punto, un valor, como estimacin del
parmetro.
Estimacin por intervalos: Aqu obtendremos un intervalo dentro del cual
estimamos (bajo cierta probabilidad) estar el parmetro.

Estimacin puntual
Una estimacin es puntual cuando se obtiene un slo valor para el parmetro.
Los estimadores ms probables en este caso son los estadsticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Las dos medidas fundamentales son la media que indica el valor promedio del
estimador y la desviacin estndar, tambin denominada error estndar de
estimacin, que indica la desviacin promedio que podemos esperar entre el
estimador y el valor del parmetro.

Estimacin por intervalos


En la estimacin por intervalos calculamos dos valores entre los que se encontrar
el parmetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de
confianza, contiene al parmetro que se est estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al
verdadero valor del parmetro.
Se indica por 1- y habitualmente se da en porcentaje (1- )100%. Hablamos de
nivel de confianza y no de probabilidad ya que una vez extrada la muestra, el
intervalo de confianza contendr al verdadero valor del parmetro o no, lo que
sabemos es que si repitisemos el proceso con muchas muestras podramos afirmar
que el (1- )% de los intervalos as construidos contendra al verdadero valor del
parmetro.

Propiedades deseables en los estimadores


Veremos CUATRO propiedades:
Ausencia de sesgo
Consistencia
Eficiencia
85

Suficiencia
1. Ser insesgado. Diremos que es un estimador insesgado de si la esperanza de
es . Es decir, E ( )

La media muestral es un estimador insesgado de la media poblacional.


2. Consistencia. Se dice que un estimador es consistente si se cumple que

lim P
n

0 lim P

Esta expresin indica que a medida que se incrementa el tamao muestral, la


diferencia entre el estimador y el parmetro ser menor que cualquier nmero (e).
A diferencia de la ausencia de sesgo que se define para valores finitos de n, la
consistencia es una propiedad asinttica.
Nota: la varianza muestral es un estimador consistente de la varianza poblacional,
dado que a medida que el tamao muestral se incrementa, el sesgo disminuye.
3. Eficiencia. Se emplea para COMPARAR estimadores.
Si tenemos dos estimadores
ms eficiente que

2 si

1y

2 de

un mismo parmetro , diremos que

tenemos que var(

1 )<var(

1 es

4. Suficiencia. Diremos que


es un estimador suficiente del parmetro
estimador basta por s solo para estimar

si dicho

Intervalos de confianza para los principales parmetros


El caso de la media
En este caso, en lugar de indicar simplemente un nico valor como estimacin del
parmetro, lo que haremos es ofrecer un intervalo de valores que sea asumible con
cierta probabilidad por el parmetro que queremos estimar.
Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el
parmetro.
Lmites de los intervalos de confianza: Son los dos valores extremos del intervalo
de confianza
cun grande habr de ser el intervalo de confianza?
Evidentemente, si decimos que el intervalo de confianza va de menos infinito a
ms infinito, seguro que acertamos...pero eso no es muy til. Por su parte, el
86

extremo es la estimacin puntual, en la que lo usual es que no demos con el valor


del parmetro...
La idea es crear unos intervalos de confianza de manera que sepamos en qu
porcentaje de casos el parmetro estar dentro del intervalo crtico.
Y cmo fijamos tal porcentaje de casos? Usualmente se asume un porcentaje del
95%. Al calcular un intervalo de confianza sobre la media al 95%, quiere decir que
el 95% de las veces que repitamos el proceso de muestreo (y calculemos la media
muestral), la media poblacional estar dentro de tal intervalo.

Pero, cmo calculamos estos dos lmites?


Sabemos que la distribucin subyacente es normal, lo cual nos ayuda
enormemente.
En una distribucin normal estandarizada, es muy fcil saber qu valor
estandarizado (z) deja a la izquierda el 2.5% de los datos (yendo a las tablas es 1.96) y cul deja a la izquierda el 97.5% de los datos (o a la derecha el 2.5% de los
datos: 1.96).
Ahora habr que pasar esos datos a puntuaciones directas....

Conocemos

Nuestra distribucin es normal, pero con cierta media y cierta desviacin estndar,
las cuales sabemos por el tema anterior:
La media de la distribucin muestral de medias es la media poblacional
La varianza de la distribucin muestral de medias es 2/n
O lo que es lo mismo, la desviacin estndar de la dist. muestral de medias es
/ n

87

Sabemos que
Para estandarizar

Estimador de
Zi

Xi

es X

X
n

Pasamos de trminos

Xi

Zi

En Punt.tpicas
Aplicando la lgica de pasar
los valores estandarizados

z0.025

z0.975

En Punt. directas
En definitiva

P X

z0.025

z0.975

0.95

88

El Caso de Desconocer la Varianza Poblacional


Para la media (cuando conocemos la varianza poblacional), tenemos la expresin

P X

z0.025

z0.975

0.95

Pero si no conocemos la varianza poblacional, no podemos emplear

S
n
Ahora la distribucin ya no es exactamente una distribucin normal...

En su lugar hemos de emplear

X
Por el tema anterior sabemos que la distribucin muestral de

S/ n

no es una distribucin normal, sino una distribucin t de Student con n-1 grados de
libertad.

En definitiva, para la media (cuando conocemos la varianza poblacional), tenemos la


expresin

P X

z0.025

z0.975

0.95

Pero si no conocemos la varianza poblacional (el caso realista), tenemos la expresin:

P X

0.025 tn

s
n

0.975 t n

s
n

0.95

En todo caso, hay que recordar que si "n" es grande, la distribucin t de Student ser
virtualmente una distribucin normal N(0,1). En otras palabras, si "n" es grande, ambas
frmulas dan unos intervalos virtualmente idntico, y emplear la distribucin normal es
correcto.
Qu quiere decir la expresin siguiente?

P X

z0.025

z0.975

0.95

Quiere decir que cada vez que extraigamos una muestra y hallemos la media, el parmetro
desconocido m estar entre los lmites de dicho intervalo el 95% de las veces. (O el 99% si
hubiramos elegido un intervalo al 99%, etc.)

89

Tamao muestral y la amplitud del intervalo de confianza


Para el caso de la media hemos visto que

P X

z0.025

z0.975

0.95

Es claro que a medida que el tamao muestral aumente, la amplitud del intervalo
disminuye. (Evidentemente, esto es general, no slo para la media.) Veamos un ejemplo:
Caso A1. Media muestral =10, varianza pobl =4, tamao muestral =12

P 10 ( 1.96)

2
12

10 1.96

2
12

P 8.87

11.13

0.95

Caso A2. Media muestral =10, varianza pobl =4, tamao muestral =20

P 10 ( 1.96)

2
20

10 1.96

2
20

P 9.12

10.88

0.95

Amplitud del intervalo de confianza y el valor del ndice de confianza


El caso "usual" (por defecto) es emplear intervalos al 95%.

P X

z0.025

z0.975

0.95

Pero evidentemente es posible emplear intervalos a, digamos, el 99%. En tal caso,


tendremos ms seguridad de que el parmetro de inters se halle en los lmites del
intervalo. El problema es que incrementar tal ndice aumenta as mismo la amplitud del
intervalo.
Caso A1. Media muestral =10, varianza pobl.=4, tamao muestral =12. Intervalo al 95%
2
2
P 10 ( 1.96)
10 1.96
P 8.87
11.13 0.95
12
12
Caso A2. Media muestral =10, varianza pobl =4, tamao muestral =12. Intervalo al 99%

P 10 ( 2.57)

2
12

10 2.57

2
12

P 8.52

11.48

0.99

90

Probabilidad normal presentada en una y dos colas

Coeficientes de confianza ms usados Z

Intervalos de confianza para OTROS parmetros


Intervalos de confianza para las proporciones

P z.025

P(1 P)
n

P z.975

P(1 P)
n

0.95

Intervalos de confianza para la varianza

n S2
.975

2
n 1

n S2
.025

2
n 1

0.95

91

Ejemplo 1
Suponiendo que a un paciente se le extrae una muestra de sangre y al suero
obtenido se lo fracciona en 50 alcuotas, luego a cada una se le determina la
creatinina, y con los valores medidos se obtienen un promedio de 10 mg/dl y un
desvo de 2,2 mg/dl. El verdadero valor de la creatinina en el paciente se puede
estimar con un nivel de confianza del 95 % ( = 1,96) con:
= ( 10 1,96 . 2,2 / 50 ) mg/dl
= (10,0 0,6) mg/dl
IC 95% (9,4 ; 10,6)
Eso significa que se tiene una probabilidad del 95 % de encontrar la creatinina real del
paciente entre 9,4 y 10,6 mg/dl.
Si se quiere aumentar la confianza al 99% el nuevo intervalo tendr una mayor
indeterminacin, o sea, el intervalo ser ms ancho: entre 9,2 y 10,8 mg/dl.
= ( 10 2,58 . 2,2 / 50 ) mg/dl
= (10,0 0,8) mg/dl
IC 99% (9,2 ; 10,8)
Y si todava se aumenta un poco ms al 99,9%:
= ( 10 3,29 . 2,2 / 50 ) mg/dl
= (10 1) mg/dl
IC 99,9%(9 ; 11)

Ejemplo 2
Se tomaron 200 muestras aleatorias de presin sistlica a nios cuyos padres son
hipertensos, obtenindose una media de 107 y un desvo de 7. Luego se tomaron
100 muestras de nios cuyos padres tienen la presin sangunea normal, y se
obtuvo una media de 98 con un desvo de 6. Obtener los lmites de confianza del 95
% a la diferencia de medias.
En este caso se trata de una diferencia de medias, pero con varianzas diferentes
estimadas con las muestras de la manera siguiente:
x1 x 2

S1

107 98 9
2
1

2
2

n1

n2

49 36
200 100

0,778

1-2 = ( 9 1,96 . 0,778 ) = ( 9,0 1,5 ).


IC 95% (7,5 ; 10,5)

Estimacin del tamao muestral


92

Antes de realizar un estudio de inferencia estadstica sobre una variable, lo primero


es decidir el nmero de elementos, N, a elegir en la muestra aleatoria. Para ello
consideremos que el estudio se basara en una variable de distribucin normal, y nos
interesa obtener para un nivel de significacin dado, una precisin (error) d.
Para ello, recordemos que un intervalo de confianza para una media en el caso
general se escribe como:

Si N es suficientemente grande, la distribucin t de Student se aproxima a la


distribucin normal. Luego una manera de obtener la precisin buscada consiste en
elegir N con el siguiente criterio:

Donde S2 es una estimacin puntual a priori de la varianza de la muestra. Para


obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia
previa, o simplemente, tomando una muestra piloto que sirve para dar una idea
previa de los parmetros que describen una poblacin.
Ejemplo
se ha estudiado la variable altura de los individuos de una poblacin, considerando
que sta es una variable que se distribuye de modo gaussiana.
se tom una muestra de 25 individuos (que podemos considerar piloto), que ofreci
los siguientes resultados:

Calcular el tamao que debera tener una muestra para que se obtuviese un
intervalo de confianza para la media poblacional con un nivel de significacin =
0,01 (99 %) y con una precisin de d=1 cm.
Nota: el error cometido al estimar el intervalo al 95 % es de aproximadamente de
4,2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tamao de
la muestra, N, deber ser bastante mayor. En este caso se obtiene:

93

Si queremos realizar un estudio con toda la precisin requerida en el enunciado se


debera tomar una muestra de 694 individuos. Esto es una indicacin de gran
utilidad antes de comenzar el estudio.
Una vez que el muestreo haya sido realizado, debemos confirmar que el error para
el nivel de significacin dado es inferior o igual a 1 cm, utilizando la muestra
obtenida.

94

Contrastes de Hiptesis
Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que
puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la
informacin extrada de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error.
La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se
representa por H0.
Rechazar H0 implica aceptar una hiptesis alternativa (H1).

Decisin

H0 Verdadera

H0 Falsa

Mantengo H0

Decisin correcta

Decisin Incorrecta
Error de Tipo II

Rechazo H0

Decisin Incorrecta
Error de Tipo I

Decisin correcta

= p (rechazar H0|H0 cierta)

= p(aceptar H0|H0 falsa)


Potencia =1- = p(rechazar H0|H0 falsa)
La probabilidad de cometer un error de tipo I es el nivel de significacin , la
probabilidad de cometer un error de tipo II depende del verdadero valor de y del
tamao de la muestra.
Detalles a tener en cuenta

y estn inversamente relacionadas.


Slo pueden disminuirse las dos, aumentando n.
Los pasos necesarios para realizar un contraste relativo a un parmetro
1 - Establecer la hiptesis nula en trminos de igualdad

son:

2 - Establecer la hiptesis alternativa, que puede hacerse de tres maneras, dependiendo


del inters del investigador

en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos
de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola.
3. Elegir un nivel de significacin: nivel crtico para
4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se conozca
en H0 y que est relacionado con y establecer, en base a dicha distribucin, la regin
95

crtica: regin en la que el estadstico tiene una probabilidad menor que si H0 fuera
cierta y, en consecuencia, si el estadstico cayera en la misma, se rechazara H0.
La regin de rechazo de la hiptesis nula es la sombreada. Se rechaza H 0 cuando el
estadstico zcalc toma un valor comprendido en la zona sombreada de la grfica
pequea, N (0,1), o equivalentemente, cuando el estadstico
en la zona sombreada de la grfica grande, N (0,2).

toma un valor

Ensayo de dos colas


Ho : = a H1 : a

96

Ensayo de una cola

Ejemplo
Estamos estudiando el efecto del estrs sobre la presin arterial. Nuestra hiptesis es que la
presin sistlica media en varones jvenes estresados es mayor que 18 cm de Hg.
Estudiamos una muestra de 36 sujetos y encontramos

1. Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos rechazar) es:

2. la hiptesis alternativa

es un contraste lateral derecho


3. Fijamos "a priori" el nivel de significacin en 0,05 .
4. El estadstico para el contraste es

y la regin crtica T>t


Si el contraste hubiera sido lateral izquierdo, la regin crtica sera T< t 1y si hubiera sido bilateral T<t 1- /2 o T>t /2
97

En este ejemplo t(35)0,05=1,69.


5. Calculamos el valor de t en la muestra

no est en la regin crtica (no es mayor que 1,69), por tanto no rechazamos H 0.
Como no se rechaza H0, se puede cometer un error tipo II. Cul es ?. De hecho,
sera la informacin relevante a comunicar en este estudio (la probabilidad del error
que se pude cometer en l).
Habitualmente, sin embargo, no se da porque los paquetes estadsticos no la
calculan.
Para calcularla se debe concretar H1,
ej. = 20 (el criterio para este valor no es estadstico)

= p (aceptar H0| H1 cierta)


Supongamos que el tamao muestral sea suficientemente grande para poder
aproximar t a z.
Cundo se acepta H0? si z 1,69

es decir, se acepta H0 si

Qu probabilidad hay de encontrar


si = 20 (zona verde del grfico)? En esta hiptesis lo que se distribuye como una
z es

98

Intervalo de Confianza y Contraste de Hiptesis


Ambos se basan en el mismo grupo de conceptos pero se utilizan con fines
diferentes
Los Intervalos de Confianza se plantean para estimar parmetros
Los Contrastes de Hiptesis son para tomar decisiones en relacin a los
valores postulados

Contrastes para la media


Conviene remarcar el hecho siguiente:
que una hiptesis nula sea aceptada, no quiere decir que se tenga prueba cientfica
de su validez. Puede haber otro modelo cientfico ms sensible que el de Gauss que
detecte diferencias cuando este no lo haga.
Solo cuando una hiptesis no es aceptada se puede decir: se ha encontrado
evidencia cientfica para rechazar la hiptesis.
Es decir, que se valida el rechazo, pero no la aceptacin. Por ello muchos
investigadores prefieren plantear hiptesis para ser rechazadas. Aprovechando el
hecho de que son ellos quienes deciden cual es la nula y cual es la alternativa.
La sensibilidad de un modelo para detectar diferencias en los ensayos es la robustez
del mismo. Cuando se pueda se debe elegir el modelo ms robusto.
Test de dos colas con varianza conocida
Suponemos que X ~ N , 2 donde 2 es conocido y queremos contrastar si es
posible que (desconocida) sea en realidad cierto valor 0 fijado.
El test se escribe entonces como:
H0: =0
H1: 0
la tcnica para hacer el contraste consiste en suponer que H 0 es cierta, y averiguar
con esta hiptesis cual es la distribucin del estadstico del contraste que este caso
es lgico que deba estar muy relacionado con X
Si al obtener una muestra concreta se tiene que X x es un valor muy alejado de
0, se debe rechazar H0. Veamos esto con ms detalle

Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los
valores para hacer la tipificacin son conocidos). Si H 0 es cierta, entonces
esperamos que el valor zcalc obtenido sobre la muestra est cercano a cero con una
gran probabilidad.

99

zcalc

n
Esto se expresa fijando un nivel de significacin , y tomando como regin crtica
C, a los valores que son muy extremados y con probabilidad en total, o sea:

P Z calc

P Z calc

z1

/2

2
z
/2

/2

z1

/2

z1

/2

Z calc

z1

/2

/2

z calc

Entonces la regin crtica consiste en:

zcalc , tal que z calc


zcalc : zcalc

z1

-z1-

/2

zcalc , tal que z1-

/2

Luego rechazaremos la hiptesis nula si

zcalc

z1

/2

aceptando en consecuencia la hiptesis alternativa


La regin de rechazo de la hiptesis nula es la sombreada. Se rechaza H0 cuando el
estadstico zcalc toma un valor comprendido en la zona sombreada de la grfica
pequea, N (0,1), o equivalentemente, cuando el estadstico X toma un valor en
la zona sombreada de la grfica grande, N (0,2).

Tests de una cola con varianza conocida


Consideremos un contraste de hiptesis donde ahora la hiptesis alternativa es
compuesta:
H0: = 0
H1:<0
O tambin se escribe
100

H0:0
H1:<0
Bajo la hiptesis nula la distribucin de la media muestral es:

como regin crtica consideraremos aquella formada por los valores


extremadamente bajos de Zcalc, con probabilidad .
Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la
hiptesis nula es

si en el contraste de significacin anterior, hubisemos tomado como hiptesis


alternativa su contraria, es decir
H0: = 0
H1: >0
O tambin se escribe
H0:0
H1:>0
Por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesis nula
es

101

Test de dos colas con varianza desconocida


Sea X ~ N (, 2) donde ni ni

son conocidos y queremos realizar el contraste


H0: = 0
H1:0
Al no conocer 2 va a ser necesario estimarlo a partir de su estimador insesgado.
Por ello la distribucin del estimador del contraste ser una t de Student, que ha
perdido un grado de libertad.

H 0 cierta

Tcalc

X
S
n

Consideramos como regin crtica C, a las observaciones de Tcalc extremas

P Tcalc

P Tcalc

tn

tn

1, / 2

1,1

/2

2
t n 1,

/2

tn

1,1

P tn

/2

1,1

/2

Tcalc

tn

1,1

/2

Para dar una forma homognea a todos los contrastes de hiptesis es costumbre
denominar al valor del estadstico del contraste calculado sobre la muestra como
valor experimental y a los extremos de la regin crtica, como valores tericos.
Definiendo entonces

Tcalc

Tteo

X
S
n
tn

1,1

/2

102

Regin crtica para el contraste bilateral de una media

Si |Tcalc|Tteo , no rechazamos H0;


Si |Tcalc|>Tteo , rechazamos H0 y aceptamos H1
Tests de una cola con varianza desconocido
Si realizamos el contraste
H0: = 0
H1:<0
O tambin se escribe
H0:0
H1:<0
por analoga con el contraste bilateral, definiremos

Tcalc

S
n

Tteo

tn

1,1

/2

Regin crtica para uno de los contrastes unilaterales de una media

Si |Tcalc|-Tteo , no rechazamos H0;


Si |Tcalc|-Tteo , rechazamos H0 y aceptamos H1
Para el contraste contrario:
H0: = 0
103

H1:>0

O tambin se escribe

H0:0
H1:>0
Regin crtica para el contrastes unilateral de una media contrario al anterior

Si |Tcalc|Tteo , no rechazamos H0;


Si |Tcalc|>Tteo , rechazamos H0 y aceptamos H1
Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de
modo normal. Deseamos contrastar con un nivel de significacin de =0,05 si la
altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que
con una muestra de n = 25 personas se obtuvo:
x 170 cm
S 10 cm
El contraste que se plantea es:
H0: = 174 cm
H1: 174 cm
La tcnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el
estadstico

Tcalc

x 174
S ~ tn-1 = t24
n

es razonableo no bajo esta hiptesis, para el nivel de significacin dado.


Aceptaremos la hiptesis alternativa (y en consecuencia se rechazar la hiptesis
nula) si no lo es, es decir, si

Tcalc

t24,1

/2

t24,0,975

2,06

Para ello procedemos al clculo de T calc:

104

Tcalc

170 174
10
25

t 24,0,975

2,06

Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174,


no hay una evidencia suficiente para rechazar esta hiptesis al nivel de confianza
del 95%. Es decir, no se rechaza H0.
El valor de Tcalc no est en la regin crtica (aunque ha quedado muy cerca), por tanto al no
ser la evidencia en contra de H0 suficientemente significativa, sta hiptesis no se rechaza.

Ejemplo 2
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si la
altura media es menor de 174 cm.
Ahora el contraste es
H0 : 174 cm
H1 : < 174 cm
Consideremos el caso lmite y observemos si la hiptesis nula debe ser rechazada o
no. Este es:
H0 : = 174 cm
H1 : < 174 cm
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadstico

Tcalc

x 174
S ~ tn-1 = t24
n

es aceptable bajo esta hiptesis, con un nivel de confianza del 95%. Se aceptar la
hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si

Tcalc

t 24,

t 24,1

t 24, 0,95

1,71

Recordamos que el valor de Tcalc obtenido fue de


105

Tcalc=-2< t24 ;0,05= -t24 ;0,95 = -1,71


Por ello hemos de aceptar la hiptesis alternativa
El valor te Tcalc est en la regin crtica, por tanto existe una evidencia significativa
en contra de H0, y a favor de H1.

Mientras que en el ejemplo anterior no exista una evidencia significativa para decir que
174 cm, el simple hecho de plantearnos un contraste que parece el mismo pero en
versin unilateral nos conduce a rechazar de modo significativo que = 174 cm y
aceptamos que < 174 cm. Es por ello que podemos decir que no slo H 0' es rechazada,
sino tambin H0.

Contrastes para la varianza


Consideremos que el carcter que estudiamos sobre la poblacin sea una v.a.
normal cuya media y varianza son desconocidas. Vamos a contrastar la hiptesis

H0 :

2
0

, donde

2
0

es un valor prefijado

Contraste bilateral
Cuando el contraste a realizar es

H0 :

2
0

H1 :

2
0

106

definimos
2
calc

S 2

n 1

2
0

ateo

2
n 1, / 2

bteo

2
n 1,1

/2

y el criterio que suministra el contraste es el expresado en la siguiente figura:

2
Si ateo
calc
Si 2 calc < ateo

bteo no rechazamos la H0
calc > bteo rechazamos H0 y aceptamos H1

Contrastes unilaterales
Para un contraste de significacin al nivel del tipo
H0 : 2 = 2 0
H1 : 2 < 2 0
O tambin se escribe
H0: 2 20
H1 : 2 < 2 0
se tiene que el resultado del mismo es el que refleja en la siguiente figura
Contraste unilateral del tipo H0 2 20.

107

si

ateo

2
calc

si

2
calc

<

ateo

no rechazamos H 0
rechazamos H 0 y aceptamos H1

Para el contraste contrario tenemos la formulacin anloga


H0 : 2 = 2 0
H1 : 2 > 2 0
O tambin se escribe
2
H0 : 2
0
H1 : 2 > 2 0
calculamos el extremo inferior de la regin crtica en una tabla de la distribucin
2

bteo

n-1

2
n 1,1

si

2
calc

si

bteo

bteo
<

2
calc

no rechazamos H 0
rechazamos H 0 y aceptamos H1

108

Inferencia basada en dos muestras


Ejemplos:
Comparacin del contenido de cidos grasos en semillas de dos variedades
distintas.
Comparacin de la hipertrofia del ventrculo izquierdo en animales alimentados
con y sin condiciones estresantes.
Comparar el efecto de dos drogas en pacientes con hipertensin arterial.
Comparacin de los niveles de monxido de carbono en aire entre la maana y la
tarde en una ciudad.
Comparacin de los porcentajes de preez bajo dos protocolos de inseminacin
artificial.
Comparacin de los porcentajes de lecturas positivas para una virosis en pruebas
Elisa estndar y DAS-Elisa.
Dadas las muestras:
m1={X11, X21,, Xn1} y
m2={X12, X22,, Xn2}
El objetivo de la inferencia puede ser:
Estimar la diferencia entre las medias de las poblaciones de las cuales proceden
(1-2)
y
Contrastar hiptesis sobre esta diferencia
Si el contraste es bilateral:

H0 :

=0

H1 :

Versus

Si el contraste es unilateral derecho:

H0 :

vs. H1 :

Si el contraste es unilateral izquierdo:

H0 :

vs. H1 :

2
109

Caso Normal
Se pueden distinguir cuatro situaciones:
m1 y m2 son muestras independientes
Poblaciones con varianzas conocidas
Poblaciones con varianzas desconocidas pero iguales
Poblaciones con varianzas desconocidas pero diferentes
m1 y m2 son muestras dependientes (valores apareados)
Caso Normal-Muestras independientes Varianzas conocidas
La inferencia se basa en el siguiente estadstico:

X1

X2

2
1

2
2

n1

n2

~ N (0,1)

Es una situacin de inters terico porque usualmente las varianzas son desconocidas.
Caso Normal-Muestras independientes Varianzas desconocidas pero iguales
La inferencia se basa en el siguiente estadstico:

X1

X2
S p2

1
n1

1
n2

S p2

~ Tn1

n2 2

(n1 1) S12 (n2 1) S22


n1 n2 2

La prueba de hiptesis para la diferencia de medias basada en este estadstico se conoce


como prueba T para muestras independientes cuando las varianzas son homogneas.
Caso Normal-Muestras independientes Varianzas desconocidas pero iguales
110

Intervalo de confianza bilateral para la diferencia de medias est dado por:

x1

x2

t(1

/ 2) ; n1 n2 2

2
p

1
n1

1
n2

Ejemplo
Se desea comparar dos variedades de man, en cuanto al contenido de aceites de las
semillas. Las hiptesis de esta prueba son H0: 1= 2 vs H1: 1
2. Para probar las
hiptesis anteriores se disea un ensayo en el que, para cada variedad, se obtienen los
contenidos de aceite de 10 bolsas de 1 kg de semillas de man, extradas aleatoriamente,
de distintos productores de semillas.
Los resultados del ensayo son los siguientes:
Variedad

S2

10

160.4

65.3

10

165.6

67.9

Cmo saber si las varianzas son iguales o diferentes?


Suponiendo normalidad para las observaciones de las muestras m1 y m2, una prueba de
homogeneidad de varianzas se basa en el siguiente estadstico:

s12
~ F( n1
2
s2

1, n2 1)

Hiptesis de la prueba:

H0 :

2
1

2
2

H1 :

2
1

2
2

111

65.3
67.9

0.96

Bajo H0 se distribuye como una F con 9 y 9 grados de libertad


Prueba F:
Distribucin F de Snedecor

0.0 0.248

1.5

3.0

4.03

4.5

6.0

La regin de aceptacin para un nivel de significacin del 5% est delimitada por 0,248 y
4,03, correspondientes a los cuantiles /2 y (1 - /2) respectivamente.
9 0.001 0.025 0.050 0.075 0.100 0.125 0.150 0.850 0.875 0.900 0.925 0.950 0.975 0.990
1 0.043 0.138 0.195 0.246 0.297 0.349 0.403 26.3967 38.1751 59.8575 106.70 240.543 963.279 6022.40
2 0.061 0.175 0.234 0.285 0.332 0.378 0.423 6.0427 7.3783 9.3805 12.716 19.3847 39.3866 99.3896
3 0.071 0.196 0.258 0.309 0.355 0.399 0.441 3.7945 4.3971 5.2400 6.5269 8.8123 14.4730 27.3449
4 0.079 0.212 0.275 0.326 0.371 0.413 0.454 3.0153 3.4070 3.9357 4.7077 5.9988 8.9046 14.6592
5 0.085 0.223 0.287 0.338 0.383 0.424 0.464 2.6268 2.9239 3.3163 3.8738 4.7725 6.6810 10.1577
6 0.089 0.231 0.296 0.347 0.392 0.433 0.472 2.3949 2.6396 2.9577 3.4015 4.0990 5.5234 7.9760
7 0.093 0.238 0.303 0.354 0.399 0.440 0.478 2.2411 2.4526 2.7247 3.0989 3.6767 4.8232 6.7188
8 0.096 0.243 0.309 0.360 0.405 0.445 0.483 2.1316 2.3204 2.5612 2.8891 3.3881 4.3572 5.9106
9 0.099 0.248 0.314 0.365 0.409 0.450 0.487 2.0496 2.2220 2.4403 2.7351 3.1789 4.0260 5.3511
10 0.101 0.252 0.318 0.369 0.413 0.453 0.491 1.9860 2.1459 2.3473 2.6174 3.0204 3.7790 4.9424

112

Como F=0,96 est en el intervalo (0,248; 4,03) se acepta H 0: 12= 22


Se concluye que no hay diferencias entre las varianzas poblacionales, lo que indica el
cumplimiento del supuesto de homogeneidad de varianzas.
Prueba T

X1

X2
S

2
p

1
n1

1
n2

160.4 165.6
66.6

n2 2

(9) 65.3 (9) 67.9


10 10 2

S p2

~ Tn1

Grados de
Libertad

66.6

1.42

1 1
10 10

Distribucin T de Student

-4.0

-2.7

-2.101

-1.3

0.0

1.3

2.7

4.0

2.101

La regin de aceptacin para un nivel de significacin del 5% est delimitada por -2,101 y
2,101, correspondientes a los cuantiles /2 y (1 - /2) respectivamente y 18 grados de
libertad.
Como T=-1,42 est en el intervalo (-2,101; 2,101) se acepta H0: 1= 2
Se concluye que no hay diferencias entre las dos variedades de man considerando el
contenido de aceites en la semilla.

113

Caso Normal-Muestras independientes Varianzas desconocidas y diferentes


La inferencia se basa en el siguiente estadstico:

T'

X1

X2

2
1

S12

~T

2
2

S
n1

S
n2

S12

n1
2

n1

S22

n2

S22

n2

n1 estadstico
1
n2se conoce
1
La prueba de hiptesis para la diferencia de medias basada en este
como prueba T para muestras independientes cuando las varianzas no son homogneas
Intervalo de confianza bilateral 1- para la diferencia de medias est dado por:

x1

x2

t(1

s12
n1

/ 2) ;

s22
n2

Ejemplo
Comparar el efecto de dos drogas en pacientes con hipertensin arterial.
La prueba T es aplicable, en este caso, bajo la suposicin que las observaciones de
animales con y sin estrs son independientes, distribuidas normalmente con
varianzas desconocidas y supuestamente diferentes.
Caso Normal-Muestras dependientes (apareadas)
Los datos se obtienen de muestras que estn relacionadas, es decir, los resultados del
primer grupo no son independientes de los del segundo. Por ejemplo, esto ocurre cuando
se mide la presin arterial en cada uno de los individuos de un grupo experimental antes y
despus de la administracin de una droga.
El objetivo es comprobar si la droga produce efectos en la presin sangunea. Los pares de
observaciones (antes y despus) obtenidas en cada individuo no son independientes ya que
la presin arterial posterior a la administracin de la droga depende de la presin arterial
inicial.
Dadas las muestras m1 y m2 consideremos la muestra de las diferencias
md={X11- X12, X21 - X22 ,,Xn1- Xn2}= {D1, D2 ,,Dn}
(observar que n1=n2=n)
La inferencia se basa en el siguiente estadstico, que depende de la media y la varianza de
las diferencias y del valor hipotetizado para el promedio poblacional de las diferencias ( )

D
2
D

~ tn

S
n

114

La prueba de hiptesis para la diferencia de medias basada en este estadstico se conoce


como prueba T para muestras apareadas.
Intervalo de confianza bilateral 1- para la diferencia de medias ( ) est dado por:

t(1

/ 2); n 1

S D2
n

Ejemplo:
Comparacin de los niveles de monxido de carbono en aire entre la maana y la
tarde en una ciudad.
La prueba T para muestras apareadas es aplicable en este caso cuando las observaciones de
m1 y m2 se obtienen de a pares, como por ejemplo mediciones de monxido a la maana y
tarde de un mismo da.
Se quiere comparar el efecto de dos virus sobre plantas de tabaco. Para ello se
seleccionaron al azar 8 plantas y en cada una de ellas se tomaron 2 hojas apicales.
Sobre cada una de ellas se aplicaron los preparados conteniendo los virus cuyos efectos
se queran evaluar.
La variable de respuesta fue la superficie en mm2 de las lesiones locales que aparecan
como pequeas manchas oscuras en las hojas.
Los resultados fueron:

Preparado 1

Preparado 2

di

31

18

20

17

13
3

18

14

H0 :

H1 :

17

11

10

-1

H0 : = 0

10

H1 :

1= 15

2 = 11

= 4

D
S D2
n

4 0
4.30
8

=0

2.63

115

Fijando = 0.05, se determina la regin de aceptacin como el


intervalo (t /2= -2,365 , t1- /2 = 2,365), con 7 grados de libertad
Se concluye que las diferencias observadas entre las reas daadas por uno u otro virus son
estadsticamente significativas.

116

Anlisis de la Varianza
ANAVA
Es necesario definir un nuevo contraste de hiptesis que sea aplicable en aquellas
situaciones en las que el nmero de medias que queremos comparar sea superior a
dos.
Es por ello por lo que el anlisis de la varianza (ANAVA, ANDEVA, ANOVA)
surge como una generalizacin del contraste para dos medias de la t de Student,
cuando el nmero de muestras a contrastar es mayor que dos.
Definiciones preliminares
Unidad experimental
Se llama unidad o parcela experimental a la mnima porcin del material
experimental sobre el cual un tratamiento puede ser realizado.
Tratamiento
Se denomina tratamiento al conjunto de acciones que se aplican a las unidades
experimentales con la finalidad de observar como responden a stas. Tratamiento
Variable aleatoria observada o respuesta
Se llama variable aleatoria observada o respuesta a la medida u observacin que
se obtiene de cada una de las unidades experimentales.
Repeticin
Se llama repeticin a cada realizacin de un tratamiento
Modelo lineal
La tcnica de anlisis de la varianza presupone un modelo para la variable
respuesta. Este modelo recibe el nombre genrico de modelo lineal.
modelo lineal de ANAVA (a una va de clasificacin) para la observacin Y ij:
Yij = + i + ij ,

con i=1,...,a y j=1,..,n

Yij= es la j-sima observacin del i-simo tratamiento


es la media general de las observaciones
i= es el efecto del i-simo tratamiento
ij= es una variable aleatoria normal independientemente distribuida con esperanza 0 y
varianza i,j.
En la Figura se esquematizan a=3 distribuciones centradas en sus esperanzas,
denotadas por i, y se representan parmetros del modelo lineal.

117

Representacin de 3 funciones de densidad, mostrando el punto de equilibrio de todas


ellas ( ), las esperanzas de cada una de ellas ( i) y los corrimientos de las esperanzas
respecto del punto de equilibrio representando o efectos de tratamiento ( i).
La media general () es el centro de equilibrio de todas las distribuciones y se trata de un
parmetro fijo. El efecto del tratamiento (i) se presenta como un corrimiento respecto de
la media general y en el modelo conocido como de ANAVA de efectos fijos se asume
constante.

El efecto del tratamiento 1 (1) es la diferencia que hay entre la media del
tratamiento 1 y la media general. La hiptesis nula del ANAVA postula la igualdad
de medias de todos los tratamientos comparados. Si la hiptesis nula del ANAVA
fuera verdadera las a distribuciones estaran centradas sobre la misma esperanza, es
decir, en . Los valores de la variable aleatoria ij representan las diferencias entre
observaciones individuales y las esperanzas de la distribucin de la cual proviene la
observacin.

Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas
por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza -hiptesis de homocedasticidad:

j 1, , n i
X ij ~ N i ,
O lo que es lo mismo
2

X ij

ij

donde

ij ~

N 0,

De este modo i es el valor esperado para las observaciones del nivel i, y los
errores ij son variables aleatorias independientes, con valor esperado nulo, y con
el mismo grado de dispersin para todas las observaciones.

Especificacin del modelo


Con todo lo anterior, el modelo ANAVA de un factor puede escribirse como:

118

X ij

ij

donde

ij

~N

0,

= es una constante comn a todos los tratamientos;


i = es el efecto producido por el i-simo tratamiento. Al sumarlos todos deben
compensarse los efectos negativos con los positivos para que la media comn a
todos los tratamientos sea realmente . Esto implica en particular que los efectos,
, de los tratamientos no son independientes;
ij = es la parte de la variable Xij no explicada por ni i, y que se distribuye del
mismo modo (aunque independientemente) para cada observacin, segn la ley
gaussiana:
ij ~

N 0,

sta es la condicin de homocedasticidad, y es fundamental en el anlisis de la


varianza.
Obsrvese que ahora podemos escribir el contraste de que los diferentes
tratamientos no tienen influencia sobre la observacin de la variable como:

H0 :

H1 : al menos dos no son iguales


o

H0 :

H1 : al menos un

t
i

Observacin
Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del
anlisis estadstico ser precisamente el estudio de la variabilidad. Tericamente es
posible dividir la variabilidad de la variable que se estudia en dos partes:
La originada por el factor en cuestin
La producida por los restantes factores que entran en juego, conocidos o no,
controlables o no, que se conocen con el nombre de error experimental.
Si mediante los contrastes estadsticos adecuados la variacin producida por cierto
factor es significativamente mayor que la producida por el error experimental
podemos aceptar la hiptesis de que los distintos tratamientos del factor actan de
forma distinta.
Ejemplo
Consideremos dos muestras tomadas en diferentes tratamientos de una variable, de
forma que ambas tengan la misma varianza muestral (lo que indica que no se puede
rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante
diferentes:

119


1,2,3

tratam iento 1

n1

S12 1

11,12,13

tratam iento 2

n2

n1 n2

S2

5,55

x 12
S 22

La dispersin calculada al medir la de los dos tratamientos conjuntamente es


mucho mayor que la de cada uno de ellos por separado. Por tanto puede deducirse
que ambos tratamiento no tienen el mismo valor esperado.
El objetivo del ANAVA de efectos fijos es contrastar la hiptesis de que los efectos
de tratamientos son nulos versus que al menos uno no lo es. En trminos
estadsticos:
H0: 1=...=a= 0
vs.
H1: Al menos un tratamiento tiene efecto no nulo.
Otra forma de enunciar estas hiptesis es que las medias de los tratamientos que se
comparan son idnticas vs. que no lo son. La tcnica de ANAVA es sensible a las
propiedades estadsticas de los errores del modelo lineal y supone que los datos
observados son independientes unos de otros y que las observaciones bajo cada
tratamiento tienen distribucin normal centrada en su esperanza (+i) y varianza
2, idntica para toda observacin (homogeneidad de varianzas).
El no cumplimiento de estas propiedades, conocidas como supuestos, pueden
invalidar la inferencia que se pueda realizar a partir de esta tcnica.

120

Algo de notacin relativa al modelo


Introduciremos alguna notacin para escribir los trminos que sern ms importantes a
la hora de realizar un contraste por el mtodo ANAVA. En primer lugar tenemos:
t

ni nmero total de observaciones (entre todos los niveles)

N
i 1
ni

xi

xij suma de las observaciones del nivel i


j 1

xi

xi

media muestral del nivel i

ni
ni

xij
i 1

x
N

ni x i

j 1

suma de todas las observaciones

i 1

media muestral de todas las observaciones

Usando estos trminos vamos a desglosar la variacin total de la muestra en


variacin total dentro de cada nivel (intravariacin) ms la variacin entre los
distintos niveles (intervariacin).
Entonces:
SCT = SCD + SCE
donde
t

n i

i 1

j 1

n i

i 1

j 1

SCT

xij

SCD

xij

suma de cuadradosdentro de cada nivel

x
2

SCE

suma de cuadrados totales

ni x i

suma de cuadradosentre los niveles

i 1

Observacin
En el clculo del estadstico SCT intervienen N cantidades, ligadas por una
relacin:
t

n 1

xij
i 1

j 1

de este modo el nmero de grados de libertad de este estadstico es N-1 (recurdese


la nocin de grados de libertad de un estadstico). Por razones anlogas tenemos
que el nmero de grados de libertad de SCD es N-t y el de SCE es t-1.

Forma de efectuar el contraste


Consideramos el contraste

121

H0 :

H1 : algn

Suponemos que estamos en las condiciones del modelo factorial de un factor.


Si H0 es cierta se puede demostrar que el siguiente estadstico se distribuye como
una F de Fisher:

Fcalc

S E2
~ Ft
S D2

1, N t

Distribucin F de Fisher
(en algunos libros F de Snedecor)
Nunca adopta valores menores de 0
Es asimtrica positiva
Es en realidad una familia de curvas, en funcin de los llamados grados de
libertad del numerador y del denominador. Es decir, hay una F de Fisher con 1 gl
en el numerador y 10 gl en el denominador, etc.
Se puede demostrar que la distribucin F equivale a una razn entre dos chicuadrados; de ah que hablemos en el caso de F de grados de libertad en el
numerador y en el denominador.
Luego si al calcular Fcalc obtenemos que

Fcalc > Ft

1, N t ,1

donde

es un nivel de significacin dado, deberemos de rechazar la hiptesis nula


2
(ya que si H0 fuese cierta, era de esperar que E fuese pequeo en relacin con
2
D ).
Mtodo reducido para el anlisis de un factor
Vamos a resumir lo ms importante de lo visto hasta ahora, indicando la forma ms
sencilla de realizar el contraste. En primer lugar calculamos los siguientes
estadsticos a partir de la tabla de las observaciones en cada nivel:

ni

xij2

A
i 1
t

B
i 1

j 1
2
i

x
ni

x2
N

122

Niveles
Nivel 1

Nivel 2

Observaciones de X
x11

x21

x12

...

Nivel t

x1n1

x22

Clculos al margen
n1

x2n2

n2

...

xt1

...

xt2

xtnt

nt

x1

x12
n1

x2

x 22
n2

n1

x12j

j 1

n2

x22 j

j 1

...

xt
x

xt2
nt
B

nt

xtj2
j 1

Entonces las siguientes cantidades admiten una expresin muy sencilla:

S E2

SCE
t 1

A B

S D2

SCD
N 1

Fcalc

S E2
S D2

SCE

B C

SCT

A C

SCD
Calculamos:

y dado el nivel de significacin


Snedecor el valor

Fteo

buscamos en una tabla de la distribucin F de

Ft

1, N t ,1

rechazando H0 si Fcalc>Fteo, como se aprecia en la Figura

123

Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 cultivos, obtenindose los
resultados de la tabla siguiente. Queremos saber si se puede concluir que todos los
tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en
condiciones de aplicar el modelo de un factor.
Trata
mientos

Observaciones

Tratamiento -1
1

j 1

1/5

Tratamiento -2 -4 -5 -4 -7
2

-22

484/5

110

Tratamiento
3

-1 -2 -4 -1

-8

64/5

22

Tratamiento
4

22

484/5

126

i 1

N = 20

ni

A
t

xij2

i 1

xi

ni

ni

-1

xi2
ni

2
ij

49
20

j 1

xi2
ni

x2
N
t

ni

A
i 1
t

B
i 1

1033
5

A = 265

xij2

j 1

xi2
ni

x2
N
124

Se rechaza la hiptesis de que los tratamientos tienen el mismo efecto en los tres grupos.

En conclusin, Fcalc>Fteo, como se observa arriba, por tanto se ha de rechazar la


igualdad de efectos de los tratamientos.
En la figura se representan las observaciones de cada nivel de tratamiento mediante
una curva normal cuyos parmetros se han estimado puntualmente a partir de las
observaciones. Obsrvese que las diferencias ms importantes se encuentran entre
Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones mltiples (dos
a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda
establecer qu niveles tuvieron mayor influencia en esta decisin.

125

Consideraciones a los supuestos del modelo


El anlisis de varianza es sensible a las propiedades estadsticas de los
trminos de error aleatorio del modelo lineal.
Los supuestos tradicionales del ANAVA implican errores independientes,
normalmente distribuidos y con varianzas homogneas para todas las
observaciones.
La verificacin de los supuestos subyacentes se realiza en la prctica a travs
de los predictores de los trminos de error aleatorio que son los residuos
aleatorios asociados a cada observacin.
El residuo asociado a la observacin ij-sima (simbolizados como ij) es la
diferencia entre el valor observado y el valor predicho por el modelo para
la respuesta en la unidad experimental ij-sima.
A partir de los residuos y sus transformaciones se puede verificar el
cumplimiento de los supuestos de normalidad y homogeneidad de varianzas
mediante pruebas grficas y/o formales (pruebas de adecuacin del modelo)
Por lo general, en la prctica, los supuestos del ANAVA no se cumplen con exactitud. En
caso de que haya evidencia de faltas graves de cumplimiento de los supuestos, el modelo
y/o la estrategia de anlisis podra no ser adecuado.

Normalidad
Q Q plot:
seleccionando los residuos como variable de anlisis, una de las tcnicas ms
usadas es construir un Q-Q plot normal. Mediante esta tcnica se obtiene un
diagrama de dispersin de los residuos obtenidos versus los cuantiles tericos
de una distribucin normal. Si los residuos son normales y no hay otros defectos
del modelo, se alinearn sobre una recta a 45.
Habiendo corrido un ANAVA y guardando los residuos, se debe seleccionar
del Men GRFICOS de la barra de herramientas de InfoStat para realizar
un grfico Q-Q plot (normal) usando como variable a los residuos del modelo.
260.80

n= 20 r= 0.984 (RDUO_Rendimiento)

132.50

Cuantiles observados(RDUO_Rendimiento)
4.20

-124.10

-252.40
-252.40 -124.10

4.20

132.50 260.80

Cuantiles de una Normal(1.4211E-14,16301)

Otro mtodo de anlisis y ms formal es el de Shapiro-Wilks Modificado, seleccionando


los residuos como variable de anlisis para obtener el estadstico W* de Shapiro-Wilks
modificado por Mahibbur y Govindarajulu (1997).
126

Variable
RDUO_Rendimiento

n
20

Media D.E. W*
0.00 127.67 0.96

p (una cola)
0.7824

Las hiptesis que se someten a prueba son:


H0: los residuos tienen distribucin normal versus
H1: los residuos no tienen distribucin normal
En este caso no hay evidencias para rechazar el supuesto de distribucin normal
(p=0.7900).

Homogeneidad de varianza:
prueba de Levene
Se utiliza la prueba de Levene. Si bien esta prueba fue desarrollada para diseos
completamente aleatorizados, se puede extender su uso a modelos ms complejos.
La prueba consiste en realizar un anlisis de la varianza usando como variable
dependiente el valor absoluto de los residuos.
Este anlisis se debe realizar con un modelo a una va de clasificacin.
Las hiptesis que se someten a prueba son:
H0: 12 = 22 = = n2
H1: Al menos dos varianzas son distintas donde i2 es la varianza del tratamiento i,
i=1,...,n.
Si el valor p del factor tratamiento de este ANAVA es menor al valor de
significacin nominal se rechaza la hiptesis de varianzas homogneas, caso
contrario el supuesto de igualdad de varianzas puede ser sostenido. InfoStat no
tiene implementada esta prueba como tal en la seccin de las pruebas de hiptesis,
pero se puede construir fcilmente ya que se pueden guardar automticamente los
valores absolutos de los residuos.
Anlisis de la varianza (Levene)
Variable
RABS_Rendimiento

N
20

R
0.44

R Aj CV
0.11 71.10

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM F
Modelo
47492.34
7
6784.62
1.33
Bloque
12265.80
3
4088.60
0.80
Tratamiento
35226.54
4
8806.64
Error
61022.36
12
5085.20
Total
108514.70
19

p-valor
0.3150
0.5154
1.73 0.2076

127

Homogeneidad de varianza:
grfico de dispersin
Cuando los errores son homocedsticos, haciendo un grfico de dispersin de
residuos versus valores predichos se debe observar una nube de puntos sin patrn
alguno (patrn aleatorio).
Si el grfico muestra estructura habr indicios para sospechar sobre el
cumplimiento del supuesto.
Un patrn tpico que indica falta de homogeneidad en las varianzas, se muestra
en la Figura 8 .

En este otro grfico no se observa tendencia que indique falta de


cumplimiento del supuesto de homogeneidad de varianzas.
286.5

145.3
RDUO_Rendimiento
4.2

-136.9

-278.1
1791.8 2211.3 2630.8 3050.2 3469.7
PRED_Rendimiento

Independencia
Para verificar el supuesto de errores independientes, se realiza un grfico de
dispersin de los residuos en funcin de la variable que se presume puede generar
dependencias sobre las observaciones.
128

Una tendencia a tener agrupados residuos positivos y/o negativos indica la


presencia de correlacin o falta de independencia.
En general, un buen proceso de aleatorizacin asegura el cumplimiento del
supuesto de independencia.
286.5

145.3

RDUO_Rendimiento
4.2

-136.9

-278.1
0.8

1.9

3.0

4.1

5.2

Tratamiento

Ventajas y limitaciones del Anlisis de la Varianza


El anlisis de la varianza es una tcnica estadstica de contraste de hiptesis.
Tradicionalmente estas tcnicas, conjuntamente con las tcnicas de regresin lineal
mltiple, de las que prcticamente son una extensin natural, marcan el comienzo
de las tcnicas multivariadas.
Con estas tcnicas se manejan simultneamente ms de dos variables, y la
complejidad se incrementa proporcionalmente con el nmero de variables en juego.
El anlisis de la varianza unifactorial es el modelo ms simple:
una nica variable nominal independiente, con tres o ms niveles, explica
una variable dependiente continua.
Otra alternativa, que aparentemente es ms lgica e intuitiva, consiste en comparar,
en todas las posibles combinaciones de dos en dos, las medias de todos los
subgrupos formados. Esto trae aparejado, dos tipos de problemas:
Se incrementa el riesgo de dar un resultado falso positivo, al realizar ms de un
anlisis sobre un mismo conjunto de datos.
Es difcil interpretar la verdadera influencia de la variable que acta como factor de
clasificacin, porque genera diferentes niveles de significacin (p), resultantes de
las comparaciones entre sus subgrupos.
Mediante el ANAVA se eliminan estos inconvenientes. Con estas tcnicas se
analiza globalmente la influencia de cada variable independiente, generndose un
nico nivel de significacin.
Con el ANAVA se puede analizar simultneamente la influencia de dos o ms
factores de clasificacin (variables independientes) sobre una variable respuesta
continua. Esto se conoce como anlisis factorial de la varianza.
El efecto de un factor puede aadirse al de otro factor (modelo aditivo) o bien
puede potenciarse (modelo multiplicativo).
En este ltimo caso, aparece y se analiza un nuevo factor de interaccin sobre la
variable respuesta, como resultado de la accin conjunta de dos o ms factores.
Este posible efecto es detectado en el anlisis de la varianza por la significacin de
su estadstico de contraste correspondiente.

129

Las tcnicas del ANAVA, basadas en la particin de la variabilidad (suma de


cuadrados) de la respuesta estudiada, sirven de base para el anlisis de
distribuciones de datos generados, en diseos ms complejos, como es el anlisis
de covarianza.
En este ltimo tipo de anlisis se combinan variables explicativas discretas y
continuas. La variabilidad de la respuesta es analizada como en el anlisis factorial
de la varianza, una vez que se ha eliminado la posible influencia de la o las
variables continuas explicativas.
Sera un anlisis anlogo al de la varianza de los residuales; esto es, se analizan los
residuos de la regresin en lugar de los datos iniciales.
Otros modelos ms complejos son:

El anlisis de medidas repetidas sobre las mismas unidades experimentales


El anlisis de diseos cruzados
Anlisis anidados
El anlisis de la varianza factorial con informacin incompleta
otros
En el ANAVA se comparan medias, no varianzas: medias de los subgrupos o
estratos originados por los factores de clasificacin estudiados.
En esta tcnica, la hiptesis alternativa es mltiple, puesto que engloba diferentes
hiptesis, todas ellas referidas al hecho de que alguna de las medias de los estratos
sea diferente de las dems.
Cuando se alcanza la significacin en alguno de los factores estudiados, es lgico
preguntarse cul de las hiptesis alternativas es la que origina la significacin. Esto
es equivalente a preguntarse qu media o medias son diferentes entre s.
Estos enigmas se resuelven mediante procedimientos "a posteriori" para comparar
ms de dos medias. Funcionan eficientemente, si previamente el factor en estudio
ha resultado significativo.

Comparaciones Mltiples
Pruebas a posteriori
Los diferentes mtodos de hacer comparaciones mltiples se emplean slo cuando
el resultado del ANAVA resulta significativo. En tal caso, se sabe que existen
diferencias entre las muestras, pero sin poder especificar entre cuales de ellas. Se
necesita, entonces, alguna forma de poder compararlas entre s, y alcanzar as el
objetivo final del ANAVA.
Para analizar las diferencias de a pares. entre las medias de las distribuciones que
se comparan, es posible realizar una gran variedad de pruebas a posteriori o
pruebas de comparacin mltiple
Comparaciones a posteriori: Son aquellas comparaciones no planificadas de
antemano. Surgen a partir de los datos experimentales, cuando el investigador
descubre diferencias inesperadas y quiere testearlas.
Para cualquier procedimiento elegido, el software permite definir el nivel de
significacin nominal usado para la prueba seleccionada.

130

Regresin y Correlacin
Relaciones entre variables y regresin

El trmino regresin fue introducido por Galton en su libro Natural inheritance


(1889) refirindose a la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por sus descendientes, pero
en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de los
descendientes (una variable) a partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000 registros de
grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusin: los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos.

Hoy en da el sentido de regresin es el de prediccin de una medida basndonos


en el conocimiento de otra.

Qu vamos a estudiar

Vamos a tratar diferentes formas de describir la relacin entre dos variables cuando
estas son numricas.
Estudiar si hay relacin entre la altura y el peso.
Haremos mencin de pasada a otros casos:
Alguna de las variables es ordinal.
Estudiar la relacin entre el sobrepeso y el dolor de espalda (ordinal)
Hay ms de dos variables relacionadas.
Conocer el peso de una persona conociendo su altura y contorno de
cintura?

Estudio conjunto de dos variables

En la tabla tenemos una posible manera de recoger los datos obtenido observando
dos variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo
Cada columna representa los valores que toma una variable sobre los
mismos.
131

Las individuos no se muestran en ningn orden particular.

Dichas observaciones pueden ser representadas en un diagrama de dispersin


(scatterplot). En ellos, cada individuos es un punto cuyas coordenadas son los
valores de las variables.

Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de
la otra.

Altura
en cm.
162
154
180
158
171
169
166
176
163
...

Peso en
Kg.
61
60
78
62
66
60
54
84
68
...

Diagramas de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.

Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.

132

Prediccin de una variable en funcin de la otra.


Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta
en una unidad por cada unidad de altura.

Cmo reconocer relacin directa e inversa.


330

Incorrelacin
n

280
230
180
130
80
30
140

150

160

170

180

190

200

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo
en proporciones similares. Incorrelacin.

133

100

Fuerte relacin
directa.

90
80
70
60
50
40
30
140

150

160

170

180

190

200

Para los valores de X mayores que la media le corresponden valores de Y mayores


tambin.

Para los valores de X menores que la media le corresponden valores de Y menores


tambin.

Esto se llama relacin directa o creciente entre X e Y.

80

Cierta relacin
inversa

70
60
50
40
30
20
10
0
140

150

160

170

180

190

200

Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es
relacin inversa o decreciente.

Cmo reconocer buena o mala relacin


330
280

Poca relacin

230
180
130
80
30
140

150

160

170

180

190

200

Dado un valor de X no podemos decir gran cosa sobre Y. Mala relacin. Independencia.

134

100

Fuerte relacin
directa.

90
80
70
60
50
40
30
140

150

160

170

180

190

200

Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relacin.
Lo de horquilla estrecha hay que entenderlo con respecto a la dispersin que
tiene la variable Y por si sola, cuando no se considera X.

80

Cierta relacin
inversa

70
60
50
40
30
20
10
0
140

150

160

170

180

190

200

Covarianza de dos variables X e Y

La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos
variables es directa o inversa.
Directa: Sxy >0
Inversa: Sxy <0
Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o


no, pero no nos dice nada sobre el grado de relacin entre las variables.

S xy

1
n

( xi

x )( yi

y)

Coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los


puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas
horizontales y verticales).
135

tiene el mismo signo que Sxy por lo tanto de su signo obtenemos el que la posible
relacin sea directa o inversa.

r es til para determinar si hay relacin lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica, logartmica,...)

S xy
SxS y

Propiedades de r

Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.
Siempre que no existan observaciones anmalas.

Entrenando el ojo: correlaciones positivas

136

330
280
230
180
130
80

r=0,1

30
140

150

160

170

180

130
120
110
100
90
80
70
60
50
40
30

190

200

r=0,4
140

150

160

170

180

190

200

110
100
90
80
70
60
50

r=0,6

40
30
140

150

160

170

180

190

200

100
90
80
70
60
50

r=0,8

40
30
140

150

160

170

180

190

200

Casi perfectas y positivas

137

100
90
80
70
60
50
40

r=0,9

30
140

150

160

170

180

190

200

100
90
80
70
60
50

r=1

40
30
140

150

160

170

180

190

200

100
90
80
70
60
50

r=0,99

40
30
140

150

160

170

180

190

200

Correlaciones negativas

138

90
80
70
60
50
40
30
20
10
0

r=-0,5
140

150

160

170

180

190

200

160

170

180

190

200

160

170

180

190

200

160

170

180

190

200

80
70
60
50
40
30
20
10

r=-0,7

0
140

150

80
70
60
50
40
30
20

r=-0,95

10
0
140

150

80
70
60
50
40
30
20

r=-0,999

10
0
140

150

Preguntas frecuentes

Si r=0 eso quiere decir que no las variables son independientes?


En la prctica, casi siempre s, pero no tiene
por qu ser cierto en todos los casos.
139

Lo contrario si es cierto: Independencia


implica incorrelacin.

Me ha salido r=1.2 la relacin es superlineal[sic]?


Superqu? Eso es un error de clculo. Siempre debe tomar un valor entre 1 y +1.

A partir de qu valores se considera que hay buena relacin lineal?


Es difcil dar un valor concreto (mirar los grficos anteriores). Para este
curso digamos que si |r|>0,7 hay buena relacin lineal y que si |r|>0,4 hay
cierta relacin (por decir algo... la cosa es un poco ms complicada:
observaciones anmalas,...)

Otros coeficientes de correlacin

Cuando las variables en vez de ser numricas son ordinales, es posible preguntarse
sobre si hay algn tipo de correlacin entre ellas.

Disponemos para estos casos de dos estadsticos, aunque no los usaremos en clase:
(ro) de Spearman
(tau) de Kendall

No hay que estudiar nada sobre ellos en este curso. Recordar slo que son
estadsticos anlogos a r y que los encontraran en publicaciones donde las variables
no puedan considerarse numricas.

Regresin

El anlisis de regresin sirve para predecir una medida en funcin de otra medida
(o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
140

predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

El ejemplo del estudio de la altura en grupos familiares de Pearson es del tipo que
desarrollaremos en el resto del tema.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la
media.

Si el padre mide 120cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la
media.

Es decir, nos interesaremos por modelos de regresin lineal simple.

Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dado dos variables


Y (dependiente)
X (independiente, explicativa)

buscamos encontrar una funcin de X muy simple (lineal) que nos permita
aproximar Y mediante
= A + BX
A (ordenada en el origen, constante)
B (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el modelo de regresin. A la
cantidad
e=Y- se le denomina residuo o error residual.
En el ejemplo de Pearson y las alturas, l encontr:
= A + BX
A=85 cm (No interpretar como altura de un hijo cuyo padre mide 0
cm Extrapolacin salvaje!
B=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

141

La relacin entre las variables no es exacta. Es natural preguntarse entonces:


Cul es la mejor recta que sirve para predecir los valores de Y en funcin
de los de X
Qu error cometemos con dicha aproximacin (residual).

El modelo lineal de regresin se construye utilizando la tcnica de estimacin


mnimo cuadrtica:
Buscar A, B de tal manera que se minimice la cantidad
i ei2

Se comprueba que para lograr dicho resultado basta con elegir:

Se obtiene adems unas ventajas de regalo


El error residual medio es nulo
La varianza del error residual es mnima para dicha estimacin.
xy n x y
B
A y Bx
2
x2 nx

Traducido: En trmino medio no nos equivocamos. Cualquier otra


estimacin que no cometa error en trmino medio, si es de tipo
lineal, ser peor por presentar mayor variabilidad con respecto al
error medio (que es cero).

Que el error medio de las predicciones sea nulo no quiere decir que las
predicciones sean buenas.

Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la


prediccin)
142

Cmo medir la bondad de una regresin?


Imaginemos un diagrama de dispersin, y vamos a tratar de comprender en primer lugar
qu es el error residual, su relacin con la varianza de Y, y de ah, cmo medir la bondad
de un ajuste.

Interpretacin de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cul es la variabilidad en el
eje Y.

La franja sombreada indica la zona donde varan los valores de Y. Proyeccin sobre el eje
Y = olvidar X
Interpretacin del residuo
Fijmonos ahora en los errores de prediccin (lneas verticales). Los proyectamos sobre el
eje Y.
Se observa que los errores de prediccin, residuos, estn menos dispersos que la variable Y
original.
Cuantos menos dispersos sean los residuos, mejor ser la bondad del ajuste.

143

Bondad de un ajuste
Resumiendo:

La dispersin del error residual ser una fraccin de la dispersin original


de Y

Cuanto menor sea la dispersin del error residual


mejor ser el ajuste de regresin.

Eso hace que definamos como medida de bondad de un ajuste de regresin, o coeficiente
de regresin a:

Se2
1 2
SY

S e2

S Y2

La bondad de un ajuste de un modelo de regresin se mide usando el coeficiente de


determinacin R2

R2 es una cantidad adimensional que slo puede tomar valores en [0, 1]


Para el alumno astuto: por qu?

Cuando un ajuste es bueno, R2 ser cercano a uno.


por qu?

Cuando un ajuste es malo R2 ser cercano a cero.


por qu?

144

Otros modelos de regresin

Se pueden considerar otros tipos de modelos, en funcin del aspecto que presente
el diagrama de dispersin (regresin no lineal)

recta o parbola?

140

150

160

170

180

190

170

180

190

200

recta o cbica?

140

150

160

200

Incluso se puede considerar el que una variable dependa de varias (regresin


mltiple).

145

Modelos de anlisis de regresin

1 variable explicativa
explicativas

2+ variables

Modelos de
regresin

Simple

Lineal

No lineal

Mltiple

Lineal

No lineal

No ajustaremos modelos a mano. Usaremos para ello un software Estadstico (ej. InfoStat).

Repaso

Estos mtodos se emplean para conocer las relaciones y significacin entre series
de datos.
Cuando, simultneamente, contemplamos dos variables continuas, aunque por
extensin se pueden emplear para variables discretas cuantitativas, surgen
preguntas y problemas especficos.

Regresin Lineal

El establecimiento de una correlacin entre dos variables es importante, pero esto


se considera un primer paso para predecir una variable a partir de la otra. (U otras,
en el caso de la regresin mltiple)

Claro est, si sabemos que la variable X est muy relacionada con Y, ello quiere
decir que podemos predecir Y a partir de X. Estamos ya en el terreno de la
prediccin. (Evidentemente si, X no est relacionada con Y, X no sirve como
predictor de Y)

El tema bsico en regresin (con 2 variables) es ajustar los puntos del diagrama de
dispersin de las variables X e Y. Para simplificar, nos centraremos especialmente (por
simplicidad) en el caso de que la relacin entre X e Y sea lineal.

146

Claro est, el tema ahora es cmo conseguir cul es la mejor lnea que parece unir los
puntos. Necesitamos para ello un criterio. Si bien hay otros criterios, el ms empleado
comnmente, y el que veremos aqu, es el criterio de mnimos cuadrados.

re
nd
im
ie
nt
o

inteligencia
Recordar: Que el criterio de mnimos cuadrados, es aquel que minimiza las distancias
cuadrticas de los puntos con la lnea.
Repaso de la ecuacin de una recta
Y=A+BX
A es la ordenada en el origen (es donde la recta corta el eje Y)
B es la pendiente (observad que en el caso de las relaciones positivas, B ser positivo; en
el caso de las relacin negativas, B ser negativo; si no hay relacin, B ser
aproximadamente 0)
r
e
n
di
m
ie
n
t
o

inteligencia
Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de relacin lineal) la
recta de regresin de Y sobre (a partir de) X.
El criterio de mnimos cuadrados nos proporciona un valor de A y uno de B, tal que
147

Yi

Yi

'

i 1

sea mnimo

Re
ndi
mi
en
to
(Y)

Inteligencia (X)
CI (X)
120
100
90
110

Rendim (Y)
10
9
4
6

La recta por mnimos cuadrados es:


Y=-8,5+0,15X
2

Yi
i 1

Yi

'

es mnimo

Esa expresin vale 11,5 en nuestro caso

148

Observar....
-Cada unidad de CI hace aumentar 0,15 la nota.
-Aunque en este caso, lo siguiente no tiene sentido, una persona con CI de 0, sacara un 8,5

Ordenada origen

A Y

BX

Pendiente

XY nXY
X 2 nX 2

Nota: Tanto A como B se pueden obtener fcilmente en cualquier calculadora con opcin
LR (Linear Regression)
suj1
suj2
suj3
suj4

X
120
100
90
110

Y
10
9
4
6

XY
1200
900
360
660

X2
14400
10000
8100
12100

SUMA
3120

SUMA
44600

PROMEDIO PROMEDIO
105
7.25
N
4

149

3120 4 105 7 '25


44600 4 1052

0 '15

A 7'25 0'15 105

8'5

Luego
Y=-8,5+0,15X

Errores de Prediccin
Los errores de prediccin en la recta de regresin de Y sobre X

Yi

Puntuaciones observadas

Puntuaciones predichas

Yi

Error de prediccin
con la recta de

regresin de Y sobre X

Yi Yi

La cuestin ahora en cunto se reduce la varianza al emplear la recta de regresin de Y


sobre X (es decir, teniendo X como predictor) en comparacin con el caso en que no
tuviramos la recta de regresin
Si no tuviramos el predictor X, qu puntuacin prediramos para las puntuaciones de Y?
En tal caso, dado el criterio de mnimos cuadrados, si tenemos datos en Y y
carecemos de datos en X, nuestra mejor estimacin de Y ser su media
Recordemos que la media minimiza el sumatorio de las diferencias
Cuadrticas

(Y Y )2

es mnimo

Si empleamos la media como predictor, la varianza de las predicciones ser

s 2y

(Y Y )2
n
150

Pero si tenemos un predictor X, la varianza ser

(Yi Yi ) 2

s 2y. x

Esta es la varianza de Y no explicada por X


Se puede demostrar que

s y2. x

s 2y (1 rxy2 )

Que despejando sale

rxy2

s y2. x
s y2

Cun buena es la prediccin de la recta de regresin? El coeficiente de regresin como


ndice de la bondad de ajuste de nuestro modelo (la recta de regresin)
Acabamos de mostrar que

rxy2

s y2. x
s y2

rxy2

Es el llamado coeficiente de regresin y permite conocer cun bueno es el ajuste de


la recta de regresin (o en general del modelo lineal). Est acotado entre 0 y 1.
Si todos los puntos del diagrama de dispersin estn sobre la recta (con pendiente diferente
2
y.x
de 0),
entonces ser 0, y el coeficiente de determinacin ser 1

Cuanto ms se alejen los puntos de la recta de regresin, mayor ser el valor de


el valor del coeficiente de regresin ser menor y menor.

s y2. x

El coeficiente de regresin y la proporcin de varianza


asociada/explicada/comn
151

Empecemos con una tautologa

Yi

Yi

(Yi Yi )

Esta expresin indica que la puntuacin observada por el sujeto i-simo es igual a la
puntuacin predicha para dicho sujeto ms un error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de prediccin son
independientes, con lo que podemos sealar

s 2y
s y2

s y2 '

s y2.x

Varianza total de Y

2
y'

2
y.x

Varianza de las puntuaciones de Y predichas por el predictor X


Varianza de los errores de prediccin (varianza no explicada por X)

De lo dicho anteriormente, tenemos


2
2
2
y
y'
y.x
Y sabamos que

2
xy

s y2. x
s y2

luego

rxy2

s y2

s y2. x
s 2y

s y2
s y2

En definitiva, el coeficiente de regresin mide la proporcin de la varianza de Y que est


asociada/explicada por el predictor X

El coeficiente de regresin y la reduccin del error en la estimacin


Ya hemos dicho antes, que en caso de no tener el predictor X, la mejor prediccin que
podemos dar de un dato cualquiera en Y ser la propia media de Y. Por lo tanto el error
cuadrtico promedio en la estimacin ser la varianza TOTAL de Y

152

Pero si tenemos el predictor X, predecimos con la recta de regresin Y y ahora el error


cuadrtico promedio en la estimacin de los valores de Y ser

Como sabemos que

s 2y

s 2y. x

s y2

s y2 ' s y2. x

s 2y '

s 2y

Podemos despejar

s y2. x

Esto quiere decir que al emplear la recta de regresin para efectuar las estimaciones de Y
se reduce el error de estimacin en una cantidad igual a

2
xy

r
Puesto que sabemos que

s y2 '

s y2
s 2y

El coeficiente de regresin representa la proporcin en que se reduce el error de estimacin


que se hubiera cometido al emplear como estimador

Por ejemplo, un coeficiente de regresin de 0,16 quiere decir que el emplear la recta de
regresin reduce el error en los pronsticos un 16% respecto al caso de que hubiramos
adjudicado la media aritmtica de Y a cada dato de la variable predicha.
Ejemplo

Para estudiar la relacin entre la biomasa y el pH en un medio de cultivo, se midi


la biomasa (gr) para valores de pH entre 3 y 7 registrndose 45
mediciones.

Los datos se encuentran en el archivo RegLin.

Se tom como Variable dependiente a la biomasa y como Variable regresora al


pH. El siguiente grfico muestra el comportamiento de las variables.

153

1014.74

894.25

Biomasa
773.77

653.29

532.80
2.80

3.90

5.00

6.10

7.20

pH
El diagrama indicara que hay una relacin positiva entre la biomasa y el pH. Solicitando
el anlisis de regresin se obtuvieron los siguientes resultados

Como puede verse, en la tabla del anlisis de la varianza, hay relacin


lineal entre la biomasa y el pH (p<0.0001).
Tambin se observa que el modelo propuesto no presenta falta de ajuste
(p=0.4348).
Tomando la informacin sobre los coeficientes de regresin se puede escribir la
ecuacin del modelo ajustado:
Y= a+bx = 313.95 + 95.56x

Esta recta permite estimar el valor de y (valor predicho) para un valor de


x. El modelo ajustado puede ser usado con fines predictivos; por ejemplo, para un
pH de 3.5 la biomasa esperada es:
Y= 313.95 + 95.56 (3.5)= 648.2 gr

154

Diagrama de dispersin con bandas de confianza y de prediccin


1063.53

928.01

Biomasa

792.48

656.95

521.43
2.80

3.90

5.00

6.10

7.20

pH

En la figura anterior la lnea central corresponde al modelo ajustado, las lneas


siguientes corresponden a las bandas de confianza y las lneas externas a las bandas de
prediccin.
68.70

n= 45 r= 0.993 (RDUO_Biomasa)

35.31

Cuantiles observados(RDUO_Biomasa) 1.92

-31.48

-64.87
-64.87

-31.48

1.92

35.31

68.70

Cuantiles de una Normal

Validacin de los supuestos


Normalidad:

Obsrvese que en el Q-Q plot fue realizado con los residuos del modelo de
regresin y usando como distribucin terica la Normal. Los puntos se disponen en una
recta a 45 indicando que el supuesto distribucional para los residuos se cumple.
Realizando la prueba se Shapiro-Wilks (modificada) en el men INFERENCIA
BASADA EN UNA MUESTRA se concluye que los datos siguen una distribucin
normal (p=0.8327).

155

Homocedasticidad:
puede verse que los puntos para los valores de pH ms altos presentan menor dispersin
que el resto, razn por la cual una prueba formal de homogeneidad de varianzas sera
recomendable.
2.63

1.35
RE_Biomasa
0.07

-1.21

-2.49
581.52

686.63
791.74
896.86
PRED_Biomasa

1001.97

Correlacin lineal
Es posible, que estudiando una variable bidimensional, no se desee establecer ninguna
relacin de subordinacin de una variable con respecto a la otra. En este supuesto, se
intenta cuantificar la asociacin entre las dos caractersticas.
Entramos en las tcnicas de correlacin lineal.
Es posible definir otro estadstico muestral a partir del las dos pendientes tericas
de las dos posibles rectas de regresin (y) sobre(x) y de (x) sobre (y).
Este estadstico es el coeficiente de correlacin r. Su cuadrado r2 es el coeficiente
de determinacin y da una medida entre 0 y 1 de la cantidad de informacin
compartida por dos caractersticas o variables continuas en los datos muestrales.
La magnitud de la asociacin entre dos variables continuas est en relacin con la
dispersin de la nube de puntos. Se puede establecer una relacin matemtica
perfecta entre la desviacin tpica de los residuos y el coeficiente de determinacin.
El hecho de que dos variables estn correlacionadas, e incluso que lo estn con
valores muy cercanos a 1, no implica que exista una relacin de causalidad entre
ellas. Se pueden producir correlaciones espurias (causales) entre dos variables, por
estar ambas relacionadas con otra tercera variable continua y anterior en el tiempo.
Los nuevos estadsticos generados en la regresin y correlacin lineal se emplean
como estimadores de los correspondiente parmetros poblacionales.
Para que los coeficientes de la regresin y correlacin sean estimadores adecuados
(centrados y de mnima varianza) de sus correspondientes parmetros
156

poblacionales, es necesario que se asuman ciertas condiciones en la poblacin de


origen, referidas fundamentalmente a las distribuciones de los residuos:
Que la media de los residuos sea cero.
Que su varianza sea similar (homognea) a lo largo de la variable (x):
homocedasticidad.
Que estn normalmente distribuidos

Ejemplo
En un experimento sobre crecimiento de una maleza se utilizan 20 unidades
experimentales consistentes en bandejas sembradas con 40 semillas al
comienzo de la experiencia. Se registra el nmero de semillas germinadas y al
cabo de un cierto tiempo en todas se obtiene un indicador del rea foliar y la
biomasa total. Se pretende estudiar las correlaciones de biomasa con rea foliar y
nmero de semillas germinadas, en un sistema donde la biomasa es considerada
como variable dependiente. Los datos se encuentran en el archivo Sendero.
Coeficientes de Sendero (Path Analysis)
Variable dependiente: Biomasa
Efecto
Via
Coeficientes p-valor
SemGerm
Directa
0.78168
SemGerm
AreaFoliar
-0.02020
r total
0.76148 0.00010
AreaFoliar
Directa
0.03017
AreaFoliar
SemGerm
-0.52326
r total
-0.49308 0.02717
La correlacin entre biomasa y rea foliar es significativa (r=-0.49, p=0.03) y est
fuertemente determinada (-0.52) por la correlacin entre biomasa y semillas germinadas.
La correlacin directa entre biomasa y semillas germinadas es alta y significativa
(r=0.78, p<0.0001).
Pearson
Correlacin de Pearson: coeficientes\probabilidades

Biomasa
SemGerm
AreaFoliar

Biomasa
1.00000
0.76148
-0.49308

SemGerm
0.00010
1.00000
-0.66940

AreaFoliar
0.02717
0.00125
1.00000

Regresin mltiple
Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta de
regresin de Y sobre X por el procedimiento de mnimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada conducta observada puede
ser influida por diferentes variables, resulta ms ecolgico examinar no ya cun bueno
es un predictor X para predecir Y, sino ms bien tendremos varios predictores X 1, X2, ....,
157

para predecir Y (o si se quiere, varios predictores, X2, X3,...., para predecir X1). Es el caso
de la regresin mltiple.
Hasta ahora tenamos:
Y= A + BX
Ahora tendremos k predictores:

X1

A B2 X 2

B3 X 3 ... Bk X k

X1= criterio, variable a predecir, variable dependiente


X2, X3= variables predictoras
Es importante tener en cuenta que las ponderaciones B2, B3, ..., son anlogas a las que
vimos en el caso de la recta de regresin simple.
Al igual que ocurra en la recta de regresin (fijarse que el caso de 1 predictor es un caso
particular de la regresin mltiple), A representa el lugar donde el hiperplano de regresin
mltiple corta el eje de la variable predicha.
En puntuaciones directas, la ecuacin de regresin es la que sabemos

X1

A B2 X 2

B3 X 3 ... Bk X k

En puntuaciones diferenciales, recordad que A vala 0 en la recta de regresin; lo mismo se


aplica en la ecuacin de regresin.

x1

b2 x2

b3 x3 ... bk xk

Y aplicando la misma lgica, el valor de los pesos es el mismo que el que tenamos en
puntuaciones directas
b2=B2
b3=B3 etc

Datos (N=5)
Rendim
9
3
6
2
7

Ansied Neurot
3
5
12
15
8
8
9
7
7
6
Resumen del modelo

Modelo
1

R
R cuadrado
.904 a
.817

R cuadrado
corregida
.634

Error tp. de la
estimacin
1.744

a. Variables predictoras: (Constante), NEURO, ANSIE

158

Coeficientesa

Modelo
1

(Constante)
ANSIED
NEUROT

Coeficientes no
estandarizados
B
Error tp.
11.288
2.221
-1.139
.510
.365
.421

Coeficientes
estandarizad
os
Beta
-1.293
.502

t
5.082
-2.233
.868

Sig.
.037
.155
.477

a. Variable dependiente: RENDIM

R1.23

0,904

Como en el caso de un predictor:

R12.23

S x2`1
S x21

Series de Tiempo
Anteriormente se plante el anlisis de regresin como una herramienta para la
elaboracin de modelos y prediccin. Ahora se presentar un mtodo cuantitativo de
elaboracin de pronsticos, llamado mtodo de series de tiempo. Los mtodos de
elaboracin de pronstico bsicamente se agrupan en mtodos cualitativos y mtodos
cuantitativos. Los mtodos cualitativos son altamente subjetivos y de criterio, son
importantes cuando no se cuenta con informacin histrica como pro ejemplo en el caso en
que se quiere predecir las ventas de un producto nuevo. Los mtodos cuantitativos por su
parte, se pueden subdividir en series de tiempo y causales. Los causales incluyen la
determinacin de factores que se relacionan con la variable a predecir. En tanto los
mtodos de series de tiempo incluyen las proyecciones de valores futuros de una variable,
basada completamente en observaciones pasadas.
La suposicin bsica que subyace en el anlisis de series de tiempo es que los factores que
han ocasionado patrones de actividad en el pasado y en el presente continuarn hacindolo,
ms o menos de la misma forma, en el futuro. Por consiguiente, los principales objetivo
del anlisis de series de tiempo consiste en identificar y aislar tales factores de influencia
con propsitos de hacer predicciones (pronsticos), as como para efectuar una planeacin
y un control administrativo.(Berenson y Levine).

Definicin de serie de tiempo


Una definicin de serie de tiempo adecuada es la que proporciona el autor G.S. Maddala.,
quien define una serie de tiempo como una secuencia de datos numricos cada uno de los
cuales se asocia con un instante especfico de tiempo. Es decir, observaciones de una
misma variable en tiempos t1, t2, t3, ..., tT.
Se dice que una serie de tiempo observada es continua cuando las observaciones se toman
continuamente en el tiempo, y se denota, por ejemplo, Y(t), 0 t T. Se dice que una serie
159

de tiempo observada es discreta cuando las observaciones se toman slo en momentos


especficos, usualmente equiespaciados, y se denota a la serie, por ejemplo, por Y t, t = 0, 1,
2, 3, ..., T. Desde un punto de vista terico una serie de tiempo es una coleccin de
variables aleatorias ordenadas con respecto al tiempo, que recibe el nombre de proceso
estocstico (proceso relativo al azar).
Como ejemplos de series de tiempo discretas y equiespaciadas se pueden mencionar,
precios de acciones en sucesivos das, totales de exportacin en sucesivos meses, ventas
semanales, mensuales o anuales de un comercio particular, lluvias cadas diariamente,
temperatura del aire medida en sucesivas horas, das o meses, poblacin de un pas en
forma anual, ndice de precio al consumidor, y el producto bruto interno (PBI).

Descomposicin de una serie de tiempo


Se puede pensar que una serie de tiempo est formada por varias componentes que
obedecen a causas diferentes. Estas componentes son la componente de tendencia (T), la
componente estacional (S), la componente cclica (C) y la componente irregular (I), ms
un trmino aleatorio. En trminos matemticos esto se puede expresar como:

Se definen a cada una de las componentes como


Tendencia:
Movimiento suave, de largo plazo, generalmente asociado a causas estructurales del
fenmeno en estudio; como aumento o disminucin de la poblacin, cambios en las
condiciones econmicas, mejora en la organizacin econmica, poltica y social, efectos
de cambios en cuestiones de salud, educacin, seguridad social, entre otros. Los efectos de
la tendencia se notan en lapsos largos con relacin al perodo de observacin. Una
dificultad que se plantea, es decir qu se entiende por largo plazo. Por ejemplo, variables
climticas algunas veces exhiben variaciones cclicas sobre un perodo de tiempo muy
largo, tal como 50 aos. Si solo se tiene 20 aos de datos, esta oscilacin a largo plazo
podra parecer parte de una tendencia, pero si se dispusiera de cientos de aos, la
oscilacin a largo plazo sera visible. Sin embargo en un perodo corto podra ser ms til
pensar en una oscilacin a largo plazo como una tendencia. As al hablar de tendencia
debemos tener en cuenta el nmero de observaciones disponibles y hacer una evaluacin
subjetiva del trmino largo plazo.
Ciclo:
Oscilacin casi peridica que dura 3, 5, 11, 13, etc. aos originada por diversas causas.
Algunas series de tiempo exhiben variaciones con perodos fijos debidas a causas fsicas,
como el caso de las variaciones diarias de temperatura. Otras exhiben oscilaciones que no
tienen un perodo fijo, pero que pueden ser predecibles, frecuentemente observado en
series econmicas.
Estacionalidad:
Movimientos recurrentes, intra anuales, peridicos o aproximadamente peridicos debido a
causas como sucesin de estaciones, presencia de temporadas o festividades anuales. Se
puede decir entonces, que las fluctuaciones estacionales son aquellas que aparecen de una
manera recurrente y con periodicidad anual.

160

Irregular:
Movimientos recurrentes que responden a una acumulacin de causas, o que no tienen una
causa especfica.
Para fijar ideas se presenta el siguiente ejemplo, extrado del libro de series de tiempo de
Box y Jenkins.
Ejemplo:
la serie a considerar es Cantidad de pasajeros en las lneas areas internacionales,
durante el perodo comprendido entre enero de 1949 y diciembre de 1961, son totales
mensuales, representados en miles de pasajeros. Estos datos fueron procesados con el
programa X- 11 ARIMA del Bureau of the Census, y los grficos que se muestran a
continuacin son los resultados de las estimaciones obtenidas por este programa En la
Figura 1 se representa la serie originaria. Se puede ver que esta serie tiene una marcada
tendencia ascendente, y adems existen oscilaciones dentro de los aos, que si bien tienen
aproximadamente la misma forma, la amplitud de las mismas se hace ms grande a travs
de los aos. Esto lleva a pensar en que la serie tiene adems de una componente de
tendencia una componente estacional. Al observar este grfico hay que tener presente que
no se pueden hacer comparaciones de la cantidad de pasajeros de las lneas areas
internacionales, en pares de meses arbitrarios, por ejemplo, julio de 1960 con junio o
marzo del mismo ao y concluir que hay mayor cantidad de personas que viajan en julio
que en marzo, ya que este aumento se puede haber debido al efecto estacional y no a la
realidad. Por lo tanto es importante hacer un estudio de cada una de las componentes y de
la serie sin estacionalidad

1 .Cantidad de pasajeros en las lneas areas internacionales. Serie ordinaria mensual

El grfico 2 muestra las estimaciones de la componente tendencia-ciclo en donde se ve un


marcado aumento de la tendencia. Este aumento puede deberse entre otras cosas, por
ejemplo, al aumento de consumo per cpita, a una baja en los precios de los boletos de
avin, al aumento de la poblacin.
A partir de este grfico se pueden comparar los niveles de pasajeros de dos meses, por
ejemplo julio de 1950 con julio de 1949, y decir que la cantidad de pasajeros en las lneas
areas internacionales en julio de 1950 era mayor que en julio de 1949, no se conoce la
cantidad pero si se puede ver que hay un aumento de un ao a otro.
161

2. Cantidad de pasajeros en las lneas areas internacionales. Tendencia ciclo final.

El grfico 3 de perodo completo y la Figura 4 (se grafica una porcin del perodo)
representan las oscilaciones dentro de los aos o intraanuales, o sea los factores
estacionales estimados. Se puede observar que hay picos para todos los aos en los meses
de junio, julio y agosto, que coincide con las vacaciones de verano, y que es la poca de
temporada alta para las lneas areas internacionales europeas. Se puede observar tambin,
un valle en los meses de enero y febrero, poca considerada como temporada baja. Es
decir, estas fluctuaciones pueden deberse a la presencia de temporada alta y baja en los
datos. Otro pico se produce, todos los aos, para los meses de marzo y abril, que puede
deberse al efecto Pascua.
Es importante entonces, eliminar estos efectos de los datos para poder observar el
verdadero comportamiento de los mismos.

3. Cantidad de pasajeros en las lneas areas internacionales.


Factores estacionales finales. Perodo completo

162

4 .Cantidad de pasajeros en las lneas areas internacionales.


Factores estacionales finales. Perodo Enero de 1949 a Diciembre de 1951

La Figura 5 representa la serie ajustada por estacionalidad, donde no est presente la


componente estacional pero si la componente de tendencia. Con esta serie se pueden hacer
comparaciones de la cantidad de pasajeros que han viajado en cualquier par de meses, y no
tan solo conocer por ejemplo que en julio de 1950 viajan mas que en julio de 1949 sino
tambin conocer la cantidad.

5. Cantidad de pasajeros en las lneas areas internacionales. Serie


ajustada estacionalmente.
Esta serie es la que hay que tener en cuenta para hacer comparaciones entre meses. Muy a
menudo se encuentra en peridicos que se compara el valor de una serie en un mes con el
o los meses precedentes sin tener mayor cuidado, y esto es de mayor riesgo, ya que un mes
de temporada alta es en general, mayor que un mes de temporada baja.

163

En resumen se espera:
o Poder conocer las componentes de una serie de tiempo para analizar la
estructura de cada una de ellas por separado.
o Poder hacer comparaciones de un mismo mes en distintos aos (niveles de
tendencia).
o Poder hacer comparaciones de cualquier par de meses (serie estimada por
estacionalidad).
o Usar las estimaciones de las componentes para predecir el comportamiento
futuro de la serie.

164

Pruebas No Paramtricas
Hasta ahora todas las tcnicas utilizadas para realizar algn tipo de inferencia exigan:
bien asumir de ciertas hiptesis como la aleatoriedad en las observaciones que
componen la muestra, o la normalidad de la poblacin, o la igualdad de varianzas
de dos poblaciones, etc;
o bien, la estimacin de cualquier parmetro como la media, varianza, proporcin,
etc, de la poblacin.
El conjunto de estas tcnicas de inferencia se denominan tcnicas paramtricas. Existen sin
embargo otros mtodos paralelos cuyos procedimientos no precisan la estimacin de
parmetros ni suponer conocida ninguna ley de probabilidad subyacente en la poblacin de
la que se extrae la muestra. Estas son las denominadas tcnicas no paramtricas o
contrastes de distribuciones libres, algunos de los cuales desarrollamos a continuacin. Sus
mayores atractivos residen en que:
Son ms fciles de aplicar que las alternativas paramtricas;
Al no exigir ninguna condicin suplementaria a la muestra sobre su proveniencia
de una poblacin con cierto tipo de distribucin, son ms generales que las
paramtricas, pudindose aplicar en los mismos casos en que estas son vlidas.
Por otro lado, esta liberacin en los supuestos sobre la poblacin tiene inconvenientes. El
principal es la falta de sensibilidad que poseen para detectar efectos importantes. En las
tcnicas no paramtricas juega un papel fundamental la ordenacin de los datos, hasta el
punto de que en gran cantidad de casos ni siquiera es necesario hacer intervenir en los
clculos las magnitudes observadas, ms que para establecer una relacin de menor a
mayor entre las mismas, denominadas rangos.

Aleatoriedad de una muestra: Test de rachas


A veces al realizar un muestreo, puede llegar a influir el orden temporal o espacial en que
las muestras han sido elegidas, con lo cual no estamos en las condiciones de un muestreo
aleatorio simple, ya que la ley de probabilidad vara de una observacin a otra. Como
ilustracin obsrvese la figura adjunta. Tambin podemos denominar a este contraste como
test de independencia de las observaciones de una muestra.

165

Consideremos una muestra de tamao n que ha sido dividida en dos categoras y con
n1 y n2 observaciones cada una. Se denomina racha a una sucesin de valores de la misma
categora. Por ejemplo si estudiamos una poblacin de personas podemos considerar como
categora el sexo

En funcin de las cantidades n1 y n2 se espera que el nmero de rachas no sea ni muy


pequeo ni muy grande.
Si las observaciones son cantidades numricas estas pueden ser divididas en dos categoras
que poseen aproximadamente el mismo tamao ( n1 = n2 1), si consideramos la mediana
de las observaciones como el valor que sirve para dividir a la muestra:

Se define la v.a. R como el nmero de rachas. Su distribucin est tabulada para los casos
y

(tabla 7 de Downie). La aleatoriedad en la extraccin de la muestra se

rechaza cuando

Aproximacin normal del test de rachas


Si el tamao de cualquiera de las dos muestras es mayor que 30, la distribucin de R se
aproxima a una normal de media:

Y varianza:

Y se considera el estadstico:

Se rechaza la hiptesis nula (aleatoriedad) si

166

Normalidad de una muestra: Test de D'Agostino


Consideremos n observaciones, las cuales ordenamos de menor a mayor y les asignamos
su rango en funcin de este orden

Se calculan sobre la muestra la media, la desviacin tpica un estadstico T y por ltimo el


estadstico del contraste D cuya distribucin est tabulada

En la tabla de la distribucin del estadstico de D'Agostino, D, para un nivel de


significacin , se busca un intervalo
de modo que si
se
rechaza la normalidad y en otro caso se asume. Para realizar este test es necesario que al
menos

Contraste de Wilcoxon para muestras apareadas


El contraste de Wilcoxon es la tcnica no paramtrica paralela a el de la T de Student para
muestras apareadas. Igualmente dispondramos de n parejas de valores (xi,yi) que podemos
considerar como una variable medida en cada sujeto en dos momentos diferentes.
El test de Wilcoxon, al igual que los otros contrastes no paramtricos puede realizarse
siempre que lo sea su homlogo paramtrico, con el inconveniente de que este ltimo
detecta diferencias significativas en un

de casos que el de la de Student.

Sin embargo a veces las hiptesis necesarias para el test paramtrico (normalidad de las
diferencias apareadas, di) no se verifican y es estrictamente necesario realizar el contraste
que presentamos aqu. Un caso muy claro de no normalidad es cuando los datos pertenecen
a una escala ordinal.
El procedimiento consiste en:
1. Ordenar las cantidades
de menor a mayor y obtener sus rangos.
2. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia
(no consideramos las cantidades di=0) y calculamos su suma, T

167

Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las
observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la
siguiente expresin de T' es ms sencilla de usar
T' = m(n+1)-T

donde m es el nmero de rangos con signo de di de menor frecuencia.


3. Si T T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon, se
rechaza la hiptesis nula del contraste

Aproximacin normal en el contraste de Wilcoxon


Si

la distribucin de T admite una aproximacin normal

donde

por lo que el estadstico

da como criterio el rechazar H0 si

Contraste de Kruskal-Wallis
El contraste de Kruskall-Wallis es la alternativa no paramtrica del mtodo ANOVA, es
decir, sirve para contrastar la hiptesis de que k muestras cuantitativas han sido obtenidas
de la misma poblacin. La nica exigencia versa sobre la aleatoriedad en la extraccin de
las muestras, no haciendo referencia a ninguna de las otras condiciones adicionales de
homocedasticidad y normalidad necesarias para la aplicacin del test paramtrico
ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se
cumple algunas de las condiciones que se necesitan para aplicar dicho mtodo.
Al igual que las dems tcnicas no paramtricas, sta se apoya en el uso de los rangos
asignados a las observaciones.
Para la exposicin de este contraste, supongamos que tenemos k muestras representadas en
una tabla como sigue:
168

Niveles

Observaciones de X

Nivel

x11 x12

Nivel

x21 x22
...

Nivel

x1n1
x2n2
...

xk1 xk2

xknk

El nmero total de elementos en todas las muestras es:


La hiptesis a contrastar es:

El modo de realizar el contraste es el siguiente:


Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su
rango (1 para la menor, 2 para la siguiente, ..., N para la mayor).
Para cada una de las muestras, se calcula Ri,
, como la suma de los
rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que
esas cantidades sean muy diferentes.

Se calcula el estadstico:

La regla para decidir si se ha de rechazar o no la hiptesis nula es la siguiente:


Si el nmero de muestras es k=3 y el nmero de observaciones en cada una de ellas
no pasa de 5 se rechaza H0 si el valor de H supera el valor terico que encontramos
en la tabla de Kruskall-Wallis.
En cualquier otro caso, se compara el valor de H con el de la tabla de la
con
k-1 grados de libertad. Se rechaza H0 si el valor del estadstico supera el valor
terico

169

Tablas de Contingencia
Las tablas de contingencia (formas tabulares de presentar datos
categorizados) son tiles para el anlisis simultneo de dos o ms variables
categorizadas.
Una variable categorizada es aquella en la cual la escala de medida consiste en un conjunto
de categoras, por ejemplo la variable tipo de vivienda puede ser categorizada de acuerdo a
las siguientes dos categoras rural y urbana.
Para analizar e interpretar apropiadamente tablas de contingencia es necesario
tener en cuenta la escala de medida de las variables involucradas y el tipo
de estudio (aleatorizacin) usado para obtener los datos. Comnmente, las hiptesis
de inters en tablas de contingencia se refieren a la asociacin entre las variables
que definen las filas y las columnas de la tabla.
Las variables categorizadas con niveles que no tienen un ordenamiento
natural se denominan nominales (por ejemplo, afiliacin poltica con
categoras liberal y conservador). Un caso particular es aquel de las variables
binarias las cuales involucran 2 categoras de variables nominales, por ejemplo, si y
no, respuesta y no respuesta.
Si los niveles se encuentran ordenados la variable se denomina ordinal; por
ejemplo, grado de infeccin categorizada como leve, moderada y severa. Si
bien las categoras pueden ser ordenadas, a diferencia de las variables
cuantitativas las distancias absolutas entre categoras son desconocidas.
En algunas situaciones las tablas pueden ser construidas con variables medidas en
una escala de intervalos, esta escala implica que se conoce la distancia
numrica entre dos niveles cualesquiera de la escala (por ejemplo, intervalos de la
variable edad).
Las variables que constituyen la tabla pueden ser consideradas como variables de
respuesta o como variables de clasificacin.
Las primeras, tambin llamadas variables dependientes, son aleatorias y
describen lo que fue observado en las unidades muestrales.
Las segundas, tambin llamadas variables independientes o factores, son
fijas por condicionamiento y las combinaciones de sus niveles definen
estratos, poblaciones o subpoblaciones a las cuales las unidades muestrales
pertenecen.
Cuando todas las variables de la tabla son de respuesta generalmente se
analiza la asociacin entre ellas.
Cuando algunas son respuesta y otras de clasificacin, en general se estudian los
efectos de las variables de clasificacin sobre la distribucin de las variables
de respuesta.
Si denotamos por X a una variable categorizada con I categoras o niveles y por Y a
otra variable con J niveles, para clasificar sujetos sobre ambas variables existirn
IJ combinaciones de clasificacin.
Los pares (X,Y) asociados a cada sujeto seleccionados aleatoriamente desde una
poblacin tienen una distribucin de probabilidad. La distribucin se presenta en
una tabla con I filas y J columnas.
La probabilidad asociada al evento IJ, en general denotada por ij representa la
probabilidad de que la variable X asuma la categora I y la variable Y asuma la
categora J.
170

El conjunto de los valores ij forman la distribucin conjunta de ambas


variables.
El conjunto de los valores ij (total de las probabilidades conjuntas de la fila i) para
i=1, ..., I, forma la distribucin marginal de las filas de la tabla.
Equivalentemente se puede obtener la distribucin marginal de las columnas.
Cuando una variable (digamos, Y) es considerada como variable respuesta y la
otra (digamos, X) como variables explicativa, es informativo identificar las
distribuciones de probabilidad de la respuesta para cada nivel de X, entindase la
distribucin condicional de Y dado X.
La nocin de independencia es comnmente utilizada en tablas de
contingencia.
Dos variables (X e Y) son estadsticamente independientes si las distribuciones
condicionales de Y son idnticas para todos los niveles de X.
Cuando ambas variables son consideradas como variables respuesta es indistinto
observar la distribucin condicional de Y dado X o la distribucin
condicional de X dado Y.
Las tablas de contingencia pueden ser utilizadas para visualizar resultados
obtenidos de distintos tipos de estudios:
1) estudios experimentales, aquellos donde el investigador tiene control
sobre el grupo de sujetos; es decir, decide bajo que condiciones va a ser
observado cada sujeto. Estos estudios son de tipo prospectivo y en el
campo biomdico se conocen como ensayos clnicos (clinical trials);
2) estudios observacionales, los cuales pueden ser retrospectivos (casocontrol) o prospectivos (cohortes, cross-sectional o transversales).
En el tipo caso-control se investiga el pasado seleccionando arbitrariamente un
grupo de sujetos que tienen la caracterstica en estudio (casos) y otro grupo de
sujetos que no la tienen para ser usados como referencia (control).
Esta seleccin arbitraria impide realizar ciertas inferencias sobre Y. La
distribucin marginal de Y est determinada por el muestreo y no
necesariamente responde a las caractersticas de la poblacin.
En el tipo cohorte o transversales se parte de una muestra aleatoria de sujetos los
cuales son clasificados en una de las celdas ij de la tabla, simultneamente, segn
corresponda. Los totales marginales son de tal manera aleatorios (no fijados por el
experimentador).
As, el diseo del estudio implica un tipo de muestreo particular el cual deber ser
tenido en cuenta a la hora de interpretar los estadsticos obtenidos de la tabla
de contingencia.
Tpicamente para tablas 22, entindase I=2 J=2, se identifican los siguientes
muestreos:
1) muestreo Poisson, cada celda es una variable Poisson independiente, derivado de
estudios transversales donde el muestreo es aleatorio y el nmero total de
individuos (n) no es fijo;
2) muestreo binomial, cada fila de la tabla define diferentes grupos y los tamaos
muestrales de la fila son fijados por el diseo (existe condicionamiento),
comnmente se necesita analizar las distribuciones condicionales a las filas
las cuales se modelan con una distribucin binomial para tablas 22 (en
caso de tablas con J>2 se utiliza el modelo multinomial para cada fila);
3) muestreo multinomial, los conteos de las celdas son multinomiales, el
tamao muestral total es fijo pero no se fijan los totales de filas ni de
columnas;

171

4) con n y marginales fijos la distribucin de valores por celda puede


aproximarse a una distribucin hipergeomtrica.
Ejemplo 1
la siguiente tabla corresponde a un ensayo experimental donde se estudia la
respuesta severidad de la infeccin producida por una plaga en 3
subpoblaciones del cultivo de man, cada una correspondiente a distintos
sistemas de manejo (distintas rotaciones de cultivos). Archivo Severidad.
Para declarar las variables de este ejemplo se debern indicar como Criterios
de clasificacin a las columnas Severidad y Rotacin.
La variable Frec debe ingresarse en la subventana Frecuencias.
Al Aceptar, en la solapa Seleccin de filas y columnas se deber indicar que
Rotacin define las filas y Severidad las columnas de la tabla.
Tablas de contingencia
Frecuencias: Frec
Frecuencias absolutas
En columnas:Severidad
Rotacin
alta baja
mani/maiz
118 199
mani/mani
227 152
mani/sorgo
138 205
Total
483 556

moderada
184
167
174
525

Total
501
546
517
1564

Estadstico
Chi Cuadrado Pearson
Chi Cuadrado MV-G2
Coef.Conting.Cramer
Coef.Conting.Pearson

Valor gl
48.84 4
48.33 4
0.10
0.17

p
<0.0001
<0.0001

Ejemplo 2
vamos a plantear otro ejemplo con 3 dimensiones, en la que se estudia la
proporcin de mujeres admitidas en una determinada Universidad frente a la
proporcin de hombres:

Datos tomados del libro de Powers y Xie, correspondientes a un estudio realizado


en la Universidad de California-Berkeley (Bickel et al. 1975; Freedman, Pisani,
and Purves 1978)
En base a estos datos se plantea una demanda a la citada Universidad acusndola
de sexista en las pruebas de admisin, que parecen favorecer claramente a los
hombres. Sin embargo los responsables de la Universidad presentaron los datos
distribuidos por facultades (vamos a denominar a las diferentes facultades de forma
genrica con las letras A hasta F):
172

Se puede ver que apenas hay diferencias en las tasas de admisin, salvo en la
facultad A donde el porcentaje de hombres admitidos es del 62% y el de mujeres
es del 82%!
Tenemos aqu un ejemplo claro de cmo la asociacin entre dos variables
cualitativas resulta ser espuria cuando se considera los valores de una tercera
variable, situacin que se conoce como Paradoja de Simpson y que tambin se
puede dar en variables cuantitativas.
Ejemplo 3
En la siguiente figura se presenta un ejemplo de tabla de contigencia para dos
variables: en las filas se encuentra la variable ESTUDIOS, clasificada segn tres
categoras, y en las columnas representamos la variable HTA, segn la clasificacin
propuesta en el documento The VI Report of the JNC on Prevention, Detection,
Evaluation and Treatement of High Blood Pressure. Los datos corresponden a un
conjunto de pacientes diabticos.

Los niveles de HTA II a IV se han agrupado en una sola categora.


Como se mencion anteriormente, en este tipo de tablas habitualmente se desea
conocer si existe asociacin entre las dos variables, o si por el contrario se pueden
considerar independientes.
Dicho de otra forma: queremos saber si la proporcin de casos para cada categora
de una de las variables es independiente del valor que toma la otra variable.
En la tabla del ejemplo nos interesa saber si la proporcin de sujetos en cada una de
las categoras de la variable HTA es diferente segn el nivel de estudios o si, por el
contrario, se pueden considerar independientes.

173

El razonamiento para contrastar si existe o no asociacin entre dos variables


cualitativas se basa en calcular cul seran los valores de frecuencia esperados para
cada una de las celdas en el caso de que efectivamente las variables fuesen
independientes, y compararlos con los valores realmente observados.
Si no existe mucha diferencia entre ambos, no hay razones para dudar de que las
variables sean independientes.
En el ejemplo, la proporcin de pacientes con HTA nivel I en nuestra muestra es
275 / 821 = 33.5%
Si las variables son independientes esta proporcin debiera mantenerse (al menos
de forma aproximada) en cada nivel de estudios. As como tenemos 167 pacientes
con estudios de 2 o 3 grado, el nmero de casos esperado con HTA nivel I es
167 x 0.335 = 55.9
mientras que el valor observado es slo 35.
Si se calcula el valor del chi obtenemos 35.6, que con 8 grados de libertad
corresponde a un valor de probabilidad de 0.00002, lo que indica que los datos
obtenidos estn en clara contradiccin con la hiptesis de independencia y debemos
por lo tanto concluir, a partir de la evidencia de nuestros datos, que existe
asociacin entre el grado de HTA y el nivel de estudios de los pacientes.
El contraste estadstico ms utilizado para evaluar si las diferencias entre las
frecuencias observadas y las esperadas pueden atribuirse al azar, bajo la hiptesis
de independencia, es el denominado chi de Pearson:

donde Fij representa la frecuencia esperada para la celda situada en la fila i columna
j, y fij representa la frecuencia efectivamente observada para esa celda. En la
hiptesis de independencia este estadstico se distribuye de forma aproximada
segn una chi con grados de libertad (I-1)(J-1), siendo I el nmero de filas y J el
nmero de columnas.

174

Diseo de Experimentos
Este parte del documento trata de dar una visin muy simplificada de la utilidad y la
utilizacin del Diseo de Experimentos. En l se explican los conceptos clave de esta
herramienta como aleatorizacin, ruido o error experimental, anlisis de varianza, etc., y se
detalla el proceso de diseo, realizacin y anlisis de Experimentos que contemplan una
nica variable independiente.

Concepto, Objetivo e Importancia


La investigacin cientfica consiste en la bsqueda permanente de la verdad mediante
mtodos objetivos, adecuados y precisos. La experimentacin es un mtodo cientfico de
investigacin que consiste en hacer operaciones y prcticas destinadas a demostrar,
comprobar o descubrir fenmenos o principios bsicos.
La experimentacin en el rea de las ciencias agropecuarias, en particular, comprende las
pruebas, ensayos, observaciones, anlisis o estudio prctico de todo aquello que interesa a
los fenmenos que ocurren en la naturaleza. Se considera un experimento probar con la
prctica una hiptesis formulada (por ejemplo ensayo de rendimiento de cuatro variedades
de Buffel grass). Se considera una investigacin cuando se estudia la causa y el efecto (por
ejemplo, determinacin del tamao de la parcela ms eficaz para ensayar variedades de
Buffel). En un experimento se observan nicamente los efectos y es de aplicacin prctica
inmediata, ya sea para el cientfico o para la comunidad. Por su parte, una investigacin es
de aplicacin mediata y puede ser evolucionista, o sea, puede conducir a idear nuevas
tcnicas o a modificar las existentes. Comnmente ambos trminos se confunden y son
inseparables.
La experimentacin en el rea de las ciencias agropecuarias se puede considerar como un
ARTE y como una CIENCIA.
COMO ARTE:
Por la habilidad necesaria para ingeniar, planear o aplicar un conjunto de tcnicas a fin de
eliminar causas extraas y realizar experimentos de campo y de laboratorio o de
invernadero.
COMO CIENCIA:
Por la aplicacin del mtodo cientfico y un conjunto de conocimientos cientficos para el
desarrollo de tecnologas que permitan forman nuevos tipos de plantas o animales, nuevas
prcticas agropecuarias que conduzcan al incremento de mayor produccin.
El mtodo cientfico consiste en la bsqueda de hechos, la formulacin de hiptesis y la
obtencin de principios y leyes que rigen tales hechos. Comprende dos pasos importantes.
a) MTODO INDUCTIVO: Mediante ste, se buscan hechos a travs de la
observacin y la experimentacin.
b) MTODO DEDUCTIVO: Consiste en clasificar y ordenar los hechos por medio de
una relacin. Si sta es contaste de manera que se pueda predecir un hecho y
confirmarlo mediante la experimentacin, puede ser general y formarse un
postulado bsico o una ley.

175

La aplicacin del mtodo cientfico ha conducido al descubrimiento de leyes que rigen el


proceso biolgico; por ejemplo, Gregorio Mendel formul sus hiptesis, relativas a la
herencia biolgica, despus de efectuar una serie de observaciones y experimentos; as
encontr las relaciones conocidas.
Los experimentos que se realizan frecuentemente en agronoma son:
a) Ensayos comparativos entre variedades, lneas, cruzamientos y descendencia.
b) Observaciones y pruebas con fertilizantes, raciones, insecticidas, fungicidas y
herbicidas.
c) Estudios de prcticas culturales, como rotacin de cultivos, manejo de pastizales,
riegos, densidades de siembra, preparacin del suelo, etc.
Lo anteriormente expuesto revela la importancia de la experimentacin agropecuaria, la
cual se puede apreciar en los aspectos cientfico, social y econmico.
Los pases que desarrollan programas de investigacin y experimentacin han
incrementado la produccin por unidad de superficie, lo cual ha originado un aumento en
la produccin global, ya que una mayor produccin unitaria estimula a sembrar mayor
superficie por mayor nmero de agricultores. Esto origina un desarrollo econmico en
diversas actividades humanas y un mejor bienestar social.

Necesidad de realizar la Experimentacin y la Investigacin


El desarrollo agrcola de pases avanzados se basa en la investigacin de las diversas
ciencias de la agronoma, empleando como mtodo la experimentacin. Cualquier
variedad o nueva modalidad en las tcnicas de cultivo, al introducirse a un nuevo pas o
regin, necesita de la experimentacin para poderse adaptar y divulgar entre los
agricultores. Esto se debe a que las condiciones de clima y suelo varan de una regin a
otra, de una estacin a otra o de un ao a otro.

Etapas fundamentales de la Experimentacin Agropecuaria


Las etapas sucesivas en todo trabajo de investigacin se pueden resumir en las siguientes:
1)
Especificacin del problema:
a. Antecedente
b. Importancia
c. Objetivos
d. Nmeros de los tratamientos
2)
Revisin de bibliografa respectiva
3)
Planteamiento (o diseo) del experimento (material y mtodos):
a. Lugar de la experiencia
b. Tamao de la parcela experimental o unidad experimental
c. Nmero de repeticiones por tratamiento
d. Distribucin de los tratamientos
e. Instrumentos, equipo, semillas, etc
f. Mtodos de evaluacin de resultados experimentales (pruebas de hiptesis,
niveles de significacin)
4)
Ejecucin y desarrollo de las operaciones en el campo o en el laboratorio.
5)
Recoleccin de datos y observaciones, muestreo, etc.
6)
Ordenamiento de los resultados experimentales.
176

7)
Interpretacin y evaluacin de resultados.
8)
Discusin de los resultados en relacin con los conocimientos vertidos
anteriormente, con los principios del razonamiento riguroso, o con resultados obtenidos
en otros experimentos similares realizados en diferente lugar y tiempo.
9)
Anlisis econmico y su utilidad prctica como contribucin a la comunidad.
10) Conclusiones.

El Mtodo Cientfico
El mtodo cientfico ha sido definido como una aplicacin de la lgica y la objetividad
para el entendimiento de los fenmenos naturales. Para ste, es esencial el estudio de lo
que ya se conoce; a partir de este conocimiento se formulan las hiptesis, las cuales se
ponen a prueba partiendo por lo general de situaciones experimentales, siendo sta la parte
crucial de todo el proceso ya que cualquier pregunta donde sus respuestas no pueden
obtenerse a partir de la investigacin no puede aceptarse como parte del mtodo cientfico.
El mtodo cientfico no es esttico, es de naturaleza circulante. De acuerdo con
Kempthorne (1952), la primera etapa es la observacin del fenmeno en estudio, donde se
colectan los elementos bsicos en trminos abstractos a partir de los cuales, se establecen
las bases lgicas de una teora, siendo sta la segunda etapa del mtodo. En la tercera
etapa, se lleva a cabo el desarrollo propiamente dicho de esta teora, de tal forma que en la
cuarta etapa se puede llegar a la prediccin de eventos futuros. Una vez termina este ciclo,
el proceso vuelve a repetirse, consolidando los fundamentos tericos, buscando siempre
una mayor precisin en la etapa de la prediccin. En este sentido, la estadstica juega un
papel importante en la fundamentacin del mtodo cientfico, donde de acuerdo con
Cramer (1960), tiene tres funciones fundamentales que son la descripcin, el anlisis y la
prediccin. En la investigacin cientfica, es comn la formulacin de la hiptesis, la cual
para su aprobacin o rechazo, debe estar sustentada por un conjunto de observaciones, las
cuales deben seleccionarse a travs de un patrn bien definido. Este patrn se conoce como
diseo experimental.
Se deben destacar dos aspectos esenciales en el mtodo cientfico:
i.

ii.

Examen crtico de resultados experimentales previos basados en el


conocimiento corriente, con el fin de formular nuevas hiptesis para ser
probadas por medio de la experimentacin, y
Diseo de experimentos recomendados por el estudio experimental del
problema con el propsito de proveer mayor informacin para posibles
soluciones.

Estos dos aspectos implican una naturaleza interactiva para la experimentacin prctica.
Box (1957) ha establecido cuatro etapas bsicas, estas son:
1. Conjeturas, donde las investigaciones experimentales de resultados iniciales son
tenidas en cuenta para plantear nuevas hiptesis a ser probadas.
2. Diseo del experimento donde algunas formas para probar una nueva hiptesis son
desarrolladas.
3. Desarrollo del experimento y,
4. Anlisis, donde los datos experimentales son cuidadosamente examinados para
determinar que evidencia tienen en relacin con la hiptesis de estudio.

177

Una vez que se ha alcanzado la ltima etapa, el ciclo comienza nuevamente con la
formulacin de nuevas hiptesis. De esta manera, conceptos originales son modificados y
un mejor entendimiento del problema y sus posibles soluciones lentamente van
evolucionando.
Las principales contribuciones estadsticas a este proceso iterativo ocurren en el diseo de
experimentos y en el anlisis de los datos. Este es el propsito del anlisis, proveer una
explicacin razonable a la evidencia experimental, para determinar cuales hiptesis estn
en contradiccin con la evidencia, para proveer estimaciones de parmetros poblacionales,
para indicar el nivel de confianza que puede asignarse a cualquier conclusin alcanzada y
estimular el proceso de conjetura por parte del experimentador. Esto no podra ser
realizado a menos que un diseo de experimentos valido haya sido usado.
Es una funcin del diseo experimental estadstico, proveer los patrones de observacin
para ser recolectados con el fin de obtener estimaciones ms precisas y/o para tener la
capacidad de probar las distintas hiptesis con una potencia de discriminacin mxima.

Modelos
Los modelos de Diseo de experimentos son modelos estadsticos clsicos cuyo objetivo
es averiguar si unos determinados factores influyen en la variable de inters y, si existe
influencia de algn factor, cuantificarla. Ejemplos donde habra que utilizar estos modelos
son los siguientes:
En el rendimiento de un determinado tipo de mquinas (unidades producidas por
da) se desea estudiar la influencia del trabajador que la maneja y la marca de la mquina.
Se quiere estudiar la influencia del tipo de pila elctrica y de la marca en la
duracin de las pilas.
Una compaa telefnica est interesada en conocer la influencia de varios factores
en la variable de inters la duracin de una llamada telefnica. Los factores que se
consideran son los siguientes: hora a la que se produce la llamada; da de la semana en que
se realiza la llamada; zona de la ciudad desde la que se hace la llamada; sexo del que
realiza la llamada; tipo de telfono (pblico o privado) desde el que se realiza la llamada.
Una compaa de software est interesada en estudiar la variable porcentaje que se
comprime un fichero al utilizar un programa que comprime ficheros teniendo en cuenta el
tipo de programa utilizado y el tipo de fichero que se comprime.
Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se
desean controlar diferentes factores: profesor que imparte la asignatura; mtodo de
enseanza; sexo del alumno.
La metodologa del diseo de experimentos se basa en la experimentacin. Es conocido
que si se repite un experimento, en condiciones indistinguibles, los resultados presentan
variabilidad que puede ser grande o pequea. Si la experimentacin se realiza en un
laboratorio donde la mayora de las causas de variabilidad estn muy controladas, el error
experimental ser pequeo y habr poca variacin en los resultados del experimento. Pero
si se experimenta en procesos industriales, administrativos, ... la variabilidad es grande en
la mayora de los casos.
El objetivo del diseo de experimentos es estudiar si utilizar un determinado tratamiento
produce una mejora en el proceso o no. Para ello se debe experimentar utilizando el
tratamiento y no utilizndolo. Si la variabilidad experimental es grande, slo se detectar la
influencia del uso del tratamiento cuando ste produzca grandes cambios en relacin con el
error de observacin.

178

La metodologa del Diseo de Experimentos estudia cmo variar las condiciones


habituales de realizacin de un proceso emprico para aumentar la probabilidad de detectar
cambios significativos en la respuesta, de esta forma se obtiene un mayor conocimiento del
comportamiento del proceso de inters.
Para que la metodologa de diseo de experimentos sea eficaz es fundamental que el
experimento est bien diseado.
Un experimento se realiza por alguno de los siguientes motivos:
Determinar las principales causas de variacin en la respuesta.
Encontrar las condiciones experimentales con las que se consigue un valor extremo
en la variable de inters o respuesta.
Comparar las respuestas en diferentes niveles de observacin de variables
controladas.
Obtener un modelo estadstico-matemtico que permita hacer predicciones de
respuestas futuras.
La utilizacin de los modelos de diseo de experimentos se basa en la experimentacin y
en el anlisis de los resultados que se obtienen en un experimento bien planificado. En
muy pocas ocasiones es posible utilizar estos mtodos a partir de datos disponibles o datos
histricos, aunque tambin se puede aprender de los estudios realizados a partir de datos
recogidos por observacin, de forma aleatoria y no planificada. En el anlisis estadstico de
datos histricos se pueden cometer diferentes errores, los ms comunes son los siguientes:
o Inconsistencia de los datos. Los procesos cambian con el tiempo, se producen cambios
en el personal (cambios de personas, mejoras del personal por procesos de aprendizaje,
motivacin...),
cambios
en
las
mquinas
(reposiciones,
reparaciones,
envejecimiento...). Estos cambios tienen influencia en los datos recogidos, lo que hace
que los datos histricos sean poco fiables, sobre todo si se han recogido en un amplio
espacio de tiempo.
o Variables con fuerte correlacin. Puede ocurrir que en el proceso existan dos o ms
variables altamente correlacionadas que pueden llevar a situaciones confusas. Por
ejemplo, en el proceso hay dos variables X1 y X2 fuertemente correlacionadas que
influyen en la respuesta, pero si en los datos que se tiene aumenta al mismo tiempo el
valor de las dos variables no es posible distinguir si la influencia es debida a una u otra
o a ambas variables (confusin de los efectos). Otra situacin problemtica se presenta
si solo se dispone de datos de una variable (por ejemplo de X 1 y no de X2), lo que
puede llevar a pensar que la variable influyente es la X1 cuando, en realidad, la
variable influyente es la X2 (variable oculta).
o El rango de las variables controladas es limitado. Si el rango de una de las variables
importantes e influyentes en el proceso es pequeo, no se puede saber su influencia
fuera de ese rango y puede quedar oculta su relacin con la variable de inters o lo
cambios que se producen en la relacin fuera del rango observado. Esto suele ocurrir
cuando se utilizan los datos recogidos al trabajar el proceso en condiciones normales y
179

no se experimenta (cambiando las condiciones de funcionamiento) para observar el


comportamiento del proceso en situaciones nuevas.

Tipos de variabilidad.
Uno de los principales objetivos de los modelos estadsticos y, en particular, de los
modelos de diseo de experimentos, es controlar la variabilidad de un proceso estocstico
que puede tener diferente origen. De hecho, los resultados de cualquier experimento estn
sometidos a tres tipos de variabilidad cuyas caractersticas son las siguientes:
Variabilidad sistemtica y planificada.
Esta variabilidad viene originada por la posible dispersin de los resultados debida a
diferencias sistemticas entre las distintas condiciones experimentales impuestas en el
diseo por expreso deseo del experimentador. Es el tipo de variabilidad que se intenta
identificar con el diseo estadstico.
Cuando este tipo de variabilidad est presente y tiene un tamao importante, se espera que
las respuestas tiendan a agruparse formando grupos (clusters).
Es deseable que exista esta variabilidad y que sea identificada y cuantificada por el
modelo.
Variabilidad tpica de la naturaleza del problema y del experimento.
Es la variabilidad debida al ruido aleatorio. Este trmino incluye, entre otros, a la
componente de variabilidad no planificada denominada error de medida. Es una
variabilidad impredecible e inevitable.
Esta variabilidad es la causante de que si en un laboratorio se toman medidas repetidas de
un mismo objeto ocurra que, en muchos casos, la segunda medida no sea igual a la
primera y, ms an, no se puede predecir sin error el valor de la tercera. Sin embargo, bajo
el aparente caos, existe un patrn regular de comportamiento en esas medidas: todas ellas
tendern a fluctuar en torno a un valor central y siguiendo un modelo de probabilidad que
ser importante estimar.
Esta variabilidad es inevitable pero, si el experimento ha sido bien planificado, es posible
estimar (medir) su valor, lo que es de gran importancia para obtener conclusiones y poder
hacer predicciones.
Es una variabilidad que va a estar siempre presente pero que es tolerable.
Variabilidad sistemtica y no planificada.
Esta variabilidad produce una variacin sistemtica en los resultados y es debida a causas
desconocidas y no planificadas. En otras palabras, los resultados estn siendo sesgados
sistemticamente por causas desconocidas. La presencia de esta variabilidad supone la
principal causa de conclusiones errneas y estudios incorrectos al ajustar un modelo
estadstico.
Como se estudiar posteriormente, existen dos estrategias bsicas para tratar de evitar la
presencia de este tipo de variabilidad: la aleatorizacin y la tcnica de bloques.

180

Este tipo de variabilidad debe de intentar evitarse y su presencia lleva a conclusiones


errneas.

Planificacin de un experimento
La experimentacin forma parte natural de la mayora de las investigaciones cientficas e
industriales, en muchas de las cuales, los resultados del proceso de inters se ven afectados
por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad
de los resultados muestrales. Es fundamental conocer los factores que influyen realmente y
estimar esta influencia. Para conseguir esto es necesario experimentar, variar las
condiciones que afectan a las unidades experimentales y observar la variable respuesta.
Del anlisis y estudio de la informacin recogida se obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentacin, para el estudio de estos
problemas, se basaba en estudiar los factores uno a uno, esto es, variar los niveles de un
factor permaneciendo fijos los dems. Esta metodologa presenta grandes inconvenientes:
Es necesario un gran nmero de pruebas.
Las conclusiones obtenidas en el estudio de cada factor tiene un campo de validez
muy restringido.
No es posible estudiar la existencia de interaccin entre los factores.
Es inviable, en muchos casos, por problemas de tiempo o costo.
Las tcnicas de diseo de experimentos se basan en estudiar simultneamente los efectos
de todos los factores de inters, son ms eficaces y proporcionan mejores resultados con un
menor coste.
A continuacin se enumeran las etapas que deben seguirse para una correcta planificacin
de un diseo experimental, etapas que deben ser ejecutadas de forma secuencial. Tambin
se introducen algunos conceptos bsicos en el estudio de los modelos de diseo de
experimentos.
Las etapas a seguir en el desarrollo de un problema de diseo de experimentos son las
siguientes:
1) Definir los objetivos del experimento.
2) Identificar todas las posibles fuentes de variacin, incluyendo:

a. factores tratamiento y sus niveles,


b. unidades experimentales,
c. factores nuisance (molestos): factores bloque, factores ruido y covariables.
3) Elegir una regla de asignacin de las unidades experimentales a las condiciones de

estudio (tratamientos).
4) Especificar las medidas con que se trabajar (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
181

5)
6)
7)
8)
9)

Ejecutar un experimento piloto.


Especificar el modelo.
Esquematizar los pasos del anlisis.
Determinar el tamao muestral.
Revisar las decisiones anteriores. Modificarlas si se considera necesario.

Los pasos del listado anterior no son independientes y en un determinado momento puede
ser necesario volver atrs y modificar decisiones tomadas en algn paso previo.
A continuacin se hace una breve descripcin de las decisiones que hay que tomar en cada
uno de los pasos enumerados. Slo despus de haber tomado estas decisiones se proceder
a realizar el experimento.
1.- Definir los objetivos del experimento.
Se debe hacer una lista completa de las preguntas concretas a las que debe dar respuesta el
experimento. Es importante indicar solamente cuestiones fundamentales ya que tratar de
abordar problemas colaterales puede complicar innecesariamente el experimento.
Una vez elaborada la lista de objetivos, puede ser til esquematizar el tipo de conclusiones
que se espera obtener en el posterior anlisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van ejecutando las etapas
del diseo de experimentos.
2.- Identificar todas las posibles fuentes de variacin.
Una fuente de variacin es cualquier cosa que pueda generar variabilidad en la
respuesta. Es recomendable hacer una lista de todas las posibles fuentes de variacin del
problema, distinguiendo aquellas que, a priori, generarn una mayor variabilidad. Se
distinguen dos tipos:
-

Factores tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es de


particular inters para el experimentador.

Factores nuisance: son aquellas fuentes que no son de inters directo pero que se
contemplan en el diseo para reducir la variabilidad no planificada.

A continuacin se precisan ms estos importantes conceptos.


1) Factores y sus niveles.

Se denomina factor tratamiento a cualquier variable de inters para el experimentador


cuyo posible efecto sobre la respuesta se quiere estudiar.
Los niveles de un factor tratamiento son los tipos o grados especficos del factor que se
tendrn en cuenta en la realizacin del experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:
proveedor (diferentes proveedores de una materia prima),
tipo de mquina (diferentes tipos o marcas de mquinas),
trabajador (los trabajadores encargados de hacer una tarea),
182

tipo de procesador (los procesadores de los que se quiere comparar su velocidad de


ejecucin),
un aditivo qumico (diferentes tipos de aditivos qumicos),
el sexo (hombre y mujer),
un mtodo de enseanza (un nmero determinado de mtodos de enseanza cuyos
resultados se quieren comparar).
Ejemplos de factores cuantitativos son los siguientes:
tamao de memoria (diferentes tamaos de memoria de ordenadores),
droga (distintas cantidades de la droga),
la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de inters).
Debe tenerse en cuenta que en el tratamiento matemtico de los modelos de diseo de
experimento los factores cuantitativos son tratados como cualitativos y sus niveles son
elegidos equiespaciados o se codifican. Por lo general, un factor no suele tener ms de
cuatro niveles.
Cuando en un experimento se trabaja con ms de un factor, se denomina:
Tratamiento a cada una de las combinaciones de niveles de los distintos factores.
Observacin es una medida en las condiciones determinadas por uno de los
tratamientos.
Experimento factorial es el diseo de experimentos en que existen observaciones de
todos los posibles tratamientos.
2) Unidades experimentales.

Son el material donde evaluar la variable respuesta y al que se le aplican los distintos
niveles de los factores tratamiento.
Ejemplos de unidades experimentales son:
en informtica, ordenadores, pginas web, buscadores de internet,
en agricultura, parcelas de tierra,
en medicina, individuos humanos u animales,
en industria, lotes de material, trabajadores, mquinas.

183

Cuando un experimento se ejecuta sobre un perodo de tiempo de modo que las


observaciones se recogen secuencialmente en instantes de tiempo determinados, entonces
los propios instantes de tiempo pueden considerarse unidades experimentales.
Es muy importante que las unidades experimentales sean representativas de la poblacin
sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se utilizan los
estudiantes universitarios de un pas como unidades experimentales, las conclusiones del
experimento no son extrapolables a toda la poblacin adulta del pas.
3) Factores nuisance: bloques, factores ruido y covariables.

En cualquier experimento, adems de los factores tratamiento cuyo efecto sobre la


respuesta se quiere evaluar, tambin influyen otros factores, de escaso inters en el estudio,
pero cuya influencia sobre la respuesta puede aumentar significativamente la variabilidad
no planificada. Con el fin de controlar esta influencia pueden incluirse en el diseo nuevos
factores que, atendiendo a su naturaleza, pueden ser de diversos tipos.
Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos niveles,
de modo que es posible controlar su efecto a esos niveles. Entonces la forma de actuar es
mantener constante el nivel del factor para un grupo de unidades experimentales, se
cambia a otro nivel para otro grupo y as sucesivamente. Estos factores se denominan
factores de bloqueo (factores-bloque) y las unidades experimentales evaluadas en un
mismo nivel del bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor
nuisance no es medible, a veces es posible agrupar las unidades experimentales en bloques
de unidades similares: parcelas de tierra contiguas o perodos de tiempo prximos
probablemente conduzcan a unidades experimentales ms parecidas que parcelas o
perodos distantes.
Desde un punto de vista matemtico el tratamiento que se hace de los factoresbloque es el mismo que el de los factores-tratamiento en los que no hay interaccin, pero
su concepto dentro del modelo de diseo de experimentos es diferente. Un factortratamiento es un factor en el que se est interesado en conocer su influencia en la variable
respuesta y un factor-bloque es un factor en el que no se est interesado en conocer su
influencia pero se incorpora al diseo del experimento para disminuir la variabilidad
residuas del modelo.
Covariable. Si el factor nuisance es una propiedad cuantitativa de las unidades
experimentales que puede ser medida antes de realizar el experimento (el tamao de un
fichero informtico, la presin sangunea de un paciente en un experimento mdico o la
acidez de una parcela de tierra en un experimento agrcola). El factor se denomina
covariable y juega un papel importante en el anlisis estadstico.
Ruido. Si el experimentador est interesado en la variabilidad de la respuesta cuando se
modifican las condiciones experimentales, entonces los factores nuisance son incluidos
deliberadamente en el experimento y no se aisla su efecto por medio de bloques. Se habla
entonces de factores ruido.

184

En resumen, las posibles fuentes de variacin de un experimento son:


Fuente

Tipo

Debida a las condiciones de inters

Planificada y sistemtica

(Factores tratamiento)
Debida al resto de condiciones

Planificada y sistemtica

controladas
(Factores nuisance)
Debida a condiciones no controladas

No planificada, pero sistemtica?

(error de medida, material


experimental, ... )
3.- Elegir una regla de asignacin de las unidades experimentales a las condiciones de
estudio (tratamientos).
La regla de asignacin o diseo experimental especifica que unidades experimentales se
observarn bajo cada tratamiento. Hay diferentes posibilidades:
diseo factorial o no,
anidamiento,
asignacin al azar en determinados niveles de observacin,
el orden de asignacin, etc.
En la prctica, existen una serie de diseos estndar que se utilizan en la mayora de los
casos.
4.- Especificar las medidas que se realizarn (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
Variable respuesta o variable de inters. Los datos que se recogen en un experimento son
medidas de una variable denominada variable respuesta o variable de inters.
Es importante precisar de antemano cul es la variable respuesta y en qu unidades
se mide. Naturalmente, la respuesta est condicionada por los objetivos del experimento.
Por ejemplo, si se desea detectar una diferencia de 0,05 gramos en la respuesta de dos
tratamientos no es apropiado tomar medidas con una precisin prxima al gramo.
A menudo aparecen dificultades imprevistas en la toma de datos. Es conveniente
anticiparse a estos imprevistos pensando detenidamente en los problemas que se pueden
presentar o ejecutando un pequeo experimento piloto (etapa 5). Enumerar estos
problemas permite en ocasiones descubrir nuevas fuentes de variacin o simplificar el
procedimiento experimental antes de comenzar.
Tambin se debe especificar con claridad la forma en que se realizarn las
mediciones: instrumentos de medida, tiempo en el que se harn las mediciones, etc.

185

5.- Ejecutar un experimento piloto.


Un experimento piloto es un experimento que utiliza un nmero pequeo de
observaciones. El objetivo de su ejecucin es ayudar a completar y chequear la lista de
acciones a realizar. Las ventajas que proporciona la realizacin de un pequeo
experimento piloto son las siguientes:
permite practicar la tcnica experimental elegida e identificar problemas no
esperados en el proceso de recogida de datos,
si el experimento piloto tiene un tamao suficientemente grande puede ayudar a
seleccionar un modelo adecuado al experimento principal,
los errores experimentales observados en el experimento piloto pueden ayudar a
calcular el nmero de observaciones que se precisan en el experimento principal.
6.- Especificar el modelo.
El modelo matemtico especificado debe indicar la relacin que se supone que existe entre
la variable respuesta y las principales fuentes de variacin identificadas en el paso 2. Es
fundamental que el modelo elegido se ajuste a la realidad con la mayor precisin posible.
El modelo ms habitual es el modelo lineal:

Yij

ij

En este modelo la respuesta viene dada por una combinacin lineal de trminos que
representan las principales fuentes de variacin planificada ms un trmino residual debido
a las fuentes de variacin no planificada. Los modelos que se estudian en este texto se
ajustan a esta forma general. El experimento piloto puede ayudar a comprobar si el modelo
se ajusta razonablemente bien a la realidad.
Los modelos de diseo de experimentos, segn sean los factores incluidos en el
mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos aleatorios y
modelos mixtos. A continuacin se precisan estas definiciones.
Factor de efectos fijos es un factor en el que los niveles han sido seleccionados por el
experimentador. Es apropiado cuando el inters se centra en comparar el efecto sobre la
respuesta de esos niveles especficos.
Factor de efectos aleatorios es un factor del que slo se incluyen en el experimento una
muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se
utilizan estos factores cuando tienen un nmero muy grande de niveles y no es razonable o
posible trabajar con todos ellos. En este caso se est interesado en examinar la variabilidad
de la respuesta debida a la poblacin entera de niveles del factor.
7.- Esquematizar los pasos del anlisis estadstico.
El anlisis estadstico a realizar depende de:
los objetivos indicados en el paso 1,
186

el diseo seleccionado en el paso 3,


el modelo asociado que se especific en el paso 5.
Se deben esquematizar los pasos del anlisis a realizar que deben incluir:
estimaciones que hay que calcular,
contrastes a realizar,
intervalos de confianza que se calcularn
diagnosis y crtica del grado de ajuste del modelo a la realidad.
8.- Determinar el tamao muestral.
Calcular el nmero de observaciones que se deben tomar para alcanzar los objetivos del
experimento.
Existen, dependiendo del modelo, algunas frmulas para determinar este tamao. Todas
ellas sin embargo requieren el conocimiento del tamao de la variabilidad no planificada
(no sistemtica y sistemtica, si es el caso) y estimarlo a priori no es fcil, siendo
aconsejable sobreestimarla. Normalmente se estima a partir del experimento piloto y en
base a experiencias previas en trabajos con diseos experimentales semejantes.
9.- Revisar las decisiones anteriores. Modificar si es necesario.
De todas las etapas enumeradas, el proceso de recogida de datos suele ser la tarea que
mayor tiempo consume, pero es importante realizar una planificacin previa, detallando
los pasos anteriores, lo que garantizar que los datos sean utilizados de la forma ms
eficiente posible.
Es fundamental tener en cuenta que
Ningn mtodo de anlisis estadstico, por sofisticado que sea, permite extraer
conclusiones correctas en un diseo de experimentos mal planificado.
Recprocamente, debe quedar claro que el anlisis estadstico es una etapa ms que est
completamente integrado en el proceso de planificacin.
El anlisis estadstico no es un segundo paso independiente de la tarea de planificacin.
Es necesario comprender la totalidad de objetivos propuestos antes de comenzar con el
anlisis. Si no se hace as, tratar que el experimento responda a otras cuestiones a
posteriori puede ser (lo ser casi siempre) imposible.
Pero no slo los objetivos estn presentes al inicio del anlisis sino tambin la
tcnica experimental empleada. Una regla de oro en la experimentacin y que debe
utilizarse es la siguiente:
No invertir nunca todo el presupuesto en un primer conjunto de experimentos y
utilizar en su diseo toda la informacin previa disponible.
Finalmente indicar que todas las personas que trabajan en el experimento se deben
implicar en el mismo, esto es:

187

Toda persona implicada en la ejecucin del experimento y en la recoleccin de los


datos debe ser informada con precisin de la estrategia experimental diseada.

Resumen de los principales conceptos.


Resumen de la terminologa comn utilizada en la teora de los modelos de diseo de
experimentos:
Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo
sobre los que se experimenta.
Variable de inters o respuesta: es la variable que se desea estudiar y controlar su
variabilidad.
Factor: son las variables independientes que pueden influir en la variabilidad de la
variable de inters.
Factor tratamiento: es un factor del que interesa conocer su influencia en la
respuesta.
Factor bloque: es un factor en el que no se est interesado en conocer su influencia
en la respuesta pero se supone que sta existe y se quiere controlar para disminuir
la variabilidad residual.
Niveles: cada uno de los resultados de un factor. Segn sean elegidos por el
experimentador o elegidos al azar de una amplia poblacin se denominan factores
de efectos fijos o factores de efectos aleatorios.
Tratamiento: es una combinacin especfica de los niveles de los factores en
estudio. Son, por tanto, las condiciones experimentales que se desean comparar en
el experimento. En un diseo con un nico factor son los distintos niveles del factor
y en un diseo con varios factores son las distintas combinaciones de niveles de los
factores.
Observacin experimental: es cada medicin de la variable respuesta.
Tamao del Experimento: es el nmero total de observaciones recogidas en el
diseo.
Interaccin de factores: existe interaccin entre dos factores FI y FJ si el efecto de
algn nivel de FI cambia al cambiar de nivel en FJ. Esta definicin puede hacerse
de forma simtrica y se puede generalizar a interacciones de orden tres o superior.
Ortogonalidad de factores: dos factores FI y FJ con I y J niveles, respectivamente,
son ortogonales si en cada nivel i de FI el nmero de observaciones de los J niveles
de FJ estn en las mismas proporciones. Esta propiedad permite separar los efectos
simples de los factores en estudio.
Diseo equilibrado o balanceado: es el diseo en el que todos los tratamientos son
asignados a un nmero igual de unidades experimentales.

Principios bsicos en el diseo de experimentos.


Al planificar un experimento hay tres principios bsicos que se deben tener siempre en
cuenta:
El principio de aleatorizacin.
El bloqueo.
La factorizacin del diseo.
188

Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los
tratamientos a las unidades experimentales sin preocuparse de qu tratamientos considerar.
Por el contrario, la factorizacin del diseo define una estrategia eficiente para elegir los
tratamientos sin considerar en absoluto como asignarlos despus a las unidades
experimentales.
Aleatorizar
Aleatorizar todos los factores no controlados por el experimentador en el diseo
experimental y que pueden influir en los resultados sern asignados al azar a las unidades
experimentales.
Ventajas de aleatorizar los factores no controlados:
Transforma la variabilidad sistemtica no planificada en variabilidad no planificada o
ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la introduccin de sesgos
en el experimento.
Evita la dependencia entre observaciones al aleatorizar los instantes de recogida
muestral.
Valida muchos de los procedimientos estadsticos ms comunes.
Bloquear
Se deben dividir o particionar las unidades experimentales en grupos llamados bloques de
modo que las observaciones realizadas en cada bloque se realicen bajo condiciones
experimentales lo ms parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el experimentador no est
interesado en investigar las posibles diferencias de la respuesta entre los niveles de los
factores bloque.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades
experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara influencia en la
respuesta pero en el que no se est interesado, es la siguiente:
Convierte la variabilidad sistemtica no planificada en variabilidad sistemtica
planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar
y de bloquear en un experimento.
La factorizacin del diseo.
Un diseo factorial es una estrategia experimental que consiste en cruzar los niveles de
todos los factores tratamiento en todas las combinaciones posibles.
Ventajas de utilizar los diseos factoriales:
189

Permiten detectar la existencia de efectos interaccin entre los diferentes factores


tratamiento.
Es una estrategia ms eficiente que la estrategia clsica de examinar la influencia de un
factor manteniendo constantes el resto de los factores.

Fuentes de Error
Las discrepancias entre los observado y lo esperado para un tratamiento surgen de dos
fuentes principales de variacin cuya magnitud relativa depende del experimento que se
est considerando. La primera es el error que se introduce cuando se quiere reproducir
(repetir) el experimento sobre cada una de las unidades experimentales; la otra es la
respuesta diferencial de cada unidad experimental al tratamiento que recibe y que depende
de propiedades inherentes a la unidad experimental. A la primer fuente
de error se la conoce como error de tratamiento y a la segunda como error de muestreo.
Una vez realizado un experimento, ambas fuentes de error son indistinguibles y conforman
un nico error que se designa genricamente como error experimental.
Existen dos recursos bsicos para reducir el efecto no deseado de la presencia de los
errores. Estos recursos son la aleatorizacin y la repeticin.
Para modelar es importante identificar DOS tipos de estructuras

Estructura de
PARCELAS

Estructura de
TRATAMIENTOS

Estructura de parcelas
Anteriormente se estableci que la aleatorizacin era un mtodo de distribucin equitativa
de parcelas sobre y sub respondedoras a los tratamientos y que el mtodo se justificaba en
el hecho de que no era posible anticipar estas respuestas. A estos diseos en los que la
aleatorizacin no est restringida, se los llama completamente aleatorizados. En algunos
casos, sin embargo, es posible establecer que algunas parcelas o unidades experimentales
respondern de una manera y otras de otra. Un ejemplo simple se observa en los ensayos
de rendimiento cuando el terreno donde se realiza el experimento tiene una pendiente
marcada. En estos casos las parcelas de la parte elevada suelen tener rendimientos menores
que las de la parte baja y usar aleatorizacin (no restringida) como criterio de distribucin
de las parcelas no es la mejor decisin a la hora de planificar el experimento. Por el
contrario, si a cada tratamiento se le asigna una repeticin dentro de conjuntos de parcelas
ubicados por ejemplo en la parte superior, media e inferior del lote experimental y se
aplica aleatorizacin dentro de cada conjunto de esas parcelas, se habr reconocido desde
el punto de vista del diseo, una fuente sistemtica de variacin debida a la pendiente del
190

terreno. Para ser consistentes con el diseo, el modelo del experimento deber incorporar
los parmetros necesarios para dar cuenta de la estructura de parcelas. El resultado de esta
accin no es solo tener un modelo con mas parmetros sino un experimento mas preciso.

Diseo de la estructura de parcelas


Consiste en el agrupamiento de unidades experimentales homogneas en grupos o bloques.
El reconocimiento de la estructura de parcelas y su incorporacin al modelo de anlisis de
la varianza tiene como consecuencia inmediata el aumento de precisin del diseo. Esto es
as siempre y cuando la estructura de parcela obedezca al reconocimiento de variaciones
reales entre las unidades experimentales ya que la imposicin de una estructura de parcela
arbitraria e innecesaria lejos de aumentar la precisin la disminuir.

Algunos diseos clsicos


A continuacin se presentan tres diseos (estructura de parcelas) clsicos en la literatura de
diseo de experimentos. El segundo de ellos es uno de los ms simples arreglos de
unidades experimentales no homogneas y posiblemente el ms popular entre los
experimentadores agrcolas.

Completamente aleatorizado
Cuando las parcelas experimentales son homogneas o no se es capaz de anticipar
respuestas diferenciales de cada una de ellas, la mejor opcin desde el punto de vista del
diseo de experimentos es asignar los tratamientos, de manera completamente al azar. El
modelo para este diseo y el anlisis de la varianza discutidos cuando estudiamos el
Anlisis de la Varianza corresponden al anlisis de un experimento unifactorial sin
estructura de parcelas.
Ejemplo:
El porcentaje de humedad relativa (HR) es determinante para el ataque de hongos en
semillas. Para evaluar la susceptibilidad de las semillas de una forrajera al ataque de un
hongo se realiz un ensayo en cmaras de cra con tres porcentajes de HR: 70%, 80% y
90%. Se tomaron cinco observaciones para cada porcentaje de HR, registrndose el
nmero de semillas atacadas en un grupo de 100 semillas.

191

Si =0,05 luego el punto crtico que delimita la zona de aceptacin y rechazo de H 0 es


F(2,12; 0.95) = 3,88
Como F=21,91> Fcrtica se concluye, con un nivel de significacin del 5%, que se rechaza
la hiptesis nula de igualdad de medias, por lo tanto al menos una de las HR produce un
grado de ataque de hongos diferente de los restantes.

Comparaciones mltiples
Si se rechaza la hiptesis nula del ANAVA, la pregunta que sigue es cul o cules de las
medias poblacionales en estudio son las diferentes?
Existe una gama muy amplia de alternativas para llevar adelante este tipo de pruebas, entre
las que se destacan las pruebas de Tukey (Tukey, 1949), Scheff (Scheff, 1953), Duncan
(Duncan, 1955), Dunnet (Dunnet, 1964) y la de Fisher (Fisher, 1966), entre otras.

Prueba de Tukey
Examina con un mismo estadstico todas las diferencias de medias muestrales en estudio.

Si hay a medias, luego habr


El estadstico de Tukey es el siguiente:

diferencias de medias posibles.

donde qa,gld; (1-) es el cuantil (1-) que se obtiene de la distribucin de Rangos


Studentizados para a tratamientos y los grados de libertad dentro; es el nivel de
significacin en base al cual se rechaz la H0 del ANAVA y n es el nmero de repeticiones
en base a las que se calculan las medias muestrales.
Si el valor de la diferencia entre un par de medias supera a DMSt, se dice que esta
diferencia es estadsticamente significativas. Se concluir en consecuencia que las
esperanzas asociadas a esa diferencia son distintas con un nivel de significacin .
En el Ejemplo recurdese que se haba concluido que los diferentes porcentajes HR
producan un diferente grado de ataque del hongo sobre la semilla de man. La pregunta
que sigue es cul o cules de ellos producen ataques diferentes? Para dar respuesta a ello
se utilizar el test de Tukey.

192

El segundo paso consiste en calcular el estadstico de Tukey. Para el ejemplo, a = 3,


gld=12 y =0.05 (el mismo usado en el ANAVA), q a,gld;(1-) = 3.77; CMD = 6.73 y n=5
(nmero de repeticiones). As se tiene:

Para terminar con esta prueba basta controlar qu diferencias entre medias muestrales son
mayores que 4,37 para concluir que las esperanzas que estiman difieren entre s con un
nivel de significacin del 5%. Revisando la matriz de diferencias de medias se puede
verificar que :

193

Luego, el grado de ataque que se produce con un 80% de HR no difiere del que se produce
con 90% de HR, mientras que con 70% de HR se produce un ataque significativamente
menor que con 80 y 90%. Sintetizando se podra afirmar con un 95% de confianza que el
menor grado de ataque se produce con 70% de HR.

Prueba de Fisher
La prueba de Fisher es similar en su procedimiento a la prueba de Tukey, pero el
estadstico de la prueba es diferente. En vez de usar los cuantiles de la distribucin de
rangos estudentizados utiliza los cuantiles de una t con los grados de libertad del cuadrado
medio dentro de tratamientos y es particular para cada comparacin de medias ya que
depende del nmero de repeticiones por tratamiento. Luego, la diferencia mnima
significativa entre el tratamiento i-simo y el tratamiento j-simo est dada por:

Para el ejemplo que estamos tratando: t 12;(0.95)=1.782, CMD=6.73 y ni=nj=5 ij, luego la
diferencia mnima significativa por Fisher es para todas las comparaciones

194

Es interesante mostrar que mientras para Fisher la diferencia mnima significativa es 2,92,
para Tukey es 4,37. Esto implica que con Fisher es ms fcil rechazar la hiptesis de
igualdad de medias que con Tukey, por esta razn se dice que este ltimo es ms
conservador (menor error tipo I) y el primero ms potente (menor error tipo II).

Bloques completos aleatorizados


Aunque la asignacin aleatoria de tratamientos es una forma natural de distribuir
imparcialmente las pequeas (o grandes) diferencias en las respuestas de las unidades
experimentales, esta asignacin no siempre es la ms conveniente. Cuando las diferencias
de respuestas de las unidades experimentales pueden ser anticipadas, lo conveniente es
agrupar aquellas unidades similares en bloques y asignar aleatoriamente los tratamientos
dentro de esos bloques. De esta manera, cada bloque representa una repeticin completa de
todos los tratamientos. Este arreglo experimental se denomina diseo en bloques
completos aleatorizados. Se dice que son completos porque en cada bloque aparecen todos
los tratamientos, y aleatorizados porque dentro de cada bloque los tratamientos son
distribuidos aleatoriamente. Un caso particular de diseo en bloques es el que aparece
relacionado con la prueba T para muestras apareadas, aunque el nmero de tratamientos es
slo dos.
Ejemplo:
Se realiz un ensayo para evaluar el rendimiento en kg de materia seca por hectrea de una
forrajera megatrmica con distintos aportes de N2 en forma de urea. Las dosis de urea
probadas fueron 0 (control), 75, 150, 225 y 300 kg/ha. El ensayo se realiz en distintas
zonas, en las que por razones edficas y climticas se podan prever rendimientos
diferentes. Las zonas en este caso actuaron como bloques. El diseo a campo se ilustra en
la siguiente figura y a continuacin se presentan los resultados obtenidos ordenados por
tratamiento y por bloque.

195

El modelo lineal para un anlisis de la varianza con un factor (en este caso fertilizante) en
un diseo en bloques completos, es el siguiente:
determinista

Yij

ij
aleatorio

Yij es la observacin del i-simo tratamiento en el j-simo bloque


es la media general de las observaciones
i es el efecto del i-simo tratamiento
j es el efecto del j-simo bloque

196

ij es una variable aleatoria normal, independientemente distribuida con esperanza 0 y


varianza 2
Frmulas de trabajo de anlisis de la varianza de un experimento unifactorial con diseo
en bloques completos aleatorizados:

Tabla de Anlisis de la Varianza para un diseo en Bloques:

El procedimiento del test de hiptesis es similar al realizado para un diseo completamente


aleatorizado. Dado que F, 41.57, es mayor que el cuantil (1-) de una distribucin F4,12 se
rechaza la hiptesis de igualdad de tratamientos. La aplicacin del test a posteriori es
directa y el nmero de bloques (b) sustituye el nmero de repeticiones en el clculo del
error estndar de la comparacin.
La eficacia de este diseo depende de los efectos de los bloques. Si stos son pequeos, es
ms eficaz el diseo completamente aleatorio ya que el denominador en la comparacin de
tratamientos tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho
mejor y ms eficaz este modelo, ya que disminuye la variabilidad no explicada. Por ello, es
mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se
pasa fcilmente al modelo de un solo factor sumando en la tabla ANAVA la fila del factor
bloque con la de la variabilidad residual.

197

Cuadrado latino
Una extensin directa del concepto de bloques completos aleatorizado es la del cuadrado
latino, en el que se incorporan al diseo, el reconocimiento de dos fuentes sistemticas de
variacin entre parcelas.
Este diseo no es tan popular como el anterior ya que impone un nmero fijo de
repeticiones y cuando el nmero de tratamientos es grande, el experimento completo puede
ser inmanejable. De hecho, el nmero total de parcelas experimentales es igual al cuadrado
del nmero de tratamientos. No obstante estas dificultades, el cuadrado latino es un diseo
base de otros diseos como los llamados experimentos cross-over, populares en la
experimentacin con animales.
El diseo en cuadrado latino clsico de la experimentacin agrcola, en el que ensayan a
tratamientos, se obtiene ordenando a2 parcelas experimentales en un cuadrado de a.a
parcelas y asignando a parcelas a cada uno de los tratamientos de tal manera que en cada
fila y en cada columna haya slo una repeticin de cada tratamiento como muestra la
Figura

El modelo lineal de un experimento en diseo cuadrado latino es el siguiente:

Yij

ijk

donde Yijk es la observacin de la respuesta del i-simo tratamiento en la columna j-sima


y fila k-sima. ijk es el trmino de error correspondiente a la observacin del i-simo
tratamiento en la columna j-sima y fila k-sima. En este modelo los parmetros
modelan los efectos de las columnas y las filas respectivamente.

j y k

Frmulas de trabajo de anlisis de la varianza de un experimento unifactorial con diseo


en Cuadrado Latino:

198

Ejemplo:
La siguiente tabla muestra los rendimientos de remolacha azucarera en toneladas por
hectrea bajo tres tipos de labores culturales:

Es importante notar que la suma de cuadrados debida a las columnas es


muy importante y si no hubiera sido removida de la suma de cuadrados
del error la interpretacin de estos resultados hubiera sido diferente.
199

Estructura de tratamientos
Anteriormente se present a los tratamientos como los distintos niveles de un nico factor
o como combinacin de niveles de varios factores.
En este ltimo caso, el experimentador se pregunta si es posible identificar los efectos de
cada uno de los factores, estimarlos y eventualmente probar hiptesis sobre ellos.
Aunque la respuesta es afirmativa an persiste una duda fundamental para qu disear
experimentos en los que hay que usar herramientas analticas especiales para separar los
efectos de los distintos factores si se pueden planificar experimentos ms sencillos para
cada factor evitando complicaciones?.
La respuesta a este problema est relacionada con el concepto de eficiencia y que en
trminos prcticos se relaciona con la cantidad de repeticiones que son necesarias en un
experimento para tener una precisin dada.
Por ejemplo si para evaluar los efectos de los factores A y B con tres niveles cada uno se
requieren tres repeticiones para cada nivel, se necesitarn 9 unidades experimentales para
el ensayo del factor A y otras 9 para el ensayo del factor B, haciendo un total de 18
unidades experimentales.
Si en vez de utilizar dos experimentos separados se planifica un experimento conjunto con
9 tratamientos (3 niveles de A x 3 niveles de B) y solo se repite una vez cada tratamiento,
solo se necesitarn 9 unidades experimentales para acomodar todo el experimento y an se
tendrn tres unidades tratadas con cada uno de los niveles de cada uno de los factores.
Es decir que, aunque no se cuentan con repeticiones para las combinaciones de niveles de
factores, si las hay (tres) para cada uno de los niveles de los factores individuales. En
consecuencia, con la mitad de las unidades experimentales necesarias para acomodar los
experimentos separados, se puede montar un experimento conjunto que provee la misma
precisin para la evaluacin de cada factor individual.
Si an se quisieran invertir las 18 unidades experimentales de los dos experimentos
originales, se podra hacer una repeticin completa de todo el experimento y se tendra el
doble de unidades experimentales para cada nivel de cada uno de los factores y en este
sentido, los EXPERIMENTOS FACTORIALES son ms eficientes para evaluar los
efectos de los factores individuales.
Pero los experimentos factoriales, cuando estn repetidos, permiten adems, probar la
existencia y estimar la magnitud de respuestas diferenciales a la combinacin de los
factores individuales, fenmeno que se conoce como interaccin. Dado que la interaccin
es comn en los sistemas biolgicos, los experimentos que son capaces de detectarla y
estimarla son siempre preferibles.

200

Experimentos Factoriales
En los modelos de los experimentos factoriales los parmetros i que hacen referencia a
los efectos de tratamientos se descompone en un conjunto de parmetros que dan cuenta de
cada uno de los factores intervinientes y se agrega segn sea necesario, conveniente y
posible, los trminos correspondientes a las interacciones.
MODELOS ADITIVOS
Los modelos factoriales aditivos son aquellos en los que los trminos que modelan la
interaccin estn ausentes. Para ejemplificar este caso se presenta un experimento factorial
2x2 (dos factores con dos niveles cada uno) en el que la interaccin se supone ausente y
montado en un diseo completamente aleatorizado.
Los Factores se han designado como A y B y sus niveles como A1,A2 y B1,B2. Como
existen 4 tratamientos (A1B1, A1B2, A2B1, A2B2) y estos no estn repetidos, se necesitan
slo cuatro parcelas experimentales. Dado que el diseo es completamente aleatorizado la
asignacin de las parcelas a cada uno de los tratamientos es al azar. Un arreglo posible se
presenta en la siguiente figura.

201

Glosario de trminos estadsticos


A
AJUSTE DE BONFERRONI
Tcnica estadstica que ajusta el nivel de significacin en relacin al nmero de pruebas
estadsticas realizadas simultneamente sobre un conjunto de datos. El nivel de
significacin para cada prueba se calcula dividiendo el error global de tipo I entre el
nmero de pruebas a realizar. El ajuste de Bonferroni se considera conservador.
AMPLITUD O RANGO
La diferencia entre el valor mximo y mnimo de los valores de una variable. En la
amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales
ANACOVA o ANCOVA
Anlisis de la covarianza. Es una tcnica estadstica que combina ANOVA (pues compara
medias entre grupos) y anlisis de regresin (ajusta las comparaciones de las medias entres
los grupos por variables continuas o covariables)
ANAVA o ANOVA
Anlisis de la varianza. Es una tcnica estadstica que sirve para decidir/determinar si las
diferencias que existen entre las medias de tres o ms grupos (niveles de clasificacin) son
estadsticamente significativas. Las tcnicas de ANOVA se basan en la particin de la
varianza para establecer si la varianza explicada por los grupos formados es
suficientemente mayor que la varianza residual o no explicada
REA BAJO LA CURVA entre dos puntos
Si la curva viene dada por una funcin de densidad terica, representa la probabilidad de
que la variable aleatoria tome un valor dentro del intervalo determinado por esos dos
puntos
B
BONFERRONI
Ver ajuste de bonferroni
C
CARACTERSTICAS
Propiedades de las unidades o elementos que componen las muestras. Se miden mediante
variables. Se asume que los individuos presentan diferentes caractersticas.
CAUSALIDAD
Relacin entre causa y efecto. Generalmente identificadas como variables. No hay que
confundir causalidad con correlacin. La correlacin mide la similitud estructural
numrica entre dos variables. Normalmente la existencia de correlacin es condicin
necesaria para la causalidad.
COEFICIENTE DE CORRELACIN
Estadstico que cuantifica la correlacin. Sus valores estn comprendidos entre -1 y 1

202

COEFICIENTE DE DETERMINACIN
Es el cuadrado del coeficiente de correlacin. Expresado en tanto por ciento mide el grado
de informacin compartida entre dos variables continuas
COEFICIENTES DE REGRESIN
En un modelo de regresin lineal son los valores de a y b que determinan la expresin de
la recta de regresin y=a + bx
COEFICIENTE DE VARIACIN
Es una medida de dispersin relativa. No tiene unidades y se calcula dividiendo la cuasidesviacin tpica entre la media muestral. Se suele expresar en tanto por ciento
CONTRASTE BILATERAL
Contraste de hiptesis en la que la hiptesis alternativa da opcin a igualdad o superioridad
CONTRASTE DE HIPTESIS
Es el proceso estadstico que se sigue para la toma de decisiones a partir de la informacin
de la muestra. Comparando el valor del estadstico experimental con le valor terico
rechazamos o no la hiptesis nula
CONTRASTE UNILATERAL
Contraste de hiptesis en la que la hiptesis alternativa da opcin a solo igualdad o a solo
superioridad
CORRELACIN
Expresa la concordancia entre dos variables segn el sentido de la relacin de estas en
trminos de aumento disminucin
COVARIABLES
Variables continuas independientes que junto a una o ms variables grupo de tratamiento
sirven para explicar una variable respuesta continua. Supongamos que pretendemos
explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento
A/B, teniendo en cuenta el peso. La variable peso es una covariable
COVARIANZA
Representa la media del producto de las desviaciones de dos variables en relacin a su
media.
CUARTILES
Existen tres cuartiles: Q!, Q2 y Q3. Estos nmeros dividen a los valores muestrales , una
vez ordenados, en cuatro partes homogneas en cuanto a nmero de observaciones. As Q 1
determina el valor que hace que haya un 25% de valores muestrales por debajo de ste, y
un 75% por encima de ste. Q2 es la mediana
CUASIVARIANZA
Caracterstica de una muestra o poblacin que cuantifica su dispersin o variabilidad. La
cuasi varianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral
es un estimador centrado (no sesgado) de la varianza poblacional.
D
DATOS CENSURADOS
203

En anlisis de supervivencia son datos donde no se conoce el tiempo total hasta la


aparicin del fracaso/xito bien porque el individuo se retir del estudio bien porque se
acab el estudio (datos con censura administrativa) Existen datos censurados por la
izquierda y por la derecha.
DATOS PAREADOS
Datos de poblaciones dependientes, donde los datos de las variables van emparejados por
individuos, en contraposicin con los datos independientes
DECILES
Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y
100%
DESCRIPTIVA
Parte de la estadstica que resume la informacin de la muestra. La informacin recogida y
resumida en los estadsticos se usa para la estimacin de parmetros poblacionales
DESVIACIN ESTANDAR (TPICA)
Caracterstica de una muestra o poblacin que cuantifica su dispersin o variabilidad.
Tiene las mismas unidades que la variable. la desviacin tpica es invariante con respecto
al origen de la distribucin. Su cuadrado es la varianza
DIAGRAMA DE PUNTOS (scatter plot)
Es un grfico bidimensional o tridimensional que muestra la variacin de los valores
muestrales de dos o tres variables.
DIAGRAMAS DE BARRAS
Representacin grfica para las variables discretas
DIFERENCIAS ESTADISTICAMENTE SIGNIFICATIVAS
Las diferencias entre lo observado y lo supuesto en la hiptesis nula no puede ser
explicado por el azar
DIFERENCIAS RELEVANTES
Diferencia esperada o definida a priori con un valor conceptual intrnseco. No confundir
diferencias estadsticamente significativas que establece si una diferencia, cualquiera que
sea su valor
DIMENSIN
Si estudiamos una nica variable la dimensin es uno, si estudiamos la informacin de dos
variables en forma conjunta la dimensin es dos,...
DISPERSIN
Ver estadsticos de dispersin
DISTRIBUCIN DE DATOS
En la realizacin de un experimento, corresponde a la recogida de los datos experimentales
para cada individuo y cada variable
DISTRIBUCIN NORMAL O DE GAUSS
204

Es una distribucin terica de probabilidad que se usa tanto en la estadstica aplicada como
en la terica. Aparece en la prctica con mucha frecuencia como consecuencia del
importante resultado que establece el teorema central del lmite. Tiene una forma en forma
de campana, y viene caracterizada por nicamente dos valores: la media y la varianza.
DISTRIBUCIN T STUDENT
Distribucin terica de probabilidad. Se usa para la comparacin de dos medias en
poblaciones independientes y normales
E
ECUACIN DE LA REGRESIN
Ver recta de regresin
ERROR ALFA
Es el error que se comete cuando se rechaza una hiptesis nula cuando sta verdadera.
Error de tipo I
ERROR ALFA GLOBAL
Es el error alfa que se comete por hacer mltiples comparaciones
ERROR BETA
Es el error que se comete cuando no se rechaza una hiptesis nula siendo sta falsa. Error
de tipo II
ERROR DE PRIMERA ESPECIE
Ver error alfa
ERROR DE SEGUNDA ESPECIE
Ver error beta
ERROR DE TIPO I
Ver error alfa
ERROR DE TIPO II
Ve error beta
ERROR ESTANDAR DE LA MEDIA
Es el cociente entre la cuasi varianza muestral y la raz cuadrada del tamao muestral
ERROR ESTANDAR DE LOS RESIDUOS
Estadstico de dispersin de los valores de los residuos despus de la regresin.
ERROR FALSO NEGATIVO
Ver error beta
ERROR FALSO POSITIVO
Ver error alfa
ESCALA
La distribucin de datos puede recogerse en distintas escalas: nominal, dicotmica,
discreta o continua
205

ESPECIFICIDAD DE UN TEST DIAGNSTICO


Representa la probabilidad de que un individuo este sano habiendo dado negativo en el test
diagnstico
ESTADSTICO DE CONTRASTE EXPERIMENTAL
Se utiliza para realizar las pruebas o contrastes de hiptesis. Depende de la muestra. Su
valor hay que compararlo con el valor crtico dado en las tablas de distribucin tericas
ESTADSTICOS
Son funciones de la muestra. Su valor variar segn la muestra, pero nos permite hacer
estimaciones de parmetro poblacionales o construir estadsticos experimentales para
tomar decisiones acerca de la
ESTADSTICOS DE CENTRALIZACIN
Son estadsticos que nos resumen la informacin de la muestra dndonos informacin
acerca del valor donde parece concentrarse la distribucin de datos
ESTADSTICOS DE DISPERSIN
Son estadsticos que nos resumen la informacin de la muestra dndonos informacin
acerca de la magnitud del alejamiento de la distribucin de datos en relacin a un valor
central o de concentracin de los datos
ESTADSTICOS DE FORMA
Son aquellos que nos hablan de la forma de la distribucin de datos en cuanto a su simetra
y su apuntamiento
ESTIMACIN
Tcnicas estadsticas que a partir de la informacin de la estadstica descriptiva pretenden
conocer cmo es la poblacin en global. Existen tcnicas de estimacin puntuales y por
intervalos de confianza
ESTIMADOR
Funcin de la muestra que sirve para dar valores candidatos a los valores desconocidos
poblacionales.
F
FACTOR
Variable que se incluye en un modelo con el propsito de explicar la variacin en la
variable respuesta. Ver variable independiente o explicativa
FACTOR DE CLASIFICACIN
Es una variable que se usa para clasificar los datos experimentales en grupos. Los factores
de clasificacin son variables nominales. Cada factor de clasificacin se compone de
niveles. As la variable "Fumador" codificada como "nunca", "ex fumador", "fumador
actual" es un factor de clasificacin con tres niveles
FRECUENCIAS: ABSOLUTAS, RELATIVAS
Las frecuencias absolutas representan el recuento de los valores de una variable discreta de
forma que su suma nos da el tamao muestral .Las relativas son las absolutas divididas por

206

el tamao muestral .Las frecuencias relativas sumarn 1 100 segn se expresen en tanto
por uno o en tanto por ciento
FUNCIN
Funcin matemtica. Expresin que liga dos o mas variables de forma determinstica
FUNCIN TERICA DE PROBABILIDAD
Idealizacin matemtica que nos permite calcular probabilidades de que una variable tome
un valor (caso discreto) o rango de valores (caso continuo)
G
GAUSSIANA
Ver distribucin normal
GRADO DE CONFIANZA
Ver nivel de confianza
GRADOS DE LIBERTAD
El nmero de datos que se pueden variar para que a un total fijo podamos reconstruir dicho
total. as la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos
variar n-1 datos ya que restante vendr fijado. En una tabla 4x3, si nos dan las frecuencias
marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando
forzosamente determinadas las frecuencias de las celdas restantes. As, los grados de
libertad seran en este caso de 6
H
HETEROCEDASTICIDAD
Hiptesis de no igualdad de varianzas poblacionales en distintos grupos
HIPTESIS
Cualquier teora que formule posibles lneas de trabajo experimental. Ver hiptesis nula y
alternativa
HIPOTESIS ALTERNATIVA
Aquella que queremos probar. Representa la hiptesis renovadora
HIPOTESIS NULA
Aquella que queremos rechazar. Representa a la situacin actual
HISTOGRAMAS
Es un grfico en forma de barras de una variable continua que se ha discretizado en
intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia
relativa en ste.
HOMOCEDASTICIDAD
Hiptesis de igualdad de varianzas poblacionales en distintos grupos
I
IMPRECISION
Error que se comete en la prediccin

207

INDEPENDENCIA
Son datos que no estn ligados entre si
INTERVALO DE PROBABILIDAD
Proporcin de casos entre dos valores definidos de la muestra
INTERVALOS CONFIDENCIALES
Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mnima y mxima del
verdadero parmetro poblacional con un determinado nivel de confianza
J
JACKNIFE
Mtodo estadstico de estimacin por intervalos de confianza basado en la simulacin con
reeemplazamineto, propuesto por TuKey
L
LIMITES CONFIDENCIALES
Extremos de los intervalos confidenciales
M
MAXIMO
Es un valor muestral de forma que por encima de este no hay valores muestrales
MEDIANA
Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores
muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.
MEDIA
Es una medida de centralizacin para una variable continua. Se obtiene sumado todos los
valores muestrales y dividiendo por el tamao muestral
MNIMO
Es un valor muestral de forma que por debajo de este no hay valores muestrales
MODA
Es el valor que ms se repite en una variable nominal
MODELO
Intento matemtico / estadstico para explicar una variable respuesta por medio de una o
ms variables explicativas o factores
MUESTRAS
Subgrupos de observaciones de la poblacin de estudio.
N
NIVEL DE CONFIANZA
Se define como 1 menos el nivel de significacin. Se suele expresar en tanto por ciento
NIVEL DE SIGNIFICACIN

208

La probabilidad de rechazar una hiptesis nula verdadera; es decir, la probabilidad de


cometer un error de tipo I
NIVELES DE CLASIFICACIN
Los distintos posibles valores que pueden aparecer en una variable explicativa nominal u
ordinal
NORMAL
Ver distribucin de probabilidad normal
NMEROS
Ver valores numricos
O
OBSERVACION
Sinnimo de caso registro e individuo
ORDEN DE UNA MATRIZ
Es el nmero que designa, en una matriz cuadrada, el numero de filas o columnas
ORTOGONAL
Se dice de las variables y en general de las funciones que son independientes.
P
P (p- valor)
El nivel de significacin observado en le test. Cuanto ms pequeo sea, mayor ser la
evidencia para rechazar la hiptesis nula
PARMETROS
Son valores desconocidos de caractersticas de una distribucin terica. El objetivo de la
estadstica es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial
PEARSON ( r de Pearson)
Ver coeficiente de correlacin
PERCENTILES
Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay
un 90% de valores muestrales inferiores a ste, y un 10% de valores muestrales superiores
a ste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil
respectivamente
POBLACIONES
Conjunto de individuos de inters. Normalmente no se dispone de informacin de toda la
poblacin y se recurre a muestras
PORCENTAJES
Proporciones expresadas en tanto por ciento
POTENCIA DE LA PRUEBA
(1-beta). Es decir la probabilidad de rechazar una hiptesis nula siendo sta falsa. Se suele
expresar en tanto por ciento
209

PREVALECIA
Cociente entre el nmero de individuos que poseen una caracterstica (p. ej. enfermedad)
entre el total de la poblacin
PROBABILIDAD
Asignacin de un nmero entre cero y uno a cada resultado experimental.
PROPORCION
Nmero de individuos que verifican una condicin entre el total del tamao muestral. Se
puede expresar en tanto por uno o en tanto por cien
PRUEBA CHI CUADRADO
Se utiliza para analizar tablas de contingencia y comparacin de proporciones en datos
independientes
PRUEBA DE F
Prueba estadstica que sirve para comparar varianzas. El estadstico F experimental es el
estadstico de contraste en el ANOVA y otras pruebas de comparacin de varianzas
PRUEBA DE FISHER
Es la prueba estadstica de eleccin cuando la prueba de chi cuadrado no puede ser
empleada por tamao muestral insuficiente.
PRUEBA DE LOS SIGNOS
Prueba estadstica que sirve para comparar dos variables en trminos de diferencias
positiva o negativa, y no en trminos de magnitud
PRUEBA DE MCNEMAR
Prueba estadstica que sirve para comparar proporciones en datos pareados
PRUEBA NO PARAMTRICA
Tcnica estadstica que no presupone ninguna distribucin de probabilidad terica de la
distribucin de nuestros datos
PRUEBA PARAMETRICA
En contraposicin de la tcnicas no paramtricas, las tcnicas paramtricas si presuponen
una distribucin terica de probabilidad subyacente para la distribucin de los datos. Son
ms potentes que las no paramtricas.
PRUEBA T DE STUDENT
Se utiliza para la comparacin de dos medias de poblaciones independientes y normales
PUNTO DE INFLEXIN
Representan los puntos de una funcin matemtica donde la curva pasa de ser cncava a
convexa o recprocamente

R
RANGO

210

Diferencia entre el valor mximo y mnimo de un muestra o poblacin. Solo es valido en


variables continuas. Es una mala traduccin de ingles "range". Amplitud
RANGO INTERCUARTILICO
La diferencia entre el percentil 75% y el percentil 25%
RAZN DE VEROSIMILITUDES
Combina resultados de varios tests diagnsticos dando una probabilidad de enfermedad en
base a ese conjunto de resultados en forma global
RECTA DE REGRESIN
Es el modelo que sirve para explicar una variable respuesta continua en trminos de un
nico factor o variable explicativa
REGRESION
Tcnica estadstica que relaciona una variable dependiente (y) con la informacin
suministrada por otra variable independiente (x). Ambas variables deben ser continuas. Si
asumimos relacin lineal, utilizaremos la regresin lineal simple. Entre las restricciones de
la RLS se incluyen:
Los residuos deben ser normales
Las observaciones independientes
La dispersin de los residuos debe mantenerse a lo largo de la recta de regresin
REGRESIN LINEAL MLTIPLE
El modelo de regresin lineal mltiple sirve para explicar una variable respuesta continua
en trminos de varios factores o variables explicativas continuas
REGRESIN POLINMICA
Es un tipo especial de regresin mltiple donde aparecen como variables independientes
una nica variable y potencias de sta (al cuadrado, al cubo.)
RELACIN LINEAL
Ver recta de regresin
RESIDUOS
Residuales. Distribucin de valores muestrales calculados como la diferencia entre el valor
de la variables respuesta (y) y el estimado del modelo de regresin ( ^y). La distribucin
de residuos es importante como indicador del cumplimiento de las condiciones de
aplicacin de las tcnicas de correlacin, as como de la bondad del ajuste.
S
SECTORES CIRCULARES
Forma de representacin en forma de tarta de variables discretas nominales
SENSIBILIDAD DE UN TEST DIAGNSTICO
Representa la probabilidad de que un individuo est enfermo habiendo dado positivo en el
test diagnstico
SESGO
La diferencia entre el valor del parmetro y su valor esperado. Tambin se utiliza en
contraposicin de aleatorio, as una muestra sesgada es no aleatoria
211

SIMETRIA
Es una medida que refleja si los valores muestrales se extienden o no de igual forma a
ambos lados de la media.
SPEARMAN (rho de Spearman)
Coeficiente de correlacin ordinal anlogo al coeficiente r de Pearson de correlacin lineal
SUMATORIO
Estadstico descriptivo que suma los valores numricos de los datos muestrales de
distribuciones continuas
T
TABLAS DE CONTINGENCIA
Tablas de 2 o ms variables, donde en cada celda se contabilizan los individuos que
pertenecen a cada combinacin de los posibles niveles de estas variables
TABLAS DE FRECUENCIAS
Ver tablas de contingencia
TABLA DEL ANAVA
Es una forma de presentar la variabilidad observada en una variable respuesta en trminos
aditivos segn las distintas fuentes de variacin: modelo y residual
TAMAO MUESTRAL
Nmero de individuos u observaciones que componen la muestra
TECNICAS DE CORRELACION
Ver coeficiente de correlacin
TECNICAS DE REGRESION
Ver recta de regresin y regresin lineal mltiple
TECNICAS NO PARAMETRICAS
Son tcnicas estadsticas que no presuponen ningn modelo probabilstico terico. Son
menos potentes que las tcnicas paramtricas, aunque tienen la ventaja que se pueden
aplicar ms fcilmente
TEOREMA CENTRAL DEL LIMITE
Resultado bsico en la estadstica que afirma que la distribucin de las medias muestrales
ser normal para un n suficientemente grande con independencia de la distribucin de
datos de partida
TRANSFORMACIONES
Cambios de escala con el propsito de conseguir linealidad, normalidad en los datos

U
UNIDAD
212

Concepto primario relacionado con los componentes elementales de las muestras


estadsticas. Sinnimo, pero no esencialmente idntico, de caso, observacin , registro o
individuo
UNIVERSO
Conjunto infinito de elementos o unidades generado por un modelo terico. Conjunto real
de todos los elementos que comparten unas condiciones de admisin en el conjunto
VALORES NUMRICOS
Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza
puede ser nominal, dicotmica, ordinal o continua
V
VALORES NUMRICOS
Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza
puede ser nominal, dicotmica, ordinal o continua
VALOR PREDICTIVO POSITIVO DE UN TEST DIAGNOSTICO
La probabilidad de que un individuo est enfermo si el test diagnstico da positivo
VALOR PREDICTIVO NEGATIVO DE UN TEST DIAGNOSTICO
La probabilidad de que un individuo est enfermo si el test diagnstico da negativo
VARIABLE
Objeto matemtico que puede tomar diferentes valores. Generalmente asociado a
propiedades o caractersticas de las unidades de la muestra. Lo contrario de variable es
constante.
VARIABLE ALEATORIA
Variable cuyo resultado vara segn la muestra segn una distribucin de probabilidad
VARIABLE CONTINUA
Aquella que puede tomar una infinidad de valores, de forma que dados dos valores
cualesquiera, tambin pueda tomar cualquier valor entre dichos valores
VARIABLE DEPENDIENTE
Ver variable respuesta
VARIABLE DISCRETA
Variable que toma un nmero finito o infinito de valores, de forma que no cubre todos los
posibles valores numricos entre dos dados, en contraposicin de las continuas
VARIABLE EXPLICATIVA
Ver variable independiente
VARIABLE INDEPENDIENTES O EXPLICATIVAS
Variables que no sirven para construir un modelo que explique el comportamiento de una
o ms variables respuesta
VARIABLE RESPUESTA O DEPENDIENTE

213

Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las
variables llamadas explicativas o independientes
VARIABLES
Describen caractersticas en las observaciones realizadas
VARIANZA
Caracterstica de una muestra o poblacin que cuantifica su dispersin o variabilidad. La
varianza tiene unidades al cuadrado de la variable. Su raz cuadrada positiva es la
desviacin tpica. La varianza muestral es un estimador sesgado de la varianza poblacional
X
X2 Chi- cuadrado
Ver prueba de Chi cuadrado
W
WILCOXON
Prueba estadstica no paramtrica para la comparacin de dos muestras (dos tratamientos).
Las distribuciones de datos no necesitan seguir la distribucin normal. Es por tanto una
prueba menos restrictiva que la prueba t-Student.

214

You might also like