Professional Documents
Culture Documents
“Análisis de Varianza”,
“Estadística no Paramétrica” y
Septiembre 2008
Modelos de Regresión
Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una variable de
interés y un conjunto de variables explicativas. Estos modelos son muy utilizados y su estudio
conforma un área de investigación clásica dentro de la disciplina de la Estadística desde hace
muchos años.
Cuando se estudia la relación entre una variable de interés, variable respuesta o variable
dependiente y un conjunto de variables regresoras (explicativas, independientes)
• Existe una relación funcional entre ellas, en el sentido de que el conocimiento de las
variables regresoras determina completamente el valor que toma la variable respuesta,
esto es:
Ejemplo: la relación que existe entre el tiempo (Y) que tarda un móvil en recorrer una
distancia y dicha distancia (X) a velocidad constante.
Ejemplo: la relación que existe entre el dinero (Y) que gana una persona adulta
mensualmente y su altura (X).
• El caso intermedio, existe una relación estocástica entre la variable respuesta y las
variables regresoras, en el sentido de que el conocimiento de éstas permiten predecir con
mayor o menor exactitud el valor de la variable respuesta. Por tanto siguen un modelo de
la forma:
Las relaciones estocásticas son las que ocurren en la mayoría de las situaciones y su estudio se
corresponde con los denominados Modelos de Regresión.
• La relación funcional de la variable respuesta con las variables regresoras, dada por la
función de regresión que se define como sigue:
• Esto permite tener una idea general del comportamiento de la variable respuesta en
función de las regresoras.
Se puede estimar y predecir el valor de la variable respuesta de un individuo del que se conocen
los valores de las variables regresoras. Esto es, de un individuo t se sabe que X1 = x1,t,...,Xk =
xk,t, entonces se puede predecir el valor de Y t y calcular un intervalo de predicción del mismo.
En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de
relación entre si.
Ejemplo, si se analiza la estatura y el peso de los alumnos o alumnas de una clase es muy posible
que exista relación entre ambas variables: mientras más alto sea el estudiante, cabe pensar que
mayor será su peso.
Este coeficiente mide el grado de intensidad de esta posible relación entre las variables. Este
coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si
representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se
aproximaría a una recta).
No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En
estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las
variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar
los pares de valores en un gráfico y ver que forma describen.
Es decir:
Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1
Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La
correlación es tanto más fuerte cuanto más se aproxime a 1.
Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.
Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).
La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de
correlación (parabólica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este
resultado podría haberse debido al puro azar.
(1/30) * (0,826)
r= ----------------------------------------------------- =0,719
(((1/30)*(0,02568)) * ((1/30)*(51,366)) ^ (1/2)
Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.
Regresión lineal
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre
las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir
la recta que mejor se ajusta a esta nube de puntos.
y=a+b·x
El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que
mejor se ajusta a esta nube de puntos.
a = ym - ( b · x m )
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b"
que hemos calculado.
Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de
los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que
el peso es la variable dependiente "y" (podíamos hacerlo también al contrario):
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + 40,265 · x
Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable
independiente (estatura):
Estatura Peso
1,20 30,6
1,21 31,0
1,22 31,4
1,23 31,8
1,24 32,2
1,25 32,6
1,26 33,0
1,27 33,4
1,28 33,8
1,29 34,2
1,30 34,6
Donde cada coeficiente de regresión b i se estima por bi de los datos de la muestra con el uso del
método de mínimos cuadrados. Como en el caso de una sola variable independiente, el modelo de
regresión lineal múltiple a menudo puede ser una representación adecuada de una estructura más
complicada dentro de ciertos rangos de las variables independientes.
Técnicas de mínimos cuadrados similares también se pueden aplicar al estimar los coeficientes
cuando el modelo lineal involucra, digamos, potencias y productos de las variables independientes.
Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias m Y|x1 no caen en una
línea recta pero que se describen de forma más apropiada con el modelo de regresión polinomial
m Y|x = a b x,
Existen muchos fenómenos en la ciencia y en la ingeniería que son inherentemente no lineales por
naturaleza y, cuando se conoce la estructura real, desde luego se debe hacer un intento para
ajustar el modelo presente.
Por ejemplo: Podría ser una regresión de tipo múltiple: Una Empresa de desarrollo de software
establece relacionar sus Ventas en función del numero de pedidos de los tipos de software que
desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en
el presente año.
En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de pedidos de
Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones empresariales).
Y 440 455 470 510 506 480 460 500 490 450
X 50 40 35 45 51 55 53 48 38 44
Z 75 68 70 64 67 72 70 73 69 74
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.
n : Número de datos
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de
regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos
calcular también los coeficientes de regresión:
Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del
plano de regresión, se hace más pequeño.
En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP
que se viene desarrollando es de 0.861
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples,
utilizando la siguiente formula:
Conclusión El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas
obtenidas por las asignaturas de Algoritmos, Base de Datos y Programación.
Universidad del Valle de México
Ingeniería Industrial y de Sistemas
15
Análisis de Datos
Regresión Polinominal
Los polinomios son muy usados en los cálculos numéricos, por sus propiedades. La ecuación de
un polinomio de grado n es:
Las fórmulas anteriores pueden construirse fácilmente para cada grado n, notando las siguientes
propiedades:
Análisis de Varianza
Las técnicas englobadas bajo la denominación de análisis de la varianza o abreviadamente
ANOVA (del inglés analysis of variance) han jugado un papel crucial en la metodología estadística
moderna, desde que fueran ideadas por R.A. Fisher en 1925, y como sucede en tantas ocasiones,
aunque conocidas por la gran mayoría, quizás no son adecuadamente comprendidas por los no
especialistas.
Casi siempre se introduce el tema del análisis de la varianza como respuesta a la necesidad de
utilizar una técnica de comparación de más de dos grupos, es decir como un método para
comparar más de dos tratamientos: si disponemos de medidas cuantitativas continuas, que se
puede suponer como procedentes de una distribución de probabilidad normal, y queremos
comparar dos grupos -dos tratamientos-, la prueba estadística que se utiliza es un contraste de
medias basado en la t de Student, y cuando se dispone de más de dos grupos, la prueba a
emplear es el análisis de la varianza. Aunque el enfoque es adecuado, refleja sólo una parte del
interés de la técnica, ideada no sólo para analizar los datos sino también para planificar los
experimentos, y más apropiado hablar de que el análisis de la varianza es un procedimiento
estadístico que nos permite dividir la variabilidad observada en componentes independientes que
pueden atribuirse a diferentes causas de interés.
Este factor, cuyo posible efecto sobre la variable medida queremos analizar, puede tener unos
niveles fijos, por ejemplo el nivel educativo alcanzado por los sujetos que intervienen (sin estudios,
estudios primarios, secundarios, formación universitaria), y hablamos entonces de modelo de
efectos fijos; o bien puede tratarse de una muestra procedente de un conjunto de niveles más
amplio, como puede ser por ejemplo el caso de un estudio en el que se seleccionan varios
hospitales y se analiza las posibles diferencias entre hospitales. Entonces lo denominamos modelo
de efectos aleatorios. En el análisis de la varianza de 1 factor es mucho más frecuente el modelo
de efectos fijos.
Si juntamos todas las observaciones N=n1+n2+...+nk, calculamos la media global que vamos a
denominar .
También podemos calcular la media dentro de cada uno de los K grupos. La media para el grupo i
la designamos como .
Es obvio que la diferencia entre cada observación y la media global se puede descomponer de la
siguiente forma:
[1]
Es decir que la diferencia entre el valor observado y la media global es igual a la suma de la
diferencia de la observación con la media de su grupo y la diferencia de la media del grupo con la
media global.
Se puede comprobar que si cada término de esa expresión se eleva al cuadrado y se suma para
todas las observaciones, se mantiene la igualdad, lo que curiosamente no es más que la aplicación
del famoso teorema de Pitágoras a este diseño:
Cada uno de los términos es pues una suma de desviaciones cuadráticas, que denominaremos de
forma abreviada como suma de cuadrados (SC). La primera SC del lado de la derecha
corresponde a las desviaciones de cada observación respecto de la media de su propio grupo, por
lo que se la conoce como "dentro del grupo" o "intra grupo" (en inglés within). El segundo sumando
de la derecha corresponde a las desviaciones de la media de cada grupo respecto de la media
global, por lo que cuantifica las diferencias medias entre los grupos, y se conoce como suma de
cuadrados "entre grupos" (en inglés between):
Universidad del Valle de México
Ingeniería Industrial y de Sistemas
19
Análisis de Datos
SCTotal=SCIntra grupo+SCEntre grupos
y se puede comprobar que es en realidad una media ponderada de las varianzas muestrales de
cada grupo, con la siguiente expresión:
Queda claro que constituye por tanto una estimación de la varianza común .
Si la media de todos los grupos es la misma, MSE también es una estimación de la varianza común
. Esto se puede entender mejor de una forma intuitiva si consideramos el caso particular en el
que todos los grupos tienen el mismo tamaño n. Sabemos que la desviación estándar al cuadrado
(varianza) de la media obtenida en muestras de tamaño n extraídas de una población normal es
Ahora bien, si las medias de los grupos sí son diferentes, MSE no sólo contiene el valor de la
varianza intrínseca , sino que además estará aumentada según las variaciones entre las
medias de los tratamientos, y será tanto mayor cuanto mayor sean estas diferencias. El cociente:
Por otro lado hemos visto que la variabilidad total la hemos dividido en dos partes: una variabilidad
debida o explicada por pertenecer a cada uno de los grupos o niveles del factor, y una parte de
variabilidad individual, que no atribuimos a ninguna causa concreta, y que por ello se suele
denominar también variabilidad residual. Esto podemos reflejarlo de una forma clara manipulando
un poco la fórmula [1] en la que se desglosa la variabilidad de cada observación en dos términos:
[2]
corresponde a tres sumandos: una media global , un efecto diferencial debido a la pertenencia al
Caso Práctico
Consideremos que queremos comparar las medias de k poblaciones, cada una de las cuales se
supone que tiene la misma varianza. Tomemos, para estas poblaciones, muestras aleatorias
independientes de tamaños n1, n2,….,nk, respectivamente.
y supondremos que las variables aleatorias correspondientes xij son independientes, tienen
distribución normal con medias respectivas µi y la varianza común σ 2
H0: µ 1=µ 2= …. =µ k
El paso lógico entonces sería construir un estimador de dicha media común a partir de los datos
muéstrales. Una posible elección para tal estimador sería la media global de todas las
observaciones muéstrales. Es decir, la suma de todas las observaciones muéstrales dividida por el
número total de observaciones muéstrales. Si n es el número total de observaciones muéstrales,
entonces,
K
n = ∑ ni La media global de todas las observaciones muéstrales se puede expresar como:
i =1
K ni K
∑∑ x
i =1 j =1
ij ∑n x i i
ni
T j = ∑ xij j = 1, 2, ….., k
x= = i =1
i =1
n n
nk
La variabilidad dentro de los grupos se calcula de la siguiente forma: SCi = ∑ ( xij − xi ) 2
j =1
K ni
SCT = ∑∑ ( xij − xi ) 2
i =1 j =1
La suma de los cuadrados de las discrepancias de todas las observaciones muéstrales respecto a
la media global. Dicha suma se denomina la suma de cuadrados total y se expresa
K ni
STC = ∑∑ ( xij − x ) 2
i =1 j =1
La suma total de cuadrados entre grupos,(suma de cuadrados del error), SCE, ponderaremos cada
diferencia al cuadrado por el número de observaciones muéstrales en el grupo correspondiente,
quedando de la siguiente manera:
K
SCE = ∑ ni ( xi − x ) 2
i =1
De estas tres ecuaciones se cumple: STC = SCT+SCE además el grado de libertad de cada una
de ellas es la siguiente: n-1 = (k-1)+(n-k)
SCE
La media de los cuadrados de los errores se definirá, CME = y la media de los cuadrados
n −k
SCT
de los grupos (tratamientos) se definirá: CMT =
k −1
CMT
El estadístico de prueba que se usara será: Fp =
CME
2 ni
K
Ti T2 K
T2
SCT = ∑ ( ) − STC = ∑∑ ( x ) − 2
ij
i =1 ni n i =1 j =1 n
Ejemplo 1:
Las siguientes cantidades representan las palabras por minuto que mecanografió, en varias
ocasiones, una secretaria en cuatro máquinas de escribir distintas:
ni 8 8 6 9
total 574 485 449 388
Ti2 329476 235225 201601 150544
Demostrar si las diferencias entre las cuatro medias de la muestra se pueden atribuir al azar
Analysis of Variance
Source DF SS MS F P
Factor 3 412,6 137,5 6,84 0,001
Error 27 543,1 20,1
Total 30 955,7
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev -------+---------+---------+---------
Máquina 8 71,750 5,365 (------*-----)
Máquina 8 68,375 3,583 (------*-----)
Máquina 6 74,833 4,070 (-------*------)
Máquina 9 64,889 4,595 (-----*-----)
-------+---------+---------+---------
Pooled StDev = 4,485 65,0 70,0 75,0
Se desea comparar la acción de limpieza de tres detergentes sobre la base de los siguientes
registros de blancura tomados en 15 muestras de ropa blanca manchada con tinta de la India y
después lavada con los detergentes respectivos en una lavadora:
Pruebe en el nivel de significación del 1% si las diferencias entre las medias de los registros de
blancura son significativas
Solución.
En un artículo anterior se habló de la ventaja que presentan las pruebas pareadas para
aumentar la eficiencia, al controlar parte de la variabilidad no atribuible al factor que
estamos estudiando. Cuando se analizan más de dos niveles o grupos el concepto de prueba
pareada se puede generalizar al análisis de la varianza. Aquí se denomina bloque a cada
unidad de observación, y para un factor o tratamiento tenemos el siguiente diseño
experimental:
donde aparece un nuevo término que corresponde a la variabilidad atribuida al bloque, con lo
Los bloques o unidades de observación pueden ser cada paciente, un hospital, un grupo de
pacientes con unas características específicas, etc. A veces también se habla de análisis
estratificado, donde los conceptos bloque y estrato son equivalentes.
Aunque uno de los motivos fundamentales de la asignación aleatoria de los pacientes a cada grupo
de tratamiento es precisamente evitar la presencia de sesgos en las características de los
pacientes que puedan afectar a las diferencias de eficacia que se observen, sin embargo cuando
se sabe que factores como la edad del paciente, la presencia de diabetes, antecedentes de
Universidad del Valle de México
Ingeniería Industrial y de Sistemas
27
Análisis de Datos
tabaquismo, etc influyen en el resultado, puede ocurrir que finalmente por azar las proporciones de
los diferentes niveles de estos factores no se repartan "equitativamente" entre los grupos de
tratamiento, lo que conlleva a que los resultados queden bajo sospecha, incluso aunque después
en el análisis se acuda a técnicas multivariantes para "ajustar" los resultados en función de los
valores basales en los grupos, atribuyendo parte de la variación observada a esas diferencias, y
corrigiendo o disminuyendo la diferencia encontrada atribuible al efecto del tratamiento. La
utilización de técnicas de diseños aleatorizados en bloques y diseños factoriales nos permite
anticiparnos a esa situación, por lo que han sido ampliamente empleadas no sólo en
experimentación agrícola donde se originaron, sino también en farmacología y en la industria, y en
mucha menor medida, por lo que se comentará más adelante, en la investigación médica clínica.
En este diseño aletorizado por bloques disponemos de dos valores de F para contrastar: uno
relativo a la influencia del tratamiento y otro para la influencia del bloque; aunque el contraste en el
que seguramente estamos interesados es solo el primero, ya que de entrada se supone que el
bloque sí que influye en la variable medida y precisamente por eso se ha acudido a este tipo de
diseño.
Diseños Factoriales
Los denominados diseños factoriales permiten al investigador planificar un trabajo para evaluar el
efecto combinado de dos o más variables de forma simultánea en el resultado medido,
obteniéndose también información en cuanto a la posible interacción entre los diversos factores.
Así podemos extender el modelo presentado en la fórmula [2] para considerar en cada observación
la influencia de dos factores que vamos a denominar A y B. Expresamos la observación número k
en el nivel i del factor A, nivel j del factor B, como:
El problema de los diseños factoriales clásicos cuando se aplica a la investigación clínica, en la que
predominan los diseños observacionales y donde casi siempre es por tanto difícil fijar el número de
Universidad del Valle de México
Ingeniería Industrial y de Sistemas
28
Análisis de Datos
sujetos en cada uno de los niveles de los diferentes factores, radica en que para que sea aplicable
un análisis de la varianza clásico para más de un factor, es necesario que se cumpla también la
igualdad de la suma de cuadrados, y esto sólo ocurre cuando el número de sujetos por celda
(llamamos celda a cada combinación de niveles de los distintos factores) es el mismo para todas
las celdas. Es decir que la igualdad:
SCTotal=SCA+SCB+SCAB+SCResidual
sólo es cierta cuando todas las celdas tienen el mismo número de sujetos. Si ese número no es
igual no podemos aplicar el análisis de la varianza.
Afortunadamente existe una relación directa entre el modelo de efectos postulado y la regresión
lineal múltiple, en la que intervendrán los factores como variables independientes. Es lo que se
conoce como modelos lineales.
Obviamente en ese modelo de regresión los factores entrarán adecuadamente codificados como
variables diseño o dummy, procedimiento que ya fue comentado en el artículo relativo a la
regresión logística.
Introducción
El cálculo de estas pruebas, es sencillo, desde el punto de vista manual y matemático, sin
embargo, si se utiliza una computadora, ya cargados los archivos de toda una encuesta,
se puede solicitar que el paquete, que puede ser, el Statgraphics, el SPSS, el BMDP o el
SAS, entre otros, que obtenga rutinas y elabore los cálculos. Con estas pruebas, no sólo
manejan variables cuantitativas, sino también cualitativas.
Prueba de homogeneidad
Suponga que 200 maestros, 300 ingenieros y 400 médicos, participan en un estudio para
calcular la magnitud del consumo de alcohol en las tres profesiones. Los conteos de
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei
La prueba de bondad de ajuste desea determinar qué tanto se ajusta una distribución
observada a otra esperada o teórica (en el caso de homogeneidad, la distribución teórica
debe tener valores iguales para todas las categorías y en el caso de la bondad de ajuste
esto no es requisito). En general se trabaja con grados de libertad y el procedimiento de
prueba es igual al de homogeneidad. La prueba de homogeneidad es un importante
subconjunto de estas pruebas.
Se dan casos especiales para el tratamiento de los grados de libertad, como es el caso de
la prueba de bondad de ajuste para distribución normal, en que los grados de libertad son
n – 3, ya que existen 3 restricciones, la primera por igualar lo esperado a lo observado, y
las otras dos para estimar μ y σ . Si estos dos valores se especifican de antemano por ser
ya conocidos, los grados de libertad serán n = 1.
1. Establecer la hipótesis
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei
g,l = k- m – 1 = (3 – 0- 1) =
5.99
∑
oi
χ =
2
i =1 f ei
Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades
utilizaremos la formula de la binomial
f ( x) = ( )π
n
x
x
(1 − π ) n − x
donde n = 10 π = 0.05
f (0) = ( 10
0 ) 0.05 ( 1 − 0.05)
0 10 − 0
= .599
f (1) = ( )0.05
10
1
1
( 1 − 0.05)10 −1 = .315
5. Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de
significancia de 0.05.
6. Conclusión
Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.
Al tomarse una muestra, se genera la tabla de contingencia cuando sus elementos son
calcificados de acuerdo a dos o más variables de tipo cualitativo. La forma más simple de
ella es la tabla de 2 X 2, en ella se localizan dos variables que tienen cada una solamente
dos categorías.
Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y
distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de segmentación de
mercado para las tres cervezas, el grupo de investigación encargado ha planteado la
duda de si la preferencia para las tres cervezas es diferente entre los consumidores
hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género del
consumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin
embargo, si la preferencia depende del género del consumidor, se ajustarían las
promociones para tener en cuenta los distintos mercados meta.
Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predilección de cerveza y género, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.
Cerveza preferida
Ligera Clara Oscura
Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)
Mujer Celda (2,1) Celda (2,2) Celda (2,3)
Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de
cerveza. Después de saborear cada una, se les pide expresar su preferencia o primera
alternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestas
obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en
términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas
de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que
prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y así
sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categorías.
Cerveza preferida
Ligera Clara Oscura Total
Género Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
Cerveza preferida
e1, 2
prefieren la cerveza clara (columna j = 2) esto es, la frecuencia esperada .
Apegándonos al esquema anterior para el cálculo de las frecuencias esperadas, podemos
demostrar que
e1, 2
= (7/15) 80 = 37.33
e1, 2
Esta ecuación se puede escribir como sigue: = (7/15) 80 = (70/150) 80 = 37.33
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei
cola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entre
Puede ser llevada a cabo con muestras menores de 40 elementos y sus valores de
prueba deben ser comparados con los valores de unta tabla estadística. La prueba que se
presenta es preferible ya que se trabaja con muestras de 40 o más elementos y esto hace
que las rachas se presenten con una forma de distribución acumulativa tendiente a la
normalidad.
Supuestos:
Una serie de tiempo muestra el comportamiento de una variable en el tiempo. Las entidades
económicas, usualmente toman decisiones administrativas basándose en los registros de la vida
activa de la empresa, o bien, del ramo en que se desenvuelve. El gobierno también toma
decisiones y desarrolla nuevas políticas públicas y programas de gobierno, después de estudiar el
comportamiento de diferentes variables a lo largo del tiempo.
Tanto la toma de decisiones como la planeación, siempre requieren del pronóstico estadístico que
se basa en el estudio del comportamiento de una variable y en la suposición de que ese
comportamiento puede prolongarse a un futuro.
El comportamiento de la variable estudiada, puede ser causado por diversos factores, algunos de
naturaleza económica, otros referentes al clima, unos más por razones de modas, otros más por
razones financieras; y así podrían enunciarse infinidad de factores que pueden producir
fluctuaciones de tipo cíclico, estacional, aleatorias, etc.
Una serie de tiempo es una secuencia de los valores que asume una determinada variable o
conjunto de variables, dispuestas en un orden cronológico. Estas variables pueden ser relativas a
unidades monetarias, el número de artículos vendidos o comprados, etc. En general, cualquier
variable cuantitativa puede ser estudiada de esta manera, siempre y cuando se conozcan los
valores que asumió en intervalos regulares de tiempo.
Cuando una serie muestra un determinado patrón de comportamiento, por un período largo; es
posible esperar que ese mismo patrón continúe en el futuro, y así, esta posibilidad puede darnos
una base razonable para establecer pronósticos a un plazo corto.
Cuando una variable fluctúa en función del tiempo, generalmente está respondiendo a cuatro
componentes: la tendencia (T), el ciclo (C), la variación estacional (S) y la variación aleatoria o
irregular (I). Estos componentes actúan según dos modelos, el aditivo y el multiplicativo.
El modelo aditivo asume que el valor de la serie original (Y) proviene de la suma de los cuatro
componentes:
Y=T+S+C+I
Y=TxSxCxI
El modelo aditivo supone que los cuatro componentes son independientes entre sí. Esto supone
que, por ejemplo, cuando la tendencia tenga un valor alto, esto no afecte al comportamiento cíclico
o estacional. El modelo multiplicativo asume que los componentes sí tienen relación entre sí. El
modelo mutiplicativo es que ha sido considerado como modelo clásico.
De manera convencional, se utiliza este componente con fines predictivos; es decir para la
elaboración de proyecciones o pronósticos.
Las tendencias seculares reflejan el continuo crecimiento o decrecimiento a largo plazo de las
series de tiempo. El concepto largo plazo ha sido estudiado como de al menos dos periodos
anuales en adelante, para que sea posible la caracterización del comportamiento de una variable,
que generalmente se describe por medio de una recta o de alguna curva que se ajuste al
comportamiento de los datos.
Curva exponencial
y = β0 + β1x
Curva recíproca
1 / y = β0 + β1X
Curva exponencial logística
y = 1 / β0 + β1β2x
Donde:
Esta relación lineal es utilizada para representar una tendencia secular que cambia a una tasa
constante. Si las series se incrementan con el tiempo, pueden ser representadas con una línea con
pendiente positiva; si por el contrario, decrecen con el tiempo, pueden representarse por una línea
con pendiente negativa.
Como ya se dijo en el tema anterior, para conocer los valores de a y b, es necesario resolver las
ecuaciones siguientes:
n ( Σ XY ) – ( Σ X ) ( Σ Y )
Pendiente de la línea de regresión b=
n ( Σ X2 ) – ( Σ X ) 2
ΣY ΣX
Intersección con el eje y a= –b
n N
Donde:
Cuando se conocen los valores de x e y, se sabe que los de x se refieren al tiempo, dado en
intervalos regulares, en el que se desarrolla el comportamiento de y; por esta razón, en el tiempo
es posible definir si estamos en presencia de periodos y así codificarlos.
Cuando se trata de un número par de periodos, se codifican asignando el valor cero al primer
periodo, al segundo el uno y así sucesivamente. Cuando se trata de un número impar de periodos
se fija el origen en la mitad de la sucesión, a los años anteriores se les asignan valores negativos y
a los posteriores positivos.
En la siguiente tabla aparecen los valores correspondientes al INPC del periodo comprendido entre
1962 y 1971. Supón que se quiere realizar un pronóstico del INPC para 1972.
Lo primero que se tiene que hacer es sustituir las fórmulas mencionadas anteriormente para ajustar
una línea de tendencia, de este modo:
n ( Σ XY ) – ( Σ X ) ( Σ Y )
Pendiente de la línea de regresión b=
n ( Σ X2 ) – ( Σ X ) 2
b = 0.855048485
ΣY ΣX
Intersección con el eje y a= –b
N N
297.2262 45
Intersección con el eje y a= – (0.85504)
10 10
a = 25.87490182
Y ’ = 34.4254
Cabe mencionar que el INPC real a diciembre de 1972 fue de 36.5858, valor superior en más de 2
puntos del estimado. Gráficamente se podría esperar una figura como la siguiente.
35
30
25
20
1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972
Cuando los datos se presentan con un número impar de períodos, al codificar, como ya mencionó,
el valor cero en el centro de la serie, la sumatoria de los valores de X serían siempre cero, por lo
tanto las fórmulas cambian.
Σ XY
Pendiente de la línea de regresión b=
Σ X2
ΣY
Intersección con el eje Y a=
n
En el siguiente cuadro aparecen los valores del INPC correspondientes a los años comprendidos
entre 1984 y 1992. Supón que deseas saber cuál sería el INPC en 1983.
Entonces:
b = 4381.585428
a = 15753.9777
Y ’ = 15753.9777 + 4381.5854 X
Y ’ = 15753.9777 + 4381.5854 (5)
Y ’ = 37661.90484
Se podría esperar si la tendencia estudiada continuara, que para 1993 el INPC hubiera sido
37661.9048. El valor real del INPC para este año fue de 36068.5000.
40000
30000
20000
10000
0
1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
http://www.monografias.com/trabajos16/metodos-lineales/metodos-lineales.shtml#f
http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi2.pdf
http://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf
http://www.monografias.com/trabajos7/anva/anva.shtml
http://www.seh-lelha.org/anova.htm
http://uk.geocities.com/andres_sandoval_hernandez/Estadistica/Tema_12/Tema_12.doc