Analisis de Datos

Universidad del Valle de México
“Correlación y Regresión Lineal”,
“Regresión Múltiple y Polinomial”,
“Análisis de Varianza”,
“Estadística no Paramétrica” y
“Modelos de Predicción y Series de Tiempo”
Septiembre 2008
Materia: Análisis de Datos

Ingeniería Industrial y de Sistemas
1
Análisis de Datos
Contenido
Correlación y Regresión Lineal...........................................................................................................3

Modelos de Regresión...................................................................................................................3
El coeficiente de correlación lineal.................................................................................................5
Regresión lineal ............................................................................................................................7
Regresión lineal múltiple..................................................................................................................10
Análisis de Regresión Múltiple.....................................................................................................12
Aplicación de la Regresión Múltiple..............................................................................................14
El Error Estándar de Regresión Múltiple......................................................................................15
El coeficiente de determinación múltiple (r2)................................................................................15
Regresión Polinominal......................................................................................................................16
Análisis de Varianza.........................................................................................................................18
Diseño en Bloques Aleatorizados................................................................................................27
Diseños Factoriales......................................................................................................................28
Estadística No Paramétrica..............................................................................................................30
Introducción..................................................................................................................................30
Prueba de homogeneidad............................................................................................................30
Prueba de bondad de ajuste........................................................................................................33
Prueba de independencia............................................................................................................36
Prueba de rachas de Wald Wolfowitz...........................................................................................41
Análisis de Series de Tiempo...........................................................................................................43
Tendencia secular (T)..................................................................................................................44

2
Análisis de Datos
Correlación y Regresión Lineal
Modelos de Regresión
Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una variable de
interés y un conjunto de variables explicativas. Estos modelos son muy utilizados y su estudio
conforma un área de investigación clásica dentro de la disciplina de la Estadística desde hace
muchos años.
Cuando se estudia la relación entre una variable de interés, variable respuesta o variable
dependiente y un conjunto de variables regresoras (explicativas, independientes)
, puede darse las siguientes situaciones:
• Existe una relación funcional entre ellas, en el sentido de que el conocimiento de las
variables regresoras determina completamente el valor que toma la variable respuesta,
esto es:
Ejemplo: la relación que existe entre el tiempo (Y) que tarda un móvil en recorrer una
distancia y dicha distancia (X) a velocidad constante.
• No exista ninguna relación entre la variable respuesta y las variables regresoras, en el

sentido de que el conocimiento de éstas no proporciona ninguna información sobre el
comportamiento de la otra.
Ejemplo: la relación que existe entre el dinero (Y) que gana una persona adulta
mensualmente y su altura (X).
• El caso intermedio, existe una relación estocástica entre la variable respuesta y las
variables regresoras, en el sentido de que el conocimiento de éstas permiten predecir con
mayor o menor exactitud el valor de la variable respuesta. Por tanto siguen un modelo de
la forma:

3
Análisis de Datos
Siendo m la función de regresión desconocida y una variable aleatoria de media cero (el error de
observación).
Las relaciones estocásticas son las que ocurren en la mayoría de las situaciones y su estudio se
corresponde con los denominados Modelos de Regresión.
El objetivo básico en el estudio de un modelo de regresión es el de estimar la función de regresión,

m, y el modelo probabilístico que sigue el error aleatorio, esto es, estimar la función de distribución
F de la variable de error. La estimación de ambas funciones se hace a partir del conocimiento de
una muestra de las variables en estudio:
Una vez estimadas estas funciones se tiene conocimiento de:
• La relación funcional de la variable respuesta con las variables regresoras, dada por la
función de regresión que se define como sigue:
• Esto permite tener una idea general del comportamiento de la variable respuesta en
función de las regresoras.
Se puede estimar y predecir el valor de la variable respuesta de un individuo del que se conocen
los valores de las variables regresoras. Esto es, de un individuo t se sabe que X1 = x1,t,...,Xk =
xk,t, entonces se puede predecir el valor de Y t y calcular un intervalo de predicción del mismo.
En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de
relación entre si.
Ejemplo, si se analiza la estatura y el peso de los alumnos o alumnas de una clase es muy posible
que exista relación entre ambas variables: mientras más alto sea el estudiante, cabe pensar que
mayor será su peso.

4
Análisis de Datos
El coeficiente de correlación lineal
Este coeficiente mide el grado de intensidad de esta posible relación entre las variables. Este
coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si
representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se
aproximaría a una recta).
No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En
estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las
variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar
los pares de valores en un gráfico y ver que forma describen.
El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
Es decir:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores

(x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido
de todos los pares de valores y este resultado se divide por el tamaño de la muestra.

5
Análisis de Datos
Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le
calcula la raíz cuadrada.
Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1
Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La
correlación es tanto más fuerte cuanto más se aproxime a 1.
Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.
Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).
La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de
correlación (parabólica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este
resultado podría haberse debido al puro azar.
Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y

peso de los alumnos de una clase:
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33

6
Análisis de Datos
Aplicando la fórmula:
(1/30) * (0,826)
r= ----------------------------------------------------- =0,719
(((1/30)*(0,02568)) * ((1/30)*(51,366)) ^ (1/2)
Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.
Regresión lineal
Si representamos en un gráfico los pares de valores de una distribución bidimensional: la variable

"x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos
que la nube de puntos sigue una tendencia lineal:
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre
las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir
la recta que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente fórmula:
y=a+b·x

7
Análisis de Datos
Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra
variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los
parámetros "a" y "b":
El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
El parámetro "b" determina la pendiente de la recta, su grado de inclinación.
La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que
mejor se ajusta a esta nube de puntos.
El parámetro "b" viene determinado por la siguiente fórmula:
Es la covarianza de las dos variables, dividida por la varianza de la variable "x".
El parámetro "a" viene determinado por:
a = ym - ( b · x m )
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b"
que hemos calculado.
Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de
los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que
el peso es la variable dependiente "y" (podíamos hacerlo también al contrario):
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

8
Análisis de Datos
El parámetro "b" viene determinado por:

(1/30) * 1,034
b= -------------------------------------- = 40,265
(1/30) * 0,00856
Y el parámetro "a" por:
a = 33,1 - (40,265 * 1,262) = -17,714
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + 40,265 · x
Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable
independiente (estatura):
Estatura Peso
1,20 30,6
1,21 31,0
1,22 31,4
1,23 31,8
1,24 32,2
1,25 32,6
1,26 33,0
1,27 33,4
1,28 33,8
1,29 34,2
1,30 34,6

9
Análisis de Datos
Regresión lineal múltiple.
En la mayor parte de los problemas de investigación donde se aplica el análisis de regresión se

necesita más de una variable independiente en el modelo de regresión. La complejidad de la mayor
parte de los mecanismos científicos es tal que para ser capaces de predecir una respuesta
importante se necesita un modelo de regresión múltiple. Cuando este modelo es lineal en los
coeficientes se denomina modelo de regresión lineal múltiple. Para el caso de k variables
independientes X1, X2,....,Xk, la media de Y| X1, X2,....,XK está dada por el modelo de regresión lineal
múltiple
m Y|x1, x2 ,………, xk = b 0 + b 1 x1 +……..+ b k xk
y la respuesta estimada se obtiene de la ecuación de regresión de la muestra
Donde cada coeficiente de regresión b i se estima por bi de los datos de la muestra con el uso del
método de mínimos cuadrados. Como en el caso de una sola variable independiente, el modelo de
regresión lineal múltiple a menudo puede ser una representación adecuada de una estructura más
complicada dentro de ciertos rangos de las variables independientes.
Técnicas de mínimos cuadrados similares también se pueden aplicar al estimar los coeficientes
cuando el modelo lineal involucra, digamos, potencias y productos de las variables independientes.
Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias m Y|x1 no caen en una
línea recta pero que se describen de forma más apropiada con el modelo de regresión polinomial
m Y|x = b 0 + b 1 x +b 2 x2+ ……..+ b r xr
y la respuesta estimada se obtiene de la ecuación de regresión polinomial
En ocasiones surge confusión cuando hablamos de un modelo polinomial como de un modelo

lineal. Sin embargo, los estadísticos por lo general se refieren a un modelo lineal como uno en el
cual los parámetros ocurren linealmente, sin importar cómo entran las variables independientes al
modelo. Un ejemplo de un modelo no lineal es la relación exponencial
m Y|x = a b x,

10
Análisis de Datos
que se estima con la ecuación de regresión
Existen muchos fenómenos en la ciencia y en la ingeniería que son inherentemente no lineales por
naturaleza y, cuando se conoce la estructura real, desde luego se debe hacer un intento para
ajustar el modelo presente.

11
Análisis de Datos
Este tipo se presenta cuando dos o más variables independientes influyen sobre una variable
dependiente. Ejemplo: Y = f(x, w, z).
Por ejemplo: Podría ser una regresión de tipo múltiple: Una Empresa de desarrollo de software
establece relacionar sus Ventas en función del numero de pedidos de los tipos de software que
desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en
el presente año.
En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de pedidos de
Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones empresariales).
Y 440 455 470 510 506 480 460 500 490 450
X 50 40 35 45 51 55 53 48 38 44
W 105 140 110 130 125 115 100 103 118 98
Z 75 68 70 64 67 72 70 73 69 74
Objetivo: Se presentara primero el análisis de regresión múltiple al desarrollar y explicar el uso de

la ecuación de regresión múltiple, así como el error estándar múltiple de estimación. Después se
medirá la fuerza de la relación entre las variables independientes, utilizando los coeficientes
múltiples de determinación.
Análisis de Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:
Se puede ampliar para cualquier número "m" de variables independientes:

12
Análisis de Datos
Para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se
presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de
mínimo de cuadrados:
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.
El error estándar de la regresión múltiple Es una medida de dispersión la estimación se

hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas
pequeño. Para medirla se utiliza la formula:
Y : Valores observados en la muestra
: Valores estimados a partir a partir de la ecuación de regresión
n : Número de datos
m : Número de variables independientes
El coeficiente de determinación múltiple Mide la tasa porcentual de los cambios de Y que
pueden ser explicados por , y simultáneamente.

13
Análisis de Datos
Aplicación de la Regresión Múltiple
Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Múltiple: Se quiere

entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual
se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas
de Algoritmos, Base de Datos y Programación como se muestran en el siguiente cuadro.
Alumno PHP Algoritmos Base de Datos Programación

1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de

aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las
asignaturas Algoritmos, Base de Datos y Programación.
Se presentara la siguiente ecuación a resolver:
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de
regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos
calcular también los coeficientes de regresión:

14
Análisis de Datos
Por lo tanto podemos construir la ecuación de regresión que buscamos:
El Error Estándar de Regresión Múltiple
Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del
plano de regresión, se hace más pequeño.
Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP
que se viene desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples,
utilizando la siguiente formula:
Conclusión El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas
obtenidas por las asignaturas de Algoritmos, Base de Datos y Programación.
15
Análisis de Datos
Regresión Polinominal
Los polinomios son muy usados en los cálculos numéricos, por sus propiedades. La ecuación de
un polinomio de grado n es:
Apliquémosle el método de mínimos cuadrados.
La curva propuesta es:
S2 esta dada por:
El error estándar cuadrado es este caso:
Podemos escribir el sistema de ecuaciones normales obtenido en la forma:
Donde: Sx: Matriz de sumatorias de potencias de x.

16
Análisis de Datos
a: Vector de coeficientes. Las constantes del polinomio.
Sxy: Vector de sumatorias de potencias de x con y's.
Las fórmulas anteriores pueden construirse fácilmente para cada grado n, notando las siguientes
propiedades:
• Son n+1 ecuaciones.

• La máxima potencia en las sumatorias de x es 2n.
• La máxima potencia en las sumatorias de x con y es n.
• Para el primer renglón la potencia máxima es n.
• Para la primera columna la potencia máxima es n.
Para construir el sistema para un grado los pasos son:
• Se construye el primer renglón.

• Se construye la primera columna.
• Se llenan los renglones tomando en cuenta que cada uno tiene n+1 columnas.
• Se escribe el vector de términos independientes tomando en cuenta que la máxima
potencia en x es n.

17
Análisis de Datos
El ajustar un polinomio a una serie de datos se conoce como regresión polinomial.
Análisis de Varianza
Las técnicas englobadas bajo la denominación de análisis de la varianza o abreviadamente
ANOVA (del inglés analysis of variance) han jugado un papel crucial en la metodología estadística
moderna, desde que fueran ideadas por R.A. Fisher en 1925, y como sucede en tantas ocasiones,
aunque conocidas por la gran mayoría, quizás no son adecuadamente comprendidas por los no
especialistas.
Casi siempre se introduce el tema del análisis de la varianza como respuesta a la necesidad de
utilizar una técnica de comparación de más de dos grupos, es decir como un método para
comparar más de dos tratamientos: si disponemos de medidas cuantitativas continuas, que se
puede suponer como procedentes de una distribución de probabilidad normal, y queremos
comparar dos grupos -dos tratamientos-, la prueba estadística que se utiliza es un contraste de
medias basado en la t de Student, y cuando se dispone de más de dos grupos, la prueba a
emplear es el análisis de la varianza. Aunque el enfoque es adecuado, refleja sólo una parte del
interés de la técnica, ideada no sólo para analizar los datos sino también para planificar los
experimentos, y más apropiado hablar de que el análisis de la varianza es un procedimiento
estadístico que nos permite dividir la variabilidad observada en componentes independientes que
pueden atribuirse a diferentes causas de interés.
En el planteamiento más simple de análisis de la varianza tenemos una variable numérica

cuantitativa (resultado), y queremos determinar en qué medida se puede atribuir la variabilidad de
ésta a otra variable cualitativa nominal que vamos a denominar factor. Estamos hablando por tanto
de análisis de la varianza para un solo factor, que puede tener 2 o más categorías o niveles.
Este factor, cuyo posible efecto sobre la variable medida queremos analizar, puede tener unos
niveles fijos, por ejemplo el nivel educativo alcanzado por los sujetos que intervienen (sin estudios,
estudios primarios, secundarios, formación universitaria), y hablamos entonces de modelo de
efectos fijos; o bien puede tratarse de una muestra procedente de un conjunto de niveles más
amplio, como puede ser por ejemplo el caso de un estudio en el que se seleccionan varios
hospitales y se analiza las posibles diferencias entre hospitales. Entonces lo denominamos modelo
de efectos aleatorios. En el análisis de la varianza de 1 factor es mucho más frecuente el modelo
de efectos fijos.

18
Análisis de Datos
Vamos a plantear el problema y comentar los cálculos que se efectúan en un análisis de la
varianza para un factor. Estudiamos K grupos clasificados de acuerdo a los niveles 1,2 .. K del
factor. En cada nivel tenemos n1, n2, ... nk observaciones independientes y obtenidas de forma
aleatoria. Si designamos de forma general cada observación como y ij, el subíndice i indica el grupo
al que pertenece, j es el número de la observación dentro de ese grupo, de tal manera que por
ejemplo y25 corresponderá al valor observado en el quinto sujeto del segundo grupo. Por tanto en el
grupo 2 tenemos las observaciones y21 hasta y2n2.
Si juntamos todas las observaciones N=n1+n2+...+nk, calculamos la media global que vamos a
denominar .
También podemos calcular la media dentro de cada uno de los K grupos. La media para el grupo i
la designamos como .
Es obvio que la diferencia entre cada observación y la media global se puede descomponer de la
siguiente forma:
[1]
Es decir que la diferencia entre el valor observado y la media global es igual a la suma de la
diferencia de la observación con la media de su grupo y la diferencia de la media del grupo con la
media global.
Se puede comprobar que si cada término de esa expresión se eleva al cuadrado y se suma para
todas las observaciones, se mantiene la igualdad, lo que curiosamente no es más que la aplicación
del famoso teorema de Pitágoras a este diseño:
Cada uno de los términos es pues una suma de desviaciones cuadráticas, que denominaremos de
forma abreviada como suma de cuadrados (SC). La primera SC del lado de la derecha
corresponde a las desviaciones de cada observación respecto de la media de su propio grupo, por
lo que se la conoce como "dentro del grupo" o "intra grupo" (en inglés within). El segundo sumando
de la derecha corresponde a las desviaciones de la media de cada grupo respecto de la media
global, por lo que cuantifica las diferencias medias entre los grupos, y se conoce como suma de
cuadrados "entre grupos" (en inglés between):
19
Análisis de Datos
SCTotal=SCIntra grupo+SCEntre grupos
El cuadrado medio intra-grupo, equivalente a una varianza, lo calculamos dividiendo la suma de

cuadrados entre los grados de libertad
y se puede comprobar que es en realidad una media ponderada de las varianzas muestrales de
cada grupo, con la siguiente expresión:
Queda claro que constituye por tanto una estimación de la varianza común .
De igual manera podemos calcular el cuadrado medio entre grupos:
Si la media de todos los grupos es la misma, MSE también es una estimación de la varianza común
. Esto se puede entender mejor de una forma intuitiva si consideramos el caso particular en el
que todos los grupos tienen el mismo tamaño n. Sabemos que la desviación estándar al cuadrado
(varianza) de la media obtenida en muestras de tamaño n extraídas de una población normal es
/n (es lo que conocemos como error estándar de la media), por lo tanto
será una estimación de /n y por tanto es una estimación de .
Ahora bien, si las medias de los grupos sí son diferentes, MSE no sólo contiene el valor de la
varianza intrínseca , sino que además estará aumentada según las variaciones entre las
medias de los tratamientos, y será tanto mayor cuanto mayor sean estas diferencias. El cociente:

20
Análisis de Datos
que compara la variabilidad entre grupos y la variabilidad intra grupos, será por tanto próximo a 1 si
las medias de los grupos son similares y tanto mayor que 1 cuanto mayores sean las diferencias
entre los grupos. El valor de F obtenido se contrastará con el valor de la distribución teórica con
grados de libertad K-1,N-K, y si la probabilidad de obtener un valor tan grande como el observado
es baja, rechazaremos la hipótesis de igualdad de medias entre los grupos. La utilización de este
parámetro de contraste, que tiene una rigurosa justificación metodológica estadística, también tiene
pues una interpretación intuitiva: estamos comparando la variabilidad entre los grupos con la
variabilidad intrínseca dentro de los grupos.
Por otro lado hemos visto que la variabilidad total la hemos dividido en dos partes: una variabilidad
debida o explicada por pertenecer a cada uno de los grupos o niveles del factor, y una parte de
variabilidad individual, que no atribuimos a ninguna causa concreta, y que por ello se suele
denominar también variabilidad residual. Esto podemos reflejarlo de una forma clara manipulando
un poco la fórmula [1] en la que se desglosa la variabilidad de cada observación en dos términos:
[2]
Es decir que el modelo postulado (término de la derecha) para nuestras observaciones
corresponde a tres sumandos: una media global , un efecto diferencial debido a la pertenencia al
grupo o tratamiento y un termino residual no explicado .
Caso Práctico
Consideremos que queremos comparar las medias de k poblaciones, cada una de las cuales se
supone que tiene la misma varianza. Tomemos, para estas poblaciones, muestras aleatorias
independientes de tamaños n1, n2,….,nk, respectivamente.
En general, si tenemos muestras aleatorias independientes de tamaño nk tomadas de k

poblaciones (tratamientos). El j-esimo valor de la i-esima población se denota como xij, es decir:
Población 1: x11, x12, ……., x1n1
Población 2: x21, x22, ……., x2n2

.
.
21
Análisis de Datos
.
Población k: xk1, xk2, ……., xknk
y supondremos que las variables aleatorias correspondientes xij son independientes, tienen
distribución normal con medias respectivas µi y la varianza común σ 2
El procedimiento para contrastar la hipótesis de igualdad de medias en este contexto se denomina

análisis de la varianza de un factor.
H0: µ 1=µ 2= …. =µ k
Ha: cuando menos alguna medias son diferentes
El paso lógico entonces sería construir un estimador de dicha media común a partir de los datos
muéstrales. Una posible elección para tal estimador sería la media global de todas las
observaciones muéstrales. Es decir, la suma de todas las observaciones muéstrales dividida por el
número total de observaciones muéstrales. Si n es el número total de observaciones muéstrales,
entonces,
K
n = ∑ ni La media global de todas las observaciones muéstrales se puede expresar como:
i =1
K ni K
∑∑ x
i =1 j =1
ij ∑n x i i
ni
T j = ∑ xij j = 1, 2, ….., k
x= = i =1
i =1
n n
El contraste de igualdad de medias está basado en la comparación de dos tipos de variabilidad de

los miembros de la muestra. La primera es la variabilidad en torno a las medias individuales
muéstrales de los k grupos de observaciones. Será conveniente referirnos a ella como la
variabilidad dentro de los grupos. La segunda es la variabilidad entre las medias de los k grupos.
Esta se denomina variabilidad entre grupos.
nk
La variabilidad dentro de los grupos se calcula de la siguiente forma: SCi = ∑ ( xij − xi ) 2
j =1

22
Análisis de Datos
La variabilidad total dentro de los grupos, o tratamientos, que denominaremos
K ni
SCT = ∑∑ ( xij − xi ) 2
i =1 j =1
La suma de los cuadrados de las discrepancias de todas las observaciones muéstrales respecto a
la media global. Dicha suma se denomina la suma de cuadrados total y se expresa
K ni
STC = ∑∑ ( xij − x ) 2
i =1 j =1
La suma total de cuadrados entre grupos,(suma de cuadrados del error), SCE, ponderaremos cada
diferencia al cuadrado por el número de observaciones muéstrales en el grupo correspondiente,
quedando de la siguiente manera:
K
SCE = ∑ ni ( xi − x ) 2
i =1
De estas tres ecuaciones se cumple: STC = SCT+SCE además el grado de libertad de cada una
de ellas es la siguiente: n-1 = (k-1)+(n-k)
SCE
La media de los cuadrados de los errores se definirá, CME = y la media de los cuadrados
n −k
SCT
de los grupos (tratamientos) se definirá: CMT =
k −1
CMT
El estadístico de prueba que se usara será: Fp =
CME
Se rechazara H0 si Fp ≥Fk −1;n −k ;α o p(valor) <α
Todo esto se puede resumir en la siguiente tabla:
Fuerte de Grados Suma de Cuadrado F

Variación de Cuadrados s
Libertad medios
tratamiento k-1 SCT CMT CMT/CM
s E
error n-k SCE=STC- CME
23
Análisis de Datos
SCT
Total n-1 STC
Las formulas reducida de SCT y STC
2 ni
K
Ti T2 K
T2
SCT = ∑ ( ) − STC = ∑∑ ( x ) − 2
ij
i =1 ni n i =1 j =1 n
Ejemplo 1:
Las siguientes cantidades representan las palabras por minuto que mecanografió, en varias
ocasiones, una secretaria en cuatro máquinas de escribir distintas:
Máquina 1 Máquina 2 Máquina 3 Máquina 4

71 68 75 62
75 71 70 59
69 74 81 71
77 66 73 68
61 69 78 63
72 67 72 65
71 70 72
78 62 60
64
ni 8 8 6 9
total 574 485 449 388
Ti2 329476 235225 201601 150544
Demostrar si las diferencias entre las cuatro medias de la muestra se pueden atribuir al azar
One-way ANOVA: Máquina 1; Máquina 2; Máquina 3; Máquina 4
Analysis of Variance
Source DF SS MS F P
Factor 3 412,6 137,5 6,84 0,001
Error 27 543,1 20,1
Total 30 955,7
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev -------+---------+---------+---------
Máquina 8 71,750 5,365 (------*-----)
Máquina 8 68,375 3,583 (------*-----)
Máquina 6 74,833 4,070 (-------*------)
Máquina 9 64,889 4,595 (-----*-----)
-------+---------+---------+---------
Pooled StDev = 4,485 65,0 70,0 75,0

24
Análisis de Datos
Luego se rechaza la hipótesis nula
Conclusión: Hay diferencias entre las medias.

25
Análisis de Datos
Ejemplo 2:
Se desea comparar la acción de limpieza de tres detergentes sobre la base de los siguientes
registros de blancura tomados en 15 muestras de ropa blanca manchada con tinta de la India y
después lavada con los detergentes respectivos en una lavadora:
Detergente A: 77, 81, 71, 76, 80

Detergente B: 72, 58, 74, 66, 70
Detergente C: 76, 85, 82, 80, 77
Pruebe en el nivel de significación del 1% si las diferencias entre las medias de los registros de
blancura son significativas
Solución.
H0: Las medias entre los tres detergentes son iguales

Ha: Cuando menos una de ellas es diferente.
Fuerte de Grados Suma de Cuadrados F

Variación de Cuadrado medios
Libertad s
tratamiento 2 SCT=390 CMT=360/2=19 CMT/CME=195/23=
s 5 8,48
error 12 SCE=276 CME=276/12=2
3
Total 14 STC=666
p(valor)=0,0050617 es menor que α = 0,01 Se rechaza H0
Conclusión: Los tres detergentes no son igualmente efectivos.

26
Análisis de Datos
Diseño en Bloques Aleatorizados
En un artículo anterior se habló de la ventaja que presentan las pruebas pareadas para
aumentar la eficiencia, al controlar parte de la variabilidad no atribuible al factor que
estamos estudiando. Cuando se analizan más de dos niveles o grupos el concepto de prueba
pareada se puede generalizar al análisis de la varianza. Aquí se denomina bloque a cada
unidad de observación, y para un factor o tratamiento tenemos el siguiente diseño
experimental:
Tratamiento 1 Tratamiento 2 ... Tratamiento K
Bloque 1 Y11 Y12 ... Y1K
Bloque 2 Y21 Y22 ... Y1K
... ... ... ... ...
Bloque n Yn1 Yn2 ... YnK
En este diseño, de manera análoga a la expresada en la fórmula [2] podemos descomponer la

variabilidad individual según el siguiente modelo:
donde aparece un nuevo término que corresponde a la variabilidad atribuida al bloque, con lo
que el término correspondiente a la variabilidad no explicada disminuye, obteniéndose por tanto

una prueba más eficiente.
Los bloques o unidades de observación pueden ser cada paciente, un hospital, un grupo de
pacientes con unas características específicas, etc. A veces también se habla de análisis
estratificado, donde los conceptos bloque y estrato son equivalentes.
Aunque uno de los motivos fundamentales de la asignación aleatoria de los pacientes a cada grupo
de tratamiento es precisamente evitar la presencia de sesgos en las características de los
pacientes que puedan afectar a las diferencias de eficacia que se observen, sin embargo cuando
se sabe que factores como la edad del paciente, la presencia de diabetes, antecedentes de
27
Análisis de Datos
tabaquismo, etc influyen en el resultado, puede ocurrir que finalmente por azar las proporciones de
los diferentes niveles de estos factores no se repartan "equitativamente" entre los grupos de
tratamiento, lo que conlleva a que los resultados queden bajo sospecha, incluso aunque después
en el análisis se acuda a técnicas multivariantes para "ajustar" los resultados en función de los
valores basales en los grupos, atribuyendo parte de la variación observada a esas diferencias, y
corrigiendo o disminuyendo la diferencia encontrada atribuible al efecto del tratamiento. La
utilización de técnicas de diseños aleatorizados en bloques y diseños factoriales nos permite
anticiparnos a esa situación, por lo que han sido ampliamente empleadas no sólo en
experimentación agrícola donde se originaron, sino también en farmacología y en la industria, y en
mucha menor medida, por lo que se comentará más adelante, en la investigación médica clínica.
En este diseño aletorizado por bloques disponemos de dos valores de F para contrastar: uno
relativo a la influencia del tratamiento y otro para la influencia del bloque; aunque el contraste en el
que seguramente estamos interesados es solo el primero, ya que de entrada se supone que el
bloque sí que influye en la variable medida y precisamente por eso se ha acudido a este tipo de
diseño.
Diseños Factoriales
Los denominados diseños factoriales permiten al investigador planificar un trabajo para evaluar el
efecto combinado de dos o más variables de forma simultánea en el resultado medido,
obteniéndose también información en cuanto a la posible interacción entre los diversos factores.
Así podemos extender el modelo presentado en la fórmula [2] para considerar en cada observación
la influencia de dos factores que vamos a denominar A y B. Expresamos la observación número k
en el nivel i del factor A, nivel j del factor B, como:
donde se ha separado en un término correspondiente a la media global, otro debido al efecto

diferencial por pertenecer a un nivel determinado del factor A, un efecto debido al factor B, un
efecto de la interacción entre los factores A y B, y una variabilidad residual no atribuible.
Este modelo es la base del análisis de la varianza para dos factores.
El problema de los diseños factoriales clásicos cuando se aplica a la investigación clínica, en la que
predominan los diseños observacionales y donde casi siempre es por tanto difícil fijar el número de
28
Análisis de Datos
sujetos en cada uno de los niveles de los diferentes factores, radica en que para que sea aplicable
un análisis de la varianza clásico para más de un factor, es necesario que se cumpla también la
igualdad de la suma de cuadrados, y esto sólo ocurre cuando el número de sujetos por celda
(llamamos celda a cada combinación de niveles de los distintos factores) es el mismo para todas
las celdas. Es decir que la igualdad:
SCTotal=SCA+SCB+SCAB+SCResidual
sólo es cierta cuando todas las celdas tienen el mismo número de sujetos. Si ese número no es
igual no podemos aplicar el análisis de la varianza.
Afortunadamente existe una relación directa entre el modelo de efectos postulado y la regresión
lineal múltiple, en la que intervendrán los factores como variables independientes. Es lo que se
conoce como modelos lineales.
Obviamente en ese modelo de regresión los factores entrarán adecuadamente codificados como
variables diseño o dummy, procedimiento que ya fue comentado en el artículo relativo a la
regresión logística.

29
Análisis de Datos
Estadística No Paramétrica
Introducción
Las técnicas no paramétricas se utilizan ampliamente en las aplicaciones de las ciencias

sociales, para las suposiciones que requieren los problemas de índole paramétrica, no
son sencillas de verificar, como el supuesto de normalidad. Por ejemplo, cuando se desea
probar si varias muestras independientes proceden de la misma población, la prueba
indicada es el análisis de varianza de una vía, la prueba F.
El cálculo de estas pruebas, es sencillo, desde el punto de vista manual y matemático, sin
embargo, si se utiliza una computadora, ya cargados los archivos de toda una encuesta,
se puede solicitar que el paquete, que puede ser, el Statgraphics, el SPSS, el BMDP o el
SAS, entre otros, que obtenga rutinas y elabore los cálculos. Con estas pruebas, no sólo
manejan variables cuantitativas, sino también cualitativas.
Prueba de homogeneidad
Esta técnica, pertenece a la clasificación de la prueba de bondad de ajuste, con ella se

puede probar si hay una diferencia significativa entre los datos esperados o teóricos y los
datos observados. Los datos esperados o teóricos deben ir en igual proporción para cada
categoría, de esta situación es que toma el nombre de prueba de homogeneidad.
Procedimiento general para la prueba de homogeneidad
1. Definir claramente los datos observados, colocados en categorías. Cada

observación debe pertenecer a una y solamente a una categoría.
2. Definir los supuestos, en ellos se definen los requisitos del objetivo y el tipo de
prueba que se va a realizar.
30
Análisis de Datos
3. Hipótesis: Se plantean un solo tipo de hipótesis.
a. Ho: todas las categorías tienen iguales frecuencias
b. H1: no todas las categorías tienen iguales frecuencias
4. Valor crítico: Se considera únicamente el área de cola derecha de la distribución X

2
. En las tablas del apéndice R, se consultan los valores de (gl = n – 1) y el nivel
por el que se desea.
Para llevar una prueba de homogeneidad se procede de la manera siguiente:
1. Escogemos una muestra de las poblaciones de interés.

2. Cada muestra la clasificamos de acuerdo con los criterios que hayamos escogido
para el estudio.
3. Realizamos una prueba ji- cuadrada similar al caso de independencia con
g.l = (r –1) (c - 1).
La hipótesis nula se planteara de la siguiente manera. ¿ las muestras extraídas son de

poblaciones homogéneas respecto de algún criterio de clasificación.
Suponga que 200 maestros, 300 ingenieros y 400 médicos, participan en un estudio para
calcular la magnitud del consumo de alcohol en las tres profesiones. Los conteos de
Consumo Maestros Ingenieros Médicos Total frecuencia se anotan en una tabla

Ocasional de contingencia similar a la
Moderado
Alto siguiente:
Total 200 300 400 900
Suponga que al estudiar a 200 maestros, 300 ingenieros y 400 médicos, los resultados
obtenidos son los siguientes:
Se calcula las frecuencias esperadas en la tabla de contingencia suponiendo

homogeneidad
(Total del renglón i ) (total de la columna j )

eij =
tamaño de la muestra
31
Análisis de Datos
Consumo Maestros Ingenieros Médicos Total
Ocasional 100 50 100 250
Moderado 50 150 200 400
Alto 50 100 100 250
Total 200 300 400 900
El procedimiento de prueba para comparar frecuencias observadas con las frecuencias

esperadas, se parece a los cálculos de la prueba de independencia. Específicamente, el
valor de χ basados en las frecuencias observadas y esperadas se calcula como sigue:

2
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei
Oi = Valor observado en la i-ésimo celda.

Ei = Valor esperado en la i-ésimo celda.
K = Categorías o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene

una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las
frecuencias
Número de unidades con defecto Número de muestras
esperadas 0 138
sean 5 o más 1 53
2 ó más 9
para todas las
categorías. En consecuencia proseguimos con el cálculo de la estadística de prueba ji
cuadrada.

32
Análisis de Datos
Prueba de bondad de ajuste
La prueba de bondad de ajuste desea determinar qué tanto se ajusta una distribución
observada a otra esperada o teórica (en el caso de homogeneidad, la distribución teórica
debe tener valores iguales para todas las categorías y en el caso de la bondad de ajuste
esto no es requisito). En general se trabaja con grados de libertad y el procedimiento de
prueba es igual al de homogeneidad. La prueba de homogeneidad es un importante
subconjunto de estas pruebas.
Se dan casos especiales para el tratamiento de los grados de libertad, como es el caso de
la prueba de bondad de ajuste para distribución normal, en que los grados de libertad son
n – 3, ya que existen 3 restricciones, la primera por igualar lo esperado a lo observado, y
las otras dos para estimar μ y σ . Si estos dos valores se especifican de antemano por ser
ya conocidos, los grados de libertad serán n = 1.

33
Análisis de Datos
Problema Resuelto de Prueba de Bondad de Ajuste
Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de

una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los
números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos
los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10
y π = .05
1. Establecer la hipótesis
Ho: La población es binomial

Ha: La población no es binomial
2. Establecer la estadística de prueba
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei

m= Parámetros
3. Definir el nivel de significancia y la zona de rechazo
g,l = k- m – 1 = (3 – 0- 1) =
5.99
Nivel de significancia = 0.05
Zona de rechazo = { χ / χ ≥ 5.99)

2 2

34
Análisis de Datos
m = 0 porque no se necesito estimar ningún parámetro
4. Calculo de la estadística de prueba
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei
Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades
utilizaremos la formula de la binomial
f ( x) = ( )π
n
x
x
(1 − π ) n − x
donde n = 10 π = 0.05
f (0) = ( 10
0 ) 0.05 ( 1 − 0.05)
0 10 − 0
= .599
f (1) = ( )0.05
10
1
1
( 1 − 0.05)10 −1 = .315
y la probabilidad de 2 ó más = 1.0 - .599 - .315 = .086
ahora ya podemos encontrar las frecuencias esperadas:

200 ( .599) = 119.8 200(.315) = 63 200 (.086) = 17.2
Al aplicar la formula se tiene:
(138 − 119.8) 2 (53 − 63.0) 2 (9 − 17.2) 2

χ2 = + +
119.8 63 17.2 = 8.26
5. Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de
significancia de 0.05.
6. Conclusión
Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.

35
Análisis de Datos
Prueba de independencia
Otra aplicación importante es la prueba de independencia. Cualquier variable puede

producir múltiples categorías, una clasificación se dice que es exhaustiva, cuando sus
categorías satisfacen las demandas de los elementos y no quedan algunos sin
colocación. También se dice que son mutuamente excluyentes cuando ellos están
definidos de tal manera que cada elemento de la población pertenece a una y solamente
a una de sus categorías.
Las variables podrán ser cualitativas o cuantitativas, en el caso de cuantitativas

generalmente se les baja su escala de medición a ordinal o hasta nominal.
Al tomarse una muestra, se genera la tabla de contingencia cuando sus elementos son
calcificados de acuerdo a dos o más variables de tipo cualitativo. La forma más simple de
ella es la tabla de 2 X 2, en ella se localizan dos variables que tienen cada una solamente
dos categorías.
Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y
distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de segmentación de
mercado para las tres cervezas, el grupo de investigación encargado ha planteado la
duda de si la preferencia para las tres cervezas es diferente entre los consumidores
hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género del
consumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin
embargo, si la preferencia depende del género del consumidor, se ajustarían las
promociones para tener en cuenta los distintos mercados meta.
Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,

clara y oscura) es independiente del género del consumidor (hombre, mujer). Las
hipótesis para esta prueba de independencia son:
Ho: La preferencia de la cerveza es independiente del género del consumidor

Ha: La preferencia de la cerveza no es independiente del género del consumidor

36
Análisis de Datos
Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de
identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra
y preguntar a cada persona que diga su preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predilección de cerveza y género, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.
Cerveza preferida
Ligera Clara Oscura
Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)
Mujer Celda (2,1) Celda (2,2) Celda (2,3)
Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de
cerveza. Después de saborear cada una, se les pide expresar su preferencia o primera
alternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestas
obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en
términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas
de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que
prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y así
sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categorías.
Cerveza preferida
Ligera Clara Oscura Total
Género Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150

37
Análisis de Datos
Si podemos determinar las frecuencias esperadas bajo la hipótesis de independencia
entre la preferencia de cerveza y el género del consumidor, podemos usar la distribución ji
cuadrada para determinar si existe una diferencia significativa entre la frecuencia
observada y la esperada.
Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el

siguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, de
independencia entre la cerveza preferida y el género del consumidor. A continuación
observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la
cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la
conclusión es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera;
70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia,
decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y
mujeres. Así bajo la hipótesis de independencia, esperaríamos que la muestra de 80
consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 =
37.33 la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70
consumidoras mujeres produce las frecuencias esperadas que aparecen en la tabla.
Cerveza preferida
eij Ligera Clara Oscura Total

Sea la Género Hombre 26.67 37.33 16.00 80
frecuencia Mujer 23.33 32.67 14.00 70
Total 50.00 70.00 30.00 150
esperada en la
categoría del renglón i y la columna j de la tabla de contingencia. Con esta notación
reconsideremos el cálculo de la frecuencia esperada para los hombres (renglón i = 1) que
e1, 2
prefieren la cerveza clara (columna j = 2) esto es, la frecuencia esperada .
Apegándonos al esquema anterior para el cálculo de las frecuencias esperadas, podemos
demostrar que
e1, 2
= (7/15) 80 = 37.33
e1, 2
Esta ecuación se puede escribir como sigue: = (7/15) 80 = (70/150) 80 = 37.33

38
Análisis de Datos
Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad
total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna
2) y 150 es el tamaño de la muestra total. En consecuencia vemos
(total del renglón 1) (total de la columna 2)

e1, 2 =
Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias

esperadas de una tabla de contingencias para la prueba de independencia.
Frecuencias esperadas en la tabla de contingencia suponiendo independencia
(Total del renglón i ) (total de la columna j )

eij =
El procedimiento de prueba para comparar frecuencias observadas con las frecuencias

esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de
χ 2 basados en las frecuencias observadas y esperadas se calcula como sigue:
k [f − f ei ] 2
∑
oi
χ =
2
i =1 f ei

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene

una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las
frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia
proseguimos con el cálculo de la estadística de prueba ji cuadrada.

39
Análisis de Datos
Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia
de cerveza es independiente del género de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina

multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.
Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2
grados de libertad para la prueba de independencia entre cerveza y género del
consumidor. Con α = .05 como nivel de significancia de la prueba, buscamos en la tabla
de ji cuadrada y nos da un valor

χ .205 = 5.99. Observe que estamos usando el valor de la
cola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entre
frecuencias observadas y esperadas producen un valor grande de χ . En el ejemplo χ

2 2
=6.13 es mayor que χ = 5.99. Por consiguiente, rechazaremos la hipótesis nula de

2
independencia y concluimos que la cerveza preferida no es independiente del género del

consumidor, es decir, la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a
Género Cerveza fo fe ( fo − fe ) ( fo − fe )2 ( f o − f e ) 2 / eij

Hombre ligera 20 26.67 -6.67 44.4889 1.66812523
Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
Mujer ligera 30 23.33 6.67 44.4889 1.90693956
Mujer clara 30 32.67 -2.67 7.1289 0.21820937
Mujer Oscura 10 14 -4 16 1.14285714
6.12710104 χ2
los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas
diferencias.

40
Análisis de Datos
Prueba de rachas de Wald Wolfowitz
Las prueba de rachas es una prueba no paramétrica, capaz de manejar variables

cuantitativas y cualitativas de tipo dicotómico.
La utilidad de esta prueba, abarca diferentes campos de la actividad humana y puede

servir desde para probar la aleatoriedad: de las encuestas aplicadas por los
entrevistadores, de las fallas de la maquinaria en la producción, de las cantidades
compradas o vendidas, de las faltas de los empleados, hasta para controlar la calidad de
la producción.
Una racha es una subsucesión de una secuencia ordenada de elementos iguales

observados.
Puede ser llevada a cabo con muestras menores de 40 elementos y sus valores de
prueba deben ser comparados con los valores de unta tabla estadística. La prueba que se
presenta es preferible ya que se trabaja con muestras de 40 o más elementos y esto hace
que las rachas se presenten con una forma de distribución acumulativa tendiente a la
normalidad.
Ésta es una prueba no paramétrica que se relacionan con parámetros relativos a la

tendencia central. Esta prueba es una buena opción para integrarse en lugar de la prueba
t, cuando no se puedan cumplir los supuestos necesarios para utilizarse, aunque debe
recordarse que esta prueba es menos potente. Los supuestos necesarios para la prueba
de rango con signo, son los siguientes:
Supuestos:
1. Extracción de los datos en forma aleatoria e independiente.

2. Variable de tipo continua
3. Escala de medición de razón o de intervalo

41
Análisis de Datos
4. Distribución de las diferencias entre los datos observados y la mediana hipotética
tendiente a la simetría.
5. Muestra mayor de 40 elementos para una muestra. Cuando se prueban dos
muestras, éstas pueden ser menores a los 40 elementos.

42
Análisis de Datos
Análisis de Series de Tiempo
Una serie de tiempo muestra el comportamiento de una variable en el tiempo. Las entidades
económicas, usualmente toman decisiones administrativas basándose en los registros de la vida
activa de la empresa, o bien, del ramo en que se desenvuelve. El gobierno también toma
decisiones y desarrolla nuevas políticas públicas y programas de gobierno, después de estudiar el
comportamiento de diferentes variables a lo largo del tiempo.
Tanto la toma de decisiones como la planeación, siempre requieren del pronóstico estadístico que
se basa en el estudio del comportamiento de una variable y en la suposición de que ese
comportamiento puede prolongarse a un futuro.
El comportamiento de la variable estudiada, puede ser causado por diversos factores, algunos de
naturaleza económica, otros referentes al clima, unos más por razones de modas, otros más por
razones financieras; y así podrían enunciarse infinidad de factores que pueden producir
fluctuaciones de tipo cíclico, estacional, aleatorias, etc.
Una serie de tiempo es una secuencia de los valores que asume una determinada variable o
conjunto de variables, dispuestas en un orden cronológico. Estas variables pueden ser relativas a
unidades monetarias, el número de artículos vendidos o comprados, etc. En general, cualquier
variable cuantitativa puede ser estudiada de esta manera, siempre y cuando se conozcan los
valores que asumió en intervalos regulares de tiempo.
Cuando una serie muestra un determinado patrón de comportamiento, por un período largo; es
posible esperar que ese mismo patrón continúe en el futuro, y así, esta posibilidad puede darnos
una base razonable para establecer pronósticos a un plazo corto.
Cuando una variable fluctúa en función del tiempo, generalmente está respondiendo a cuatro
componentes: la tendencia (T), el ciclo (C), la variación estacional (S) y la variación aleatoria o
irregular (I). Estos componentes actúan según dos modelos, el aditivo y el multiplicativo.
El modelo aditivo asume que el valor de la serie original (Y) proviene de la suma de los cuatro
componentes:
Y=T+S+C+I

43
Análisis de Datos
El modelo multiplicativo asume que el valor de la serie original es el producto de los cuatro
componentes:
Y=TxSxCxI
El modelo aditivo supone que los cuatro componentes son independientes entre sí. Esto supone
que, por ejemplo, cuando la tendencia tenga un valor alto, esto no afecte al comportamiento cíclico
o estacional. El modelo multiplicativo asume que los componentes sí tienen relación entre sí. El
modelo mutiplicativo es que ha sido considerado como modelo clásico.
Tendencia secular (T)
De manera convencional, se utiliza este componente con fines predictivos; es decir para la
elaboración de proyecciones o pronósticos.
Las tendencias seculares reflejan el continuo crecimiento o decrecimiento a largo plazo de las
series de tiempo. El concepto largo plazo ha sido estudiado como de al menos dos periodos
anuales en adelante, para que sea posible la caracterización del comportamiento de una variable,
que generalmente se describe por medio de una recta o de alguna curva que se ajuste al
comportamiento de los datos.
Curva de primer grado

y = β0 + β1X
Curva de segundo grado
y = β0 + β1X + β2X2
Curva de tercer grado
y = β0 + β1X1 + β2X2 + β3X3
Curva exponencial
y = β0 + β1x
Curva recíproca
1 / y = β0 + β1X
Curva exponencial logística
y = 1 / β0 + β1β2x

44
Análisis de Datos
Es posible ajustar la tendencia de los datos de las series de tiempo, por varios métodos, como el
de los mínimos cuadrados, el de la doble suavización y el de la triple suavización. Sin embargo, en
este curso utilizaremos el de los mínimos cuadrados para curvas de primer grado.
Forma general de la ecuación de la regresión

Y ’ = a + bX
lineal:
Donde:
Y‘= Se lee Y prima, es el valor predictorio de la variable Y para un valor seleccionado de X.
a= Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.
b= Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en una unidad de

la variable independiente X.
X= Es el valor que se escoge para la variable independiente.
Esta relación lineal es utilizada para representar una tendencia secular que cambia a una tasa
constante. Si las series se incrementan con el tiempo, pueden ser representadas con una línea con
pendiente positiva; si por el contrario, decrecen con el tiempo, pueden representarse por una línea
con pendiente negativa.
Como ya se dijo en el tema anterior, para conocer los valores de a y b, es necesario resolver las
ecuaciones siguientes:
n ( Σ XY ) – ( Σ X ) ( Σ Y )
Pendiente de la línea de regresión b=
n ( Σ X2 ) – ( Σ X ) 2
ΣY ΣX
Intersección con el eje y a= –b
n N
Donde:

45
Análisis de Datos
X= es un valor de la variable independiente
Y= es un valor de la variable dependiente
n= es el número de elementos en la muestra
Cuando se conocen los valores de x e y, se sabe que los de x se refieren al tiempo, dado en
intervalos regulares, en el que se desarrolla el comportamiento de y; por esta razón, en el tiempo
es posible definir si estamos en presencia de periodos y así codificarlos.
Cuando se trata de un número par de periodos, se codifican asignando el valor cero al primer
periodo, al segundo el uno y así sucesivamente. Cuando se trata de un número impar de periodos
se fija el origen en la mitad de la sucesión, a los años anteriores se les asignan valores negativos y
a los posteriores positivos.
Serie de número de periodos par (n = 6 )

Año
Código
2001 0
2002 1
Serie de número de períodos 2003 2
2004 3
impar ( n = 7 ) 2005 4
2006
Año 5
Código
2001 -3
2002 -2
2003 -1
2004 0
2005 1
2006 2
2007 3

46
Análisis de Datos
Ejercicio (para una serie de número de periodos par)
En la siguiente tabla aparecen los valores correspondientes al INPC del periodo comprendido entre
1962 y 1971. Supón que se quiere realizar un pronóstico del INPC para 1972.
Año Período de codificación (X)

1962 0
1963 1
1964 2
1965 3
1966 4
1967 5
1968 6
1969 7
1970 8
1971 9
45.0
Lo primero que se tiene que hacer es sustituir las fórmulas mencionadas anteriormente para ajustar
una línea de tendencia, de este modo:
Períodod de codificación INPC

Año XY X2
(X) (Y)
1962 0 26.5440 0.0000 0
1963 1 26.6376 26.6376 1
1964 2 28.1153 56.2306 4
1965 3 28.1714 84.5142 9
1966 4 28.9758 115.9032 16
1967 5 29.4809 147.4045 25
1968 6 30.0794 180.4764 36
1969 7 31.5411 220.7877 49
1970 8 33.0211 264.1688 64
1971 9 34.6596 311.9364 81
45 297.2262 1408.0594 285
n ( Σ XY ) – ( Σ X ) ( Σ Y )
n ( Σ X2 ) – ( Σ X ) 2
Pendiente de la línea de regresión b= 10 ( 1408.0594 ) – ( 45 ) ( 297.2262 )

47
Análisis de Datos
10 ( 285 ) – ( 45 ) 2
b = 0.855048485
ΣY ΣX
Intersección con el eje y a= –b
N N
297.2262 45
Intersección con el eje y a= – (0.85504)
10 10
a = 25.87490182

Y ’ = a + bX
lineal

Y ’ = 25.8749 + 0.8550X
lineal

Y ’ = 25.8749 + 0.8550 (10)
lineal
Y ’ = 34.4254

48
Análisis de Datos
Entonces, se podría esperar que para 1972 el INPC fuera de 34.4254
Cabe mencionar que el INPC real a diciembre de 1972 fue de 36.5858, valor superior en más de 2
puntos del estimado. Gráficamente se podría esperar una figura como la siguiente.
35
30
25
20
1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972
INPC (Y ) INPC (Y ')
Ejercicio (para una serie de número de periodos impar)
Cuando los datos se presentan con un número impar de períodos, al codificar, como ya mencionó,
el valor cero en el centro de la serie, la sumatoria de los valores de X serían siempre cero, por lo
tanto las fórmulas cambian.
Σ XY
Σ X2
ΣY
Intersección con el eje Y a=
n
En el siguiente cuadro aparecen los valores del INPC correspondientes a los años comprendidos
entre 1984 y 1992. Supón que deseas saber cuál sería el INPC en 1983.

49
Análisis de Datos
INPC
Año Período de codificación (X) XY X2
(Y)
1984 -4 1219.3764 -4877.5056 16
1985 -3 1996.7229 -5990.1687 9
1986 -2 4108.2000 -8216.4000 4
1987 -1 10647.2000 -10647.2000 1
1988 0 16147.3000 0.0000 0
1989 1 19327.9000 19327.9000 1
1990 2 25112.7000 50225.4000 4
1991 3 29832.5000 89497.5000 9
1992 4 33393.9000 133575.6000 16
0 141785.7993 262895.1257 60
Entonces:
b = 4381.585428
a = 15753.9777
Y ’ = 15753.9777 + 4381.5854 X
Y ’ = 15753.9777 + 4381.5854 (5)
Y ’ = 37661.90484
Se podría esperar si la tendencia estudiada continuara, que para 1993 el INPC hubiera sido
37661.9048. El valor real del INPC para este año fue de 36068.5000.
40000
30000
20000
10000
0
1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
INPC (Y) INPC (Y')

50
Análisis de Datos
Bibliografía:
Mendenhall, William, Probabilidad y Estadística para Ingeniería y Ciencias QA273 M4618
http://www.monografias.com/trabajos16/metodos-lineales/metodos-lineales.shtml#f
http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi2.pdf
http://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf
http://www.monografias.com/trabajos7/anva/anva.shtml
http://www.seh-lelha.org/anova.htm
http://uk.geocities.com/andres_sandoval_hernandez/Estadistica/Tema_12/Tema_12.doc

51
Análisis de Datos

Analisis de Datos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Datos

Uploaded by

Copyright:

Available Formats

Universidad del Valle de México

“Correlación y Regresión Lineal”,

“Regresión Múltiple y Polinomial”,

“Modelos de Predicción y Series de Tiempo”

Materia: Análisis de Datos

Universidad del Valle de México

Correlación y Regresión Lineal...........................................................................................................3

Universidad del Valle de México

, puede darse las siguientes situaciones:

• No exista ninguna relación entre la variable respuesta y las variables regresoras, en el

Universidad del Valle de México

El objetivo básico en el estudio de un modelo de regresión es el de estimar la función de regresión,

Una vez estimadas estas funciones se tiene conocimiento de:

Universidad del Valle de México

El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores

Universidad del Valle de México

Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

Universidad del Valle de México

Si representamos en un gráfico los pares de valores de una distribución bidimensional: la variable

Una recta viene definida por la siguiente fórmula:

Universidad del Valle de México

El parámetro "b" determina la pendiente de la recta, su grado de inclinación.

El parámetro "b" viene determinado por la siguiente fórmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

El parámetro "a" viene determinado por:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

El parámetro "b" viene determinado por:

Y el parámetro "a" por:

a = 33,1 - (40,265 * 1,262) = -17,714

Universidad del Valle de México

En la mayor parte de los problemas de investigación donde se aplica el análisis de regresión se

m Y|x1, x2 ,………, xk = b 0 + b 1 x1 +……..+ b k xk

y la respuesta estimada se obtiene de la ecuación de regresión de la muestra

m Y|x = b 0 + b 1 x +b 2 x2+ ……..+ b r xr

y la respuesta estimada se obtiene de la ecuación de regresión polinomial

En ocasiones surge confusión cuando hablamos de un modelo polinomial como de un modelo

Universidad del Valle de México

Universidad del Valle de México

W 105 140 110 130 125 115 100 103 118 98

Objetivo: Se presentara primero el análisis de regresión múltiple al desarrollar y explicar el uso de

Análisis de Regresión Múltiple

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Universidad del Valle de México

El error estándar de la regresión múltiple Es una medida de dispersión la estimación se

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

m : Número de variables independientes

El coeficiente de determinación múltiple Mide la tasa porcentual de los cambios de Y que

pueden ser explicados por , y simultáneamente.

Universidad del Valle de México

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Múltiple: Se quiere

Alumno PHP Algoritmos Base de Datos Programación

Lo que buscamos es construir un modelo para determinar la dependencia que exista de

Se presentara la siguiente ecuación a resolver:

Universidad del Valle de México

El Error Estándar de Regresión Múltiple

Para calcularla se utiliza la formula siguiente:

El coeficiente de determinación múltiple (r2)

Apliquémosle el método de mínimos cuadrados.

La curva propuesta es: