You are on page 1of 32

1

INGENIERIA EN TECNOLOGIAS DE LA
INFORMACION

APOYO DIDACTICO

ESTADISTICA APLICADA

Por

RANDOLFO ALBERTO SANTOS QUIROZ

XICOTEPEC DE JUAREZ, PUEBLA. ENERO 2011


2
Contenido

1 ORGANIZACION Y ANALISIS DE DATOS 5

1.1 Estadstica Descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.1 Datos agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Ordenamiento o arreglo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSION 9

2.1 Glosario de Terminos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Formulas de tendencia central y de distribucion . . . . . . . . . . . . . . . . . . . . . . . 11

3 PROBABILIDAD Y SUS DISTRIBUCIONES 15

3.1 Conceptos Basicos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2 Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 MUESTREO Y SUS DISTRIBUCIONES 21

4.1 Conceptos basicos de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2 Ecuaciones de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 ESTIMACION 25

5.1 Conceptos basicos de Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.2 Ecuaciones de Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6 REGRESION SIMPLE, MULTIPLE Y CORRELACION 29

6.1 Conceptos basicos de Regresion simple, multiple y correlacion . . . . . . . . . . . . . . . 30

6.2 Ecuaciones de regresion simple y correlacion . . . . . . . . . . . . . . . . . . . . . . . . . 30

3
4 CONTENIDO
Captulo 1

ORGANIZACION Y ANALISIS DE
DATOS

Resumen de Datos.

Presentacion de Datos.

Interpretacion de Datos.

5
6 CAPITULO 1. ORGANIZACION Y ANALISIS DE DATOS

1.1 Estadstica Descriptiva


1.1.1 Datos agrupados
Variables aleatorias discretas y continuas
Cuando alguna persona hispanohablante aprende el idioma ingles, siempre llega un momento en que le
ensenan que el termino ingles para la expresion cuantos...? (o Scuantas...?T) depende de que se trate
de cosas que se pueden contar o de cosas que no se pueden contar sino medir.
En estadstica se hace la misma distincion cuando se hace referencia a magnitudes variables: si se
trata de magnitudes que se pueden contar (aunque pudieran quizas ser infinitas), se llaman variables
discretas. En cambio, si las magnitudes no se pueden contar, sino que se miden en algun tipo de unidades
(centmetros, litros, gramos, unidades de dinero, unidades de tiempo, etc.), entonces se llaman variables
continuas. Ejemplos de variables aleatorias discretas seran: el numero de huevos que pone cierta gallina
cada semana, el numero de veces que una moneda cae en aguila al lanzarse quince veces al aire, el numero
de reos que se escapan cada mes de las prisiones de Mexico, el numero de votantes que manifestaran
preferencia por cierto partido poltico en una casilla electoral, el numero de hijos que tiene una senora
cualquiera que lleve 20 anos de casada, etc. Por otra parte, ejemplos de variables aleatorias continuas son:
el tiempo que tarda una persona en cobrar un cheque desde que llega a la sucursal del banco hasta que
se lo pagan, la cantidad exacta de sangre que bombea el corazon de un adulto en un latido, la estatura
exacta de un soldado elegido al azar, la cantidad exacta de dinero que reune cada ano el gobierno de un
pas (de impuestos y otros ingresos) para ejercer su presupuesto, etc.

1.2 Ordenamiento o arreglo de datos


Glosario de Terminos

Arreglo de datos Organizacion de los datos sin de las clases de un conjunto de clases mutuamente
procesar por observacion, tomados en orden descen- exclusivas y colectivamente exhaustivas.
dente o ascendente. Distribucion de frecuencias acumuladas Des-
Clase de extremo abierto Clase que permite que pliegue de datos en forma de tabla que muestra
el extremo superior o inferior de un esquema de cuantos datos estan por encima o por debajo de cier-
clasificacion cuantitativo no tenga lmite. tos valores.
Conjunto de datos Una coleccion de datos. Distribucion de frecuencias relativas Des-
Curva de frecuencias Polgono de frecuencias ali- pliegue de un conjunto de datos en el que se mues-
sado mediante el aumento de clases y puntos de dato tra la fraccion o porcentaje del total del conjunto
a un conjunto de datos. de datos que entra en cada elemento de un conjunto
Datos Coleccion de cualquier numero de observa- de clases mutuamente exclusivas y colectivamente
ciones relacionadas sobre una o mas variables. exhaustivas.
Datos continuos Datos que pueden pasar de una Histograma Grafica de un conjunto de datos com-
clase a la siguiente sin interrumpirse y que pueden puesta de una serie de rectangulos, cada uno con
expresarse mediante numeros enteros o fracciona- un ancho proporcional al alcance de los valores y
rios. altura proporcional al numero de elementos que en-
Datos discretos Datos que no pueden pasar de una tran en la clase, o altura proporcional a la fraccion
clase a la siguiente sin que haya una interrupcion; de elementos de la clase.
estos es, en donde las clases representan categoras Muestra Coleccion de algunos elementos, pero no
o cuentas distintas que pueden representarse medi- de todos, de la poblacion bajo estudio, utilizada
ante numeros enteros. para describir poblaciones.
Datos sin procesar Informacion antes de ser or- Muestra representativa Muestra que contiene las
ganizada o analizada por metodos estadsticos. caractersticas importantes de la poblacion en las
Distribucion de frecuencias Despliegue organi- mismas proporciones en que estan contenidas en la
zado de datos que muestran el numero de observa- poblacion.
ciones del conjunto de datos que entran en cada una Ojiva Grafica de una distribucion de frecuencias
1.2. ORDENAMIENTO O ARREGLO DE DATOS 7

acumuladas. tos medios de cada clase de un conjunto de datos,


Poblacion Coleccion de todos los elementos que se trazado a la altura correspondiente a la frecuencia
estan estudiando y sobre los cuales intentamos llegar de los datos.
a conclusiones. Punto de dato Una sola observacion de un con-
Polgono de frecuencias Lnea que une los pun- junto de datos.

Ecuacion

x1 x2
Ancho de intervalos de clase = (1.1)
i
Donde:

x1 = valor unitario siguiente despues del valor mas grande de los datos.
x2 = valor mas pequeno de los datos.
i = numero total de intervalos.

Para organizar datos sin procesar, escoje el numero de clases entre las cuales vas a dividir los datos (por
lo general, entre seis y quince clases) y despues utiliza la ecuacion (2.1) para determinar el ancho de
los intervalos de clase de igual tamano. Esta formula utiliza el valor mas alto siguiente de las mismas
unidades debido a que mide el intervalo entre el primer valor de una clase y el primer valor de la siguiente.
8 CAPITULO 1. ORGANIZACION Y ANALISIS DE DATOS
Captulo 2

MEDIDAS DE TENDENCIA
CENTRAL Y MEDIDAS DE
DISPERSION

Medidas de tendencia central en datos no agrupados.

Medidas de tendencia central en datos agrupados.

Medidas de dispersion y asimetra para datos no agrupados.

Medidas de dispersion y asimetra para datos agrupados.

9
10 CAPITULO 2. MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSION

2.1 Glosario de Terminos


Alcance Distancia entre los valores mas bajo y mas Media geometrica Medida de tendencia central
alto de un conjunto de datos. utilizada para medir la tasa promedio de cambio
Alcance intercuartil Diferencia entre los valores o de crecimiento de alguna cantidad, se calcula
del primer y tercer cuartil; esta diferencia representa tomando la n-esima raz del producto de n valores
el alcance de la mitad central del conjunto de datos. que representan el cambio.
Alcance interfractil Medida de la dispersion entre Media pesada Promedio que se calcula con el fin
dos fractiles de una distribucion; es decir, la difer- de tomar en cuenta la importancia de cada valor con
encia entre los valores de dos fractiles. respecto al total, esto es, un promedio en el que cada
Analisis exploratorio de datos (EDA) Meto- valor de observacion es pesado por algun ndice de
dos para analizar datos que requieren de muy pocas su importancia.
suposiciones principales. Mediana Punto situado a la mitad del conjunto de
Clase mediana Clase de una distribucion de fre- datos, medida de localizacion que divide al conjunto
cuencias que contiene el valor mediano de un con- de datos en dos partes iguales.
junto de datos. Medida de dispersion Medida que describe como
Codificacion Metodo para calcular la media de los se dispersan o distribuyen las observaciones de un
datos agrupados mediante la recodificacion de los conjunto de datos.
valores de los puntos medios de las clases a valores Medida de distancia Medida de dispersion en ter-
mas sencillos. minos de la diferencia entre dos valores del conjunto
Coeficiente de variacion Medida relativa de la de datos.
dispersion, comparable por medio de distribuciones Medida de tendencia central Medida que indica
diferentes, que expresa la desviacion estandar como el valor esperado de un punto de datos tpico o situ-
porcentaje de la media. ado en el medio.
Cuartiles Fractiles que dividen los datos en cuatro Moda El valor que mas a menudo se repite e n un
partes iguales. conjunto de datos. Esta representado por el punto
Curtosis El grado de agudeza de una distribucion mas alto de la curva de distribucion de un conjunto
de puntos. de datos.
Deciles Fractiles que dividen los datos en diez Parametros Valores numericos que describen las
partes iguales. caractersticas de una poblacion completa, se les
Desviacion estandar Raz cuadrada positiva de representa generalmente con letras griegas.
la varianza; medida de dispersion con las mismas Percentiles Fractiles que dividen los datos en 100
unidades que los datos originales, mas bien que en partes iguales.
las unidades al cuadrado en que esta la varianza. Resultado estandar Expresion de una obser-
Dispersion La extension o variabilidad de un con- vacion en terminos de unidades de desviacion estan-
junto de datos. dar por encima o por debajo de la media; es decir,
Distribucion bimodal Distribucion de puntos de la transformacion de una observacion al restarle la
datos en la que dos valores se presentan con mas media y dividirla entre la desviacion estandar.
frecuencia que los demas elementos del conjunto de Sesgo Grado de una distribucion de puntos esta
datos. concentrada en un extremo o en el otro; falta de
Estadstica Medidas numericas que describen las simetra.
caractersticas de una muestra. Representadas por Simetrica Caracterstica de una distribucion en la
caracteres latinos. que la mitad es la imagen especular de la otra.
Estadstica sumaria Numeros solos que describen Teorema de Chebyshev No importa que forma
ciertas caractersticas de un conjuntode datos. tenga la distribucion, al menos 75% de los valores
Fractil En una distribucion de frecuencias, es la de la poblacion caeran dentro de dos desviaciones
posicion de un valor en, o por encima de, una frac- estandar a partir de la media, y al menos 89% caera
cion dada de los datos. dentro de tres desviaciones estandar.
Media Medida de tendencia central que representa Varianza Medida de la distancia cuadrada prome-
el promedio aritmetico de un conjunto de observa- dio entre la media y cada observacion de la
ciones. poblacion.
2.2. FORMULAS DE TENDENCIA CENTRAL Y DE DISTRIBUCION 11

2.2 Formulas de tendencia central y de distribucion

Ecuaciones introducidas en el captulo

X
= (2.1)
N
La media aritmetica de la poblacion es igual a la suma de los valores de todos los elementos de la poblacion
(X) dividida entre el numero total de elementos que compone la poblacion (N ).

x
x = (2.2)
n
Para calcular la media aritmetica de la muestra, sume los valores de todos los elementos de la muestra
(x) y divida el resultado entre el numero total de elementos contenidos en la muestra (n)

(f x)
x = (2.3)
n
Para encontrar la, calcule los puntos medios (n) de cada clase de la muestra. Luego multiplique cada
punto medio por la frecuencia (f ) de observaciones de cada clase, sume () todos estos productos y divida
la suma entre el numero total de observaciones de la muestra (n).

(u f )
x = x0 + w (2.4)
n
Esta formula nos permite calcular la media aritmetica de la muestra para datos agrupados mediante el
uso de codigos, esto con el fin de evitarnos trabajar con puntos medios muy grandes o inconvenientes.
Asigne estos codigos (u) de la manera siguiente: asigne el valor de cero al punto medio (denotado con
x0 ), enteros positivos consecutivos a los puntos medios mayores a x0 y enteros consecutivos negativos a
los puntos medios menores. Luego multiplique el codigo asignado a cada clase (u) por la frecuencia (f )
de las observaciones de cada clase y sume () todos los productos. Divida el resultado entre el numero
total de observaciones de la muestra (n), multiplique por el ancho numerico del intervalo de clase (w) y
sume el valor del punto medio correspondiente al codigo cero (x0 ).

(w x)
xw = (2.5)
w
La media pesada, xw , es un promedio que toma en cuenta que tan importante es cada valor con respecto
al total. Podemos calcular este promedio multiplicando el peso, o proporcion, de cada elemento (w) por
el momento correspondiente (x), sumando el resultado de todos esos productos () y dividiendo esta
cantidad entre la suma de todos los pesos (w).
p
n
M.G. = producto de todos valores x (2.6)
La media geometrica o M.G. es adecuada siempre que necesitemos medir la tasa promedio de cambio (tasa
de crecimiento) en un cierto periodo. En esta ecuacion, n es igual al numero de valores x que aparecen
en el problema.

n+1
M ediana = esimo termino del arreglo de datos (2.7)
2
en donde n= numero de elementos del ordenamiento de datos

La mediana es un solo valor que mide el elemento central del conjunto de datos. La mitad de las observa-
ciones quedan por arriba de la mediana y la otra mitad por debajo. Si el conjunto de datos contiene un
numero impar de observaciones, el elemento de enmedio es la mediana. Para un numero par de elementos,
12 CAPITULO 2. MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSION

la mediana es el promedio de las dos observaciones de un medio. Utilice esta ecuacion cuando los datos
no estan agrupados.
(n+1) !
2 (F + 1)
m = w + Lm (2.8)
fm
Esta formula nos permite encontrar la mediana de la muestra de datos agrupados. En ella, n es igual al
numero total de observaciones de la distribucion; F es la suma de todas las frecuencias de clase hasta la
clase mediana, sin incluir esta ultima; fm es la frecuencia de las observaciones de la clase mediana; w es
el ancho de intervalos de clase, y Lm es el lmite inferior del intervalo de la clase mediana.

d1
M o = LM o + w (2.9)
d1 + d2
La moda es el valor que con mas frecuencia se repite en el conjunto de datos. Para hallar la moda de datos
agrupados (denotada con M o), utilice esta formula y tome a LM o igual al lmite inferior de la clase modal;
d1 como la frecuencia de la clase modal menos la frecuencia de la clase que esta inmediatamente debajo
de ella; d2 igual a la frecuencia de la clase modal menos la frecuencia de la clase que esta inmediatamente
por encima de ella; y w como el ancho del intervalo de la clase modal.

Alcance = xmax xmin (2.10)


El alcance es la diferencia entre el valor mas alto xmax y mas bajo xmin de una distribucion de frecuencias.

Alcance intercuartil = Q3 Q1 (2.11)


El alcance intercuartil mide aproximadamente que tan lejos de la mediana debemos desplazarnos a ambos
lados antes de que podamos incluir una mitad de los valores del conjunto de datos. Para calcular este
alcance, divida los datos en cuatro partes iguales. Los cuartiles (Q) son los valores mas altos de cada una
de esas cuatro partes.
El alcance intercuartil es la diferencia entre los valores del primer y el tercer cuartil (Q1 y Q3 ).

(X )2 X 2
2 = = 2 (2.12)
N N
Esta formula nos permite calcular la varianza de la poblacion, una medida de la distancia cuadrada
2
promedio entre la media y cada observacion de la poblacion. La expresion de en medio, (X) N es la
2 X 2 2
definicion de . La ultima expresion, N es matematicamente equivalente a la definicion, pero, a
menudo, es mucho mas conveniente de usar, debido a que nos libera del calculo de las desviciones de la
media.
r r
(X )2 X 2
= = 2 = 2 (2.13)
N N
La desviacion estandar de la poblacion, , es la raz cuadrada de la varianza de la poblacion. Es un
parametro mas util que la varianza, debido a que se expresa en las mismas unidades que los datos (mientras
que las unidades de la varianza son el cuadrado de las unidades de los datos). La desviacion estandar es
siempre la raz cuadrada positiva de la varianza.
x
Resultado estandar de la poblacion = (2.14)

El resultado estandar de una observacion es el numero de desviaciones estandar que la observacion esta
separada hacia abajo o hacia arriba de la media de la distribucion. El resultado estandar nos permite
hacer comparaciones entre los elementos de la distribucion que difieren por ordenes de magnitud o en las
unidades empleadas. Utilice la ecuacion 3-14 para encontrar el resultado estandar de una observacion de
una poblacion.

f (X )2 f X 2
2 = = 2 (2.15)
N N
2.2. FORMULAS DE TENDENCIA CENTRAL Y DE DISTRIBUCION 13

Esta formula, en cualquiera de sus formas, nos permite calcular la varianza de los datos ya agrupados
en una distribucion de frecuencias. En esta, f representa la frecuencia de la clase y X es el punto medio.
r r
f (X )2 f X 2
= = 2 = 2 (2.16)
N N
Tome la raz cuadrada de la varianza y obtendra la desviacion estandar utilizando datos agrupados.

(x x)2 x2 nx2
s2 = = (2.17)
n1 n1 n1
Para calcular la varianza de la muestra, utilice la misma formula de la ecuacion 3-12, sustituyendo con
x y N con n 1.
r r
(x x)2 x2 nx2
s= s = 2 = (2.18)
n1 n1 n1
La desviacion estandar es la raz cuadrada de la varianza de la muestra. Es parecida a la ecuacion 3-13,
solo que esta sustituida por la media de la muestra x y N se cambia por n 1.
x x
Resultado estandar de la ecuacion = (2.19)
s
Utilice esta ecuacion para encontrar el resultado estandar de una observacion en una muestra

Coef iciente de variacion de la poblacion = (100) (2.20)

El coeficiente de variacion es una medida relativa de la dispersion que nos permite comparar dos distribu-
ciones. Relaciona la desviacion estandar como porcentaje de la media.
14 CAPITULO 2. MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSION
Captulo 3

PROBABILIDAD Y SUS
DISTRIBUCIONES

Conceptos probabilsticos basicos.

Distribuciones de probabilidad discreta.

Distribuciones de probabilidad continua.

Aplicacion.

15
16 CAPITULO 3. PROBABILIDAD Y SUS DISTRIBUCIONES

3.1 Conceptos Basicos de probabilidad


Terminos introducidos en el captulo

Arbol de probabilidades Representacion grafica intentos o experimentos.


que muestra los resultados posibles de una serie de Independencia estadstica Condicion en la que la
experimentos y sus respectivas probabilidades. presentacion de algun evento no tiene efecto sobre
Dependencia estadstica Condicion en que la la probabilidad de presentacion de otro evento.
probabilidad de presentacion de un evento depende Probabilidad La posibilidad de que algo suceda.
de la presentacion de algun otro evento, o se ve afec- Probabilidad anterior Estimacion de la probabil-
tado por esta. idad hecha antes de recibir nueva informacion.
Diagrama de Venn Representacion grafica de los Probabilidad clasica Numero de resultados favor-
conceptos de probabilidad en la que el espacio mues- ables a la presentacion de un evento dividido entre
tral esta representado por un rectangulo y los even- el numero total de resultados posibles.
tos que suceden en el espacio muestral se represen- Probabilidad condicional Probabilidad de que se
tan como partes de dicho rectangulo. presente un evento, dado que otro evento ya se ha
Espacio muestral Conjunto de todos los resulta- presentado.
dos posibles de un experimento. Probabilidad conjunta Probabilidad de que se
Evento Uno o mas de los resultados posibles de presenten dos o mas eventos simultaneamente o en
hacer algo, o uno de los resultados posibles de re- sucesion.
alizar un experimento. Probabilidad marginal Probabilidad incondi-
Evento exhaustivamente colectivos Lista de cional de que se presente un evento; probabilidad
eventos que representa todos los resultados posibles de que se presente un solo evento.
de un experimento. Probabilidad posterior Probabilidad que ha sido
Eventos mutuamente excluyentes Eventos que revisada y cambiada despues de obtener nueva in-
no se pueden presentar juntos. formacion o informacion adicional.
Experimento Actividad que tiene como resultado Probabilidad subjetiva Probabilidad basada en
o que produce un evento. las creencias personales de quien hace la estimacion
Frecuencia relativa de presentacion Fraccion de probabilidad.
de veces que a la larga se presenta un evento cuando Teorema de Bayes Formula para el calculo de la
las condiciones son estables, o frecuencia relativa ob- probabilidad condicional bajo condiciones de depen-
servada de un evento en un numero muy grande de dencia estadstica.

Ecuaciones

numero de resultados en los que se presenta el evento


P robabilidad de un evento = (3.1)
numero total de resultados posibles

Esta es la definicion de probabilidad clasica de que se presente un evento.

P (A) = probabilidad de que suceda el evento A


Una probabilidad simple se refiere a la probabilidad de que se presente un evento en particular, y se llama
probabilidad marginal.

P (A B) = probabilidad de que A o B suceda


Esta notacion representa la probabilidad de que se presente un evento o el otro.

P (A B) = P (A) + P (B) (3.2)


3.1. CONCEPTOS BASICOS DE PROBABILIDAD 17

La probabilidad de que suceda A o B cuando los dos eventos son mutuamente exclusivos es igual a la
suma de la probabilidad de que suceda el evento A y la probabilidad de que suceda el evento B. Esta es
la regla de adicion para eventos mutuamente excluyentes.

P (A B) = P (A) + P (B) P (A B) (3.3)

La regla de adicion para eventos que no son mutuamente excluyentes muestra que la probabilidad de que
suceda A o B cuando los dos eventos son mutuamente excluyentes es igual a la probabilidad de que suceda
el evento A mas la probabilidad de que se presente el evento B, menos la probabilidad de que A y B se
presenten juntos, simbolizada por P (A B)

P (A B) = P (A) P (B) (3.4)


en la que

P (AB) = probabilidad conjunta de que se presenten los eventos A y B simultaneamente o en sucesion


P (A) = probabilidad marginal de que se presente el evento A

P (B) = probabilidad marginal de que se presente el evento B


La probabilidad conjunta de que dos o mas eventos independientes se presenten de manera simultanea
o en sucesion es el producto de sus probabilidades marginales.
P (B|A) = probabilidad del evento B, dado que se presento el evento A
Esta notacion muestra la probabilidad condicional, la probabilidad de que un segundo evento (B)
se presente si un primer evento (A) ya se ha presentado.

P (B|A) = P (B) (3.5)


Para eventos estadsticamente independientes, la probabilidad condicional de que se presente el evento
B, dado que el evento A ya se ha presentado, es simplemente la probabilidad del evento B. Los eventos
independientes son aquellos cuyas probabilidades no se ven afectadas de ningun modo por la presentacion
de alguno de ellos.

P (BA)
P (B|A) = (3.6)
P (A)
y

P (AB)
P (A|B) =
P (B)
Para eventos estadsticamente dependientes, la probabilidad condicional de que se presente el evento B,
dado que el evento A ya se ha presentado, es igual a la probabilidad conjunta de los eventos A y B dividida
entre la probabilidad marginal de que suceda el evento A.

P (AB) = P (A|B) P (B) (3.7)

P (BA) = P (B|A) P (A)


En condiciones de dependencia estadstica, la probabilidad conjunta de que se presenten los eventos A y
B simultaneamente o en sucesion es igual a la probabilidad de que se presente el evento A, dado que el
evento B ya se ha presentado, multiplicada por la probabilidad de que se presente el evento B.
18 CAPITULO 3. PROBABILIDAD Y SUS DISTRIBUCIONES

NOTA IMPORTANTE (METODO CORTO) Si un problema de probabilidad involucra dos eventos,


digamos A y B, entonces muchas de las probabilidades que entranan estos dos eventos pueden expresarse
inmediatamente una vez que completemos la caja rectangular mostrada en la Tabla 1.

Tabla 1
A A0
B P (A B) P (A0 B) P (B)
B0 P (A B ) P (A0 B 0 )
0
P (B 0 )
P (A) P (A0 ) 1

Aqu A0 y B 0 denotan los complementos de los eventos A y B. Notese que si sumamos las columnas y los
renglones obtenemos sus totales finales respectivos, esto es,

P (A B) + P (A B 0 ) = P (A) P (A0 B) + P (A0 B 0 ) = P (A0 )

P (A B) + P (A0 B) = P (B) P (A B 0 ) + P (A0 B 0 ) = P (B 0 )

P (A) + P (A0 ) = 1 P (B) + P (B 0 ) = 1

SUGERENCIA
Haga la diferencia necesaria entre probabilidad condicional y probabilidad conjunta mediante el uso correcto
de los terminos, dado que... y tanto... como: P (A|B) es la probabilidad de que se presente A dado
que ya se ha presentado B y P (AB) es la probabilidad de que tanto A como B se presenten,. Y la
probabilidad marginal P (A) es la probabilidad de que se presente A, haya sucedido o no el evento B.

Tipo de Smbolo Formula bajo Formula bajo depen-


probabilidad independencia dencia estadstica
estadstica
Marginal P (A) P (A) Suma de la probabilidad de
los eventos conjuntos en los
que A se presenta

Conjunta P (AB P (A) P (B) P (A|B) P (B)


o P (BA) P (B) P (A) P (B|A) P (A)

P (BA)
Condicional P (B|A) P (B) P (A)

P (AB)
o P (A|B) P (A) P (B)
3.2. DISTRIBUCIONES DE PROBABILIDAD 19

3.2 Distribuciones de probabilidad


Terminos de distribucion de probabilidad

Distribucion binomial Distribucion discreta que centro de la distribucion y la curva es simetrica con
describe los resultados de un experimento conocido respecto a una lnea vertical que pase por la media.
como proceso de Bernoulli. Los dos extremos se extienden indefinidamente, sin
Distribucion continua de probabilidad Dis- tocar nunca el eje horizontal.
tribucion de probabilidad en la que la variable tiene Factor de correccion de continuidad Correc-
permitido tomar cualquier valor dentro de un inter- ciones utilizadas para mejorar la precision de la
valo dado. aproximacion de una distribucion binomial medi-
Distribucion de Poisson Distribucion discreta en ante una distribucion normal.
la que la probabilidad de presentacion de un evento Proceso de Bernoulli Proceso en el cual cada en-
en un intervalo muy pequeno es un numero tambien sayo tiene dos resultados posibles, la probabilidad de
muy pequeno, la probabilidad de que dos o mas de obtener el resultado en cualquier intento permanece
estos eventos se presenten dentro del mismo inter- constante en el tiempo y los ensayos o intentos son
valo es efectivamente igual a cero, y la probabili- estadsticamente independientes.
dad de presentacion del evento dentro del periodo
Valor esperado promedio pesado de los resultados
dado es independiente de cuando se presenta dicho
de un experimento.
periodo.
Valor esperado de una variable aleatoria La
Distribucion de probabilidad Lista de los resul-
suma de los productos de cada valor de la varia-
tados de un experimento con las probabilidades que
ble aleatoria por la correspondiente probabilidad de
se esperaran ver asociadas con cada resultado.
presentacion de dicho valor.
Distribucion de probabilidad normal estan-
dar Distribucion normal de probabilidad con una Variable aleatoria Variable que toma diferentes
media = 0 y una desviacion estandar = 1. valores como resultado de un experimento aleato-
Distribucion discreta probabilidad Distribu- rio.
cion de probabilidad en la que la variable tiene per- Variable aleatoria continua Variable aleatoria
mitido tomar solamente un numero limitado de val- que puede tomar cualquier valor dentro de un in-
ores. tervalo dado de valores.
Distribucion normal Distribucion de una variable Variable aleatoria discreta Variable aleatoria
aleatoria continua que tiene una curva de un solo que puede tomar solo un numero limitado de va-
pico y con forma de campana. La media cae en el lores.

Ecuaciones de distribucion de probabilidad

n!
P robabilidad de r exitos en n ensayos de Bernoulli o binomiales = pr q nr (3.8)
r!(n r)!

en la que:

r =numero de exitos deseados

n =numero de intentos realizados

p =probabilidad de tener exito (probabilidad caracterstica)

q =Probabilidad de un fallo (q = 1 p)

Esta formula binomial nos permite calcular algebraicamente la probabilidad de obtener r exitos. Pode-
mos aplicarla a cualquier proceso de Bernoulli, en donde 1) cada intento o ensayo tiene unicamente dos
20 CAPITULO 3. PROBABILIDAD Y SUS DISTRIBUCIONES

resultados posibles: un exito o un fracaso; 2) la probabilidad de exito permanece constante de un ensayo


a otro; y 3) los ensayos son estadsticamente independientes.

= np (3.9)
La media de una distribucion binomial es igual al numero de ensayos multiplicado por la probabilidad de
exito.

= npq (3.10)
La desviacion estandar de una distribucion binomial es igual a la raz cuadrada del producto de 1) el
numero de ensayos, 2) la probabilidad de tener un exito y 3) la probabilidad de tener un fracaso (que se
encuentra tomando q = 1 p).

x e
P (x) = (3.11)
x!
Esta formula nos permite calcular la probabilidad de que una variable aleatoria discreta se presente en una
distribucion de Poisson. La formula establece que la probabilidad detener exactamente x presentaciones es
igual a lambda (el numero medio de presentaciones por intervalo en una distribucion de Poisson), elevada
a la x potencia y multiplicada por e = 2.71828 (la base del sistema de logaritmos naturales), elevada a la
potencia lambda negativa, y el producto dividido entre x factorial.

(np)x enp
P (x) = (3.12)
x!
Si en la ecuacion 4.11 colocamos la media de la distribucion normal (np) en lugar de la media de la distribu-
cion de Poisson (), podemos utilizar la distribucion de probabilidad de Poisson como una aproximacion
razonable de la distribucion binomial. La aproximacion es buena cuando n es mayor o igual a 20 y p es
menor o igual a 0.05.
x
z= (3.13)

en donde:

x = valor de la variable aleatoria en la cual estamos interesados


= media de la distribucion de esta variable aleatoria

= desviacion estandar de esta distribucion


z = numero de desviaciones estandar desde x hasta la media de la distribucion

Ya que se ha calculado z utilizando esta formula, podemos usar la tabla de la distribucion de probabilidad
normal estandar (que da los valores para las areas bajo una mitad de la curva normal, empezando con 0.0
en la media) y determinar la probabilidad de que la variable aleatoria que nos interesa este dentro de esa
distancia con respecto a la media de la distribucion.
Captulo 4

MUESTREO Y SUS
DISTRIBUCIONES

Conceptos basicos de muestro.

Metodos de muestreo.

Distribucion normal.

21
22 CAPITULO 4. MUESTREO Y SUS DISTRIBUCIONES

4.1 Conceptos basicos de Muestreo


Terminos introducidos en el captulo

Censo Medicion o examen de cada elemento de la Muestreo con remplazo Procedimiento de


poblacion. muestreo en el que los elementos se regresan a la
Cuadrado latino Eficiente diseno experimental poblacion despues de ser elegidos, de tal forma que
que hace innecesario usar un experimento factorial algunos elementos de la poblacion pueden aparecer
completo. en la muestra mas de una vez.
Distribucion de muestreo de la media Una dis- Muestreo de juicio Metodo para seleccionar una
tribucion de probabilidad de todas las medias posi- muestra de una poblacion en el que se usa el
bles de muestras de un tamano dado, n, de una conocimiento o la experiencia personal para iden-
poblacion. tificar aquellos elementos de la poblacion que deben
Distribucion de muestreo de una estadstica incluirse en la muestra.
Para una poblacion dada, distribucion de probabi- Muestreo de probabilidad o aleatorio Metodo
lidad de todos los valores posibles que puede tomar para seleccionar una muestra de una poblacion en el
una estadstica, dado un tamano de muestra. que todos los elementos de la poblacion tienen igual
Error de muestreo Error o variacion entre estads- oportunidad de ser elegidos en la muestra.
ticas de muestra debido al azar; es decir, diferencias Muestreo de racimo Metodo de muestreo aleato-
entre cada muestra y la poblacion, y entre varias rio en el que la poblacion se divide en grupos o raci-
muestras que se deben unicamente a los elementos mos de elementos, y luego se selecciona una muestra
que elegimos para la muestra. aleatoria de estos racimos.
Error estandar La desviacion estandar de la dis- Muestreo estratificado Metodo de muestreo
tribucion de muestreo de una estadstica. aleatorio en el que la poblacion se divide en gru-
Error estandar de la media La desviacion estan- pos homogeneos, o estratos, y los elementos dentro
dar de la distribucion de muestreo de la media; una de cada estrato se seleccionan al azar de acuerdo
medida del grado en que se espera que varen las con una de dos reglas: 1) Un numero especfico de
medias de las diferentes muestras de la media de la elementos se extrae de cada estrato correspondiente
poblacion, debido al error aleatorio en el proceso de a la porcion de ese estrato en la poblacion, o 2) igual
muestreo. numero de elementos se extraen de cada estrato, y
Estadsticas Mediciones que describen las carac- los resultados son valorados de acuerdo con la por-
tersticas de una muestra. cion del estrato de la poblacion total.
Estratos Grupos dentro de una poblacion forma- Muestreo sin remplazo Procedimiento de
dos de tal manera que cada grupo es relativamente muestreo en el que los elementos no se regresan a
homogeneo, aunque existe una variabilidad mas am- la poblacion despues de ser elegidos, de tal forma
plia entre los diferentes grupos. que ningun elemento de la poblacion puede apare-
Experimento factorial Experimento en el que cer en la muestra mas de una vez.
cada factor involucrado se usa una vez con cada uno Muestreo sistematico Un metodo de muestreo
de los factores. En un experimento factorial com- aleatorio usado en estadstica en el que los elementos
pleto, se utiliza cada nivel de cada factor con cada que se muestrearan se seleccionan de la poblacion en
nivel de todos los demas factores. un intervalo uniforme que se mide con respecto al
Fraccion de muestreo La fraccion o porcion de la tiempo, al orden o al espacio.
poblacion contenida en una muestra. Multiplicador de poblacion finita Factor que se
Inferencia estadtica Proceso de hacer inferencias utiliza para corregir el error estandar de la media
sobre poblaciones, a partir de la informacion con- en el estudio de una poblacion de tamano finito, pe-
tenida en muestras. queno con respecto al tamano de la muestra.
Muestra Porcion de elementos de una poblacion Parametros Valores que describen las caractersti-
elegidos para su examen o medicion directa. cas de la poblacion.
Muestreo aleatorio simple Metodos de seleccion Poblacion finita Poblacion que tiene un tamano
de muestras que permiten a cada muestra posible establecido o limitado.
una probabilidad igual de ser elegida y a cada el- Poblacion infinita Poblacion en la que es teorica-
emento de la poblacion completa una oportunidad mente imposible observar todos los elementos.
igual de ser incluido en la muestra. Precision El grado de exactitud con el que la media
4.2. ECUACIONES DE MUESTREO 23

de la muestra puede estimar la media de la pobacion, gura que la distribucion de muestreo de la media
segun revela el error estandar de la media. se acerca a la normalidad cuando el tamano de la
Racimos Grupos dentro de una poblacion que son muestra se incrementa, sin importar la forma de la
esencialmente similares entre s, aunque los grupos distribucion de la poblacion de la que se selecciona
mismos tengan una amplia variacion interna. la muestra.
Teorema del lmite central Resultado que ase-

4.2 Ecuaciones de Muestreo


Ecuaciones introducidos en el captulo


x = (4.1)
n
Utilice esta formula para derivar el error estandar de la media cuando la poblacion es infinita, es decir,
cuando los elementos de la poblacion no pueden ser enumerados en un intervalo razonable, o cuando
tomamos muestras con remplazo. Esta ecuacion explica que la distribucion de muestreo tiene una
desviacion estandar, que tambien llamamos error estandar, igual a la desviacion estandar de la poblacion
dividida entre la raz cuadrada del tamano de muestra.
x
z= (4.2)
x
Una version modificada de la ecuacion 4.13, esta formula nos permite determinar la distancia de la media
de la muestra x de la media de la poblacion cuando dividimos la diferencia entre el error estandar de la
media x . Una vez que hemos derivado un valor z, podemos usar la tabla de distribucion de probabilidad
normal estandar y calcular la probabilidad de que la media de muestra este a esa distancia de la media
de poblacion. Debido al teorema del lmite central, podemos usar esta formula para distribuciones no
normales si el tamano de muestra es de al menos 30.
r
N n
x = (4.3)
n N 1
en donde:

N = tamano de la poblacion

n = tamano de la muestra

Esta es la formula para encontrar el error estandar de la media cuando la poblacion es finita, es decir, de
tamano establecido o limitado, y el muestreo se hace sin remplazo.
r
N n
M ultiplicador de poblacion f inita = (4.4)
N 1
p
En la ecuacion 5.3 el termino (N n)/(N 1), que multiplicamos por el error estandar de la ecuacion
5.1, se conoce como multiplicador de poblacion finita. Cuando la poblacion es pequena en relacion con
el tamano de la muestra*, el multiplicador de la poblacion finita reduce el tamano del error estandar.
Cualquier disminucion en el error estandar aumenta la precision con la que la media de la muestra puede
utilizarse para estimar la media de la poblacion.
n
Nota: Los estadsticos se refieren a la fraccion N como la fracccion de muestreo, porque es la fraccion
de la poblacion N contenida en la muestra. La regla generalmente aceptada es: Si la fraccion de
muestreo es menor a 0.05, no se necesita usar el multiplicador de poblacion finita.
24 CAPITULO 4. MUESTREO Y SUS DISTRIBUCIONES
Captulo 5

ESTIMACION

Conceptos basicos .

Estimacion puntual.

Estimacion por intervalos.

Calculo del tamano de la muestra.

25
26 CAPITULO 5. ESTIMACION

5.1 Conceptos basicos de Estimacion


Terminos introducidos en el captulo

Distribucion t de Student Familia de distribu- queno sea el error estandar de un estimador, mas
ciones de probabilidad que se distinguen por sus gra- efeciente sera ese estimador.
dos de libertad individuales; es parecida, en forma Estimador imparcial Estimador de un parametro
a la distribucion normal; y se utiliza cuando se de poblacion que, en promedio, asume valores por
desconoce la desviacion estandar de la poblacion y encima del parametro de la poblacion con la misma
el tamano de la muestra es relativamente pequeno frecuencia, y al mismo grado, con que tiende a
(n 30). tomarlos por debajo del parametro de la poblacion.
Estimacion Valor especfico observado de un esti- Estimador suficiente Estimador que utiliza toda
mador. la informacion disponible en los datos correspondi-
Estimacion de intervalo Intervalo de valores uti- entes a un parametro.
lizado para estimar un parametro de poblacion des-
Grados de libertad Numero de valores de una
conocido.
muestra que podemos especificar libremente, des-
Estimacion puntual Un solo numero que se uti-
pues de que ya sabemos algo sobre dicha muestra.
liza para estimar un parametro de poblacion des-
conocido. Intervalo de confianza Intervalo de valores que
Estimador Estadstica de muestra utilizada para tiene designada una probabilidad de que incluya el
estimar un parametro de poblacion. valor real del parametro de la poblacion.
Estimador coherente Estimador que produce Lmites de confianza Lmites inferior y superior
valores que se acercan mas al parametro de la de un intervalo de confianza.
poblacion conforme aumenta el tamano de la mues- Nivel de confianza Probabilidad que los estads-
tra. ticos asocian con una estimacion de intervalo de un
Estimador eficiente Estimador con un menor parametro de poblacion, esta indica que tan seguros
error estandar que algun otro estimador del estan de que la estimacion de intervalo incluira al
parametro de la poblacion, esto es, cuanto mas pe- parametro de la poblacion.

5.2 Ecuaciones de Estimacion


Ecuaciones introducidas en el captulo

Estimacion de la desviacion estandar de la poblacion


r
(x x)2
= s = (5.1)
n1

Esta formula indica que la desviacion estandar de la muetra puede utilizarse para estimar la desviacion
estandar de la poblacion.
r
N n
x = (5.2)
n N 1
Esta formula nos permite derivar un error estandar estimado de la media de una poblacion finita a partir
de una estimacion de la desviacion estandar de la poblacion.
El smbolo , conocido como gorro, indica que el valor es una estimacion. La ecuacion 6.6 es la formula
correspondiente para una poblacion infinita.

p = p (5.3)
5.2. ECUACIONES DE ESTIMACION 27

Utilice esta formula para derivar la media de la distribucion de muestreo de la porcion de exitos. La parte
derecha, p, es igual a (n p)/n, en donde el numerador es el numero esperado de exitos en n ensayos, y
el denominador es el numero de ensayos. Simbolicamente, la porcion de exitos de una muestra se escribe
como p y se lee p testada.
r
pq
p = (5.4)
n
Para obtener el error estandar de la porcion, tome la raz cuadrada del producto de las probabilidades de
exito y de fracaso dividido entre el numero de ensayos.
r
pq
p = (5.5)
n
Esta es la formula que se utiliza para derivar un error estandar estimado de la porcion, cuando se desconoce
la porcion de la poblacion y uno se ve forzado a utilizar p y q de las porciones de la muestra de exitos y
fracasos.

x = (5.6)
n
Esta formula nos permite derivar un error estandar estimado de la media de una poblacion infinita a
partir de una estimacion de la desviacion estandar de la poblacion. Es bastante parecida a la ecuacion
6.2, excepto que carece del multiplicador de poblacion finita.
28 CAPITULO 5. ESTIMACION
Captulo 6

REGRESION SIMPLE, MULTIPLE


Y CORRELACION

Conceptos basicos.

Metodo de mnimos cuadrados.

Estimacion mediante la lnea de regresion.

Analisis de correlacion.

Aplicaciones.

29
30 CAPITULO 6. REGRESION SIMPLE, MULTIPLE Y CORRELACION

6.1 Conceptos basicos de Regresion simple, multiple y cor-


relacion
Terminos introducidos en el captulo

Analisis de correlacion Tecnica para determinar de puntos para estimar la relacion entre dos varia-
el grado hasta el cual las variables estan relacionadas bles.
linealmente. Metodo de mnimos cuadrados Tecnica para
Coeficiente de correlacion Raz cuadrada del co- ajustar una lnea recta a traves de un conjunto de
eficiente de determinacion. Su signo indica la di- puntos de tal manera que la suma de las distancias
reccion de la relacion entre dos variables, directa o verticales cuadradas desde los n puntos a la lnea se
inversa. minimiza.
Coeficiente de determinacion Medida de la por- Pendiente Constante para cualquier lnea recta
cion de variacion en Y, la variable dependiente, es dada cuyo valor representa que tanto el cambio de
explicada por la lnea de regresion, esto es, por la unidad de la variable independiente cambia la varia-
relacion de Y con la variable independiente. ble dependiente.
Diagrama de dispersion Grafica de puntos en Regresion Proceso general que consiste en prede-
una red rectangular: las coordenadas X y Y de cada cir una variable a partir de otra mediante medios
punto corresponden a las dos mediciones hechas so- estadsticos, utilizando datos anteriores.
bre un elemento particular de la muestra, y el patron Regresion multiple Proceso estadstico mediante
de puntos ilustra la relacion entre las dos variables. el cual varias variables se utilizan para predecir otra
Ecuacion de estimacion Formula matematica variable.
que relaciona la variable desconocida con las varia- Relacion curvilnea Asociacion entre dos varia-
bles conocidas en el analisis de regresion. bles que es descrita por una lnea curva.
Error estandar de la estimacion Medida de la Relacion directa Relacion entre dos variables en
confiabilidad de la ecuacion de estimacion, que in- las que, al incrementarse el valor de la variable in-
dica la variabliidad de los puntos observados alrede- dependiente, se incrementa el valor de la variable
dor de la lnea de regresion, esto es, hasta que punto dependiente.
los valores observados difieren de sus valores predi- Relacion inversa Relacion entre dos variables en
chos sobre la lnea de regresion. las que, al incrementarse el valor de la variable in-
Error estandar del coeficiente de regresion dependiente, decrece la variable dependiente.
Medida de la variabilidad del coeficiente de regre- Relacion lineal Tipo particular de asociacion en-
sion de muestra alrededor del verdadero coeficiente tre dos variables que puede describirse matematica-
de regresion de poblacion. mente mediante una lnea recta.
Interseccion Y Constante para cualquier lnea Variable dependiente La variable que tratamos
recta dada cuyo valor representa valor de la variable de predecir en el analisis de regresion.
Y cuando la variable X tiene un valor de 0. Variable independiente Variable(s) conocida(s)
Lnea de regresion Una lnea ajustada a un grupo en el analisis de regresion.

6.2 Ecuaciones de regresion simple y correlacion


Ecuaciones introducidas en el captulo

Y = a + bX (6.1)

Esta es la ecuacion para una lnea recta, donde la variable dependiente Y esta determinada por la variable
independiente X. La a es llamada interseccion Y porque su valor es el punto en el cual la lnea cruza el
eje Y (el eje vertical). La b es la pendiente de la lnea, esto es, dice que tanto cada cambio unitario de la
variable independiente X cambia la variable dependiente Y . Tanto a como b son constantes numericas,
puesto que, para cualquier lnea recta dada, sus valores no cambian.
6.2. ECUACIONES DE REGRESION SIMPLE Y CORRELACION 31

Y2 Y1
b= (6.2)
X2 X1
Para calcular la constante numerica b para cualquier lnea dada, encuentre el valor de las coordenadas
X y Y , para dos puntos que caen en la lnea. Las coordenadas para el primer punto son (X1 , Y1 ) y el
segundo punto (X2 , Y2 ). Recuerde que b es la pendiente de la lnea.

Y = a + bX (6.3)
En el analisis de regresion, Y (Y gorro) simboliza los valores individuales de Y de los puntos estimados,
esto es, aquellos puntos que caen en la lnea de estimacion. En consecuencia, la ecuacion 7.3 es la ecuacion
para la lnea de estimacion.

XY nX Y
b= (6.4)
X 2 nX 2
La ecuacion nos permite calcular la pendiente de la lnea de regresion de mejor ajuste para cualquier
conjunto de puntos de datos de dos variables. Se introducen dos nuevos smbolos en esta ecuacion, X
e Y , que representan las medias de los valores de la variable independiente y la variable dependiente,
respectivamente. Ademas esta ecuacion contiene a n que, en este caso, representa el numero de puntos
de datos para los cuales estamos ajustando la lnea de regresion.

a = Y bX (6.5)
Al utilizar esta formula, podemos calcular la interseccion Y de la lnea de regresion de mejor ajuste para
cualquier conjunto de puntos de datos de dos variables.
s
(Y Y )2
Se = (6.6)
n2
El error estandar de la estimacion, Se , mide la variabilidad o dispersion de los valores observados alrededor
de la lnea de regresion. En efecto, indica la confiabilidad de la ecuacion de estimacion. El denominador
es n 2 porque perdemos dos grados de libertad (para los valores a y b) al estimar la lnea de regresion.
r
Y 2 aY bXY
Se = (6.7)
n2
Puesto que la ecuacion 7.6 requiere tediosos calculos, los estadsticos han ideado este metodo de atajo para
encontrar el error estandar de la estimacion. Al calcular los valores para b y a, ya hemos calculado cada
cantidad de la ecuacion 7.7, excepto Y 2 , que podemos hacer muy facilmente.

V ariacion de los valores de Y alrededor de la linea de regresion = (Y Y )2 (6.8)


La variacion de los valores de Y en un conjunto de datos alrededor de la lnea de regresion ajustada es
una de dos cantidades a partir de las cuales se desarrolla el coeficiente de determinacion. La ecuacion 7.8
muestra como medir esta dispersion, que es la porcion inexplicada de la variacion total de los valores de
Y.

V ariacion de los valores de Y alrededor de su propia media = (Y Y )2 (6.9)


Esta formula mide la variacion total de un conjunto completo de valores de Y , esto es, la variacion de
estos valores Y alrededor de su propia media.

(Y Y )2
r2 = 1 (6.10)
(Y Y )2
El coeficiente de determinacion de muestra, r2 , da la fraccion de la variacion total de Y que es explicada
por la lnea de regresion. Es una importante medida del grado d asociacion entre X y Y . Si el valor de
32 CAPITULO 6. REGRESION SIMPLE, MULTIPLE Y CORRELACION

r2 es +1, entonces la lnea de regresion es un estimador perfecto.Si r2 = 0, no existe correlacion entre X


y Y.

aY + bXY nY 2
r2 = (6.11)
Y 2 nY 2
Esta es una ecuacion de atajo para calcular r2 .

r= r2 (6.12)
El coeficiente de correlacion de muestra se denota mediante r y se encuentra tomando la raz cuadrada del
coeficiente de determinacion de muestra. Es una segunda medicion (ademas de r2 ) que podemos utilizar
para describir que tan bien una variable es explicada por otra. El signo de r es igual al signo de b; indica
la direccion de la relacion entre las dos variablesX y Y .

Y = A + BX (6.13)
Cada lnea de regresion de poblacion es la forma de la ecuacion 7.13, donde A es la interseccion Y para la
poblacion, y B es la pendiente.

Y = A + BX + e (6.14)
Como todos los puntos individuales de una poblacion no caen en la lnea de regresion de poblacion, los
puntos de datos individuales satisfaran la ecuacion 7.14, donde e es una alteracion aleatoria de la lnea de
regresion de poblacion. En promedio, e es igual a cero, porque las alteraciones por encima de la lnea de
regresion de poblacion son anuladas por las alteraciones que estan por debajo.
Se
Sb = (6.15)
X 2
nX 2
Cuando tratamos con una muestra, podemos usar esta formula para encontrar el error estandar del
coeficiente de regresion, b.