0 Estadistica

Estadstica
Tema 1 (9/2/10)
Una estadstica: Cualquier coleccin de datos ordenados y clasificados segn un
determinado criterio.
Estadstica: Es la ciencia que estudia el comportamiento de los fenmenos llamados
colectivos. Est caracterizada por:
Una informacin acerca de un colectivo o universo -objeto material-.
Un modo propio de razonamiento, el mtodo estadstico -objeto formal-.
Unas previsiones de cara al futuro lo que implica un ambiente de incertidumbre -objeto
final-.
La Estadstica es la ciencia de los datos. El objeto de la estadstica es el razonamiento a
partir de datos emricos. Los datos no son slo nmeros, sino nmeros en u contexto.
Estadstica Descriptiva. Tiene como fin presentar resmenes de un conjunto de datos y
poner de manifiesto sus caractersticas mediante representaciones grficas.
Los datos se usan para fines comparativos o explicativos y no se usan con principios de
probabilidad.
El inters se centra en describir el conju nto de datos que se tienen y no se plantea el
extender las conclusiones a otros datos diferentes o a una poblacin.
Poblacin: Conjunto de todos los elementos que cumplen una o varias propiedades
especficas.
Muestra: Un subconjunto de la poblacin.
Variables Estadsticas: Son las propiedades o caractersticas de los elementos de la
poblacin objeto de estudio.
Cuantitativas (medibles) Se describen con nmeros.
VARIABLES
Cualitativas (no medibles) Se describen con palabras.
Variables de medida Valores
Variables categricas Categoras

Las variables cualitativas se llaman tambin atributos y sus distintas formas, modalidades.
Tema 2
Variables categricas
Sea una muestra de tamao n de una poblacin. Sea X una variable categrica (color ojos).
Sean x1,x2,x3,...,xk a las modalidades o categoras de X. Cada elemento pertenece a una categora.
DEFINICIN: Se llama Frecuencia Absoluta de la categora xi al n de veces que aparece xi en la
muestra. La representamos con ni.
0 ni n
DEFINICIN: Se llama Frecuencia Relativa de la categora xi a su frecuencia absoluta dividida

por el tamao de la muestra. La representamos con fi.
Variable(color
ojos)
Cdigos
ni
fi
fi x 100 o %
.. x1
n1
f1
f1 x 100
...x2
n2
f2
f2 x 100
....
....
....
....
....
..xk
nk
fk
fk x 100
100
REPRESENTACIONES GRFICAS
Diagrama de barras(ejes coordenadas).
fi
ni
%
x1
x2
x3
Grfico de sectores (Crculo).

A cada categora se le asigna un sector de amplitud proporcional a su
frecuencia(absoluto, relativo o porcentual).
Pictogramas (smbolos o dibujos).

VARIABLES DE MEDIDA.
Sea una muestra de tamao n. Sea X una variable de medida. Sean x1,x2,x3,...,xk los distintos
valores de x de menor a mayor.
ni
DEFINICIN: Como antes xi
fi
DEFINICIN: Se llama Frecuencia Absoluta Acumulada al n de veces que aparecen en la muestra
xi y todos los valores menores que l. La representaremos con Ni.
Evidentemente:
N1 = n1, N2 = n1 + n2, , Nk = n
Ni = Ni-1 + ni
DEFINICIN: Se llama Frecuencia Relativa Acumulada de xi a su frecuencia absoluta dividida por
n. La representamos con Fi.
INTERVALOS DE CLASE
Los valores de una variable se pueden agrupar en intervalos denominados intervalos de
clase.
Para ello se divide el intervalo que contiene todos los valores en sibintervalos: I1, I2, , Ih de
tal forma que x1 I1, y xk Ih.
DEFINICIN: Se llaman marcas de clase a los puntos medios de cada intervalo.
TABLA DE FRECUENCIA:
Intervalos*
Marcas de
Clase
ni
fi
Ni
Fi (%)
I1(eo, e1)
c1
n1
f1
N1
F1
I2(e1, e2)
c2
n2
f2
N2
F2
Ih(eh-1, eh)
ch
nh
fh
Nh
Fh
1(100)
=n
=1(100)
*Lmites de clase y fronteras de clase.

Las frecuencias se refieren a los intervalos (si es posible lo expresaremos con la misma
amplitud).
Hay diversas formas de obtener intervalos. Segn sean stos as sern las tablas de
frecuencias.
REPRESENTACIONES GRFICAS
Diagrama de barras (si no hay intervalos).
fi
ni
%
x1
x2
x3
Histograma (Grfico formado por rectngulos).

La base de los rectngulos son los intervalos y la altura de cada rectngulo es tal que su
rea es proporcional a la frecuencia del intervalos que representa.
12
10
8
6
4
2
0
Fila 1
Fila 2
Fila 3
Fila 4
Polgono de frecuencias.
Se forma uniendo los puntos medios de la base superior de cada rectngulo del
histograma.
10
9
8
7
6
5
4
3
2
1
0
Fila 1
Fila 2
Fila 3
Fila 4
Se suele prolongar hasta el eje de abscisas para que el rea bajo el polgono sea la del
histograma.
Se representa sin el histograma.
10
9
8
7
6
5
4
3
2
1
0
Polgono acumulativo.
Se obtiene uniendo los puntos que representan los extremos superiores de cada intervalo
y su frecuencia acumulada.
6
5
4
3
2
1
0
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5
El primer punto es (e0, 0).

Con la nomenclatura dada hay que unir los puntos.
(e0, 0), (e1, N1), (e2, N2), ., (eh, Nh).
Se dibuja mejor con los porcentajes (F1 x 100).
En todos los grficos se pueden utilizar las frecuencias absolutas, relativas o los porcentajes
(acumulados o no segn el caso). (9/02/2010)
(16/02/2010)
pag. 2
GRFICO TALLO Y HOJAS.
Variable: peso(libras).
Tallo: Dos primeros dgitos.
Hojas: ltimo dgito.
Conviene observar los valores mnimo y mximo: 82 y 205.
Grfico
8 2
9
10 5 7
11 4 5 0 0 0 0
12 2 5 5 0 5 5 5 0 5 0 0
13 3 3 3 0
14 5 0 0
15 5
16 0 3
17 5 0 5 5
18 0 0
19
20 5
INTERVALOS A PARTIR DEL GRFICO TALLO Y HOJA

Cada tallo define una clase.
Lmites de clase: Valores mnimos y mximos posibles de cada intervalo:
8 0a9
80-89
9 0a9
90-99
10 0 a 9
100-109
... 0 a 9
110-119
20 0 a 9
120-129
Para que exista continuidad en los grficos se utilizan las fronteras de clase que se obtienen
ampliando convenientemente los lmites de clase a la izquierda y a la derecha.
80-89
79,5-89,5
90-99
89,95-99,5
100-109
99,5-109,5
.
200-209
.
199,5-209,5
IMPORTANTE: Las fronteras de clase son las que se usan como intervalos para representar
el histograma y el polgono acumulativo. (Tabla pag.9 del Tema 2).
Se puede modificar el nmero de intervalos:

Para disminuir el nmero de intervalos: se agrupan intervalos: 80-99, 100-119, etc.
Para aumentar el nmero de intervalos:
Dos filas por tallo:
8* 0 a 4
80-84
5a9
85-89
9* 0 a 4
90-94
5a9
95-99
. .
Cinco filas por tallo:

8* 0 y 1
80-81
t 2y3
82-83
f 9y5
84-85
s 6y7
86-87
8y9
88-89
9*
t
f
s
t two, three
f four, five
s six, seven.
(Se puede cambiar por a, b, c. etc).
CURVAS POBLACIONALES DE FRECUENCIAS Y SUS FORMAS
Se utilizan para representar las distribuciones de toda la poblacin de las variables de media.
Son versiones suaves de los polgonos de frecuencias.
Nos permiten observar las formas de las distribuciones. Para ello se compara la distribucin
poblacional de frecuencias de la variable en estudio con la distribucin normal.
Simetra-asimetra
Derecha
Cortas
- Colas
Izquierda
- Apuntamiento
Largas
Leptocrticas.
Mesocrticas.
Platicrticas.
Tema 3
(23/02/2010)
fijos
Poblacin caracterizada por parmetros
desconocidos
Distribuciones
De
Frecuencias
Muestra
Medidas
resumen
central
- Posicin
(Tema 3)
no central
- Dispersin
Formas
(Tema 4)
Asimetra
Apuntamiento
Longitud de las colas.
(Tema 5)
Las medidas de posicin central son valores alrededor de los cuales estn distribuidos los
datos. Son valores representativos de la muestra (poblacin).
- Media
Medias de
posicin
central.
- Mediana
- Moda.
Aritmtica
Armnica
Geomtrica
Cuadrtica
Media Aritmtica.
Sea una muestra de tamao n de una poblacin.
Sea X una variable de medida.
Sean x1, x2, x3, , xn los valores de los variable de la muestra.
Se define la media aritmtica como el nmero que se obtiene al dividir la suma de todos los
valores por el tamao de la muestra.
Se expresa en las mismas unidades que los valores de la variable.

Ejemplo: Media aritmtica de la variable peso del ej.8 del tema 2.
Si los valores vienen expresados en intervalos:
Disposicin Prctica:
Intervalos
ci
ni
cini
fi (%)
cini(%)
I1
c1
n1
c1n1
f1
c1f1
I2
c2
n2
c2n2
f2
c2f2
Ik
ck
nk
cknk
fk
ckfk
1(100)
En el ejemplo Hoja suelta*.
Tambin:
O bien:
Tambin:
La medida aritmtica obtenida con los intervalos es un valor aproximado (valor real
61,381).
El clculo es anlogo si los intervalos son de distinta amplitud.
VALORES ATPICOS. MEDIA RECORTADA.

Los valores atpicos son aquellos datos bastante mayores o menores que la mayora del
conjunto de los datos de la muestra.
Un valor atpico puede ser alto o bajo segn sea mayor o menos que el conjunto de datos.
En ingls: Outlier High(H) o Low(L).
Una medida resumen es resistente cuando la eliminacin o la inclusin de unos pocos
valores apenas afecta al resultado.
La media aritmtica es poco resistente.
Media aritmtica recortada. Es la que se obtiene calculando la media aritmtica de los
datos una vez eliminado un porcentaje de ellos, llamado fraccin de recorte, de cada una de las
colas de los datos.
Es una medida resistente ya que elimina los valores atpicos (Outlayers), si los hay. La
fraccin de recorte suele ser el 5% o el 10% y se redondea por exceso.
Ejemplo:
Supongamos los siguientes datos que tienen que ver con el precio de las viviendas de una
urbanizacin de una determinada ciudad:
Hay 20 viviendas con un precio de 150000 cada una, 10 viviendas de 180000 cada una y
2 por 750000 cada una.
Consideremos la variable X: precio de las viviendas, en miles de .
Precio medio (media aritmtica) de las viviendas.
xi
ni
xini
150
20
3000
180
10
1800
750
1500
32
6300
Este resultado es representativo?

NO.
Media aritmtica con una fraccin de recorte del 5%.
5% de 32 = 1,6 2
xi
ni
xini
150
18
2700
180
10
1800
28
4500
Este resultado es representativo?

NO. Porque se pierde informacin.
Los datos iniciales sin los datos atpicos.

xi
ni
xini
150
20
3000
180
10
1800
30
4800
Conclusin:
El precio medio de las viviendas es de 160.000 .
Y hay dos viviendas con un precio, cada una, de 750.000 .
SE UTILIZA TODA LA INFORMACIN
OTRAS MEDIAS
Media Armnica. H
Es el recproco de la media aritmtica de los recprocos de los valores de la variable.
Los valores vienen expresados en intervalos:
Media Geomtrica. G
Es la raz del ndice el tamao de la muestra y radicando el producto de los valores
de la variable.
Tambin se puede calcular as:
Si los valores vienen expresados en intervalos:
Media Cuadrtica. C
Es la raz cuadrada de la media aritmtica de los cuadrados de los valores de la
variable.
Si los valores vienen en intervalos:
PROPIEDAD: Si los valores son enteros positivos:
Frmulas con x1, x2, x3.
Obtener las cuatro medidas de 1,2,3,4 y 5. Sol: 2,19<2,61<3,00<3,32 y calcular las medias del
ej.2.5. (23/02/2010)
MEDIANA MUESTRAL. Me.
(2/3/2010)
La mediana es el valor que ocupa el lugar central de la muestra estando los valores
ordenados.
Divide la muestra en dos mitades con el mismo nmero de valores.
Se expresa en las mismas unidades que los datos.
Clculo:
Si n es impar, la mediana es el valor central.
x1, x2, x3, x4, x5, x6 Me = x3.
6 10 11 15 20 Me = 11.
Si n es par, se toma como mediana la media aritmtica de los dos valores centrales.
Para buscar un resultado (localizador

de mediana)
A partir de un grfico tallo y hojas (2.8):
4 89
5 1234567889
6 34689
7 0012
8 1
Obtencin de la mediana cuando los valores vienen expresados en intervalos.

A partir del polgono acumulativo:
Interpolacin.
Suponer Me est en
I=(ei-1, ei).
Ej. Interpolacin. (2.5)

Intervalos
ni
Ni
0-10
60
60
10-20
80
140
20-30
30
170
30-100
20
190
100-200
10
200
200
El intervalo donde est la mediana es el (10, 20).

Interpolacin:
(En este caso coinciden el centro del intervalo, pero no tiene por qu ser as).
Tambin se puede interpolar con las frecuencias relativas o los porcentajes.
Mediante formulacin: Mejor que la interpolacin.
Con frecuencias absolutas.
Supongamos que el intervalo donde est la mediana es:

Ime = (ei-1, ei)
La mediana es el extremo inferior del intervalos mas n medios, menos la frecuencia

acumulada anterior, dividido por su frecuencia, por su amplitud.
Ej. formulacin. (con el ej. de atrs).
Donde est la mediana es:

Ime = (ei-1, ei) = (10, 20)
Si utilizamos las frecuencias relativas (porcentajes).
Ej. (con los %) (el mismo que antes).

.
fi %
Fi%
30
30
40
70
15
85
10
95
100
100
Tabla de la hoja suelta:

.
Ni
11
13
16
20
20
21
Moda. Mo.
La moda es el valor que ms veces se repite, el que presenta mayor frecuencia.
Se obtiene por observacin.
Puede haber varias modas.
Si los valores vienen dados en intervalos, el intervalo de la moda es el que presenta mayor
altura. Tomaremos como moda la marca de clase de dicho intervalo.
ALGUNAS CONSIDERACIONES.
Media Aritmtica poblacional: centro de masa de la distribucin poblacional de
frecuencias. Punto de equilibrio de la figura.
Mediana poblacional: Divide la grfica de la distribucin de frecuencias (polgono
acumulativo) en dos mitades, en dos zonas con la misma rea.
Moda poblacional: Valor de la variable al que le corresponde el mximo relativo de mayor
altura. Puede haber varias modas.
En distribuciones simtricas unimodales las tres medidas coinciden. En distribuciones
moderadamente asimtricas se suele hacer la media aritmtica y en distribuciones muy asimtricas
la media.
La moda es representativa solo cuando hay un valor que se repite mucho en el conjunto de
distribucin.(2/3/2010)
PROPIEDADES DE LA MEDIA ARITMTICA Y DE LA MEDIANA.

(9/3/2010)
HOJA A PARTE.
Cuartiles. Q1, Q2, Q3.

De la misma forma que la mediana divide la muestra en dos partes iguales, los cuartiles
dividen en cuatro partes, es decir, en cuatro intervalos dentro de cada uno de los cuales se encuentra
aproximadamente el 25% de los datos.
Q1 es aquel valor tal que el 25% de los datos son menores o iguales que l (el 75% restante
mayores).
Q2 es aquel valor tal que el 50% de los datos son menores o iguales que l (el 50% restante
mayores). Q2 = Me
Q3 es aquel valor tal que el 75% de los datos son menores que l (el 25% restante mayores).
En muestras pequeas no tienen inters y adems es difcil ajustarlos exactamente.
Se expresa en las mismas unidades que los datos.
Clculo cuando los datos estn expresados en un grfico tallo-hojas.
Q1 de menor a mayor, Q3 de mayor a menor.

Ej.)
3 669
4 2357
5 0233457889
6 116789
7 2256
8 147
9 11
n=32
Otro ejemplo:
3 9
4 2357
5 0233457889
6 116789
7 2256
8 147
9 1
n=29
Q1= 8 y Q3 = 72
Obtencin de los Cuantiles cuando los valores vienen agrupados en intervalos:
Se obtienen de forma anloga a la mediana.
Si utilizamos las frecuencias relativas expresadas en porcentajes:
loc Qr = 25%, 50% y 75%
r=1, 2, 3.
Ej.)
Int.
fi %
Fi %
ni
Ni
0-10
30
30
60
60
10-20
40
70
80
140
20-30
15
85
30
170
30-100
10
95
20
190
100-200
100
10
200
100
200
loc Q1 = 25% IQ1 = (0, 10)
loc Q2 = 50% IQ2 = IMe =(10, 20)
loc Q3 = 75%
Si utilizamos frecuencia absoluta:
IQ r = (ei-1, ei)
El intervalo donde est Q1 es: IQ1 = (0, 10).
Percentiles, Pr.
Los percentiles dividen la muestra en 100 partes iguales.
El percentil 70, P70, deja a su izquierda el 70% de la muestra y a su derecha el 30%.
P50 = Q2 = Me.
Tambin se pueden definir otras medidas como los deciles(/as) que dividen la muestra en
diez partes iguales: D1 = P10, D5 = P50 = Q2 = Me .
P90? (Tabla de antes)
IP90 = (30, 100)
Tema 4.
Medidas de Dispersin.
Miden la variabilidad de los datos y la representatividad de las medidas de posicin.
Cuanto menor sea la variabilidad de los datos ms representativos sern las medidas de
posicin utilizadas.
Recorrido Intercurtico.
Se define como la diferencia entre el tercer cuartil y el primero.
RIQ(X) = Q3(X) Q1(X)
Mide la dispersin de los valores del centro de la distribucin, en concreto del 50% de los
datos.
Se suele utilizar junto a la mediana, de tal forma que si RIQ(X) es pequeo los datos
centrales estn concentrados alrededor de la mediana. Si el RIQ(X) es un valor grande significa que
los datos del centro de la muestra estn dispersos.
Se expresa en las mismas unidades que los valores de la variable.
PROPIEDADES:
Los valores atpicos no le afectan.
Si se suma o resta una misma cantidad a los valores de una variable RIQ no vara.
Si se multiplican o dividen los valores de una variable por mismo numero distinto de 0
el RIQ que da multiplicado o dividido por dicho nmero:
(9/3/2010)
VARIANZA Y DESVIACIN TPICA(16/3/2010).

X: x1, x2, x3, ., xn.
Se define la varianza de X como el error cuadrtico medio respecto de la medida aritmtica.
Se define la desviacin tpica de X como la raz cuadrada positiva de la varianza.
De forma prctica:
Clculo de la varianza y de la desviacin tpica.

Obtener la varianza y la desviacin tpica de 5,6,7,8 y 9.
Disposicin prctica (opcional pero recomendable).
Xi
Xi 2
5
25
36
49
64
81
35
255
O bien:
Si los valores vienen en intervalos:
Intervalos.
Ci
ni
Cini
Ci2ni
0-10
60
300
1500
10-20
15
80
1200
18000
20-30
25
30
750
18750
30-100
65
20
1300
84500
100-200
150
10
1500
225000
200
5050
347750
(No usar la frmula de la desviacin tpica, hacer primero la varianza y luego nicamente
aplicarle la raz cuadrada para obtener la desviacin tpica).
Con frecuencias relativas:
PROPIEDADES:
Si a los valores de una variable se les suma o resta un mismo nmero, la variacin no
vara.
Si los valores de una variable se multiplican o dividen por un mismo nmero distinto de
0, la varianza queda multiplicada o dividida por el cuadrado de ese nmero.
(Tanto la varianza como la desviacin tpica son valores POSITIVOS)

TIPIFICACIN DE UNA VARIABLE.
Una variable estadstica se dice que est tipificada cuando su media aritmtica es 0 y su
desviacin tpica es 1.
Si X es una variable cualquiera con
y Sx, X se tipifica de la siguiente forma:
Es decir:
Una variable tipificada es adimensional.

La tipificacin permite comparar valores de distintas distribuciones y ver cul de ellas es
relativamente mayor.
Ej.)
Xi = 20 aos.
= 18,8
Sx = 2,2
Xi = 59 aos.
= 58,5
Sy = 3,3
COEFICIENTE DE VARIACIN DE PEARSON.

Supongamos dos muestras:
Qu media es ms representativa?
La primera obviamente
El coeficiente de variacin es la relacin por cociente entre Sx y

Cuanto mayor sea el CV(X), mayor es la dispersin relativa de la distribucin y menor la
representatividad de la
Es adimensional y muy til.
En el Ej.)
El CV(X) se utiliza para comparar la dispersin relativa de distintas distribuciones.

Tambin en el caso de que las distribuciones tengan distintas unidades.
PROPIEDADES:
Si
Si
(Para practicar 232 suspensos, 172 aprobados, 84 notables, 22 sobresalientes).

(16/3/2010)
GRFICO CAJA
(23/3/2010)
1. INTRODUCCIN
Es un representacin grfica que proporciona informacin mediante la impresin visual de
aspectos de la distribucin tales como medidas de posicin, dispersin, asimetra, longitud de las
colas y valores atpicos.
Se construye a partir del grfico tallo y hojas.
Se acompaa de medidas que perfeccionan y corroboran la representacin grfica.
2. OBTENCIN DE CUARTILES Y DEL RIQ.
n
loc Me
loc Qi
Me
Q1
Q3
3. GRFICO PREVIO (las tres zonas).
4. COMPONENTES DEL GRFICO.

factor escala: 1,5*RIQ
vallas: son los lmites de las tres zonas.
v1 = Q1 1,5*RIQ
-v. interiores
v2 = Q3 + 1,5*RIQ
-vallas
V1 = v1 1,5*RIQ
-v. exteriores
V2 = v2 + 1,5*RIQ
RIQ
Valores adyacentes: Son los valores de la zona interna ms cercanos a las vallas.
Son datos.
Menores Los datos de la zona media.
Valores atpicos
Mayores Los datos de la zona externa.
NOTA: Si algn dato coincide con alguna valla lo consideraremos del interior de la
zona que limita.
5. ESQUEMA
1,5*RIQ
x1
x2
Val. interior
v1
v2
x,x
dos
uno
v.exteriores
V1
V2
uno
Val.adyacentes
x
En primer lugar escribimos las vallas.

6. DIBUJO DEL GRFICO CAJA.
7. INTERPRETACIN.
caja central: En ella se encuentra el 50% de los datos, los del centro de la distribucin.
Grande o pequea, simetra o asimetra... Valores de Me y Qi.
Valores adyacentes: Entre ellos estn todos los datos menos los valores atpicos.
Asimetras...
valores atpicos: Muestran las colas (colas largas). Cuntos son, qu valores tomar.
Asimetras...
8. CLCULOS.
(en el grfico), Sx, CV(X), DPS(X).
La desviacin pseudotpica, DPS, proporciona un mtodo rpido para comparar la longitud
de las colas de una distribucin dada con la longitud de las colas de la distribucin normal.
El mtodo es el siguiente:
Se compara Sx con la DPS(X) y si:
- Sx > DPS(X) las colas de la poblacin de la que se ha tomado la muestra son ms largas que las
de la distribucin normal. Colas largas.
-Sx < DPS(X) Colas cortas.
Ej). Variable edad de la tabla 1, pag. 2 del t. 2.
1 8 8 8 8 8 8 8 8(8 9 9 9 9 9 9 9 9 9 9(10
2 00000000 11246789
3
4 6
5 5
n = 36
1er paso)
36
18,5
9,5
19,5
19
21
2 paso)
3
v
16
24
13
27
3Er paso)
3
18
24
16
24
dos
13
27
26, 27
cuatro 28, 29, 46, 55
Comentarios del grfico:

Caja pequea (50% de los datos, del centro de la distribucin), con asimetra a la
derecha. Rango muy pequeo entre el primer cuartil (19) y la mediana (19,5). Datos muy
concentrados
Observando los valores adyacentes: Asimetra a la derecha. Los valores propios estn
ms concentrados.
Cola de la izquierda muy corta.
Cola de la derecha muy larga. Asimetra ala derecha en toda la distribucin.
Hay seis valores atpicos: 26, 27, 28, 29, 46 y 55.
Otros resultados:
= 22,03 aos (se sale de la caja, valores atpicos). La mediana es ms

representativa.
Sx = 7,54 aos.
ESTUDIO EXPLORATIORIO DE LA COMPARACIN Y DE LA RELACIN.

(13/04/2010)
La comparacin hace referencia al estudio del comportamiento de una variable en dos o
ms muestras.
Se comparan las distribuciones de frecuencias de una variable en dos muestras.
Ej.)
USA
Consumo de gasolina de coches
U.E.
Nacionales
Cuando el comportamiento de la variable es anlogo en las distintas muestras, se dice que

existe homogeneidad.
La relacin hace referencia al estudio del comportamiento de dos variables de una misma
muestra.
Ej.)
Peso y estatura de los estudiantes de 1.
Renta y gasto en vacaciones de las familias alicantinas.
Ahora bien: En el ejemplo de la comparacin se puede establecer dos variables: Consumo
de gasolina y Nacionalidad Esto permite abordar la comparacin como un problema de
relacin.
Dos variables de medida
Relacin entre
una v. de medida y una c. categrica

dos variables categricas.
Estudio de la relacin entre dos variables de medida.

Es la regresin. La estudiaremos en el tema 7.
Estudio de la relacin entre una variable categrica y una variable de medida.
Se realiza mediante grficos caja en paralelo.
Se comparan los centros, la dispersin, los valores atpicos,
Se pueden unir los centros y ver si hay relacin entre las dos variables y si existe una lnea
de tendencia.
v. de medida = f (v. categrica)
Ej) las ventas de unos grandes almacenes en los distintos meses o estaciones del ao.
Estudio de la relacin entre dos variables categricas.

Examinaremos:
La distribucin conjunta.
Las distribuciones marginales.
Las distribuciones condicionales.
La independencia o no relacin entre las variables.
Realizaremos el estudio con el siguiente ejemplo:
Relacin entre dos variables categricas.
Muestra de 140 personas que han seguido un curso de formacin de personal de una
empresa.
Objetivo del estudio: Analizar la relacin entre el rendimiento obtenido al finalizar el
curso y la ocupacin laboral de las personas que lo han seguido.
Dos variables: X: ocupacin labora. | Y: rendimiento.
Valores observados:
X\Y
Bajo
Medio
Alto
Propia empresa
36
18
63
Otras profesiones
24
17
47
Universitarios
21
30
37
58
45
140
Tabla de doble entrada o tabla de contingencia.
Distribucin conjunta.
Est formada por los valores del interior de la tabla.
36: Entre las personas que han seguido el curso (la muestra) hay 36 que son de la propia
empresa y han obtenido un rendimiento medio.
21 son universitarios y han obtenido un rendimiento alto.
Distribuciones marginales.
Estn formadas por los totales de las filas y columnas
X (Ocupacin laboral)
Propia empresa
63
Otras profesiones
47
Universitarios
30
140
Distribucin marginal de la variable Y:
Y (Rendimiento)
Bajo
37
Medio
58
Alto
45
140
Estas dos tablas pueden tener un rendimiento normal de una variable categrica.
Las distribuciones conjuntas y marginales pueden expresarse mediante frecuencias relativas
o porcentajes:
X\Y
Bajo
Medio
Alto
Propia empresa
6,43
25,71
12,86
45,00
Otras profesiones
17,14
12,14
4,29
33,57
Universitarios
2,86
3,57
15,00
21,43
26,43
41,43
32,14
100
El 6,43% de las personas son de la propia empresa y han obtenido un rendimiento bajo.
El 21,43% de los que han seguido el curso son universitarios.
El 32,14% del total de la muestra han tenido un rendimiento alto.
Distribuciones condicionadas:
Distribucin de X condicionada por la variable Y:
Cmo se distribuye X para cada uno de los valores de Y?
X\Y
Bajo
Medio
Alto
Propia empresa
24,32
62,07
40,00
Otras profesiones
64,86
29,31
13,33
Universitarios
10,81
8,62
46,67
100
100
100
Cada columna es una distribucin:

Distribucin de X condicionada por Y = bajo.
- X / Y = bajo
Distribucin de X condicionada por Y = medio.
- X / Y = medio
Distribucin de X condicionada por Y = alto.
- X / Y = alto
Distribucin de Y condicionada por la variable X:

Cmo se distribuye Y para cada uno de los valores de X?
X\Y
Bajo
Medio
Alto
Propia empresa
14,29
57,14
28,57
100
Otras profesiones
51,06
36,17
12,77
100
Universitarios
13,33
16,67
70,00
100
Como antes:
Cada fila es su distribucin:

Distribucin de Y condicionada por:
X = prop. Empresa Y / X = prop. Empresa.
X = Otras prof. Y / X = Otras prof.
X = Universitarios Y / X = Universitarios.
Interpretacin:
De los universitarios, el 13,33% ha obtenido un rendimiento bajo, el 16,67% medio y el
70,00% alto.
Podemos estar interesados slo en una fila o slo en una columna, es decir:
Distribucin de X/Y=alto, o
Distribucin de Y/X=universitarios.
Todas las tablas admiten grficos, simples o agrupados(Excel.)
Por ejemplo, un diagrama de barras mltiples para esta ltima tabla es:
80
70
60
50
40
30
20
10
0
Bajo
Medio
Alto
Universitarios
Prop. Empresa
20/4/2010
Independencia entre las variables X e Y.
Muestra:: 500 personas que han solicitado un prstamo en una entidad bancaria.
X: Lugar de residencia: capital, provincia.
Y: Motivo del prstamo: automvil, vivienda, negocios, otros.
X/Y
Automvil
Vivienda
Negocios
Otros
Total
Capital
30
20
10
40
100
Provincia
120
80
40
160
400
Total
150
100
50
200
500
Distribucin conjunta y distribuciones marginales, en porcentajes (%).

X/Y
Automvil
Vivienda
Negocios
Otros
Total
Capital
20
Provincia
24
16
32
80
Total
30
20
10
40
100
Distribuciones de X condicionadas por la variable Y:

Cmo se distribuye X para los valores de Y?
Cmo vara la distribucin de X cuando Y es automvil?
X/Y
Automvil
Vivienda
Negocios
Otros
Total
Capital
20
20
20
20
20
Provincia
80
80
80
80
80
Total
100
100
100
100
100
X/Y = Autom.
X/Y=Viv.
Distribuciones de Y condicionadas por la variable X:
X/Y
Automvil
Vivienda
Negocios
Otros
Total
Capital
20
Provincia
24
16
32
80
Total
30
20
10
40
100
Y/X: Capital Y/X: Provincia.

Y cuando X es capital.
Cuando se verifica lo que se cumple en este ejemplo:

X / Y1 = X / Y2 = . se dice que X es independiente de Y (los valores de X no se modifican
al variar Y).
Si ocurre esto, tambin se da que:
Y / X1 = Y / X2 = . que significa que Y es independiente de X.
Se dice, entonces, que X e Y son idependientes.
Definicin: Dadas dos variables estadsticas, X e Y, se dice que X es independiente de Y si

las distribuciones de X condicionadas por la variable Y son las mismas para todo valor de Y.
Coinciden con la distribucin marginal de X.
Si X es independiente de Y, Y es independiente de X y se dice que X e Y son independientes.
Dos variables independientes no estn relacionadas!
En un estudio de comparacin se dice que existe homogeneidad.
Estudio de la independencia entre dos variables mediante una tabla de contingencia.
Hemos visto que si dos variables son independientes las distribuciones condicionadas
coinciden y son iguales a las respectivas distribuciones marginales.
Vamos a ver ahora el estudio de la independencia mediante un mtodo basado en la
comparacin de los valores observados y los valores esperados (Inferencia Estadstica).
1) Valores observados: Los de la tabla.
2) Valores esperados: Son los valores que deberan darse en el supuesto de que X e Y
fuesen independientes. Se obtienen as:
(los totales de las filas y columnas se mantienen).

3) Si las diferencias que se dan entre los valores observados y los esperados son
significativas, no hay independencia, las variables estn relacionadas.
En caso contrario, se dice que las variables son independientes.
4) Para ver si las diferencias son significativas, o no, se obtienen los valores z.
Por casillas, si |z| > 1,96 las diferencias entre las frecuencias observadas y esperadas son
significativas, por lo que previsiblemente no hay independencia y las variables estn relacionadas.
Ejemplo:
X\Y
Bajo
Medio
Alto
Propia empresa
9
16,7
-1,88
36
26,1
1,93
18
20,3
-0,51
63 V. obs.
V. esp.
z
Otras profesiones
24
12,4
3,29
17
19,5
-0,57
6
15,1
-2,34
47
Universitarios
4
7,9
-1,39
5
12,4
-2,10
21
9,6
3,68
30
37
58
45
140
Cada casilla representa:

Observado: 24
Esperado: 12,4
3,29 > 1,96 Diferencia significativa.
Se observan diferencias significativas entre los valores observados y los esperados No

existe independencia entre las variables X e Y Las variables estn relacionadas. El rendimiento
obtenido depende, en este caso, de la procedencia de las personas que realizan el curso. Los
universitarios han obtenido notas ms altas y los de otras profesiones notas ms bajas.(20/04/2010).
ESTUDIOS DE LA REVISIN
(27/4/2010)
Sean X e Y dos variables de medida.
Sean (x, y) los pares de valores observados en una muestra de tamao n.
(x1, y1) , (x2, y2) , . , (xn, yn)
Si representamos esta distribucin mediante una nube de puntos, un ajuste es la sustitucin
de la nube de puntos por la linea que mejor se adapte a dichos puntos. Esta linea permitir la
relacin entre ambas variables.
El problema es, pues, doble:
a) Elegir el tipo de curva que mejor se adapte a los datos observados.
b) Calcular los parmetros de la ecuacin que representa el tipo de curva elegido.
Regresin lineal. Mtodo de los mnimos cuadrados.
Sea una muestra de tamao n.
Sean (x1, y1) , (x2, y2) , . , (xn, yn) los pares de valores observados de las variables X e Y.
Supongamos que la recta y* = a + bx es la que consideramos que mejor se adapta a la nube
de puntos.
y* = a + bx es la recta de regresin.
El problema consiste en determinar los parmetros a y b y tener as la recta de regresin.
b es la pendiente
a es la ordenada en el origen.
Mtodo de ajuste.
Para cada valor de X: xi, tenemos dos valores de Y:
yi (valor observado, valor real) e
yi* (valor ajustado, valor terico).
De tal forma que:
ei = yi yi* : error o resduo.
Y esto para cada observacin.
El mtodo de ajuste que usaremos es el de los mnimos cuadrados, que consiste en
suponer que la recta que mejor se adapta a la nube de puntos es aquella para la que es mnima la
suma de los cuadrados de los errores o residuos.
Mtodo de los mnimos cuadrados.

Recta de regresin: y* = a + bx.
Es condicin necesaria para que esta funcin sea mnima que las derivadas respecto a cada
uno de los parmetros se anulen. Es decir:
Sistema de ecuaciones que utilizaremos para calcular los parmetros de la recta de regresin.
El sistema puede transformarse en:
Es decir, tenemos:
Ejemplo: Hoja a parte 2.

y* = a + bx
Resolviendo el sistema: a = 17,5 | b = 2,5

y* = 17,5 + 2,5x
Interpretacin (ms adelante).
Covarianza.
Se define la covarianza de las variables X e Y:
Para su clculo:
Es una medida de dispersin conjunta de (X, Y), o sea, de la nube de puntos.

Podemos observar que:
SXX = SX2
SYY = SY2
Vamos a resolver el sistema de ecuaciones mediante la regla de Cramer:

y* = a + bx
Interpolacin de los parmetros:

y* = a + bx
a es la ordenada en el origen. Nos dice el valor de y cuando x = 0.
b es la pendiente de la recta y mide lo que vara la variable Y cuando X vara en una unidad.
Como
, el signo de la covarianza determina el signo de b.
Si SXY > 0 b > 0

Si SXX < 0 b < 0
Si SXY = 0 b = 0. Y no depende linealmente de X, no hay relacin lineal.
En el ejemplo:
y* = 17,5 +2,5x
Cuando X vara 1 unidad, Y vara 2,5 unidades positivas: Fabricar una unidad ms tiene un
coste de 2500.
a = 17,5. Es el coste de fabricar 0 unidades (abrir fbrica, empezar a producir...).
NOTA:
es siempre un punto de la recta de regresin. En en ejemplo (11, 45).

(27/4/2010)
CORRELACIN(11/5/2010)
Una vez obtenida la recta de regresin, el paso siguiente es estudiar el grado de
representatividad o bondad del ajuste de la recta de regresin. Es decir, vamos a ver si la recta de
regresin que hemos obtenido se ajusta bien a la nube de puntos de nuestros datos.
Llamamos correlacin al grado de dependencia conjunta de las dos variables.
Recordaremos que el clculo de la recta de regresin y* = a + bx
yi
tenemos xi
, de tal forma que ei = yi yi*
yi*
y
Definicin: Se llama varianza residual a la varianza de la serie de errores o residuos, Se2.
Por otro lado:
Definicin: Se define el coeficiente de determinacin, R2, como:
R2 mide la proporcin de la variabilidad de Y explicada mediante la regresin de Y sobre X.

Es el coeficiente que utilizaremos para medir la bondad del ajuste.
La recta de regresin pasa exactamente por los datos, por los valores observados. El ajuste
es perfecto.
Habitualmente un buen ajuste se da cuando
Si R2 = 0,75 se dice que la variabilidad de Y explicada por la regresin es el 75%.

Permite hacer predicciones.
Ejemplo(hoja suelta 2)
yi2
yi*
ei
ei2
900
25
25
1225
35
1521
42,5
-3,5
12,25
1600
47,5
-7,5
56,25
2500
50
2601
55
-4
16
4900
60
10
100
209,5
15247
Bondad del ajuste.
La regresin explica el 80% de la variabilidad de Y. Es un buen ajuste de los datos.
Tambin podemos calcular el coeficiente as:
Qu valor se espera obtener para x = 30?

y*(30) = 17,5 + 2,5(30)= 92,5
Coeficiente de correlacin lineal.
Es vlido slo para el ajuste lineal. Se define:
Interpretacin:
r = 1, correlacin perfecta y positiva.
r = -1, correlacin perfecta y negativa.
r = 0 correlacin lineal nula.
(de vuelta al ejemplo).
Lo ms cmodo para ver qu proporcin de variabilidad es explicada por la regresin
de Y sobre X, la bondad del ajuste, es calcular r y elevarlo al cuadrado.
(Ejercicio empezando desde 0)
Ej. Calcular la recta de regresin y obtener la bondad del ajuste.
(tabla)
Bondad del ajuste:
FIN
=D
Alejandro Deltell Gonzlez

1 Ciencias Empresariales, UA.

0 Estadistica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

0 Estadistica

Uploaded by

Copyright:

Available Formats

Estadstica

Variables categricas Categoras

DEFINICIN: Se llama Frecuencia Relativa de la categora xi a su frecuencia absoluta dividida

Grfico de sectores (Crculo).

Pictogramas (smbolos o dibujos).

*Lmites de clase y fronteras de clase.

Histograma (Grfico formado por rectngulos).

El primer punto es (e0, 0).

INTERVALOS A PARTIR DEL GRFICO TALLO Y HOJA

Se puede modificar el nmero de intervalos:

Cinco filas por tallo:

Se expresa en las mismas unidades que los valores de la variable.

Si los valores vienen expresados en intervalos:

En el ejemplo Hoja suelta*.

VALORES ATPICOS. MEDIA RECORTADA.

Este resultado es representativo?

Este resultado es representativo?

Los datos iniciales sin los datos atpicos.

Los valores vienen expresados en intervalos:

Tambin se puede calcular as:

Si los valores vienen expresados en intervalos:

Si los valores vienen en intervalos:

PROPIEDAD: Si los valores son enteros positivos:

Frmulas con x1, x2, x3.

Para buscar un resultado (localizador

A partir de un grfico tallo y hojas (2.8):

Obtencin de la mediana cuando los valores vienen expresados en intervalos.

Ej. Interpolacin. (2.5)

El intervalo donde est la mediana es el (10, 20).

Supongamos que el intervalo donde est la mediana es:

La mediana es el extremo inferior del intervalos mas n medios, menos la frecuencia

Donde est la mediana es:

Si utilizamos las frecuencias relativas (porcentajes).

Ej. (con los %) (el mismo que antes).

Tabla de la hoja suelta:

PROPIEDADES DE LA MEDIA ARITMTICA Y DE LA MEDIANA.

Cuartiles. Q1, Q2, Q3.

Q1 de menor a mayor, Q3 de mayor a menor.

loc Q1 = 25% IQ1 = (0, 10)

loc Q2 = 50% IQ2 = IMe =(10, 20)

Si utilizamos frecuencia absoluta:

El intervalo donde est Q1 es: IQ1 = (0, 10).

VARIANZA Y DESVIACIN TPICA(16/3/2010).

Se define la desviacin tpica de X como la raz cuadrada positiva de la varianza.

Clculo de la varianza y de la desviacin tpica.

Si los valores vienen en intervalos:

(Tanto la varianza como la desviacin tpica son valores POSITIVOS)

y Sx, X se tipifica de la siguiente forma:

Una variable tipificada es adimensional.

COEFICIENTE DE VARIACIN DE PEARSON.

El coeficiente de variacin es la relacin por cociente entre Sx y

El CV(X) se utiliza para comparar la dispersin relativa de distintas distribuciones.

(Para practicar 232 suspensos, 172 aprobados, 84 notables, 22 sobresalientes).

3. GRFICO PREVIO (las tres zonas).

4. COMPONENTES DEL GRFICO.

En primer lugar escribimos las vallas.

cuatro 28, 29, 46, 55

Comentarios del grfico:

= 22,03 aos (se sale de la caja, valores atpicos). La mediana es ms

ESTUDIO EXPLORATIORIO DE LA COMPARACIN Y DE LA RELACIN.

Cuando el comportamiento de la variable es anlogo en las distintas muestras, se dice que

una v. de medida y una c. categrica

Estudio de la relacin entre dos variables de medida.