You are on page 1of 48

Estadstica

Tema 1 (9/2/10)
Una estadstica: Cualquier coleccin de datos ordenados y clasificados segn un
determinado criterio.
Estadstica: Es la ciencia que estudia el comportamiento de los fenmenos llamados
colectivos. Est caracterizada por:
Una informacin acerca de un colectivo o universo -objeto material-.
Un modo propio de razonamiento, el mtodo estadstico -objeto formal-.
Unas previsiones de cara al futuro lo que implica un ambiente de incertidumbre -objeto
final-.
La Estadstica es la ciencia de los datos. El objeto de la estadstica es el razonamiento a
partir de datos emricos. Los datos no son slo nmeros, sino nmeros en u contexto.
Estadstica Descriptiva. Tiene como fin presentar resmenes de un conjunto de datos y
poner de manifiesto sus caractersticas mediante representaciones grficas.
Los datos se usan para fines comparativos o explicativos y no se usan con principios de
probabilidad.
El inters se centra en describir el conju nto de datos que se tienen y no se plantea el
extender las conclusiones a otros datos diferentes o a una poblacin.
Poblacin: Conjunto de todos los elementos que cumplen una o varias propiedades
especficas.
Muestra: Un subconjunto de la poblacin.
Variables Estadsticas: Son las propiedades o caractersticas de los elementos de la
poblacin objeto de estudio.
Cuantitativas (medibles) Se describen con nmeros.
VARIABLES
Cualitativas (no medibles) Se describen con palabras.
Variables de medida Valores

Variables categricas Categoras


Las variables cualitativas se llaman tambin atributos y sus distintas formas, modalidades.

Tema 2
Variables categricas
Sea una muestra de tamao n de una poblacin. Sea X una variable categrica (color ojos).
Sean x1,x2,x3,...,xk a las modalidades o categoras de X. Cada elemento pertenece a una categora.
DEFINICIN: Se llama Frecuencia Absoluta de la categora xi al n de veces que aparece xi en la
muestra. La representamos con ni.
0 ni n

DEFINICIN: Se llama Frecuencia Relativa de la categora xi a su frecuencia absoluta dividida


por el tamao de la muestra. La representamos con fi.

Variable(color
ojos)

Cdigos

ni

fi

fi x 100 o %

.. x1

n1

f1

f1 x 100

...x2

n2

f2

f2 x 100

....

....

....

....

....

..xk

nk

fk

fk x 100

100

REPRESENTACIONES GRFICAS
Diagrama de barras(ejes coordenadas).
fi
ni
%

x1

x2

x3

Grfico de sectores (Crculo).


A cada categora se le asigna un sector de amplitud proporcional a su
frecuencia(absoluto, relativo o porcentual).

Pictogramas (smbolos o dibujos).


VARIABLES DE MEDIDA.
Sea una muestra de tamao n. Sea X una variable de medida. Sean x1,x2,x3,...,xk los distintos
valores de x de menor a mayor.

ni
DEFINICIN: Como antes xi
fi
DEFINICIN: Se llama Frecuencia Absoluta Acumulada al n de veces que aparecen en la muestra
xi y todos los valores menores que l. La representaremos con Ni.

Evidentemente:
N1 = n1, N2 = n1 + n2, , Nk = n
Ni = Ni-1 + ni
DEFINICIN: Se llama Frecuencia Relativa Acumulada de xi a su frecuencia absoluta dividida por
n. La representamos con Fi.

INTERVALOS DE CLASE
Los valores de una variable se pueden agrupar en intervalos denominados intervalos de
clase.
Para ello se divide el intervalo que contiene todos los valores en sibintervalos: I1, I2, , Ih de
tal forma que x1 I1, y xk Ih.
DEFINICIN: Se llaman marcas de clase a los puntos medios de cada intervalo.
TABLA DE FRECUENCIA:
Intervalos*

Marcas de
Clase

ni

fi

Ni

Fi (%)

I1(eo, e1)

c1

n1

f1

N1

F1

I2(e1, e2)

c2

n2

f2

N2

F2

Ih(eh-1, eh)

ch

nh

fh

Nh

Fh

1(100)

=n

=1(100)

*Lmites de clase y fronteras de clase.


Las frecuencias se refieren a los intervalos (si es posible lo expresaremos con la misma
amplitud).
Hay diversas formas de obtener intervalos. Segn sean stos as sern las tablas de
frecuencias.
REPRESENTACIONES GRFICAS
Diagrama de barras (si no hay intervalos).
fi
ni
%

x1

x2

x3

Histograma (Grfico formado por rectngulos).


La base de los rectngulos son los intervalos y la altura de cada rectngulo es tal que su
rea es proporcional a la frecuencia del intervalos que representa.
12
10
8
6
4
2
0
Fila 1

Fila 2

Fila 3

Fila 4

Polgono de frecuencias.
Se forma uniendo los puntos medios de la base superior de cada rectngulo del
histograma.

10
9
8
7
6
5
4
3
2
1
0
Fila 1

Fila 2

Fila 3

Fila 4

Se suele prolongar hasta el eje de abscisas para que el rea bajo el polgono sea la del
histograma.
Se representa sin el histograma.
10
9
8
7
6
5
4
3
2
1
0

Polgono acumulativo.
Se obtiene uniendo los puntos que representan los extremos superiores de cada intervalo
y su frecuencia acumulada.

6
5
4
3
2
1
0
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5

El primer punto es (e0, 0).


Con la nomenclatura dada hay que unir los puntos.
(e0, 0), (e1, N1), (e2, N2), ., (eh, Nh).
Se dibuja mejor con los porcentajes (F1 x 100).
En todos los grficos se pueden utilizar las frecuencias absolutas, relativas o los porcentajes
(acumulados o no segn el caso). (9/02/2010)
(16/02/2010)
pag. 2
GRFICO TALLO Y HOJAS.
Variable: peso(libras).
Tallo: Dos primeros dgitos.
Hojas: ltimo dgito.
Conviene observar los valores mnimo y mximo: 82 y 205.

Grfico
8 2
9
10 5 7
11 4 5 0 0 0 0
12 2 5 5 0 5 5 5 0 5 0 0
13 3 3 3 0
14 5 0 0
15 5
16 0 3
17 5 0 5 5
18 0 0
19
20 5

INTERVALOS A PARTIR DEL GRFICO TALLO Y HOJA


Cada tallo define una clase.
Lmites de clase: Valores mnimos y mximos posibles de cada intervalo:
8 0a9

80-89

9 0a9

90-99

10 0 a 9

100-109

... 0 a 9

110-119

20 0 a 9

120-129

Para que exista continuidad en los grficos se utilizan las fronteras de clase que se obtienen
ampliando convenientemente los lmites de clase a la izquierda y a la derecha.
80-89

79,5-89,5

90-99

89,95-99,5

100-109

99,5-109,5

.
200-209

.
199,5-209,5

IMPORTANTE: Las fronteras de clase son las que se usan como intervalos para representar
el histograma y el polgono acumulativo. (Tabla pag.9 del Tema 2).

Se puede modificar el nmero de intervalos:


Para disminuir el nmero de intervalos: se agrupan intervalos: 80-99, 100-119, etc.
Para aumentar el nmero de intervalos:
Dos filas por tallo:
8* 0 a 4

80-84

5a9

85-89

9* 0 a 4

90-94

5a9

95-99

. .

Cinco filas por tallo:


8* 0 y 1

80-81

t 2y3

82-83

f 9y5

84-85

s 6y7

86-87

8y9

88-89

9*

t
f
s

t two, three
f four, five
s six, seven.
(Se puede cambiar por a, b, c. etc).
CURVAS POBLACIONALES DE FRECUENCIAS Y SUS FORMAS
Se utilizan para representar las distribuciones de toda la poblacin de las variables de media.
Son versiones suaves de los polgonos de frecuencias.
Nos permiten observar las formas de las distribuciones. Para ello se compara la distribucin
poblacional de frecuencias de la variable en estudio con la distribucin normal.
Simetra-asimetra

Derecha

Cortas
- Colas

Izquierda

- Apuntamiento
Largas

Leptocrticas.
Mesocrticas.
Platicrticas.

Tema 3
(23/02/2010)

fijos
Poblacin caracterizada por parmetros
desconocidos

Distribuciones
De
Frecuencias

Muestra

Medidas
resumen

central
- Posicin

(Tema 3)
no central

- Dispersin

Formas

(Tema 4)

Asimetra
Apuntamiento
Longitud de las colas.

(Tema 5)

Las medidas de posicin central son valores alrededor de los cuales estn distribuidos los
datos. Son valores representativos de la muestra (poblacin).

- Media
Medias de
posicin
central.
- Mediana
- Moda.

Aritmtica
Armnica
Geomtrica
Cuadrtica

Media Aritmtica.
Sea una muestra de tamao n de una poblacin.
Sea X una variable de medida.
Sean x1, x2, x3, , xn los valores de los variable de la muestra.
Se define la media aritmtica como el nmero que se obtiene al dividir la suma de todos los
valores por el tamao de la muestra.

Se expresa en las mismas unidades que los valores de la variable.


Ejemplo: Media aritmtica de la variable peso del ej.8 del tema 2.

Si los valores vienen expresados en intervalos:

Disposicin Prctica:
Intervalos

ci

ni

cini

fi (%)

cini(%)

I1

c1

n1

c1n1

f1

c1f1

I2

c2

n2

c2n2

f2

c2f2

Ik

ck

nk

cknk

fk

ckfk

1(100)

En el ejemplo Hoja suelta*.

Tambin:

O bien:

Tambin:

La medida aritmtica obtenida con los intervalos es un valor aproximado (valor real
61,381).
El clculo es anlogo si los intervalos son de distinta amplitud.

VALORES ATPICOS. MEDIA RECORTADA.


Los valores atpicos son aquellos datos bastante mayores o menores que la mayora del
conjunto de los datos de la muestra.
Un valor atpico puede ser alto o bajo segn sea mayor o menos que el conjunto de datos.
En ingls: Outlier High(H) o Low(L).
Una medida resumen es resistente cuando la eliminacin o la inclusin de unos pocos
valores apenas afecta al resultado.
La media aritmtica es poco resistente.
Media aritmtica recortada. Es la que se obtiene calculando la media aritmtica de los
datos una vez eliminado un porcentaje de ellos, llamado fraccin de recorte, de cada una de las
colas de los datos.
Es una medida resistente ya que elimina los valores atpicos (Outlayers), si los hay. La
fraccin de recorte suele ser el 5% o el 10% y se redondea por exceso.

Ejemplo:
Supongamos los siguientes datos que tienen que ver con el precio de las viviendas de una
urbanizacin de una determinada ciudad:
Hay 20 viviendas con un precio de 150000 cada una, 10 viviendas de 180000 cada una y
2 por 750000 cada una.
Consideremos la variable X: precio de las viviendas, en miles de .
Precio medio (media aritmtica) de las viviendas.
xi

ni

xini

150

20

3000

180

10

1800

750

1500

32

6300

Este resultado es representativo?


NO.
Media aritmtica con una fraccin de recorte del 5%.
5% de 32 = 1,6 2
xi

ni

xini

150

18

2700

180

10

1800

28

4500

Este resultado es representativo?


NO. Porque se pierde informacin.

Los datos iniciales sin los datos atpicos.


xi

ni

xini

150

20

3000

180

10

1800

30

4800

Conclusin:
El precio medio de las viviendas es de 160.000 .
Y hay dos viviendas con un precio, cada una, de 750.000 .
SE UTILIZA TODA LA INFORMACIN
OTRAS MEDIAS
Media Armnica. H
Es el recproco de la media aritmtica de los recprocos de los valores de la variable.

Los valores vienen expresados en intervalos:

Media Geomtrica. G
Es la raz del ndice el tamao de la muestra y radicando el producto de los valores
de la variable.

Tambin se puede calcular as:

Si los valores vienen expresados en intervalos:

Media Cuadrtica. C
Es la raz cuadrada de la media aritmtica de los cuadrados de los valores de la
variable.

Si los valores vienen en intervalos:

PROPIEDAD: Si los valores son enteros positivos:

Frmulas con x1, x2, x3.

Obtener las cuatro medidas de 1,2,3,4 y 5. Sol: 2,19<2,61<3,00<3,32 y calcular las medias del
ej.2.5. (23/02/2010)
MEDIANA MUESTRAL. Me.
(2/3/2010)
La mediana es el valor que ocupa el lugar central de la muestra estando los valores
ordenados.
Divide la muestra en dos mitades con el mismo nmero de valores.
Se expresa en las mismas unidades que los datos.
Clculo:
Si n es impar, la mediana es el valor central.
x1, x2, x3, x4, x5, x6 Me = x3.
6 10 11 15 20 Me = 11.
Si n es par, se toma como mediana la media aritmtica de los dos valores centrales.

Para buscar un resultado (localizador


de mediana)

A partir de un grfico tallo y hojas (2.8):

4 89
5 1234567889
6 34689
7 0012
8 1

Obtencin de la mediana cuando los valores vienen expresados en intervalos.


A partir del polgono acumulativo:

Interpolacin.
Suponer Me est en
I=(ei-1, ei).

Ej. Interpolacin. (2.5)


Intervalos

ni

Ni

0-10

60

60

10-20

80

140

20-30

30

170

30-100

20

190

100-200

10

200

200

El intervalo donde est la mediana es el (10, 20).


Interpolacin:

(En este caso coinciden el centro del intervalo, pero no tiene por qu ser as).
Tambin se puede interpolar con las frecuencias relativas o los porcentajes.
Mediante formulacin: Mejor que la interpolacin.
Con frecuencias absolutas.

Supongamos que el intervalo donde est la mediana es:


Ime = (ei-1, ei)

La mediana es el extremo inferior del intervalos mas n medios, menos la frecuencia


acumulada anterior, dividido por su frecuencia, por su amplitud.
Ej. formulacin. (con el ej. de atrs).

Donde est la mediana es:


Ime = (ei-1, ei) = (10, 20)

Si utilizamos las frecuencias relativas (porcentajes).

Ej. (con los %) (el mismo que antes).


.

fi %

Fi%

30

30

40

70

15

85

10

95

100

100

Tabla de la hoja suelta:


.

Ni

11

13

16

20

20

21

Moda. Mo.
La moda es el valor que ms veces se repite, el que presenta mayor frecuencia.
Se obtiene por observacin.
Puede haber varias modas.
Si los valores vienen dados en intervalos, el intervalo de la moda es el que presenta mayor
altura. Tomaremos como moda la marca de clase de dicho intervalo.
ALGUNAS CONSIDERACIONES.
Media Aritmtica poblacional: centro de masa de la distribucin poblacional de
frecuencias. Punto de equilibrio de la figura.
Mediana poblacional: Divide la grfica de la distribucin de frecuencias (polgono
acumulativo) en dos mitades, en dos zonas con la misma rea.
Moda poblacional: Valor de la variable al que le corresponde el mximo relativo de mayor
altura. Puede haber varias modas.
En distribuciones simtricas unimodales las tres medidas coinciden. En distribuciones
moderadamente asimtricas se suele hacer la media aritmtica y en distribuciones muy asimtricas
la media.
La moda es representativa solo cuando hay un valor que se repite mucho en el conjunto de
distribucin.(2/3/2010)

PROPIEDADES DE LA MEDIA ARITMTICA Y DE LA MEDIANA.


(9/3/2010)
HOJA A PARTE.

Cuartiles. Q1, Q2, Q3.


De la misma forma que la mediana divide la muestra en dos partes iguales, los cuartiles
dividen en cuatro partes, es decir, en cuatro intervalos dentro de cada uno de los cuales se encuentra
aproximadamente el 25% de los datos.
Q1 es aquel valor tal que el 25% de los datos son menores o iguales que l (el 75% restante
mayores).
Q2 es aquel valor tal que el 50% de los datos son menores o iguales que l (el 50% restante
mayores). Q2 = Me
Q3 es aquel valor tal que el 75% de los datos son menores que l (el 25% restante mayores).
En muestras pequeas no tienen inters y adems es difcil ajustarlos exactamente.
Se expresa en las mismas unidades que los datos.
Clculo cuando los datos estn expresados en un grfico tallo-hojas.

Q1 de menor a mayor, Q3 de mayor a menor.


Ej.)
3 669
4 2357
5 0233457889
6 116789
7 2256
8 147
9 11
n=32

Otro ejemplo:
3 9
4 2357
5 0233457889
6 116789
7 2256
8 147
9 1
n=29

Q1= 8 y Q3 = 72
Obtencin de los Cuantiles cuando los valores vienen agrupados en intervalos:
Se obtienen de forma anloga a la mediana.
Si utilizamos las frecuencias relativas expresadas en porcentajes:
loc Qr = 25%, 50% y 75%

r=1, 2, 3.
Ej.)
Int.

fi %

Fi %

ni

Ni

0-10

30

30

60

60

10-20

40

70

80

140

20-30

15

85

30

170

30-100

10

95

20

190

100-200

100

10

200

100

200

loc Q1 = 25% IQ1 = (0, 10)

loc Q2 = 50% IQ2 = IMe =(10, 20)

loc Q3 = 75%

Si utilizamos frecuencia absoluta:

IQ r = (ei-1, ei)

El intervalo donde est Q1 es: IQ1 = (0, 10).

Percentiles, Pr.
Los percentiles dividen la muestra en 100 partes iguales.
El percentil 70, P70, deja a su izquierda el 70% de la muestra y a su derecha el 30%.
P50 = Q2 = Me.
Tambin se pueden definir otras medidas como los deciles(/as) que dividen la muestra en
diez partes iguales: D1 = P10, D5 = P50 = Q2 = Me .
P90? (Tabla de antes)
IP90 = (30, 100)

Tema 4.
Medidas de Dispersin.
Miden la variabilidad de los datos y la representatividad de las medidas de posicin.
Cuanto menor sea la variabilidad de los datos ms representativos sern las medidas de
posicin utilizadas.
Recorrido Intercurtico.
Se define como la diferencia entre el tercer cuartil y el primero.
RIQ(X) = Q3(X) Q1(X)
Mide la dispersin de los valores del centro de la distribucin, en concreto del 50% de los
datos.
Se suele utilizar junto a la mediana, de tal forma que si RIQ(X) es pequeo los datos
centrales estn concentrados alrededor de la mediana. Si el RIQ(X) es un valor grande significa que
los datos del centro de la muestra estn dispersos.
Se expresa en las mismas unidades que los valores de la variable.
PROPIEDADES:
Los valores atpicos no le afectan.
Si se suma o resta una misma cantidad a los valores de una variable RIQ no vara.

Si se multiplican o dividen los valores de una variable por mismo numero distinto de 0
el RIQ que da multiplicado o dividido por dicho nmero:

(9/3/2010)

VARIANZA Y DESVIACIN TPICA(16/3/2010).


X: x1, x2, x3, ., xn.
Se define la varianza de X como el error cuadrtico medio respecto de la medida aritmtica.

Se define la desviacin tpica de X como la raz cuadrada positiva de la varianza.

De forma prctica:

Clculo de la varianza y de la desviacin tpica.


Obtener la varianza y la desviacin tpica de 5,6,7,8 y 9.
Disposicin prctica (opcional pero recomendable).
Xi
Xi 2
5

25

36

49

64

81

35

255

O bien:

Si los valores vienen en intervalos:

Intervalos.

Ci

ni

Cini

Ci2ni

0-10

60

300

1500

10-20

15

80

1200

18000

20-30

25

30

750

18750

30-100

65

20

1300

84500

100-200

150

10

1500

225000

200

5050

347750

(No usar la frmula de la desviacin tpica, hacer primero la varianza y luego nicamente
aplicarle la raz cuadrada para obtener la desviacin tpica).
Con frecuencias relativas:

PROPIEDADES:
Si a los valores de una variable se les suma o resta un mismo nmero, la variacin no
vara.

Si los valores de una variable se multiplican o dividen por un mismo nmero distinto de
0, la varianza queda multiplicada o dividida por el cuadrado de ese nmero.

(Tanto la varianza como la desviacin tpica son valores POSITIVOS)


TIPIFICACIN DE UNA VARIABLE.
Una variable estadstica se dice que est tipificada cuando su media aritmtica es 0 y su
desviacin tpica es 1.
Si X es una variable cualquiera con

y Sx, X se tipifica de la siguiente forma:

Es decir:

Una variable tipificada es adimensional.


La tipificacin permite comparar valores de distintas distribuciones y ver cul de ellas es
relativamente mayor.
Ej.)
Xi = 20 aos.
= 18,8
Sx = 2,2

Xi = 59 aos.
= 58,5
Sy = 3,3

COEFICIENTE DE VARIACIN DE PEARSON.


Supongamos dos muestras:

Qu media es ms representativa?
La primera obviamente

El coeficiente de variacin es la relacin por cociente entre Sx y


Cuanto mayor sea el CV(X), mayor es la dispersin relativa de la distribucin y menor la
representatividad de la
Es adimensional y muy til.
En el Ej.)

El CV(X) se utiliza para comparar la dispersin relativa de distintas distribuciones.


Tambin en el caso de que las distribuciones tengan distintas unidades.
PROPIEDADES:
Si

Si

(Para practicar 232 suspensos, 172 aprobados, 84 notables, 22 sobresalientes).


(16/3/2010)

GRFICO CAJA
(23/3/2010)
1. INTRODUCCIN
Es un representacin grfica que proporciona informacin mediante la impresin visual de
aspectos de la distribucin tales como medidas de posicin, dispersin, asimetra, longitud de las
colas y valores atpicos.
Se construye a partir del grfico tallo y hojas.
Se acompaa de medidas que perfeccionan y corroboran la representacin grfica.
2. OBTENCIN DE CUARTILES Y DEL RIQ.
n
loc Me
loc Qi

Me
Q1

Q3

3. GRFICO PREVIO (las tres zonas).

4. COMPONENTES DEL GRFICO.


factor escala: 1,5*RIQ
vallas: son los lmites de las tres zonas.
v1 = Q1 1,5*RIQ
-v. interiores
v2 = Q3 + 1,5*RIQ
-vallas
V1 = v1 1,5*RIQ
-v. exteriores
V2 = v2 + 1,5*RIQ

RIQ

Valores adyacentes: Son los valores de la zona interna ms cercanos a las vallas.
Son datos.
Menores Los datos de la zona media.
Valores atpicos
Mayores Los datos de la zona externa.
NOTA: Si algn dato coincide con alguna valla lo consideraremos del interior de la
zona que limita.
5. ESQUEMA

1,5*RIQ
x1

x2

Val. interior

v1

v2

x,x

dos

uno

v.exteriores

V1

V2

uno

Val.adyacentes
x

En primer lugar escribimos las vallas.


6. DIBUJO DEL GRFICO CAJA.

7. INTERPRETACIN.
caja central: En ella se encuentra el 50% de los datos, los del centro de la distribucin.
Grande o pequea, simetra o asimetra... Valores de Me y Qi.
Valores adyacentes: Entre ellos estn todos los datos menos los valores atpicos.
Asimetras...
valores atpicos: Muestran las colas (colas largas). Cuntos son, qu valores tomar.
Asimetras...

8. CLCULOS.
(en el grfico), Sx, CV(X), DPS(X).
La desviacin pseudotpica, DPS, proporciona un mtodo rpido para comparar la longitud
de las colas de una distribucin dada con la longitud de las colas de la distribucin normal.

El mtodo es el siguiente:
Se compara Sx con la DPS(X) y si:
- Sx > DPS(X) las colas de la poblacin de la que se ha tomado la muestra son ms largas que las
de la distribucin normal. Colas largas.
-Sx < DPS(X) Colas cortas.
Ej). Variable edad de la tabla 1, pag. 2 del t. 2.
1 8 8 8 8 8 8 8 8(8 9 9 9 9 9 9 9 9 9 9(10
2 00000000 11246789
3
4 6
5 5
n = 36

1er paso)
36
18,5
9,5

19,5
19

21

2 paso)
3
v

16

24

13

27

3Er paso)
3

18

24

16

24

dos

13

27

26, 27

cuatro 28, 29, 46, 55

Comentarios del grfico:


Caja pequea (50% de los datos, del centro de la distribucin), con asimetra a la
derecha. Rango muy pequeo entre el primer cuartil (19) y la mediana (19,5). Datos muy
concentrados
Observando los valores adyacentes: Asimetra a la derecha. Los valores propios estn
ms concentrados.
Cola de la izquierda muy corta.
Cola de la derecha muy larga. Asimetra ala derecha en toda la distribucin.
Hay seis valores atpicos: 26, 27, 28, 29, 46 y 55.
Otros resultados:

= 22,03 aos (se sale de la caja, valores atpicos). La mediana es ms


representativa.
Sx = 7,54 aos.

ESTUDIO EXPLORATIORIO DE LA COMPARACIN Y DE LA RELACIN.


(13/04/2010)
La comparacin hace referencia al estudio del comportamiento de una variable en dos o
ms muestras.
Se comparan las distribuciones de frecuencias de una variable en dos muestras.
Ej.)
USA
Consumo de gasolina de coches

U.E.
Nacionales

Cuando el comportamiento de la variable es anlogo en las distintas muestras, se dice que


existe homogeneidad.
La relacin hace referencia al estudio del comportamiento de dos variables de una misma
muestra.
Ej.)
Peso y estatura de los estudiantes de 1.
Renta y gasto en vacaciones de las familias alicantinas.
Ahora bien: En el ejemplo de la comparacin se puede establecer dos variables: Consumo
de gasolina y Nacionalidad Esto permite abordar la comparacin como un problema de
relacin.
Dos variables de medida
Relacin entre

una v. de medida y una c. categrica


dos variables categricas.

Estudio de la relacin entre dos variables de medida.


Es la regresin. La estudiaremos en el tema 7.
Estudio de la relacin entre una variable categrica y una variable de medida.
Se realiza mediante grficos caja en paralelo.
Se comparan los centros, la dispersin, los valores atpicos,
Se pueden unir los centros y ver si hay relacin entre las dos variables y si existe una lnea
de tendencia.
v. de medida = f (v. categrica)

Ej) las ventas de unos grandes almacenes en los distintos meses o estaciones del ao.

Estudio de la relacin entre dos variables categricas.


Examinaremos:
La distribucin conjunta.
Las distribuciones marginales.
Las distribuciones condicionales.
La independencia o no relacin entre las variables.
Realizaremos el estudio con el siguiente ejemplo:
Relacin entre dos variables categricas.
Muestra de 140 personas que han seguido un curso de formacin de personal de una
empresa.
Objetivo del estudio: Analizar la relacin entre el rendimiento obtenido al finalizar el
curso y la ocupacin laboral de las personas que lo han seguido.
Dos variables: X: ocupacin labora. | Y: rendimiento.
Valores observados:
X\Y

Bajo

Medio

Alto

Propia empresa

36

18

63

Otras profesiones

24

17

47

Universitarios

21

30

37
58
45
140
Tabla de doble entrada o tabla de contingencia.

Distribucin conjunta.
Est formada por los valores del interior de la tabla.
36: Entre las personas que han seguido el curso (la muestra) hay 36 que son de la propia
empresa y han obtenido un rendimiento medio.
21 son universitarios y han obtenido un rendimiento alto.
Distribuciones marginales.
Estn formadas por los totales de las filas y columnas
X (Ocupacin laboral)
Propia empresa

63

Otras profesiones

47

Universitarios

30
140

Distribucin marginal de la variable Y:

Y (Rendimiento)
Bajo

37

Medio

58

Alto

45
140

Estas dos tablas pueden tener un rendimiento normal de una variable categrica.
Las distribuciones conjuntas y marginales pueden expresarse mediante frecuencias relativas
o porcentajes:
X\Y

Bajo

Medio

Alto

Propia empresa

6,43

25,71

12,86

45,00

Otras profesiones

17,14

12,14

4,29

33,57

Universitarios

2,86

3,57

15,00

21,43

26,43

41,43

32,14

100

El 6,43% de las personas son de la propia empresa y han obtenido un rendimiento bajo.
El 21,43% de los que han seguido el curso son universitarios.
El 32,14% del total de la muestra han tenido un rendimiento alto.
Distribuciones condicionadas:
Distribucin de X condicionada por la variable Y:
Cmo se distribuye X para cada uno de los valores de Y?
X\Y

Bajo

Medio

Alto

Propia empresa

24,32

62,07

40,00

Otras profesiones

64,86

29,31

13,33

Universitarios

10,81

8,62

46,67

100

100

100

Cada columna es una distribucin:


Distribucin de X condicionada por Y = bajo.
- X / Y = bajo
Distribucin de X condicionada por Y = medio.
- X / Y = medio
Distribucin de X condicionada por Y = alto.
- X / Y = alto

Distribucin de Y condicionada por la variable X:


Cmo se distribuye Y para cada uno de los valores de X?
X\Y

Bajo

Medio

Alto

Propia empresa

14,29

57,14

28,57

100

Otras profesiones

51,06

36,17

12,77

100

Universitarios

13,33

16,67

70,00

100

Como antes:

Cada fila es su distribucin:


Distribucin de Y condicionada por:
X = prop. Empresa Y / X = prop. Empresa.
X = Otras prof. Y / X = Otras prof.
X = Universitarios Y / X = Universitarios.
Interpretacin:
De los universitarios, el 13,33% ha obtenido un rendimiento bajo, el 16,67% medio y el
70,00% alto.
Podemos estar interesados slo en una fila o slo en una columna, es decir:
Distribucin de X/Y=alto, o
Distribucin de Y/X=universitarios.
Todas las tablas admiten grficos, simples o agrupados(Excel.)
Por ejemplo, un diagrama de barras mltiples para esta ltima tabla es:
80
70
60
50
40
30
20
10
0

Bajo
Medio
Alto

Universitarios
Prop. Empresa

20/4/2010
Independencia entre las variables X e Y.
Muestra:: 500 personas que han solicitado un prstamo en una entidad bancaria.
X: Lugar de residencia: capital, provincia.
Y: Motivo del prstamo: automvil, vivienda, negocios, otros.
X/Y

Automvil

Vivienda

Negocios

Otros

Total

Capital

30

20

10

40

100

Provincia

120

80

40

160

400

Total

150

100

50

200

500

Distribucin conjunta y distribuciones marginales, en porcentajes (%).


X/Y

Automvil

Vivienda

Negocios

Otros

Total

Capital

20

Provincia

24

16

32

80

Total

30

20

10

40

100

Distribuciones de X condicionadas por la variable Y:


Cmo se distribuye X para los valores de Y?
Cmo vara la distribucin de X cuando Y es automvil?
X/Y

Automvil

Vivienda

Negocios

Otros

Total

Capital

20

20

20

20

20

Provincia

80

80

80

80

80

Total

100

100

100

100

100

X/Y = Autom.

X/Y=Viv.

Distribuciones de Y condicionadas por la variable X:

X/Y

Automvil

Vivienda

Negocios

Otros

Total

Capital

20

Provincia

24

16

32

80

Total

30

20

10

40

100

Y/X: Capital Y/X: Provincia.


Y cuando X es capital.

Cuando se verifica lo que se cumple en este ejemplo:


X / Y1 = X / Y2 = . se dice que X es independiente de Y (los valores de X no se modifican
al variar Y).
Si ocurre esto, tambin se da que:
Y / X1 = Y / X2 = . que significa que Y es independiente de X.
Se dice, entonces, que X e Y son idependientes.

Definicin: Dadas dos variables estadsticas, X e Y, se dice que X es independiente de Y si


las distribuciones de X condicionadas por la variable Y son las mismas para todo valor de Y.
Coinciden con la distribucin marginal de X.
Si X es independiente de Y, Y es independiente de X y se dice que X e Y son independientes.
Dos variables independientes no estn relacionadas!
En un estudio de comparacin se dice que existe homogeneidad.
Estudio de la independencia entre dos variables mediante una tabla de contingencia.
Hemos visto que si dos variables son independientes las distribuciones condicionadas
coinciden y son iguales a las respectivas distribuciones marginales.
Vamos a ver ahora el estudio de la independencia mediante un mtodo basado en la
comparacin de los valores observados y los valores esperados (Inferencia Estadstica).
1) Valores observados: Los de la tabla.
2) Valores esperados: Son los valores que deberan darse en el supuesto de que X e Y
fuesen independientes. Se obtienen as:

(los totales de las filas y columnas se mantienen).


3) Si las diferencias que se dan entre los valores observados y los esperados son
significativas, no hay independencia, las variables estn relacionadas.
En caso contrario, se dice que las variables son independientes.

4) Para ver si las diferencias son significativas, o no, se obtienen los valores z.

Por casillas, si |z| > 1,96 las diferencias entre las frecuencias observadas y esperadas son
significativas, por lo que previsiblemente no hay independencia y las variables estn relacionadas.
Ejemplo:

X\Y

Bajo

Medio

Alto

Propia empresa

9
16,7
-1,88

36
26,1
1,93

18
20,3
-0,51

63 V. obs.
V. esp.
z

Otras profesiones

24
12,4
3,29

17
19,5
-0,57

6
15,1
-2,34

47

Universitarios

4
7,9
-1,39

5
12,4
-2,10

21
9,6
3,68

30

37

58

45

140

Cada casilla representa:


Observado: 24
Esperado: 12,4

3,29 > 1,96 Diferencia significativa.

Se observan diferencias significativas entre los valores observados y los esperados No


existe independencia entre las variables X e Y Las variables estn relacionadas. El rendimiento
obtenido depende, en este caso, de la procedencia de las personas que realizan el curso. Los
universitarios han obtenido notas ms altas y los de otras profesiones notas ms bajas.(20/04/2010).

ESTUDIOS DE LA REVISIN
(27/4/2010)
Sean X e Y dos variables de medida.
Sean (x, y) los pares de valores observados en una muestra de tamao n.
(x1, y1) , (x2, y2) , . , (xn, yn)
Si representamos esta distribucin mediante una nube de puntos, un ajuste es la sustitucin
de la nube de puntos por la linea que mejor se adapte a dichos puntos. Esta linea permitir la
relacin entre ambas variables.
El problema es, pues, doble:
a) Elegir el tipo de curva que mejor se adapte a los datos observados.
b) Calcular los parmetros de la ecuacin que representa el tipo de curva elegido.
Regresin lineal. Mtodo de los mnimos cuadrados.
Sea una muestra de tamao n.
Sean (x1, y1) , (x2, y2) , . , (xn, yn) los pares de valores observados de las variables X e Y.
Supongamos que la recta y* = a + bx es la que consideramos que mejor se adapta a la nube
de puntos.
y* = a + bx es la recta de regresin.
El problema consiste en determinar los parmetros a y b y tener as la recta de regresin.
b es la pendiente
a es la ordenada en el origen.
Mtodo de ajuste.
Para cada valor de X: xi, tenemos dos valores de Y:
yi (valor observado, valor real) e
yi* (valor ajustado, valor terico).
De tal forma que:
ei = yi yi* : error o resduo.
Y esto para cada observacin.
El mtodo de ajuste que usaremos es el de los mnimos cuadrados, que consiste en
suponer que la recta que mejor se adapta a la nube de puntos es aquella para la que es mnima la
suma de los cuadrados de los errores o residuos.

Mtodo de los mnimos cuadrados.


Recta de regresin: y* = a + bx.

Es condicin necesaria para que esta funcin sea mnima que las derivadas respecto a cada
uno de los parmetros se anulen. Es decir:

Sistema de ecuaciones que utilizaremos para calcular los parmetros de la recta de regresin.
El sistema puede transformarse en:

Es decir, tenemos:

Ejemplo: Hoja a parte 2.


y* = a + bx

Resolviendo el sistema: a = 17,5 | b = 2,5


y* = 17,5 + 2,5x
Interpretacin (ms adelante).
Covarianza.
Se define la covarianza de las variables X e Y:

Para su clculo:

Es una medida de dispersin conjunta de (X, Y), o sea, de la nube de puntos.


Podemos observar que:
SXX = SX2
SYY = SY2

Vamos a resolver el sistema de ecuaciones mediante la regla de Cramer:


y* = a + bx

Interpolacin de los parmetros:


y* = a + bx
a es la ordenada en el origen. Nos dice el valor de y cuando x = 0.
b es la pendiente de la recta y mide lo que vara la variable Y cuando X vara en una unidad.
Como

, el signo de la covarianza determina el signo de b.

Si SXY > 0 b > 0


Si SXX < 0 b < 0
Si SXY = 0 b = 0. Y no depende linealmente de X, no hay relacin lineal.

En el ejemplo:
y* = 17,5 +2,5x
Cuando X vara 1 unidad, Y vara 2,5 unidades positivas: Fabricar una unidad ms tiene un
coste de 2500.
a = 17,5. Es el coste de fabricar 0 unidades (abrir fbrica, empezar a producir...).
NOTA:

es siempre un punto de la recta de regresin. En en ejemplo (11, 45).


(27/4/2010)

CORRELACIN(11/5/2010)
Una vez obtenida la recta de regresin, el paso siguiente es estudiar el grado de
representatividad o bondad del ajuste de la recta de regresin. Es decir, vamos a ver si la recta de
regresin que hemos obtenido se ajusta bien a la nube de puntos de nuestros datos.
Llamamos correlacin al grado de dependencia conjunta de las dos variables.
Recordaremos que el clculo de la recta de regresin y* = a + bx
yi
tenemos xi
, de tal forma que ei = yi yi*
yi*
y

Definicin: Se llama varianza residual a la varianza de la serie de errores o residuos, Se2.

Por otro lado:

Definicin: Se define el coeficiente de determinacin, R2, como:

R2 mide la proporcin de la variabilidad de Y explicada mediante la regresin de Y sobre X.


Es el coeficiente que utilizaremos para medir la bondad del ajuste.

La recta de regresin pasa exactamente por los datos, por los valores observados. El ajuste
es perfecto.
Habitualmente un buen ajuste se da cuando

Si R2 = 0,75 se dice que la variabilidad de Y explicada por la regresin es el 75%.


Permite hacer predicciones.
Ejemplo(hoja suelta 2)
yi2

yi*

ei

ei2

900

25

25

1225

35

1521

42,5

-3,5

12,25

1600

47,5

-7,5

56,25

2500

50

2601

55

-4

16

4900

60

10

100

209,5

15247

Bondad del ajuste.

La regresin explica el 80% de la variabilidad de Y. Es un buen ajuste de los datos.

Tambin podemos calcular el coeficiente as:

Qu valor se espera obtener para x = 30?


y*(30) = 17,5 + 2,5(30)= 92,5
Coeficiente de correlacin lineal.
Es vlido slo para el ajuste lineal. Se define:

Interpretacin:
r = 1, correlacin perfecta y positiva.
r = -1, correlacin perfecta y negativa.
r = 0 correlacin lineal nula.
(de vuelta al ejemplo).
Lo ms cmodo para ver qu proporcin de variabilidad es explicada por la regresin
de Y sobre X, la bondad del ajuste, es calcular r y elevarlo al cuadrado.
(Ejercicio empezando desde 0)
Ej. Calcular la recta de regresin y obtener la bondad del ajuste.
(tabla)

Bondad del ajuste:

FIN
=D

Alejandro Deltell Gonzlez


1 Ciencias Empresariales, UA.

You might also like