Professional Documents
Culture Documents
Tema 1 (9/2/10)
Una estadstica: Cualquier coleccin de datos ordenados y clasificados segn un
determinado criterio.
Estadstica: Es la ciencia que estudia el comportamiento de los fenmenos llamados
colectivos. Est caracterizada por:
Una informacin acerca de un colectivo o universo -objeto material-.
Un modo propio de razonamiento, el mtodo estadstico -objeto formal-.
Unas previsiones de cara al futuro lo que implica un ambiente de incertidumbre -objeto
final-.
La Estadstica es la ciencia de los datos. El objeto de la estadstica es el razonamiento a
partir de datos emricos. Los datos no son slo nmeros, sino nmeros en u contexto.
Estadstica Descriptiva. Tiene como fin presentar resmenes de un conjunto de datos y
poner de manifiesto sus caractersticas mediante representaciones grficas.
Los datos se usan para fines comparativos o explicativos y no se usan con principios de
probabilidad.
El inters se centra en describir el conju nto de datos que se tienen y no se plantea el
extender las conclusiones a otros datos diferentes o a una poblacin.
Poblacin: Conjunto de todos los elementos que cumplen una o varias propiedades
especficas.
Muestra: Un subconjunto de la poblacin.
Variables Estadsticas: Son las propiedades o caractersticas de los elementos de la
poblacin objeto de estudio.
Cuantitativas (medibles) Se describen con nmeros.
VARIABLES
Cualitativas (no medibles) Se describen con palabras.
Variables de medida Valores
Tema 2
Variables categricas
Sea una muestra de tamao n de una poblacin. Sea X una variable categrica (color ojos).
Sean x1,x2,x3,...,xk a las modalidades o categoras de X. Cada elemento pertenece a una categora.
DEFINICIN: Se llama Frecuencia Absoluta de la categora xi al n de veces que aparece xi en la
muestra. La representamos con ni.
0 ni n
Variable(color
ojos)
Cdigos
ni
fi
fi x 100 o %
.. x1
n1
f1
f1 x 100
...x2
n2
f2
f2 x 100
....
....
....
....
....
..xk
nk
fk
fk x 100
100
REPRESENTACIONES GRFICAS
Diagrama de barras(ejes coordenadas).
fi
ni
%
x1
x2
x3
ni
DEFINICIN: Como antes xi
fi
DEFINICIN: Se llama Frecuencia Absoluta Acumulada al n de veces que aparecen en la muestra
xi y todos los valores menores que l. La representaremos con Ni.
Evidentemente:
N1 = n1, N2 = n1 + n2, , Nk = n
Ni = Ni-1 + ni
DEFINICIN: Se llama Frecuencia Relativa Acumulada de xi a su frecuencia absoluta dividida por
n. La representamos con Fi.
INTERVALOS DE CLASE
Los valores de una variable se pueden agrupar en intervalos denominados intervalos de
clase.
Para ello se divide el intervalo que contiene todos los valores en sibintervalos: I1, I2, , Ih de
tal forma que x1 I1, y xk Ih.
DEFINICIN: Se llaman marcas de clase a los puntos medios de cada intervalo.
TABLA DE FRECUENCIA:
Intervalos*
Marcas de
Clase
ni
fi
Ni
Fi (%)
I1(eo, e1)
c1
n1
f1
N1
F1
I2(e1, e2)
c2
n2
f2
N2
F2
Ih(eh-1, eh)
ch
nh
fh
Nh
Fh
1(100)
=n
=1(100)
x1
x2
x3
Fila 2
Fila 3
Fila 4
Polgono de frecuencias.
Se forma uniendo los puntos medios de la base superior de cada rectngulo del
histograma.
10
9
8
7
6
5
4
3
2
1
0
Fila 1
Fila 2
Fila 3
Fila 4
Se suele prolongar hasta el eje de abscisas para que el rea bajo el polgono sea la del
histograma.
Se representa sin el histograma.
10
9
8
7
6
5
4
3
2
1
0
Polgono acumulativo.
Se obtiene uniendo los puntos que representan los extremos superiores de cada intervalo
y su frecuencia acumulada.
6
5
4
3
2
1
0
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5
Grfico
8 2
9
10 5 7
11 4 5 0 0 0 0
12 2 5 5 0 5 5 5 0 5 0 0
13 3 3 3 0
14 5 0 0
15 5
16 0 3
17 5 0 5 5
18 0 0
19
20 5
80-89
9 0a9
90-99
10 0 a 9
100-109
... 0 a 9
110-119
20 0 a 9
120-129
Para que exista continuidad en los grficos se utilizan las fronteras de clase que se obtienen
ampliando convenientemente los lmites de clase a la izquierda y a la derecha.
80-89
79,5-89,5
90-99
89,95-99,5
100-109
99,5-109,5
.
200-209
.
199,5-209,5
IMPORTANTE: Las fronteras de clase son las que se usan como intervalos para representar
el histograma y el polgono acumulativo. (Tabla pag.9 del Tema 2).
80-84
5a9
85-89
9* 0 a 4
90-94
5a9
95-99
. .
80-81
t 2y3
82-83
f 9y5
84-85
s 6y7
86-87
8y9
88-89
9*
t
f
s
t two, three
f four, five
s six, seven.
(Se puede cambiar por a, b, c. etc).
CURVAS POBLACIONALES DE FRECUENCIAS Y SUS FORMAS
Se utilizan para representar las distribuciones de toda la poblacin de las variables de media.
Son versiones suaves de los polgonos de frecuencias.
Nos permiten observar las formas de las distribuciones. Para ello se compara la distribucin
poblacional de frecuencias de la variable en estudio con la distribucin normal.
Simetra-asimetra
Derecha
Cortas
- Colas
Izquierda
- Apuntamiento
Largas
Leptocrticas.
Mesocrticas.
Platicrticas.
Tema 3
(23/02/2010)
fijos
Poblacin caracterizada por parmetros
desconocidos
Distribuciones
De
Frecuencias
Muestra
Medidas
resumen
central
- Posicin
(Tema 3)
no central
- Dispersin
Formas
(Tema 4)
Asimetra
Apuntamiento
Longitud de las colas.
(Tema 5)
Las medidas de posicin central son valores alrededor de los cuales estn distribuidos los
datos. Son valores representativos de la muestra (poblacin).
- Media
Medias de
posicin
central.
- Mediana
- Moda.
Aritmtica
Armnica
Geomtrica
Cuadrtica
Media Aritmtica.
Sea una muestra de tamao n de una poblacin.
Sea X una variable de medida.
Sean x1, x2, x3, , xn los valores de los variable de la muestra.
Se define la media aritmtica como el nmero que se obtiene al dividir la suma de todos los
valores por el tamao de la muestra.
Disposicin Prctica:
Intervalos
ci
ni
cini
fi (%)
cini(%)
I1
c1
n1
c1n1
f1
c1f1
I2
c2
n2
c2n2
f2
c2f2
Ik
ck
nk
cknk
fk
ckfk
1(100)
Tambin:
O bien:
Tambin:
La medida aritmtica obtenida con los intervalos es un valor aproximado (valor real
61,381).
El clculo es anlogo si los intervalos son de distinta amplitud.
Ejemplo:
Supongamos los siguientes datos que tienen que ver con el precio de las viviendas de una
urbanizacin de una determinada ciudad:
Hay 20 viviendas con un precio de 150000 cada una, 10 viviendas de 180000 cada una y
2 por 750000 cada una.
Consideremos la variable X: precio de las viviendas, en miles de .
Precio medio (media aritmtica) de las viviendas.
xi
ni
xini
150
20
3000
180
10
1800
750
1500
32
6300
ni
xini
150
18
2700
180
10
1800
28
4500
ni
xini
150
20
3000
180
10
1800
30
4800
Conclusin:
El precio medio de las viviendas es de 160.000 .
Y hay dos viviendas con un precio, cada una, de 750.000 .
SE UTILIZA TODA LA INFORMACIN
OTRAS MEDIAS
Media Armnica. H
Es el recproco de la media aritmtica de los recprocos de los valores de la variable.
Media Geomtrica. G
Es la raz del ndice el tamao de la muestra y radicando el producto de los valores
de la variable.
Media Cuadrtica. C
Es la raz cuadrada de la media aritmtica de los cuadrados de los valores de la
variable.
Obtener las cuatro medidas de 1,2,3,4 y 5. Sol: 2,19<2,61<3,00<3,32 y calcular las medias del
ej.2.5. (23/02/2010)
MEDIANA MUESTRAL. Me.
(2/3/2010)
La mediana es el valor que ocupa el lugar central de la muestra estando los valores
ordenados.
Divide la muestra en dos mitades con el mismo nmero de valores.
Se expresa en las mismas unidades que los datos.
Clculo:
Si n es impar, la mediana es el valor central.
x1, x2, x3, x4, x5, x6 Me = x3.
6 10 11 15 20 Me = 11.
Si n es par, se toma como mediana la media aritmtica de los dos valores centrales.
4 89
5 1234567889
6 34689
7 0012
8 1
Interpolacin.
Suponer Me est en
I=(ei-1, ei).
ni
Ni
0-10
60
60
10-20
80
140
20-30
30
170
30-100
20
190
100-200
10
200
200
(En este caso coinciden el centro del intervalo, pero no tiene por qu ser as).
Tambin se puede interpolar con las frecuencias relativas o los porcentajes.
Mediante formulacin: Mejor que la interpolacin.
Con frecuencias absolutas.
fi %
Fi%
30
30
40
70
15
85
10
95
100
100
Ni
11
13
16
20
20
21
Moda. Mo.
La moda es el valor que ms veces se repite, el que presenta mayor frecuencia.
Se obtiene por observacin.
Puede haber varias modas.
Si los valores vienen dados en intervalos, el intervalo de la moda es el que presenta mayor
altura. Tomaremos como moda la marca de clase de dicho intervalo.
ALGUNAS CONSIDERACIONES.
Media Aritmtica poblacional: centro de masa de la distribucin poblacional de
frecuencias. Punto de equilibrio de la figura.
Mediana poblacional: Divide la grfica de la distribucin de frecuencias (polgono
acumulativo) en dos mitades, en dos zonas con la misma rea.
Moda poblacional: Valor de la variable al que le corresponde el mximo relativo de mayor
altura. Puede haber varias modas.
En distribuciones simtricas unimodales las tres medidas coinciden. En distribuciones
moderadamente asimtricas se suele hacer la media aritmtica y en distribuciones muy asimtricas
la media.
La moda es representativa solo cuando hay un valor que se repite mucho en el conjunto de
distribucin.(2/3/2010)
Otro ejemplo:
3 9
4 2357
5 0233457889
6 116789
7 2256
8 147
9 1
n=29
Q1= 8 y Q3 = 72
Obtencin de los Cuantiles cuando los valores vienen agrupados en intervalos:
Se obtienen de forma anloga a la mediana.
Si utilizamos las frecuencias relativas expresadas en porcentajes:
loc Qr = 25%, 50% y 75%
r=1, 2, 3.
Ej.)
Int.
fi %
Fi %
ni
Ni
0-10
30
30
60
60
10-20
40
70
80
140
20-30
15
85
30
170
30-100
10
95
20
190
100-200
100
10
200
100
200
loc Q3 = 75%
IQ r = (ei-1, ei)
Percentiles, Pr.
Los percentiles dividen la muestra en 100 partes iguales.
El percentil 70, P70, deja a su izquierda el 70% de la muestra y a su derecha el 30%.
P50 = Q2 = Me.
Tambin se pueden definir otras medidas como los deciles(/as) que dividen la muestra en
diez partes iguales: D1 = P10, D5 = P50 = Q2 = Me .
P90? (Tabla de antes)
IP90 = (30, 100)
Tema 4.
Medidas de Dispersin.
Miden la variabilidad de los datos y la representatividad de las medidas de posicin.
Cuanto menor sea la variabilidad de los datos ms representativos sern las medidas de
posicin utilizadas.
Recorrido Intercurtico.
Se define como la diferencia entre el tercer cuartil y el primero.
RIQ(X) = Q3(X) Q1(X)
Mide la dispersin de los valores del centro de la distribucin, en concreto del 50% de los
datos.
Se suele utilizar junto a la mediana, de tal forma que si RIQ(X) es pequeo los datos
centrales estn concentrados alrededor de la mediana. Si el RIQ(X) es un valor grande significa que
los datos del centro de la muestra estn dispersos.
Se expresa en las mismas unidades que los valores de la variable.
PROPIEDADES:
Los valores atpicos no le afectan.
Si se suma o resta una misma cantidad a los valores de una variable RIQ no vara.
Si se multiplican o dividen los valores de una variable por mismo numero distinto de 0
el RIQ que da multiplicado o dividido por dicho nmero:
(9/3/2010)
De forma prctica:
25
36
49
64
81
35
255
O bien:
Intervalos.
Ci
ni
Cini
Ci2ni
0-10
60
300
1500
10-20
15
80
1200
18000
20-30
25
30
750
18750
30-100
65
20
1300
84500
100-200
150
10
1500
225000
200
5050
347750
(No usar la frmula de la desviacin tpica, hacer primero la varianza y luego nicamente
aplicarle la raz cuadrada para obtener la desviacin tpica).
Con frecuencias relativas:
PROPIEDADES:
Si a los valores de una variable se les suma o resta un mismo nmero, la variacin no
vara.
Si los valores de una variable se multiplican o dividen por un mismo nmero distinto de
0, la varianza queda multiplicada o dividida por el cuadrado de ese nmero.
Es decir:
Xi = 59 aos.
= 58,5
Sy = 3,3
Qu media es ms representativa?
La primera obviamente
Si
GRFICO CAJA
(23/3/2010)
1. INTRODUCCIN
Es un representacin grfica que proporciona informacin mediante la impresin visual de
aspectos de la distribucin tales como medidas de posicin, dispersin, asimetra, longitud de las
colas y valores atpicos.
Se construye a partir del grfico tallo y hojas.
Se acompaa de medidas que perfeccionan y corroboran la representacin grfica.
2. OBTENCIN DE CUARTILES Y DEL RIQ.
n
loc Me
loc Qi
Me
Q1
Q3
RIQ
Valores adyacentes: Son los valores de la zona interna ms cercanos a las vallas.
Son datos.
Menores Los datos de la zona media.
Valores atpicos
Mayores Los datos de la zona externa.
NOTA: Si algn dato coincide con alguna valla lo consideraremos del interior de la
zona que limita.
5. ESQUEMA
1,5*RIQ
x1
x2
Val. interior
v1
v2
x,x
dos
uno
v.exteriores
V1
V2
uno
Val.adyacentes
x
7. INTERPRETACIN.
caja central: En ella se encuentra el 50% de los datos, los del centro de la distribucin.
Grande o pequea, simetra o asimetra... Valores de Me y Qi.
Valores adyacentes: Entre ellos estn todos los datos menos los valores atpicos.
Asimetras...
valores atpicos: Muestran las colas (colas largas). Cuntos son, qu valores tomar.
Asimetras...
8. CLCULOS.
(en el grfico), Sx, CV(X), DPS(X).
La desviacin pseudotpica, DPS, proporciona un mtodo rpido para comparar la longitud
de las colas de una distribucin dada con la longitud de las colas de la distribucin normal.
El mtodo es el siguiente:
Se compara Sx con la DPS(X) y si:
- Sx > DPS(X) las colas de la poblacin de la que se ha tomado la muestra son ms largas que las
de la distribucin normal. Colas largas.
-Sx < DPS(X) Colas cortas.
Ej). Variable edad de la tabla 1, pag. 2 del t. 2.
1 8 8 8 8 8 8 8 8(8 9 9 9 9 9 9 9 9 9 9(10
2 00000000 11246789
3
4 6
5 5
n = 36
1er paso)
36
18,5
9,5
19,5
19
21
2 paso)
3
v
16
24
13
27
3Er paso)
3
18
24
16
24
dos
13
27
26, 27
U.E.
Nacionales
Ej) las ventas de unos grandes almacenes en los distintos meses o estaciones del ao.
Bajo
Medio
Alto
Propia empresa
36
18
63
Otras profesiones
24
17
47
Universitarios
21
30
37
58
45
140
Tabla de doble entrada o tabla de contingencia.
Distribucin conjunta.
Est formada por los valores del interior de la tabla.
36: Entre las personas que han seguido el curso (la muestra) hay 36 que son de la propia
empresa y han obtenido un rendimiento medio.
21 son universitarios y han obtenido un rendimiento alto.
Distribuciones marginales.
Estn formadas por los totales de las filas y columnas
X (Ocupacin laboral)
Propia empresa
63
Otras profesiones
47
Universitarios
30
140
Y (Rendimiento)
Bajo
37
Medio
58
Alto
45
140
Estas dos tablas pueden tener un rendimiento normal de una variable categrica.
Las distribuciones conjuntas y marginales pueden expresarse mediante frecuencias relativas
o porcentajes:
X\Y
Bajo
Medio
Alto
Propia empresa
6,43
25,71
12,86
45,00
Otras profesiones
17,14
12,14
4,29
33,57
Universitarios
2,86
3,57
15,00
21,43
26,43
41,43
32,14
100
El 6,43% de las personas son de la propia empresa y han obtenido un rendimiento bajo.
El 21,43% de los que han seguido el curso son universitarios.
El 32,14% del total de la muestra han tenido un rendimiento alto.
Distribuciones condicionadas:
Distribucin de X condicionada por la variable Y:
Cmo se distribuye X para cada uno de los valores de Y?
X\Y
Bajo
Medio
Alto
Propia empresa
24,32
62,07
40,00
Otras profesiones
64,86
29,31
13,33
Universitarios
10,81
8,62
46,67
100
100
100
Bajo
Medio
Alto
Propia empresa
14,29
57,14
28,57
100
Otras profesiones
51,06
36,17
12,77
100
Universitarios
13,33
16,67
70,00
100
Como antes:
Bajo
Medio
Alto
Universitarios
Prop. Empresa
20/4/2010
Independencia entre las variables X e Y.
Muestra:: 500 personas que han solicitado un prstamo en una entidad bancaria.
X: Lugar de residencia: capital, provincia.
Y: Motivo del prstamo: automvil, vivienda, negocios, otros.
X/Y
Automvil
Vivienda
Negocios
Otros
Total
Capital
30
20
10
40
100
Provincia
120
80
40
160
400
Total
150
100
50
200
500
Automvil
Vivienda
Negocios
Otros
Total
Capital
20
Provincia
24
16
32
80
Total
30
20
10
40
100
Automvil
Vivienda
Negocios
Otros
Total
Capital
20
20
20
20
20
Provincia
80
80
80
80
80
Total
100
100
100
100
100
X/Y = Autom.
X/Y=Viv.
X/Y
Automvil
Vivienda
Negocios
Otros
Total
Capital
20
Provincia
24
16
32
80
Total
30
20
10
40
100
4) Para ver si las diferencias son significativas, o no, se obtienen los valores z.
Por casillas, si |z| > 1,96 las diferencias entre las frecuencias observadas y esperadas son
significativas, por lo que previsiblemente no hay independencia y las variables estn relacionadas.
Ejemplo:
X\Y
Bajo
Medio
Alto
Propia empresa
9
16,7
-1,88
36
26,1
1,93
18
20,3
-0,51
63 V. obs.
V. esp.
z
Otras profesiones
24
12,4
3,29
17
19,5
-0,57
6
15,1
-2,34
47
Universitarios
4
7,9
-1,39
5
12,4
-2,10
21
9,6
3,68
30
37
58
45
140
ESTUDIOS DE LA REVISIN
(27/4/2010)
Sean X e Y dos variables de medida.
Sean (x, y) los pares de valores observados en una muestra de tamao n.
(x1, y1) , (x2, y2) , . , (xn, yn)
Si representamos esta distribucin mediante una nube de puntos, un ajuste es la sustitucin
de la nube de puntos por la linea que mejor se adapte a dichos puntos. Esta linea permitir la
relacin entre ambas variables.
El problema es, pues, doble:
a) Elegir el tipo de curva que mejor se adapte a los datos observados.
b) Calcular los parmetros de la ecuacin que representa el tipo de curva elegido.
Regresin lineal. Mtodo de los mnimos cuadrados.
Sea una muestra de tamao n.
Sean (x1, y1) , (x2, y2) , . , (xn, yn) los pares de valores observados de las variables X e Y.
Supongamos que la recta y* = a + bx es la que consideramos que mejor se adapta a la nube
de puntos.
y* = a + bx es la recta de regresin.
El problema consiste en determinar los parmetros a y b y tener as la recta de regresin.
b es la pendiente
a es la ordenada en el origen.
Mtodo de ajuste.
Para cada valor de X: xi, tenemos dos valores de Y:
yi (valor observado, valor real) e
yi* (valor ajustado, valor terico).
De tal forma que:
ei = yi yi* : error o resduo.
Y esto para cada observacin.
El mtodo de ajuste que usaremos es el de los mnimos cuadrados, que consiste en
suponer que la recta que mejor se adapta a la nube de puntos es aquella para la que es mnima la
suma de los cuadrados de los errores o residuos.
Es condicin necesaria para que esta funcin sea mnima que las derivadas respecto a cada
uno de los parmetros se anulen. Es decir:
Sistema de ecuaciones que utilizaremos para calcular los parmetros de la recta de regresin.
El sistema puede transformarse en:
Es decir, tenemos:
Para su clculo:
En el ejemplo:
y* = 17,5 +2,5x
Cuando X vara 1 unidad, Y vara 2,5 unidades positivas: Fabricar una unidad ms tiene un
coste de 2500.
a = 17,5. Es el coste de fabricar 0 unidades (abrir fbrica, empezar a producir...).
NOTA:
CORRELACIN(11/5/2010)
Una vez obtenida la recta de regresin, el paso siguiente es estudiar el grado de
representatividad o bondad del ajuste de la recta de regresin. Es decir, vamos a ver si la recta de
regresin que hemos obtenido se ajusta bien a la nube de puntos de nuestros datos.
Llamamos correlacin al grado de dependencia conjunta de las dos variables.
Recordaremos que el clculo de la recta de regresin y* = a + bx
yi
tenemos xi
, de tal forma que ei = yi yi*
yi*
y
La recta de regresin pasa exactamente por los datos, por los valores observados. El ajuste
es perfecto.
Habitualmente un buen ajuste se da cuando
yi*
ei
ei2
900
25
25
1225
35
1521
42,5
-3,5
12,25
1600
47,5
-7,5
56,25
2500
50
2601
55
-4
16
4900
60
10
100
209,5
15247
Interpretacin:
r = 1, correlacin perfecta y positiva.
r = -1, correlacin perfecta y negativa.
r = 0 correlacin lineal nula.
(de vuelta al ejemplo).
Lo ms cmodo para ver qu proporcin de variabilidad es explicada por la regresin
de Y sobre X, la bondad del ajuste, es calcular r y elevarlo al cuadrado.
(Ejercicio empezando desde 0)
Ej. Calcular la recta de regresin y obtener la bondad del ajuste.
(tabla)
FIN
=D