You are on page 1of 135

Conceptos bsicos de

Estadstica

Unidades de Aprendizaje
Unidad I

: Estadstica descriptiva

Unidad II : Estadstica bivariada y regresin


Unidad III: Probabilidades y variables aleatorias

Aprendizajes Esperados

Identifica poblacin o muestra de un


estudio.
Identifica y clasifica una variable de
estudio.

Qu es Estadstica?
Conjunto de tcnicas y herramientas matemticas que permiten recolectar, organizar, resumir,
analizar, describir e interpretar informacin cualitativa o cuantitativa de un grupo de observaciones para apoyar procesos de toma de decisiones.

Tipos de Estadstica
Estadstica Descriptiva:
Este tipo de estadstica se ocupa de la
recopilacin y visualizacin de los datos
recolectados, para su posterior anlisis.

Tipos de Estadstica
Estadstica Inferencial
Es una parte de la Estadstica que comprende
los mtodos y procedimientos para deducir
propiedades (hacer inferencias) de una poblacin, a partir de una pequea parte de la misma (muestra).

Poblacin
La constituye un conjunto de elementos,
personas o medidas, que tienen entre s
alguna caracterstica comn, que permita
obtener un objeto u objetivo de estudio.
1. Los estudiantes de una determinada
carrera del DuocUC
2. Los habitantes de un pas
3. Conjunto de piezas defectuosas y no
defectuosas que produce una fbrica
en un da determinado.

Muestra
La constituye un subconjunto de la poblacin. Por ejemplo:
1. 30 de los estudiantes de una determinada carrera del DuocUc.
2. 2500 habitantes de un pas.
3. 1200 piezas seleccionadas para un control de calidad en un da determinado.

Estadstico o Estadgrafo
Es la medida de una caracterstica relativa a
una
muestra
que
permite
obtener
conclusiones respecto del comportamiento de
ciertos parmetros.

Moda
Media
Mediana
Varianza
Desviacin estndar

Variable
Caracterstica o propiedad que toma cualquier
valor (cualitativo o cuantitativo)

La altura de un conjunto de personas.


El sueldo semanal de los trabajadores
de cierta empresa.
El sexo de hijos de un grupo de
personas.

Tipos de Variable
Variables Cuantitativas:
Son las variables que se expresan mediante
cantidades numricas. Estas pueden ser:
1. Discretas: Es la variable que presenta
separaciones o interrupciones en la escala de
valores que puede tomar. Por ejemplo:

Nmero de hijos en una familia.


Cantidad de automviles usados vendidos
en un fin de semana.

Tipos de Variable
2. Continuas: Es la variable que puede adquirir
cualquier valor dentro de un intervalo
especificado de valores.

Estatura de los estudiantes de un tercer ao


medio en centmetros.
Peso de una caja de naranjas en kilos.
Tiempo de espera en una caja de
supermercado.

Tipos de Variable
Variables Cualitativas:
Sus valoren corresponden a conceptos, atributos, o cualidades. Ests se pueden clasificar en:
1. Nominales. Permiten clasificar o distinguir entre categoras. Nombran, pero no miden la variable. Por ejemplo:

Nacionalidad.
Estado civil.

Tipos de Variable
2. Ordinales. Permiten establecer relaciones de orden entre los datos de la variable:
mayor, menor o igual.

Nivel socioeconmico (alto, medio, bajo).

Rendimiento
acadmico
regular, deficiente).

Etc.

(excelente,

En resumen

En resumen

Variables

Cuantitativas

Discretas

Continuas

Cualitativas

Nominales

Ordinales

Ejercicio:
En los siguientes casos identifique la Poblacin, la Variable en
cuestin y determine su clasificacin:
a) En la empresa Alfa se desea estudiar el nmero de horas
no trabajados por sus empleados.
b) En una fbrica se desea medir el tiempo que cada
trabajador demora en armar cierto producto.
c) En una empresa de seguros se desea estudiar el monto
de las primas contratadas por los clientes.
d) En la Municipalidad de Santiago se estudia las marcas de
automviles
que
tienen
su
patente
en
dicha
Municipalidad.
e) En un instituto Profesional se estudia las carreras que los
alumnos siguen.
f) En una cooperativa se desea estudiar el nivel de
educacin que tienen sus socios.

Tablas de distribucin
de Frecuencia

Aprendizajes Esperados

Construye una tabla de distribucin


de frecuencias.
Interpreta elementos de una tabla de
frecuencia.

UNIDAD DE APRENDIZAJE N1:

ESTADISTICA
DESCRIPTIVA
Carga mxima (ton)

Mc

h (%)

H (%)

9,2 - 9,8

9,5

9,8 - 10,4

10,1

12

20

12

20

10,4 - 11,0

10,7

18

38

18

38

11,0 - 11,6

11,3

20

58

20

58

11,6 - 12,2

11,9

30

88

30

88

12,2 - 13,0

12,6

12

100

12

100

Totales

100

100

TABLA DE FRECUENCIA
Cmo presentara usted los siguientes datos,
correspondendientes a los montos de ventas
(en miles de pesos) de una tienda en sus
primeras 200 transacciones existosas con
tarjetas de pago electrnica (dbito o crdito)
usando la clave denominada PinPass?

TABLA DE FRECUENCIA
33,67
55,50
134,00
55,50
188,00
92,00
40,33
60,50
97,00
89,00
37,33
103,00
38,00
116,00
70,50
64,00
69,00
84,00
97,50

54,00
155,00
61,00
64,50
60,00
170,00
187,00
116,00
55,67
42,00
199,00
59,00
76,50
146,00
34,33
79,00
63,50
42,67
165,00

53,00
47,00
53,67
93,00
58,67
135,00
42,00
53,33
80,00
174,00
33,67
64,33
142,00
61,00
65,00
61,67
111,00
188,00
99,50

134,00
71,50
135,00
146,00
155,00
192,00
91,50
66,67
56,67
52,67
112,00
142,00
61,33
129,00
163,00
125,00
51,00
35,33
55,00

178,00
72,00
54,00
64,33
68,00
61,00
53,50
135,00
105,00
123,00
171,00
128,00
76,00
56,50
90,50
34,67
35,33
57,00
143,00

39,33
60,67
83,00
163,00
89,50
82,00
57,67
45,33
161,00
45,00
120,00
73,00
91,00
117,00
66,67
122,00
61,00
64,67
82,00

61,33
119,00
86,50
131,00
39,00
66,00
33,33
142,00
189,00
58,00
98,50
55,50
193,00
51,00
169,00
167,00
67,50
169,00
177,00

186,00
152,00
156,00
41,33
66,67
61,33
173,00
178,00
53,67
84,50
54,67
61,00
91,50
61,00
41,67
103,00
65,50
67,50
66,50

35,00
110,00
59,50
35,67
199,00
55,50
188,00
90,00
75,00
44,33
59,33
35,00
92,00
71,50
40,67
84,50
40,00
34,67
34,33

62,00
58,00
164,00
66,67
44,00
176,00
58,00
151,00
65,50
51,33
65,00
144,00
118,00
160,00
133,00
53,33
66,67
63,00
88,50

64,00

186,00

149,00

205,80

125,00

90,50

145,00

50,00

64,67

34,33

TABLA DE FRECUENCIA

TABLA DE FRECUENCIA

Para calcular el nmero de intervalos se utiliza la


frmula:
N de intervalos=1+3,3log(n)
Donde n es el total de datos.

TABLA DE FRECUENCIA
Frecuencia absoluta:
Este tipo de frecuencia la denotaremos por fi y
representa el nmero de elementos que
pertenecen a la clase (Intervalo) i-sima .
Frecuencia absoluta acumulada:
Se denota por Fi y corresponde a la suma de la
frecuencia absoluta de la i-sima
(Intervalo) y todas las anteriores.

clase

TABLA DE FRECUENCIA
Frecuencia relativa:
Se denota por hi y corresponde al cociente entre
la frecuencia absoluta de la i-sima clase (Intervalo) y n. Tambin es posible expresarla en forma porcentual multiplicando este cociente por
100.
Frecuencia relativa acumulada:
Se denota por Hi y corresponde a la suma de la
frecuencia relativa de la i-sima clase (Intervalo) y todas las anteriores.

TABLA DE FRECUENCIA
Ejercicio:

Grficos
Y
Tablas de Frecuencia

Aprendizajes Esperados

Interpreta grficos de distribuciones de


datos.

UNIDAD DE APRENDIZAJE N1:

ESTADISTICA
DESCRIPTIVA
Carga mxima (ton)

Mc

h (%)

H (%)

9,2 - 9,8

9,5

9,8 - 10,4

10,1

12

20

12

20

10,4 - 11,0

10,7

18

38

18

38

11,0 - 11,6

11,3

20

58

20

58

11,6 - 12,2

11,9

30

88

30

88

12,2 - 13,0

12,6

12

100

12

100

Totales

100

100

TABLA DE FRECUENCIA

TABLA DE FRECUENCIA
fi : Frecuencia absoluta
Fi : Frecuencia absoluta acumulada
hi : Frecuencia relativa
Hi: Frecuencia relativa acumulada
Mci : Marca de clase

Grfico circular o de torta


Tiempo de espera (min)
6-8
8 - 10
10 - 12
12 - 14
14 - 16

obs.
10
16
8
12
4

Tiempo de espera en minutos en ser atendido


en una casa comercial

14 - 16; 8%

6 - 8; 20%

12 - 14; 24%

Sirve para representar


frecuencia relativa (h).
Se aplica para cualquier
tipo de variable.

10 - 12; 16%

8 - 10; 32%

6-8
8 - 10
10 - 12
12 - 14
14 - 16

Histograma
Tiempo de espera (min)
6-8
8 - 10
10 - 12
12 - 14
14 - 16

obs.
10
16
8
12
416

Tiempo de espera en minutos en ser atendido


en una casa comercial

14
12

- Sirve para representar


frecuencias en
variables continuas.
- Se aplica a frecuencias
absolutas y relativas.

10
8

16

10

4
8

12

0
4

6-8
8 - 10
10 - 12
12 - 14

14 - 16

Ojiva ascendente

25
36
63
47
12

25
61
124
171
183

- Sirve para representar


slo frecuencias
acumuladas.

Sueldos empleados empresa Alfa (MM$)


200
180
160

Frecuencia

Sueldos mensuales
(miles de $)
100 200
200 300
300 - 400
400 - 500
500 - 600

140
120
100
80
60
40
20

- Se aplica a variables
ordinales y cuantitativas.

0
100-200

200-300

300-400

Sueldos (MM$)

400-500

500-600

Polgono de Frecuencias

25
36
63
47
12

- Sirve para representar el comportamiento de las frecuencias absolutas.

25
61
124
171
183

Sueldos empleados empresa Alfa (MM$)


70
60

Frecuencia

Sueldos mensuales
(miles de $)
100 200
200 300
300 - 400
400 - 500
500 - 600

- Se aplica a variables continuas.

50
40
30
20
10
0
0-100

100-200 200-300 300-400 400-500 500-600 600-700

Sueldos (MM$)

jercicio de Grficos y Tablas


Ej. El histograma siguiente resume grficamente informacin de
un estudio realizado por la empresa de alimentos Adolfn,
concerniente al consumo mensual de bebidas isotnicas en
litros, de mujeres sobre los 25 aos que practican algn tipo de
actividad fsica regular:

Se pide:
a) Identifique la poblacin en estudio, la variable y de qu tipo
es.

b) Construya una tabla de frecuencias.

c) Interprete f2, h4, F3 y H5.

Ejercicio de Grficos y Tablas


Ej. El siguiente Histograma presenta el nmero de pasajeros de
50 vuelos de una empresa area.
Pasajeros por vuelo
20
18
16
14
12
10
8
6
4
2
0

18

12
8

7
3

50-60

60-70

70-80

80-90

90-100 100-110

Se pide:
a) Identifique la poblacin en estudio, la variable y de qu tipo
es.

b) Construya una tabla de frecuencias.

c) Interprete f3, h5, F2 y H4 .

Grficos y Tablas de
Frecuencia
en Excel

Aprendizajes Esperados

Construye una tabla de distribucin de


frecuencias con herramientas de anlisis
de datos en Excel.
Dibuja un histograma con herramientas
de anlisis de datos en Excel .

TABLA DE FRECUENCIA

Cmo presentara los siguientes datos que corresponden


a los montos de ventas (en miles de pesos) de una tienda
en sus primeras 200 transacciones exitosas con tarjetas
de pago electrnica -Dbito o Crdito-, usando la clave
denominada PinPass?

Imagine la siguiente situacin al respecto:


33,67
55,50
134,00
55,50
188,00
92,00
40,33
60,50
97,00
89,00
37,33
103,00
38,00
116,00
70,50
64,00
69,00
84,00
97,50

54,00
155,00
61,00
64,50
60,00
170,00
187,00
116,00
55,67
42,00
199,00
59,00
76,50
146,00
34,33
79,00
63,50
42,67
165,00

53,00
47,00
53,67
93,00
58,67
135,00
42,00
53,33
80,00
174,00
33,67
64,33
142,00
61,00
65,00
61,67
111,00
188,00
99,50

134,00
71,50
135,00
146,00
155,00
192,00
91,50
66,67
56,67
52,67
112,00
142,00
61,33
129,00
163,00
125,00
51,00
35,33
55,00

178,00
72,00
54,00
64,33
68,00
61,00
53,50
135,00
105,00
123,00
171,00
128,00
76,00
56,50
90,50
34,67
35,33
57,00
143,00

39,33
60,67
83,00
163,00
89,50
82,00
57,67
45,33
161,00
45,00
120,00
73,00
91,00
117,00
66,67
122,00
61,00
64,67
82,00

61,33
119,00
86,50
131,00
39,00
66,00
33,33
142,00
189,00
58,00
98,50
55,50
193,00
51,00
169,00
167,00
67,50
169,00
177,00

186,00
152,00
156,00
41,33
66,67
61,33
173,00
178,00
53,67
84,50
54,67
61,00
91,50
61,00
41,67
103,00
65,50
67,50
66,50

35,00
110,00
59,50
35,67
199,00
55,50
188,00
90,00
75,00
44,33
59,33
35,00
92,00
71,50
40,67
84,50
40,00
34,67
34,33

62,00
58,00
164,00
66,67
44,00
176,00
58,00
151,00
65,50
51,33
65,00
144,00
118,00
160,00
133,00
53,33
66,67
63,00
88,50

64,00

186,00

149,00

205,80

125,00

90,50

145,00

50,00

64,67

34,33

Regla de Sturges:
Calculamos el tamao de la muestra:

Calculamos el valor mximo de la muestra:

Calculamos el valor mnimo de la muestra:

Regla de Sturges:
Calculamos el nmero de intervalos:

Calculamos el rango de valores de la muestra:

Calculamos la amplitud de cada intervalo:

Regla de Sturges:
Construimos la tabla de frecuencias:
Lmite Inferior Lmite Superior
33,33
52,50
52,50
71,67
71,67
90,84
90,84
110,01
110,01
129,18
129,18
148,35
148,35
167,52
167,52
186,69
186,69
205,86
Usaremos para esto la aplicacin Anlisis de Datos.

Esto se hace una sola vez en Excel:

Usamos la opcin Anlisis de Datos:

Medidas de Tendencia
Central

Aprendizajes Esperados

Calcula medidas de tendencia central,


utilizando funciones de Excel.
Interpreta medidas de tendencia central.

MEDIA
La media (o promedio) es la suma de todos los
datos, dividida por la cantidad total de datos.
Su smbolo es:

MEDIA LISTA DE DATOS


Se puede resumir en la siguiente frmula:
k

x
Ejemplo:

x
i 1

Calcule, utilizando su calculadora en modo


estadstico, la media de las siguientes notas e
interprete su valor.
5,5 ; 4,8 ; 6,2 ; 7,0 ; 6,7

MEDIANA

Es el dato central, el 50% de los datos es mayor


(menor) que el. Divide a los datos en dos partes
iguales (de acuerdo al n de datos)
Nota: es importante que los datos estn ordenados.

MEDIANA LISTA DE DATOS

MEDIANA LISTA DE DATOS

En este caso es el promedio de los dos


datos, es decir 8

MODA
Es el dato que tiene una mayor frecuencia, es
decir, es el dato que ms se repite en una
muestra.

MODA LISTA DE DATOS


Sea la lista de datos dada por:

Podemos decir que, en este caso, la moda es 510

Ejercicio de Medidas de Tendencia Central


Se realiza un estudio para determinar el tiempo (en minutos) de duracin que tienen las
llamadas efectuadas por los clientes del carrier 111 hacia el extranjero. Para ello se tom
una muestra aleatoria de 180 llamadas que utilizaron este carrier, obtenindose los
siguientes datos. Calcule e interprete las medidas de tendencia central.
21

18

23

24

25

44

37

24

28

14

36

45

39

22

17

21

35

33

18

16

37

38

44

25

13

39

26

42

41

13

15

14

45

24

42

20

16

41

36

12

29

21

18

25

20

35

45

25

19

14

16

17

16

19

21

23

14

29

38

31

15

43

18

19

18

45

43

43

37

34

50

36

35

39

23

33

15

37

16

23

27

15

30

26

20

24

39

34

45

30

43

43

28

21

17

20

31

36

17

43

44

16

35

33

22

32

24

33

27

24

17

29

43

38

21

28

14

44

41

34

23

38

12

30

27

23

23

26

32

16

43

27

12

23

26

24

30

24

42

13

45

35

12

26

21

44

12

13

48

34

19

37

26

42

34

38

38

40

28

32

24

23

27

25

38

36

37

45

34

40

34

39

26

39

22

26

31

44

37

15

Utilizando funciones de Excel:


Calculamos la media de la muestra, con la frmula:
= PROMEDIO (celda inicial : celda final)
Calculamos la moda de la muestra, con la frmula:
= MODA (celda inicial : celda final)
Calculamos la mediana de la muestra, con la frmula:
= MEDIANA (celda inicial : celda final)

Frmula

Media

Moda

Mediana

PROMEDIO(A1:T9)

MODA(A1:T9)

MEDIANA(A1:T9)

Valor

Interpretacin

28,82

En promedio el tiempo de las llamadas


al extranjero que utilizan el carrier
111, es de aproximadamente 28,8
minutos.

23

El tiempo de las llamadas al extranjero


que utilizan el carrier 111, que ms se
repite de 23 minutos.

27,5

El 50% de las llamadas al extranjero


que utilizan el carrier 111, tienen una
duracin de a lo ms 27,5 minutos.

EN RESUMEN
MEDIDAS DE TENDENCIA CENTRAL
- MEDIA
- MODA
- MEDIANA

Medidas de Posicin

Aprendizajes Esperados

Interpreta medidas de posicin.


Calcula medidas de posicin, utilizando
funciones de Excel.

Medidas de Posicin No central


Dentro de estos otros parmetros importantes,
encontramos los llamados Cuantiles. Son
aquellos que dividen los datos de la distribucin
en funcin de otras cantidades. Entre ellos,
destacaremos a:

Los
Los
Los
Los

Cuartiles
Quintiles
Deciles y
Percentiles.

CUANTILES
Los percentiles son valores que dividen a la
muestra ordenada en forma ascendente (o
descendente) en 100 partes iguales.
Un percentil de orden k, denotado por Pk , es
aquel valor de la variable que deja atrs al k% de
los datos.
As mismo definimos a los Cuartiles, los Quintiles
y los Deciles, en donde particionaremos la
muestra en 4, 5 y 10 respectivamente.

CUANTILES
Y podemos hacer distintas asociaciones, por
ejemplo, decir que:
Q1 corresponde al percentil 25
Me corresponde al percentil 50
Q3 corresponde al percentil 75

Desde este mismo enfoque, podremos hablar de


Rango intercuartil, pensando en la diferencia
entre dos cuartiles consecutivos.
Por ejemplo: Q3- Q1

Ejercicio de Medidas de posicin


Usted es asesor estadstico de una importante institucin de educacin superior. En estos
momentos se encuentra analizando los rendimientos acadmicos de los estudiantes en la
asignatura de Estadstica. Para tal efecto, se consider una muestra aleatoria de 200
alumnos con la nota de presentacin a examen del primer semestre del 2010, jornada
Vespertina. Con esta informacin, se pide:
a) Calcular e interpretar el percentil 75.
b) Calcular e interpretar el cuartil 1.
c) La institucin de educacin superior, con el fin de ayudar a sus estudiantes, crear
cursos de reforzamiento para todos los alumnos cuya nota de presentacin a examen,
estn en el 15% ms bajo. Cul es rango de notas, para que los alumnos sean
beneficiado con esta medida?
d) Qu porcentaje de los alumnos tienen una nota de presentacin a examen entre 5,2
y 6,5?
e) Qu porcentaje de los alumnos tienen nota de presentacin a examen sobre 4,0 ?

Ejercicio de Medidas de posicin

4,5 4,2 4,6 4,1 4,8 5,0 3,8 6,0 5,5 5,9 5,0 6,6 4,9 5,0 4,4 4,5 4,8 4,9 4,8 4,5
5,4 5,9 5,4 5,0 4,6 5,2 4,0 4,6 4,6 4,9 4,0 5,2 4,2 3,7 5,5 5,0 5,0 5,0 5,1 4,2
5,8 4,5 4,9 4,8 4,4 5,1 5,2 5,5 5,7 6,6 3,9 5,2 4,7 4,5 4,7 5,0 5,4 5,1 5,3 4,6
4,5 5,2 3,4 3,5 4,0 4,6 5,1 5,5 4,5 4,5 4,3 3,6 6,0 3,9 5,0 4,6 4,4 5,1 4,7 3,5
6,0 4,3 5,4 4,7 4,9 4,1 4,9 4,7 4,9 6,0 6,4 4,8 4,6 5,6 5,3 4,3 3,9 5,5 3,9 4,9
4,5 3,2 5,8 5,0 4,8 5,4 6,5 5,2 5,3 4,1 4,8 5,1 4,4 4,9 4,0 4,3 4,0 4,9 4,9 5,4
4,9 5,3 5,2 6,7 3,6 5,1 5,1 5,1 5,3 5,4 4,7 4,8 4,7 5,2 3,8 4,4 5,6 5,0 4,7 4,8
6,4 4,2 5,1 6,2 4,4 5,1 6,3 4,5 4,0 5,4 4,4 4,8 5,1 4,5 5,5 6,1 4,7 4,4 5,1 5,4
5,1 5,2 6,6 4,0 4,0 4,7 5,4 4,6 4,6 4,7 5,0 5,4 4,2 4,2 5,6 4,5 6,0 5,2 4,7 4,8
5,7 5,7 4,3 5,5 4,8 4,6 4,3 4,6 4,8 5,2 5,9 6,0 5,4 6,0 3,7 4,2 3,5 4,8 4,6 3,2

Utilizando funciones de Excel:

Calculamos percentil de la muestra, con la frmula:


= PERCENTIL (celda inicial : celda final ; porcentaje)

Calculamos el porcentaje de la muestra, con la frmula:


= RANGO.PERCENTIL (celda inicial : celda final ; dato)

Frmula

a)

PERCENTIL(B2:U11;75%)

Valor

Interpretacin

5,3

El 75% de los alumnos tienen a lo ms


un 5,3 de nota de presentacin a
examen.

b)

PERCENTIL(B2:U11;25%)

4,5

El 25% de los alumnos tienen a lo ms


un 4,5 de nota de presentacin a
examen.

c)

PERCENTIL(B2:U11;15%)

4,2

La nota mxima para


beneficio debe ser 4,2.

RANGO.PERCENTIL(B2:U11;6,5)

d)

RANGO.PERCENTIL(B2:U11;5,2)

e)

1-RANGO.PERCENTIL(B2:U11;4)

obtener

el

El 29,1% de los alumnos tienen entre


29,1% 5,2 y 6,5 de nota de presentacin a
examen.

92%

El 92% de los alumnos tienen sobre un


4,0 de nota de presentacin a
examen.

Medidas de
Dispersin

Aprendizajes Esperados

Calcula medidas de dispersin.


Interpreta medidas de dispersin.

Estadstica Descriptiva

Medidas de dispersin
Las medidas de tendencia central no reflejan la variabilidad o
dispersin del grupo de datos.
Ejemplo: edades de dos grupos.
Grupo 1

Grupo 2

19-20-20-19-22

28-32-30-4-6

Media: 20

Media: 20

Cmo medir la dispersin?

Medidas de dispersin
1.

Rango:

xmax xmin

X: variable cuantitativa

(Rango: Dato mayor Dato menor)

Rango Intercuartil:

Q3 Q1

Inconveniente: solo dependen de dos valores.

Medidas de dispersin
2.

Varianza

Varianza: Representa el promedio de las desviaciones (distancias) con


respecto a la media elevadas al cuadrado.

Inconveniente: tiene las unidades de X, pero elevado a 2.


Nota:
Varianza poblacional:
Varianza muestral:

X X

n 1

Medidas de dispersin
3.

Desviacin Estndar:

Desviacin estndar: es la raz cuadrada de la varianza. Distinguiremos


entre:
Desviacin estndar Poblacional: 2

Desviacin estndar Muestral:

x x
i

X 2 X

n 1

Inconveniente: no sirve para comparar grupos de distinta variable.

Medidas de dispersin
Una propiedad importante de la desviacin estndar en datos que
se distribuyen en forma normal.

Medidas de dispersin

Coeficiente de Variacin:

S
CV

X
X

Coeficiente de Variacin: es la desviacin estndar dividida por el


promedio. Generalmente se expresa en porcentaje

Observaciones:
1. Si se multiplica por 100 queda la dispersin en porcentaje.
2. Permite comparar grupos de datos de distintas variables.

Medidas de dispersin

Datos
ms homogneos

CV

+
Datos
ms dispersos

Medidas de dispersin

Homogneo: Igual, indiferenciado, uniforme, semejante, similar,


idntico, analgico.

Heterogneo: Diverso, variado, dispar, hbrido, mezcla-do, distinto,


mltiple.

Medidas de dispersin
Ejemplo: Edades y sueldos de 5 personas.
Edades (aos)

Sueldos (M$)

30-28-29-35-26

540-620-580-640-510

CV = 11,4%

CV = 9,3%

Conclusin: los sueldos son ms homogneos que las edades de


estas cinco personas.

EJERCICIO:

Medidas de Distribucin:
Coeficiente de Asimetra y
Coeficiente de Curtosis

Aprendizajes Esperados

Interpreta medidas de distribucin o forma.

Coeficiente de asimetra de
Fisher

(g1 = 0): Se acepta que la


distribucin es Simtrica, es decir,
existe aproximadamente la misma
cantidad de valores a los dos lados
de la media. Este valor es difcil de
conseguir por lo que se tiende a
tomar los valores que son cercanos
ya sean positivos o negativos (
0.5).

(g1 > 0): La curva es


asimtricamente positiva por lo que
los valores se tienden a reunir ms
en la parte izquierda que en la
derecha de la media.

(g1 < 0): La curva es


asimtricamente negativa por lo

Coeficiente de asimetra de
Fisher
Interpretacin
Esta medida nos permite identificar si los datos se
distribuyen de forma simtrica alrededor del punto
central (Media aritmtica).
Se dice que la asimetra es positiva cuando la
mayora de los datos se encuentran por encima del
valor de la media aritmtica, la curva es Simtrica
cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se
conoce como asimetra negativa cuando la mayor
cantidad de datos se aglomeran en los valores menores
que la media.

EN RESUMEN
Medidas de distribucin
Coeficiente de Asimetra de Fisher (sesgo):
Muestra cmo se distribuyen los datos con respecto a la media.

g1 < 0

g1 = 0

( 0,5)

g1 > 0

Coeficiente de Curtosis
(Apuntamiento)

(g2 = 0) la distribucin es
Mesocrtica: Al igual que en la
asimetra
es
bastante
difcil
encontrar
un
coeficiente
de
Curtosis de cero (0), por lo que se
suelen
aceptar
los
valores
cercanos ( 0.5 aprox.).

(g2 > 0) la
Leptocrtica.

distribucin

es

(g2 < 0)
Platicrtica.

distribucin

es

la

Coeficiente de Curtosis
(Apuntamiento)
Interpretacin
Esta medida determina el grado de concentracin
que presentan los valores en la regin central de la
distribucin. Por medio del Coeficiente de Curtosis,
podemos identificar si existe una gran concentracin de
valores (Leptocrtica), una concentracin normal
(Mesocrtica) una baja concentracin (Platicrtica).

EN RESUMEN
Medidas de distribucin
Coeficiente de Curtosis (apuntamiento):
Muestra la concentracin de los datos alrededor de la media.

g2 > 0

g2 = 0

( 0,5)

g2 < 0

Distribucin de
Frecuencias
Bidimensionales

Aprendizajes Esperados

Identifica las variables de estudio.


Describe la relacin entre las variables de
estudio.
Calcula e Interpreta medidas condicionadas
y tendencia central.

TABLAS BIDIMENSIONALES

Una tabla de frecuencias bidimensional tambin es llamada


tabla de frecuencias bivariada y lo que es hace es resumir
la distribucin de frecuencias de dos variables de manera
simultnea.

TABLAS BIDIMENSIONALES

TABLAS BIDIMENSIONALES
En donde

nij

: es la frecuencia conjunta del valor de la clase xi y

del valor de la clase yj .

ni
nj
n

: es la frecuencia marginal de la clase xi


: es la frecuencia marginal de la clase
: es el tamao de la muestra.

Adems se cumple que:

yj

EJEMPLO 1:
Se obtuvo la siguiente informacin acerca del nmero de
aos de estudio Y y la edad X, de un grupo de personas de
una localidad del sur de Chile:

EJEMPLO 1
Se quiere calcular el promedio de edad de las personas que
estudiaron 14 aos.

EJEMPLO 1
Se transforma en un problema de una sola variable.

EJEMPLO 2:
Se desea estudiar el promedio de Aos de estudio, pero
slo de aquellas personas menores de 26 aos

EJEMPLO 2
Nuevamente se transforma en un problema de una sola
variable.

EJERCICIO 1:

EJERCICIO 2:

Modelos de Regresin
I Parte

Se ha preguntado alguna vez, si existe


algn tipo de relacin entre su peso corporal
y su edad?

Qu vamos a estudiar?
Las diferentes formas de describir la relacin (si es que existe)
entre dos variables, cada vez que estemos trabajando con
variables numricas.
Por ejemplo:
Estudiar si hay relacin entre la altura y el peso de una
persona.

Modelos de Regresin
Un modelo de regresin es a una funcin Matemtica f que
intenta modelar probabilsticamente una Variable Respuesta en
estudio, en relacin a uno o ms predictores de inters.
El anlisis de regresin sirve para predecir una medida Y en
funcin de otra medida X (o varias).
En tal caso, diremos que:
Y = Variable dependiente.
X = Variable independiente, explicativa o predictora.
Y se escribe Y = f(X) (Se lee: Y est en funcin de X)

Tipos de Modelos
Existen numerosos tipos de modelos de regresin, sin
embargo, siempre debe ser el comportamiento de las variables lo
que nos indique la conveniencia de utilizar uno u otro para
realizar estimaciones o intentar predecir algn valor a partir de
dicho modelo.
Entre los
encontraremos:
-

modelos

de

regresin

Modelo de regresin Lineal.


Modelo de regresin Exponencial.
Modelo de regresin Logartmica.
etc.

ms

conocidos,

Cmo elegir un buen modelo


de regresin?

Diagrama de Dispersin

Variable dependiente

Una representacin grfica til para describir el


comportamiento conjunto de dos variables es el diagrama de
dispersin o nube de puntos, donde cada caso aparece
representado como un punto en el plano definido por las
variables X e Y.

Variable independiente
o predictora.

Pero ojo, que un diagrama o grfico de dispersin nos


aportar informacin slo en la medida que conozcamos
y seamos capaces de distinguir entre los distintas
curvas de tales funciones.
Por esta razn, es importante conocer y distinguir entre
las grficas de algunas funciones recurrentes en esta
materia:

Grfico de una
funcin Lineal

Grfico de una
funcin Logartmica
Grfico de una
Funcin Exponencial

Covarianza de dos variables X e Y


La covarianza entre dos variables,

Sxy,

nos indica si la posible

relacin entre dos variables es directa o inversa. Diremos que:


Hay una relacin Directa o positiva: Sxy >0
(es decir, a grandes valores de x corresponden
grandes valores de y).
Hay una relacin Inversa o negativa: Sxy <0
(es decir, a grandes valores de x corresponden
pequeos valores de y).
IMPORTANTE: El signo de la covarianza nos dice si el aspecto
de la nube de puntos es creciente o decreciente, pero no nos da
informacin con respecto al grado de relacin entre las variables.

Relacin directa e inversa

Esto se llama relacin directa o


creciente.

Esto es relacin inversa o


decreciente.

330
280

Incorrelacin

230
180
130
80
30
140

150

160

170

180

Incorrelacin.

190

200

Modelo de Regresin
Lineal

Modelo de Regresin Lineal


En el modelo de regresin lineal simple, dadas dos variables Y
(dependiente) y X (independiente, explicativa, predictora),
buscamos encontrar una funcin de X, que es muy simple (lineal),
que nos permita aproximar Y mediante
Y = a + bX
Donde
a : (ordenada en el origen, coeficiente de posicin, constante.)
b : (pendiente de la recta)
Y e Y rara vez coincidirn por muy bueno que sea el modelo de
regresin. A la cantidad
e = Y-Y se le denomina residuo o error residual.

Modelo de regresin lineal

Ejemplo:
Observamos dos variables en varios
individuos de una muestra.
En cada fila tenemos los datos de un
individuo
Cada columna representa los valores que
toma una variable sobre los mismos.
Las individuos no se muestran en ningn
orden particular.
Construimos un diagrama de dispersin
para intentar reconocer a partir del mismo si
hay relacin entre las variables, de qu tipo,
y si es posible predecir el valor de una de
ellas en funcin de la otra.

Altura
en cm.

Peso
en Kg.

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

Modelo de regresin lineal

Diagrama de dispersin

Modelo de regresin lineal

Algo importante, antes de seguir.

Coeficiente de correlacin lineal


de Pearson

Rxy

xy

S S
x

Para qu sirve el Rxy?


El coeficiente de correlacin lineal de Pearson de dos
variables, Rxy, es el que nos indica si los puntos tienen una
tendencia a disponerse alineadamente, es decir, si existe una
tendiente relacin lineal entre las variables (excluyendo
rectas horizontales y verticales).

Adems:

Tiene el mismo signo que


xy , por tanto, de su signo
podremos deducir el que la posible relacin sea directa o
inversa.

Rxy

es til para determinar si hay relacin lineal entre dos


variables, pero no servir para otro tipo de relaciones
(cuadrtica, logartmica,...)

Modelo de regresin lineal

Propiedades de
-

Rxy

Es adimensional (No posee unidades de medida)


Slo toma valores en [-1,1]
Las variables son incorrelacionadas r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Cuanto ms cerca est r de +1 o -1 mejor ser el grado
de relacin lineal.
Relacin
inversa
perfecta

-1

Variables
incorrelacionadas

Relacin
directa
casi
perfecta

En Excel podremos modelar nuestra situacin y obtener el


siguiente Modelo de Regresin lineal Simple:
Peso = 0,8007 * (Altura en cm) - 67,468

Tales valores se pueden


obtener fcilmente
utilizando la herramienta
Excel
En el cual
0,8007 significa que por cada centmetro de altura, el peso
sufre una variacin positiva de 0,8007 kilos.

A modo de ejercicio
Si una persona mide 170 cm, podramos segn el modelo, estimar
que esta debera pesar:
Peso = 0,8007 * 170 - 67,468 = 68,65 (kilos)
As mismo, una persona que mide 185 cm, segn nuestro modelo,
se estima que debera pesar:
Peso = 0,8007 * 185 - 67,468 = 80,66 (kilos)

Interpretacin de
Coeficientes de
Regresin Lineal

Aprendizajes Esperados
Interpreta el coeficiente de correlacin
lineal y el coeficiente de determinacin.
Interpreta el coeficiente de posicin y la
pendiente de un modelo de regresin
lineal.
Construye un modelo de regresin lineal
con Excel.

REGRESIN LINEAL
Ejemplo:
El Director de un Camping ha observado durante la temporada de verano, la temperatura media y los litros de
agua que los clientes han comprado en el supermercado del
Camping en cada semana .

Donde el modelo de regresin es:


y = - 721,3+ 87,35x

Lts Agua

22

1000

31

1950

30

1800

28

1750

25

1600

26

1550

30

2000

20

1050

18

900

REGRESIN LINEAL
Qu significa que r sea 0,97?
Significa que existe una alta correlacin lineal, con
pendiente positiva.

Qu significa que a sea -721,3?


En este caso no tiene sentido la interpretacin de a.
Por qu?

REGRESIN LINEAL
Qu significa que b sea 87,35?
Significa que por cada grado de temperatura promedio
semanal aumenta en 87,35 litros el consumo de agua.

Qu significa r2 sea 0,94?


Significa la variable independiente influye en un 94% en
la variable dependiente.

EJERCICIO:
Una agencia de publicidad estudia el aumento de las ventas
dado un aumento en los gastos de publicidad.
% Aumento
Publicidad
1
11
9
8
6
7
10

% Aumento
Ventas
2
14
11
9
4
9
11

Construya el modelo de regresin lineal e interprete los 4


indicadores vistos anteriormente.

You might also like