You are on page 1of 39

Estadstica

Introduccin
Qu es la estadstica?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha
experimentado un gran desarrollo a lo largo de los ltimos aos.

En qu reas se aplica la estadstica?


Actualmente se aplica en todas las reas del saber, por ejemplo en Sociologa,
Educacin, Psicologa, Administracin, Economa, Medicina, Ciencias Polticas,
entre otras.

Ejemplos de su aplicacin son:

1) En Administracin de Empresas: la estadstica se utiliza para evaluar un producto


antes de comercializarlo.

2) En Economa: para medir la evolucin de los precios mediante nmeros ndice o para
estudiar los hbitos de los consumidores a travs de encuestas de presupuestos
familiares.

1
Estadstica

Introduccin
Ejemplos de su aplicacin son:

3) En Ciencias Polticas: para conocer las preferencias de los electores antes de una
votacin mediante sondeos y as orientar las estrategias de los candidatos.

4) En Sociologa: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.

5) En Psicologa: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadstica, es para determinar el estado de


salud de la poblacin.

En general en las Ciencias Sociales, la estadstica se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.

2
Estadstica

Introduccin
Etapas de un estudio estadstico
Un anlisis estadstico se lleva a cabo siguiendo las etapas habituales en el llamado
mtodo cientfico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigacin y
precisar el universo o poblacin.

2) Recogida de la informacin: consiste en recolectar los datos necesarios


relacionados al problema de investigacin.

3) Anlisis descriptivo: consiste en resumir los datos disponibles para extraer la


informacin relevante en el estudio.

4) Inferencia estadstica: consiste en suponer un modelo para toda la poblacin


partiendo de los datos analizados para obtener conclusiones generales.

5) Diagnstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la poblacin

3
Estadstica

Introduccin
Esquema de las etapas de un estudio estadstico

AREA DE INTERES DATOS

ORGANIZAR Y RESUMIR

Tema de Investigacin ESTADSTICA DESCRIPTIVA


(Tablas, Grficos, Medidas
-Antecedentes Previos Descriptivas, etc.)
-Objetivos
INTERPRETACIN
-Preguntas de Investigacin
-Posibles Hiptesis Muestra
Poblacin o Muestra?
-Unidad de Anlisis
INFERENCIA ESTADSTICA
-Poblacin Poblacin
-Variables CONCLUSIONES

Probabilidad
INFORMACIN

4
Estadstica

Introduccin
Ejemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminacin salarial debida al sexo de


la persona empleada.

2) Se quiere determinar el perfil de los trabajadores en trminos de condiciones


econmicas y sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a


vestuario, alimentacin, ocio y vivienda.

4) Se quiere determinar las tallas estndar en vestuario para mujeres espaolas.

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de


distintas empresas del pas.

6) Se quiere determinar el perfil sociodemogrfico de los estudiantes de una Universidad.

7) Se quiere estudiar el gasto en telfono mvil mensual de los estudiantes de una


Universidad, y si ste tiene alguna relacin con su edad u otras caractersticas.

5
Estadstica

Resumen de algunos conceptos planteados en la Introduccin

VARIABLE: es lo que se va a medir y representa una caracterstica de la UNIDAD DE ANLISIS.


QUINES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Anlisis de una
Poblacin o una Muestra
POBLACIN : Es el total de unidades de anlisis que son tema de estudio.

MUESTRA: Es un conjunto de unidades de anlisis provenientes de una poblacin.

Poblacin: Muestra

Las personas que


Muestra: 60 trabajadores de empresas de comunicacin
trabajan en empresas de
comunicacin
Unidad de anlisis: Trabajador de empresa de comunicacin
Variables: sexo, edad, salario, N de horas de trabajo, etc.

6
Estadstica

Variable: corresponde a la caracterstica de la Unidad de Anlisis

TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo

Toma valores enteros Caracterstica o cualidad


cuyas categoras no tienen
Ejemplos: Nmero de Hijos, Nmero de
un orden preestablecido.
empleados de una empresa, Nmero de
asignaturas aprobadas en un semestre, etc. Ejemplos: Sexo, Deporte
Favorito, etc.
Toma cualquier valor dentro de un intervalo
Caracterstica o cualidad cuyas
Ejemplos: Peso; Estatura; Temperatura, etc. categoras tienen un orden
preestablecido.
Ejemplos: Calificacin (S, N, A);
Grado de Inters por un tema, etc.
7
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
Estadstica

Frecuencia: desde un conjunto de unidades, corresponde al Nmero o Porcentaje de veces que se


presenta una caracterstica.

Variable Variable Variable Variable


Cuantitativa Cualitativa Cualitativa Cuantitativa

CONTINUA NOMINAL NOMINAL CONTINUA

DISCRETA ORDINAL ORDINAL DISCRETA

Frecuencia Absoluta (F) Frecuencia Relativa (f)


TIPO FRECUENCIA
Frecuencia Absoluta Frecuencia Relativa
Acumulada (FAA) Acumulada (fra)

8
Estadstica

Problema de Investigacin: Se quiere establecer el perfil de las industrias


EJEMPLO de conserva en funcin de algunas caractersticas.
Unidad de Anlisis: Industria de Conserva
Poblacin: Industrias de Conservas del pas

Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- N de Empleados: se refiere al nmero de empleados en las lneas de produccin. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las reas de
produccin. (cuantitativa continua)
- Calificacin: calificacin realizada por una institucin pblica sobre cumplimiento de ciertos estndares
(Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)

Datos
Industria n Tipo N Empleados Superficie Calificacin
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
9
Estadstica

Problema de Investigacin: Se quiere establecer el perfil de las industrias de conserva en


EJEMPLO funcin de algunas caractersticas.

TABLAS DE Unidad de Anlisis: Industria de Conserva


FRECUENCIA Poblacin: Industrias de Conservas del pas

Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (Fj) Relativa (fj) (%) Calificacin Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100) (2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%) 10
Estadstica

Elementos de una tabla de frecuencia cuando la variable es continua (x)

Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1

cj = (LIj) + LSj )/2 aj = (LSj LIj))

11
Estadstica

Ejercicio: confeccin de una tabla de frecuencia para una variable continua

Los datos corresponden a la edad de los


hijos de los trabajadores de una empresa
10,5 10,7 9,5 10,5 11,8 11,2 Realice la siguiente actividad
12,0 10,3 13,5 12,3 10,6 9,8 1) Construya un Diagrama de Tallo y Hoja
10,7 11,5 11,1 10,6 9,3 12,9
2) Cul es la variable?; Cul es la Unidad de
10,4 7,5 10,2 8,7 10,9 9,9 anlisis?; Cunto vale n?; Cul es el rango
11,7 10,3 10,6 10,5 11,9 11,0 de la variable?.
13,9 10,6 10,0 10,8 10,6 -
3) Sobre una Tabla de frecuencia: Cuntos
7,3 8,0 8,5 12,5 9,7 -
intervalos podra construir?; Cul es la
Datos ordenados de menor a mayor amplitud de cada intervalo?; Cuntas
medidas de frecuencia puede obtener para
7,3 9,7 10,4 10,6 11,1 12,3 cada intervalo?.
7,5 9,8 10,5 10,6 11,2 12,5
4) Construir tabla de frecuencia para la
8,0 9,9 10,5 10,7 11,5 12,9 variable: Intervalos, centro de clase,
8,5 10,0 10,5 10,7 11,7 13,5 amplitud, frecuencias.
8,7 10,2 10,6 10,8 11,8 13,9
9,3 10,3 10,6 10,9 11,9 - Diagrama de Tallo y Hoja: permite organizar los
9,5 10,3 10,6 11,0 12,0 -
datos de una variable medida sobre un conjunto de
individuos. Su utilidad viene dada cuando no
contamos con herramientas automticas para
ordenar los datos.

12
Estadstica

TIPOS DE GRFICOS 1. Grfico de Sectores Circulares (de Torta)

Distribucin de las unidades de


anlisis de acuerdo a variable 1
Distribucin de las unidades de anlisis de
acuerdo a variable 1 D
10% A
20%

C
D A 40% B
10% 20% 30%

Distribucin de las unidades de


anlisis de acuerdo a variable 1
C B
40% 30%
D A
10% 20%

C
B
40%
30%

13
Estadstica

TIPOS DE GRFICOS 2. Grfico de Barras

Numero de unidades de anlisis Proporcin de unidad de anlisis de acuerdo a


variable 1
de acuerdo a variable 1

D
500

variable 1
400 C
300
N

B
200

100 A

0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporcin de unidad de anlisis
variable 1
-Este tipo de grfico se utiliza generalmente para
Porcentaje de unidad de anlisis de acuerdo a representar la frecuencia de las categoras de una
variable 1
variable cualitativa.
D -Cuando una variable es cuantitativa se puede utilizar
este tipo de grfico slo si la variable se ha
variable 1

C
transformada en categoras.
B
-Hay distintas versiones de estos grficos (por ejemplo
A
en Excel), y en algunos casos son muy tiles para
0 20 40 60 80 100 describir el comportamiento de una variable en distintos
% unidad de anlisis grupos. 14
Estadstica

TIPOS DE GRFICOS 3. Histograma


Histograma
Histograma
Distribucin de los hijos de trabajadores
de la empresa de acuerdo a edad - Permite la representacin de
15
la frecuencia de una variable
Cuantitativa.
Frecuencia

10

- El eje x se refiere a la
N

5
variable.
- El eje y se refiere a la
0
frecuencia (N , %).
7 8 9 10 11 12 13 14

edad
edad - Cada barra representa la
frecuencia de la variable en la
Ejemplo
poblacin en estudio (o la
En el grfico se puede observar el nmero de muestra).
hijos , de menor edad (7-8 aos), las de mayor
edad (13-14 aos); y adems que la mayora de -El histograma se puede
hijos de los trabajadores estn entre los 10 y 12 construir desde los datos de la
aos. tabla de frecuencia de la
variable en estudio.
15
Estadstica

TIPOS DE GRFICOS 5. Polgono de Frecuencia

Distribucin de los hijos de trabajadores


de la empresa de acuerdo a edad
15
-Esta representacin se basa en
el Histograma.
-Slo es til para variables
Frecuencia

10

edad cuantitativas.
N

5
-El eje x se refiere a la
variable.
0

7 8 9 10 11 12 13 14
- El eje y se refiere a la
edad frecuencia (N , %).
-Los puntos que permiten la
unin de las lneas representa
el centro de clase (o marca de
clase).

16
Estadstica

TIPOS DE GRFICOS 5. Diagrama de Caja

Edad de las personas que se realizaron


angioplasta entre 1980 y 2000
100

90

80

70

60 - Permite identificar grficamente la


mediana, los cuartiles 1 y 3
Edad

50
(percentiles 25 y 75), mnimo y
40 mximo de una variable.
30 - Slo es til para variables
20 cuantitativas.
10 -El eje x permite identificar la
0 poblacion en estudio.
N= 584 1473
- El eje y representa los valores de la
Mujeres Hombres
variable en estudio. 17
Estadstica

TIPOS DE GRFICOS 6. Otros

Nmero de alumnos matriculados en la Nmero de alumnos matriculados en la


Carrera A segn ao de ingreso Carrera B segn ao de ingreso

100 100
N de alumnos

N de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
ao de ingreso ao de ingreso

Nmero de alumnos matriculados en las Carreras


segn ao de ingreso
N de alumnos
200
N de alumnos

ao de ingreso Carrera A Carrera B


1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
2003 70 75 0
1998 1999 2000 2001 2002 2003

Carrera B ao ingreso
Carrera A 18
Estadstica

NOTACION
Variables Cuantitativas

x variable xi valor de la variable en el individuo i


OBSERVACIONES
y variable y valor de la variable en el individuo i i 1,..., n
* El Tipo de Grficoi seleccionado va a depender de la variable en estudio.
* El Grfico debe contener un a,Ttulo
b, c : constantes
General y la identificacin de cada
eje (variable en estudio y frecuencia).
n n n n
c *c Enocasiones
c nc cxms
resulta i cx 1 cx
ilustrativo un c xi que
n grfico x1 de
xi tabla
una xn 2 2 2

i 1 frecuencia. i 1 i 1 i 1

n n n
* Al igual que las tablas, los grficos deben ser auto-explicativos.
(axi b) (ax1 b) (axn b) a xi b 2
( xi ) ( x1 x n ) 2
i 1 i 1 i 1

n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1

n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
19
Estadstica

-Media Aritmtica (Promedio)


MEDIDAS DE TENDENCIA CENTRAL -Mediana
-Moda

Datos Cuantitativos Datos Cuantitativos ordenados de menor a mayor


x x Mediana
x1 x(1)
Media Aritmtica o Promedio M E x( k ) Si n es impar
x2 n x( 2)
xi ME
x( k ) x( k 1) Si n es par
x i 1 2
xn n x (n )
x( k ) dato del centro

Datos Moda
Cualitativos y Cuantitativos M o " el dato que ms se repite"

20
Estadstica

-Percentil (ejemplo: 25, 50, 75)


Percentiles, Deciles o Cuartiles -Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos estn ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que rene al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posicin 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posicin 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que rene al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posicin 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posicin 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que rene al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posicin 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posicin 64. 21
Estadstica

-Rango
MEDIDAS DE DISPERSIN -Varianza
-Desviacin Estndar

Datos Cuantitativos Varianza


x Rango n n
1 n
x1
R max( xi ) min( xi ) s 2 i 1
( xi x ) 2
x ( xi ) 2
2
i
1 n 2
xi x 2
n i 1
i 1
x2 n n n i 1

Desviacin Tpica o Estndar
xn
s s2

Comparacin entre Variables


Coeficiente de Variacin
Se refiere al comportamiento de las variables cuantitativas en un
s
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que cv
se les mide Estatura, Peso, Edad: Entre estas variables cul x
presenta mayor variacin? 22
Estadstica

-Asimetra
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Adems de la posicin y la dispersin de los datos, otra medida de inters en una distribucin de frecuencias
es la simetra y el apuntamiento o kurtosis.

(x
i 1
i x)3 Si CA=0 si la distribucin es simtrica alrededor de la media.
Si CA<0 si la distribucin es asimtrica a la izquierda
Coeficiente de Asimetra CA Si CA>0 si la distribucin es asimtrica a la derecha
n s3

( xi x ) 4
- Si CAp=0 la distribucin se dice normal (similar
a la distribucin normal de Gauss) y recibe el
i 1
Coeficiente de Apuntamiento CAp nombre de mesocrtica.
n s4 - Si CAp>0, la distribucin es ms puntiaguda que
la anterior y se llama leptocrtica, (mayor
concentracin de los datos en torno a la media).
- Si CAp<0 la distribucin es ms plana y se
llama platicrtica.

23
Estadstica

-Asimetra
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetra y apuntamiento

14 30 6

12 5

10
20 4

8
3

10 2
4

1 Desv. tp. = 2,42


2 Desv. tp. = 1,67 Desv. tp. = ,64
Media = 3,9 Media = 0,0 Media = 5,2

N = 30,00 N = 30,00 0 N = 28,00


0 0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 -1,0 0,0 1,0 2,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

V2 V4 V5

24
Estadstica

-Asimetra
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Ejemplos

Datos Histograma Medidas descriptivas


16

1 4 4 Media 3,9
14
1 4 4 Mediana 4

1 4 5
12 Moda 4

2 4 5 10
Desviacin estndar 1,67

2 4 6 Varianza de la muestra 2,78


8
2 4 6 kurtosis -0,43
6
2 4 6 Coeficiente de asimetra -0,02

3 4 6 4 Rango 6

3 4 7 Desv. tp. = 1,77 Mnimo 1


2
Media = 5,4
4 4 7 Mximo 7
0 N = 66,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Cuenta 30

V1

25
Estadstica

Media, Desviacin tpica, Coeficientes de Asimetra y Apuntamiento


para datos Agrupados (tabla de frecuencias)

Tabla de frecuencia (para variable cuantitativa) 2) La Desviacin tpica para datos


Centro agrupados esta dada por:
Intervalo de clase Amplitud F f FAA fra
k

(c
n1 f1
I1 c1 a1
sc j xc ) 2 f j
I2 c2 a2 n2 f2 j 1
.
.
Ik ck ak nk fk n 1 3) El Coeficiente de Asimetra para
Total n 1
datos agrupados esta dado por:
k

Sea cj la marca de clase (o centro de clase) y fj la (c


j 1
j xc ) 3 f j
frecuencia relativa de la clase j, donde j=1, 2,, k. CAc
s c3
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase 4) El Coeficiente de apuntamiento para
por sus frecuencias relativas, de la forma: datos agrupados esta dada por:
k

(c xc ) 4 f j
k
Media c xc c j f j j 1
j
j 1 CApc
s c4
26
Estadstica

Descripcin de 2 variables cualitativas

Problema Distribucin conjunta


Interesa estudiar cual es el Tabla 1 Actividad
principal medio de transporte Transporte Estudia Pensionado Trabaja
preferido por un grupo de
personas a la hora de dirigirse Autobus 5 7 0
al centro comercial. Bicicleta 3 3 2
Caminar 2 5 2
Para esto se consult a cada
Coche 5 4 5
persona sobre la actividad a la
que se dedicaba y el medio de Metro 6 7 4
transporte preferido.
Transporte N %
Autobus 12 20,0 Actividad N %

Bicicleta 8 13,3
Estudia 21 35,0

Caminar 9 15,0
Pensionado 26 43,3

Coche 14 23,3
Trabaja 13 21,7

Metro 17 28,3
TOTAL 60 100

TOTAL 60 100

27
Estadstica

Descripcin de 2 variables cualitativas

Distribucin conjunta
N de personas
Tabla 2 Actividad

Transporte Estudia Pensionado Trabaja TOTAL


Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

28
Estadstica

Descripcin de 2 variables cualitativas

Distribucin conjunta
N de personas y % respecto de tipo de Transporte
Tabla 3 Actividad

Transporte Estudia Pensionado Trabaja TOTAL


Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100

29
Estadstica

Descripcin de 2 variables cualitativas

Distribucin conjunta
N de personas y % respecto de tipo de Actividad
Tabla 4 Actividad

Transporte Estudia Pensionado Trabaja TOTAL


Autobus 5 7 0 12
% 23,8 26,9 0 20
Bicicleta 3 3 2 8
% 14,3 11,5 15,4 13,3
Caminar 2 5 2 9
% 9,5 19,2 15,4 15
Coche 5 4 5 14
% 23,8 15,4 38,5 23,3
Metro 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
% 100 100 100 100

30
Estadstica

- Covarianza Datos
MEDIDAS DE ASOCIACIN LINEAL
- Correlacin Cuantitativos

x
x1 Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersin
x2 (Varianza y Desviacin Estndar) para una Variable
Cuantitativa (x).
xn

Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
1 n
x y cov( x , y ) ( xi x )( yi y )
y( 1 )
n i 1
x(1)
Si Cov(x,y) es positiva: la asociacin entre x e y es directamente proporcional,
x( 2 ) y( 2 )
es decir que cuando x aumenta y tambin aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociacin entre x e y es inversamente proporcional,
x(n ) y( n ) es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociacin entre x e y.
31
Estadstica

- Covarianza Datos
MEDIDAS DE ASOCIACIN LINEAL
- Correlacin Cuantitativos

Correlacin: Se refiere al grado de asociacin entre dos variables (x1 , x2) o bien (x , y)
Coeficiente de Correlacin de Pearson (r): Mide el grado de Asociacin Lineal
entre dos variables Cuantitativas
n
xi yi nxy
x y
cov( x , y )
x(1) y( 1 ) r 1 r 1
sx s y r i 1
x( 2 ) y( 2 ) ( n 1 )s x s y
Si r es positivo: la asociacin entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y tambin aumenta; y viceversa. Si r=1: la asociacin lineal es
perfecta.
Si r es negativo: la asociacin entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociacin lineal es
perfecta.
Si r es cero: no existe asociacin entre x e y.

32
Estadstica

EJEMPLO : Representacin grfica de las variables x e y

r=1 r=-1

33
Estadstica

Datos Cuantitativos

REGRESION LINEAL SIMPLE


Objetivo 1 Objetivo 2
Determinar si dos variables estn x y Estudiar si los valores de una
asociadas y en qu sentido se da x(1) y( 1 ) variable pueden ser utilizados para
la asociacin. predecir el valor de la otra
x( 2 ) y( 2 )

x(n ) y( n )
Determinar si existe relacin Estudiar la dependencia de una
entre las variables x e y: variable respecto de la otra:
Coeficiente de Correlacin Modelo de Regresin
Trminos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relacin Lineal (modelo lineal)
Parmetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
34
Estadstica

Datos Cuantitativos
REGRESION LINEAL SIMPLE
x y
x(1) y( 1 ) Notacin
x( 2 ) y( 2 ) Variable Respuesta: y
Variable Explicativa: x

y( n ) Modelo de Regresin Lineal Simple: yi=+xi+ei
x(n )
Intercepto:
Pendiente:
Error: e
Modelo Estimado
(recta de regresin) Mtodo de Estimacin: Mnimos Cuadrados
a y bx
n n n
y a bx
Residuos o Errores
n xy xi y i ei y i y i
b i 1 i 1 i 1
2
n
n
n x xi
2

i 1 i 1
35
Estadstica

REGRESION LINEAL SIMPLE

MODELO DE REGRESIN LINEAL SIMPLE


yi=+xi+ei

DATOS MODELO ESTIMADO


x y
y( 1 )
y a bx
x(1)
x( 2 ) y( 2 )
ESTIMADORES ERRORES

x(n ) y( n ) a y bx ei y i y i
n n n
n xy xi y i
b i 1 i 1 i 1
2
n

n
n x 2 xi
i 1 i 1
36
Estadstica

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.
nio edad (meses) talla (cm)
i xi yi
y=talla / x=edad / n=14
1 3 55
2 6 68
14
3
4
5
5
64
66 yi 956 y 68,3 s y 5,6
i 1
5 3 62
14
6
7
4
9
65
74
xi 84 x 6 sx 2
i 1
8 8 75 cov( x, y ) 9,07 rxy 0,88
9 9 73
10 7 69 14 14
11 6 73 xi y i 5863 xi2 556
12 5 68 i 1 i 1
13 8 73
14 6 71

37
Estadstica

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.

Modelo Estimado
y a bx

b 2,44 a 53,64

y 53,64 2,44 x

Interpretacin de los resultados


- Existe asociacin o dependencia entre la Talla del nio y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresin lineal simple, se tiene que la talla
media de un nio es de 53,64 cm. Cuando la edad del nio (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.
38
Estadstica

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.

nio edad (meses) talla (cm) Talla estimada error


i xi yi yi ei 14

1 3 55 61,0 -6,0 ( yi yi ) 2 402,86


i 1
2 6 68 68,3 -0,3 14 14
3 5 64 65,8 -1,8 ( yi y i ) 2 ei2 92,7
4 5 66 65,8 0,2 i 1 i 1
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6 Bondad de Ajuste del Modelo
8 8 75 73,2 1,8 R2 = 0,77
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7 De acuerdo al coeficiente de
11 6 73 68,3 4,7 determinacin, el modelo ajustado
12 5 68 65,8 2,2 a los datos es adecuado (R2
13 8 73 73,2 -0,2
cercano a 1)
14 6 71 68,3 2,7

39

You might also like