Professional Documents
Culture Documents
GUILLERMO SUBERCASEAUX
ESTADISTICA DESCRIPTIVA
¿Qué es la Estadística?
Hipótesis: se desarrolla en esta etapa, el planteamiento de las hipótesis que expliquen los
hechos ocurridos (observados). Este paso intenta explicar la relación causa – efecto entre
los hechos. Para buscar la relación causa – efecto se utiliza la analogía y el método
inductivo. La HP debe estar de acuerdo con lo que se pretende explicar (atingencia) y no se
debe contraponer a otras HP generales ya aceptadas. La HP debe tener matices predictivos,
si es posible. Cuanto más simple sea, mas fácilmente demostrable (las HP complejas,
generalmente son reformulables a dos o más HP simples). La HP debe poder ser
comprobable experimentalmente por otros investigadores, o sea ser reproducible.
Hipótesis en Investigación:
Hipótesis significa literalmente “lo que se supone”. Está compuesta por enunciados teóricos
probables, referentes a variables o relaciones entre ellas. En el campo de la investigación, la
hipótesis, supone soluciones probables al problema de estudio.
El proceso estadístico se basa en la comprobación de hipótesis (HP).
Existen dos tipos de HP, a saber:
HP. Nula: es lo contrario de la anterior, o sea que no existen diferencias entre dos o más
grupos o muestras. H0 : grupo 1 = grupo 2
Población y Muestra
MUESTRA
Estadísticos
POBLACION
Parámetros
Censo y Encuesta
Parámetros y Estadísticos
Estadístico: Es una medida descriptiva de una muestra y sirve como estimación del
parámetro de la población correspondiente.
ATRIBUTOS Y VARIABLES
Tipos de variables
Variable Cualitativa
Variable Cuantitativa
Variable Continua: Son aquellas que pueden tomar cualquier valor real dentro de cierto
rango.
3.- Podemos darnos cuenta si algunos valores aparecen más de una vez en el arreglo.
X7 = 4 X8= 4 X9= 1 X 10 = 3 X 11 = 1 X 12 = 2
X 13 = 5 X 14 = 1 X 15 = 1 X 16 = 4 X 17 = 3 X 18 = 7
X 19 = 8 X 20 = 5 X 21 = 1 X 22 = 2 X 23 = 3 X 24 =3
X 25 = 6 X 26 = 4 X 27 = 5 X 28 = 3 X 29 = 4 X 30 = 7
Definición de Términos:
∑n
i =1
i = n 1 + n2 + n3 + .............. + nn = N Tamaño de la Población
ni
Es decir = hi 0 ≤ hi ≤ 1
N
n
∑h
i =1
i =1
Atrasos
Personal Días
Valores Frecue Frecuenci Frecuenci Frecue Frec.Rel Frec.Rel Frec.Rel Frec.Rela.
de la ncia a a ncia a. a. a. Por.Acu.As
variable Absolu Absoluta Absoluta Relativ Acu.Asc Acu.Des Porcenta c..
ta Acu. Acu. a e. c. je
Ascen. Desce.
Yi ni N ia N id hi h ia h id h i × 100 h i × 100(A)
Y1= 0 4 4 30 0,13 0,13 1,0 13 13
Y2 = 1 5 9 26 0,17 0,30 0,87 17 30
Y3= 2 3 12 21 0,10 0,40 0,70 10 40
Y4 = 3 6 18 18 0,20 0,60 0,60 20 60
Y5= 4 5 23 12 0,17 0,77 0,40 17 77
Y6= 5 3 26 7 0,10 0,87 0,23 10 87
Y7 = 6 1 27 4 0,03 0,90 0,13 3 90
Y8= 7 2 29 3 0,07 0,97 0,10 7 97
Y9= 8 1 30 1 0,03 1,0 0,03 3 100
Por ejemplo, podríamos decir que hubieron 6 días del mes, en donde hubo 3 personas
atrasadas.
9 9
TOTALES ∑ ni = 30
i =1
∑h
i =1
i =1
Distribución de Frecuencia
Cuanto más sean las observaciones o más amplia la gama, más clases se
necesitarán, para representarlos. Desde luego, si tenemos solamente 10 datos,
sería absurdo tener también 10 clases.
Dado que necesitamos tomar los intervalos de clase de igual tamaño, el número
de clases determina el ancho de cada uno de ellos.
Ancho I.C. = 17 + 1 = 3
6
152 - 154
155 - 157
158 - 160
161 - 163
164 - 166
167 -169
Pero, ¿que pasará si el cuociente para determinar el ancho del intervalo no entrega un
residuo igual a cero?
(9) Intervalos con Ancho (9) (8) Intervalos con Ancho (10)
(1) 44 - 52 (1) 44 - 53
(2) 53 - 61 (2) 54 - 63
(3) 62 - 70 (3) 64 - 73
(4) 71 - 79 (4) 74 - 83
(5) 80 – 88 (5) 84 - 93
(6) 89 – 97 (6) 94 - 103
(7) 98 – 106 (7) 104 - 113
(8) 107 – 115 (8) 114 - 123
(9) 116 – 124
3.- Clasificar los puntos de datos en clases y contar el número de puntos en cada
clase.
Ejemplo : El Presidente del banco Express, está tratando de estimar cuanto han sido los
tiempos de demora en días en aprobar los créditos hipotecarios. Sus asesores han reunido
los siguientes tiempos de espera de las solicitudes presentadas en el año anterior. Los
datos se dan en días a contar desde la fecha de solicitud hasta el dictamen del banco.
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 27 33 28 30
30 41 39 38 33 35 31 36 37 32
23 45 39 37 38 36 33 35 42 38
34 22 37 43 52 32 35 30 46 36
Máximo Valor : 52
Mínimo Valor : 22 Rango = 52 – 22 = 30 Ancho I.C. = 30 + 1 = 31
10 10
En este caso como el complemento es solo una unidad, esta unidad puede ser despreciable
para el investigador, por lo tanto se le suma al ultimo intervalo, por lo que se puede
apreciar, todos los valores igual se encuentran dentro de los intervalos.
a) Datos no agrupados
n
∑ xi
Se calcula como X = i =1
n
∑n i × xi
Se calcula como X =
i =1
Este promedio también se conoce como promedio ponderado ya que está considerando fi
veces cada unos de los valores de la variable que se presenta en la distribución.
Propiedades
Se define como:
X =
n1 ∗ x1 + n2 ∗ x 2 + ............ + nk ∗ x k
=
∑n i ∗ xi
n1 + n2 + ....... + nk n
G = n x1 ∗ x 2 ∗ x3 ∗ ............... ∗ x n
Ejemplo: Una ciudad tiene en 1980 una población de 1,5 millones de personas, lo que sube
en 1990 a 2,2 millones de personas y en el 2000 a 4,1 millones de personas. Se pregunta
por la población media del periodo.
La Mediana
X n / 2 + X n / 2 +1
a1) Si n es par Me =
2
⎛n ⎞
( )1⎟⎠
⎜ − ∑f
⎝2
Me = L i + ×C
f med
La Moda
⎛ ∆1 ⎞
b) Para datos agrupados Mo = L i + ⎜ ⎟×C
⎝ ∆1 + ∆2 ⎠
Ejercicios:
1.- El examen final de un curso vale tres veces mas que una evaluación parcial, y un
estudiante tiene una nota de 6,2 en el examen final y un 5,5 y un 3,8 en las dos pruebas
parciales. ¿Cuál es la calificación media obtenida por el alumno?
Calcular: a) X b) M e c) M o
Desarrollo:
5 + 2 + 18 + 9 + 10 + 2 + 12 + 10 + 9 + 11 + 9 + 7
a) X = = 8, 6
12
b) M e = posición = 2,2,5,7,9,9,9,10,10,11,12,18
12 12
X n/2 + X n/2 +1 + +1
Me = = 2 2 = 6,5 posición
2 2
M e = posición = 2,2,5,7,9,9,9,10,10,11,12,18
posición
9+9
El calculo del estadístico es M e = =9
2
Calcular: a) X b) M e c) M o
3 + 5 + 8 + 10 + 12 + 15 + 16
a) X = = 9,86
7
7 +1
b) Me = =4 posición
2
M e = 10
4.- Se sabe que los sueldos en una empresa bancaria son los siguientes:
Los empleados ganan $ 500.000 y son 50, $ 850.000 para los ejecutivos y son 20 y de $
1.350.000 para los gerentes de áreas y son 5.
¿Calcular el sueldo promedio de la Empresa Bancaria?
5.- Si la renta anual media de los trabajadores agrícolas y no agrícolas en Estados Unidos,
es de US$ 8.500 y US$ 10.000 respectivamente. Si se sabe que hay un trabajador agrícola
por cada 11 trabajadores no agrícolas, determinar la renta promedio anual de estos
trabajadores.
1 × 8.500 + 11 × 10.000
X = = US$ 9.875.-
12
∑n i × xi
9.321
Media: X =
i =1
= = 155,35
n 60
⎜ − (∑ f )1 ⎟
⎛n ⎞ ⎛ 60 ⎞
⎜ − 29 ⎟
⎝2 ⎠ × C = 151,5 + ⎝ 2 ⎠ × 21 = 153,25
Mediana: Me = Li +
f med 12
⎛ ∆1 ⎞
Moda: Mo = Li + ⎜⎜ ⎟⎟ × C = 130,5 + ⎛⎜ 3 ⎞⎟ × 21 = 146,25
⎝ ∆1 + ∆ 2 ⎠ ⎝ 3 + 1⎠
7.- El número de prestamos cursados durante 31 días, en una financiera fueron los
siguientes:
130-125-157-138-170-137-160-128-112-159-148-136-173-158-153-145-127-119-143-120-
148-118-163-141-151-169-136-119-137-129-175
8.- El número de usuarios atendidos en una Capitanía de Puerto, durante 80 días fueron los
siguientes:
68-84-75-82-68-90-62-88-76-93-73-79-88-73-60-93-71-59-85-75-61-65-75-87-73-81-72
74-62-95-78-63-72-66-78-82-75-94-77-69-74-68-60-96-78-89-61-75-95-60-79-63-76-75
83-71-79-62-67-97-78-85-76-65-71-75-65-80-73-57-88-78-62-76-53-74-86-67-85-77
9.- El número de tarjetas visas vendidas por 40 empleados de una empresa bancaria, están
representadas en la siguiente tabla::
a)Calcule la media
b)Calcule la mediana
c)Calcule la moda
10.- Los clientes atendidos por una ejecutiva de cuentas de un banco durante diez días
consecutivos fueron los siguientes:
a)Calcule la media
b)Calcule la mediana
11.- Un tren lleva 600 pasajeros con una estatura media de 1,70 metros. Silos 2/3 son
mujeres cuya estatura media es de 1,60. ¿Cuál es la estatura media de los hombres?
X =
n1 ∗ x1 + n2 ∗ x 2 + ............ + nk ∗ x k
=
∑n i ∗ xi
n1 + n2 + ....... + nk n
n1 ∗ x1 + n 2 ∗ x 2
X =
n1 + n 2
Se sabe que N = n1 + n 2
600=400+200
X 2 = 1,9
Los Fractiles
⎛ n(k / 10) − (∑ f )1 ⎞
Dk = Li + ⎜ ⎟×C
⎜ f ⎟
⎝ dk ⎠
⎛ n(k / 100) − ( ∑ f ) ⎞
P k = Li + ⎜ 1
⎟ ×C
⎝ f pk ⎠
⎛ n(k / 4) − (∑ f )1 ⎞
Qk = Li + ⎜ ⎟×C
⎜ f ⎟
⎝ q k ⎠
⎛ ⎛7⎞ ⎞
⎜ 60 × ⎜ ⎟ − 41 ⎟
D7 = 172,5 + ⎜ ⎝ 10 ⎠ ⎟ × 21 = 174,83
⎜ 9 ⎟
⎜ ⎟
⎝ ⎠
⎛ ⎛ 59 ⎞ ⎞
⎜ 60 × ⎜ ⎟ − 29 ⎟
P59 = 151,5 + ⎜ ⎝ 100 ⎠ ⎟ × 21 = 162,7
⎜ 12 ⎟
⎜ ⎟
⎝ ⎠
⎛ ⎛1⎞ ⎞
⎜ 60 × ⎜ ⎟ − 6 ⎟
Q1 = 109,5 + ⎜ ⎝ 4⎠ ⎟ × 21 = 128,4
⎜ 10 ⎟
⎜ ⎟
⎝ ⎠
Promedio=Mediana=Moda
Estadígrafos de Dispersión
A
C
Desviación Media
en donde
Ejercicio:
Se tienen la siguiente información del numero de tarjetas visa, vendidas por 10 vendedores,
durante el periodo de una semana.
Vendedores 1 2 3 4 5 6 7 8 9 10
Tarjetas Visa 7 23 4 8 2 12 6 13 9 4
M e = 7,5
Mo = 4
∑x i −X
43,6
MD = i =1
= = 4,36
n 10
∑f i × mi − X
MD = i =1
en donde
k = número de intervalos
fi = frecuencia de la i-ésima clase
mi = i-ésima marca de clase
n = número de observaciones
Yi fi mi (m i − X ) f i × mi − X
89 – 109 6 99 -56,35 338,1
110 - 130 10 120 -35,35 353,5
131 - 151 13 141 -14,35 186,55
152 - 172 12 162 6,65 79,80
173 - 193 9 183 27,65 248,85
194 - 214 7 204 48,65 340,55
215 - 235 3 225 69,65 208,95
∑ = 60 ∑ = 1.756,3
∑f i × mi − X
1.756,3
MD = i =1
= = 29,27
n 60
Varianza
n
∑ (xi − X)
2
S =
2 i=1
n −1
xi X (xi − X ) i
∑ (x − X)
10
2
i
333,56
S = i =1
= = 37,06
2
n −1 9
∑ f × (m − X)
k
2
i i
S = i =1
2
n −1
Yi fi mi (m i − X) (m − X)
i
2
f i (mi − X )
2
∑ f (m − X)
k
2
i i
72.757,55
S = i =1
= = 1.233,18
2
n −1 59
Propiedades de la Varianza
i.- S2 > 0
iv.- Si cada una de las observaciones se multiplica por una constante k, entonces la
nueva varianza calculada con estas observaciones, será igual a la varianza original
multiplicada por la constante k al cuadrado.
Desviación Standard
∑ (x − X)
k
2
i
n −1
∑ f × (m − X)
k
2
i i
n −1
La desviación estandar para las ventas de tarjetas visa (datos sin agrupar) S = 6,08
Coeficiente de Variación
sy
CV y = ⋅ 100 %
y
Este coeficiente se utiliza para comparar dos o más muestras las cuales no necesariamente
deben tener el mismo tamaño (n) y determinar cuál tiene mayor o menor variabilidad
relativa o bien cuál es más homogénea. Mientras menor sea el coeficiente de variación la
muestra es más homogénea.
Se debe tener presente que el valor del coeficiente de variación es porcentual por lo que no
importa su signo. Lo anterior ocurre cuando las observaciones de la muestra toman valores
negativos por lo que la media puede dar un valor negativo.
Ejemplo: Para los 100 ingresos de los empleados de una empresa se obtuvieron los
siguientes resultados:
y = $450.000
S y2 = 2.500.000.000
s y = 2.500.000.000 = $50.000
$50.000
cv y = ⋅ 100 = 11,1%
$450.000
Lo que refleja que la muestra no es muy dispersa en términos del sueldo de los empleados.
Distribuciones Bidimensionales
Ejemplo: Supóngase que se poseen los siguientes datos de un grupo de 127 familias, que
considera las variables Ingresos y Gastos en consumo respectivamente.
149 59 8
153 49 7
155 79 6
159 85 7
160 80 6
162 82 5
164 88 3
∑ = 127
Como por ejemplo debe interpretar en el sentido de que existen dos familias, donde el
Ingreso es de 117 y el Gasto en consumo es de 47.
Para determinar el cuadro de frecuencias se hace igual que el caso de una variable, teniendo
presente
mientras
47 + 1
Variable Ingreso: 164-117= =8
6
41 + 1
Variable Gasto: 88-47= =7
6
Covarianza
∑ (x − x ) ⋅ ( y − y)
n
i i
Cov( x, y ) = i =1
∑ (x )( )
n
i − x ⋅ y i − y × nij
Cov( x, y ) = i =1
Cov ( x , y ) > 0 , significa que las dos variables se mueven en el mismo sentido, es decir, a
medida que una variable crece la otra también crece y viceversa. Por ejemplo, ingreso y
ahorro, por lo general, tienen una covarianza positiva ya que a medida que aumentan los
ingresos mayor es la capacidad de ahorro.
Cov ( x , y ) < 0 significa que las variables se mueven en sentido contrario, es decir, a medida
que una variable crece la otra decrece y viceversa. Por ejemplo, gasto y ahorro, por lo
general, tienen una covarianza negativa ya que a medida que aumentan los gastos menor es
la capacidad de ahorro.
Cov ( x , y ) = 0 significa una de dos cosas, o una de las variables es constante, o las dos
variables son independientes, es decir, no existe ninguna relación entre ellas.
Observación: dos covarianzas son comparables sólo si las variables se encuentran
expresadas en unidades comparables.
Distribución Normal
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una
misma cantidad de abono.
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen.
[
El 68,3% de las observaciones se encuentran en el intervalo y − s y , y + s y ; ]
[ ]
El 95,5% de las observaciones se encuentran en el intervalo y − 2 ⋅ s y , y + 2 ⋅ s y ;
[ ]
El 99,7% de las observaciones se encuentran en el intervalo y − 3 ⋅ s y , y + 3 ⋅ s y .
Por lo tanto, mientras más pequeño sea el valor de la desviación estándar la muestra es más
homogénea.
Ejemplo: La siguiente tabla muestra los sueldos de 50 funcionarios de un banco (en miles
de $), calcular los intervalos en que se encuentra el 68,3%, el 95,5% y el 99,7% de los
datos.
Intervalos ni
842-1.102 5
1.103-1.363 10
1.364-1.624 4
1.625-1.885 7
1.886-2.146 2
2.147-2.407 6
2.408-2.668 8
2.669-2.929 8
Total 50
y = 1.916,8
S y2 =
SY =
[ ]
El 68,3% de los ingresos se encuentran en el intervalo y − s y , y + s y , es decir,
[ ]
El 95,5% de los ingresos se encuentran en el intervalo: y − 2 ⋅ s y , y + 2 ⋅ s y , es decir
[ ]
El 99,7% de los ingresos se encuentran en el intervalo: y − 3 ⋅ s y , y + 3 ⋅ s y , es decir
ni
y
y = Me = Mo
ni
ni
yi yi
Mo Me y y Me Mo
Medidas de Forma:
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra.
Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor
de los valores medios de la muestra.
Representación gráfica
destacar, y lo más importante recordar. El gráfico cumple aspectos en mejor forma que un
cuadro numérico, el que a su vez, tiene interés desde otros puntos de vista.
También es importante conocer estas reglas no solamente para construir un gráfico, sino
que cuando nos enfrentemos a uno hecho por otra persona, no nos engañen con falsas
proporciones o unidades de medida diferente para cada uno de los ejes.
Naturalmente la aplicación de las reglas debe tener cierta flexibilidad y en más de alguna
ocasión será necesario apartarse ligeramente de ellas.
b) Siempre que sea posible, deben representarse las cantidades por magnitudes lineales,
pues las áreas y volúmenes se prestan a confusiones.
c) Debe procurarse que aparezca en el diagrama la línea correspondiente al cero. Una de las
excepciones es cuando una de las variables es el año.
d)Cuando no puede aparecer la línea del cero debido a la magnitud de los valores
representados, debe "quebrarse" la línea de las abcisas (Y) o de las ordenadas (X), según
sea el caso.
e) La línea del cero debe ser más gruesa que los trazos que representan otras coordenadas.
f) En las escalas que tienen porcentaje, conviene hacer resaltar claramente la línea del
100% u otra que se utilice para comparación.
j) Todo gráfico debe contener en forma clara y lo mas completa posible, la información
necesaria para su fácil y total comprensión, como títulos, período que comprende la
información, unidades de medida, fuente, etc.
En general existen una diversidad de otros tipos de gráficos y su uso y tipo va a depender
de lo que se quiera mostrar: