You are on page 1of 40

INSTITUTO DE ESTUDIOS BANCARIOS 1

GUILLERMO SUBERCASEAUX

ESTADISTICA DESCRIPTIVA

¿Qué es la Estadística?

La Estadística es una ciencia que consta de un conjunto de


procedimientos, que nos permite recoger información, analizarla y posteriormente extraer
conclusiones, ayudándonos a comprender y modelar el comportamiento de una situación
real.

Aunque la palabra Estadística tiene un significado particular


dependiendo del área que uno se desarrolle, en general se le asocia a información, o más
bien a un conjunto de cifras. Por ejemplo:

Periodista deportivo .............goles, tiros arco etc.


Director escuela ...................ausentismo escolar
Investigador médico.............consecuencia de una droga

Todas estas personas están usando correctamente la palabra


estadística, sin embargo, cada una le da un significado ligeramente diferente y lo usa para
un propósito un poco distinto. Pero por Estadística debe entenderse algo mucho más
elaborado, por una parte y más susceptible de tratamiento científico por otra. Se observa en
las cifras del consumo de combustible de los buses intercomunales es muy parecido día tras
día. También se mantiene la relación de automóviles y buses que transitan por una calle, o
la carga transportada por ferrocarril presenta valores de similar magnitud. Pese a que
existen algunas variaciones en las cifras, estas se mantienen dentro de ciertos rangos que
permiten mantener alguna uniformidad en algunas oportunidades, o al menos estos se
repiten con cierta periodicidad. Los métodos estadísticos nos ayudan a tomar decisiones
respecto de un conjunto grande de elementos, en base a la información recopilada en un
grupo más pequeño, que pertenece a este grupo mayor.

En la empresa moderna, los gerentes aplican algunas técnicas


estadísticas prácticamente en todas las ramas de su organización, los científicos necesitan
de esta ciencia para probar sus hipótesis, y nosotros mismos en la vida diaria sin darnos
cuenta estamos ocupando algunas técnicas estadísticas. Estas técnicas son tan diversas que
suelen agruparse en dos categorías generales: Estadística Descriptiva y Estadística
Inferencial.

Estadística Descriptiva. Consiste en la recopilación de datos a


partir de la observación de muestras con el propósito de descubrir las características del
fenómeno estudiado. Los datos se resumen y se analizan sobre la base de tablas y gráficos,
sin pretender sacar conclusiones de tipo mas general.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 2
GUILLERMO SUBERCASEAUX

Estadística Inferencial. Consiste en aplicar resultados de


estudios de una muestra a la población y emitir juicios y conclusiones sobre la población en
general.

La Estadística, el método científico. El método de


investigación para el conocimiento de la realidad observable, que consiste en formularse
interrogantes sobre esa realidad, con base en la teoría ya existente, tratando de hallar
soluciones a los problemas planteados. El método científico (mtc) se basa en la
recopilación de datos, su ordenamiento y su posterior análisis.

Pasos del Método Científico:

Observación: el primer paso es la observación de una parte limitada del universo o


población que constituye la muestra. Anotación de lo observable, posterior ordenamiento,
tabulación y selección de los datos obtenidos, para quedarse con los más representativos.

Hipótesis: se desarrolla en esta etapa, el planteamiento de las hipótesis que expliquen los
hechos ocurridos (observados). Este paso intenta explicar la relación causa – efecto entre
los hechos. Para buscar la relación causa – efecto se utiliza la analogía y el método
inductivo. La HP debe estar de acuerdo con lo que se pretende explicar (atingencia) y no se
debe contraponer a otras HP generales ya aceptadas. La HP debe tener matices predictivos,
si es posible. Cuanto más simple sea, mas fácilmente demostrable (las HP complejas,
generalmente son reformulables a dos o más HP simples). La HP debe poder ser
comprobable experimentalmente por otros investigadores, o sea ser reproducible.

Experimentación: la hipótesis debe ser comprobada en estudios controlados, con autentica


veracidad.

Hipótesis en Investigación:
Hipótesis significa literalmente “lo que se supone”. Está compuesta por enunciados teóricos
probables, referentes a variables o relaciones entre ellas. En el campo de la investigación, la
hipótesis, supone soluciones probables al problema de estudio.
El proceso estadístico se basa en la comprobación de hipótesis (HP).
Existen dos tipos de HP, a saber:

HP. Alterna o Científica: es la HP que pretende comprobar el investigador en su muestra


de pacientes. Básicamente significa que la media de una característica o propiedad de un
grupo es diferente a la media del otro grupo o grupos, o que la distribución y frecuencia de
un evento en un grupo es diferente del otro. H1 : grupo 1 grupo 2

HP. Nula: es lo contrario de la anterior, o sea que no existen diferencias entre dos o más
grupos o muestras. H0 : grupo 1 = grupo 2

El valor de p es entonces la medida de la evidencia contra la H0.Cuanto menor sea el valor


de p, menor será la posibilidad de que la HP. Nula sea cierta, por lo cual se rechazará,
aceptando a la HP. Científica como verdadera.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 3
GUILLERMO SUBERCASEAUX

Los datos son colecciones de un número cualquiera de


observaciones relacionadas entre sí. Podemos reunir la cantidad de teléfonos que varios
trabajadores instalan en un día determinado o que uno de ellos instala por día durante un
período de varios días; a los resultados podemos llamarlos datos. Una colección de varios
datos recibe el nombre de conjunto de datos, y se da el nombre de punto de datos a una sola
observación.

Los datos ayudan en la toma de decisiones, a hacer


conjeturas bien fundamentadas acerca de las causas, y por tanto, sobre los efectos
probables de ciertas características en algunas ocasiones. Por lo demás, el conocimiento de
las tendencias adquirido con la experiencia permite conocer los posibles resultados y
planear con anticipación. Nuestra investigación del mercado quizás revele que producto es
preferido por mujeres mayores de 35 años. Entonces el mensaje publicitario deberá
dirigirse a esta audiencia neta.

Cuando los datos se organizan en forma compacta y útil, los


encargados de la toma de decisiones consiguen información confiable del medio en que se
desenvuelven, y se valen de ella para llegar a decisiones inteligentes.

En el momento actual las computadoras permiten reunir


enormes volúmenes de observaciones y condensarlas instantáneamente en tablas, gráficas
números, pero se debe tener mucho cuidado y asegurarse que los datos que se están
utilizando se basan en suposiciones e interpretaciones correctas. Para poder confiar en la
interpretación de unos datos cualesquiera, antes se prueban formulando las siguientes
preguntas.

¿ De dónde proceden los datos?


¿ Apoya o contradicen los datos la otra evidencia con que contamos?
¿ Existen datos que ignoramos y que nos harían llegar a una conclusión diferente?
¿ Representan a todos los grupos que queremos estudiar?
¿ Es lógica la conclusión?
¿Hemos sacado conclusiones en base solamente de los datos obtenidos?

Población y Muestra

La población(o universo) es una colección de todos los


elementos que estamos estudiando de los cuales intentamos extraer conclusiones. Debemos
definirla, de manera que quede claro si un elemento es o no miembro de ella.

La muestra es una colección de algunos de los elementos


que componen una población.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 4
GUILLERMO SUBERCASEAUX

Es muy común observar en los supermercados, secciones en


donde se realicen degustaciones de los productos que allí se venden. Generalmente se
prueba un trozo de queso, por ejemplo antes de adquirirlo, del cual se deducen todos los
parámetros de gusto del trozo mayor. De igual forma un catador prueba solamente una copa
de vino para poder medir el sabor del tonel completo.

Si el catador tuviera que tomarse todo el tonel o el comprador


se comiera todo el queso no quedaría nada para venderse.

El tiempo es a menudo otro factor importante cuando se desea


tomar alguna decisión rápida. Pongamos el caso de una máquina, que automáticamente
clasifica miles de cartas. ¿Para qué tener que esperar todo el proceso de un día para
verificar si la máquina está funcionando bien? En este caso se toman muestras a distintos
horarios para verificar si la máquina está funcionando correctamente.

Desde el punto de vista matemático, podemos obtener de la


población y de la muestra las diferentes medidas definidas previamente como el promedio,
la mediana, la varianza, etc. Cuando estos términos se refieren a la población se denominan
parámetros y cuando se refieren a la muestra se denominan estadísticos.

MUESTRA
Estadísticos

POBLACION
Parámetros

Censo y Encuesta

El censo es examinar a todas las personas o miembros de la


población que queremos estudiar

La encuesta es el método que se utiliza para conocer el


estado de opinión sobre un determinado tema y que consiste en realizar una serie de
preguntas a una población o a una muestra representativa de la misma. Es una técnica muy
utilizada para obtener información sobre algún aspecto de la realidad social y determinadas
opiniones o reacciones individuales. Suele realizarse mediante un cuestionario escrito, al
que debe responder un grupo de personas escogido al azar o seleccionado según ciertos
criterios.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 5
GUILLERMO SUBERCASEAUX

Parámetros y Estadísticos

Parámetro: Es una medida descriptiva de la población total de todas las observaciones de


interés para el investigador.

Estadístico: Es una medida descriptiva de una muestra y sirve como estimación del
parámetro de la población correspondiente.

ATRIBUTOS Y VARIABLES
Tipos de variables

El conjunto de todos los valores que puede tomar la


característica o fenómeno observado recibe el nombre de variable. Estadísticamente, estas
se pueden agrupar en dos tipos, la Variable Cualitativa y Cuantitativa.

Variable Cualitativa

Cuando la observación se refiere a los atributos de un


conjunto, por ejemplo: Estado Civil (soltero-casado-separado-viudo), Profesión (ingeniero-
contador-técnico-secretaria), Sexo (masculino-femenino), etc.

Variable Cuantitativa

Cuando la observación tiene un valor expresado por un


número, por ejemplo: Numero de hijos (0,1,2,3,....), IPC (0,1-0,5), Peso en kilos (58-65,7),
Altura de un adulto (1,65-1,80), etc.

Una variable cuantitativa puede ser Discreta o Continua.

Variable Continua: Son aquellas que pueden tomar cualquier valor real dentro de cierto
rango.

Variable Discreta: Son aquellas que sólo toma valores enteros.

Variable Cuantitativa Discreta

Es aquella que consta de un número finito o infinito de


valores, ejemplo número de empleados de una fábrica, número de hijos por familia.

Generalmente se trata de números enteros y positivos, por


ejemplo, una familia puede tener 0,1,2,... hijos, pero no un valor intermedio.

Variable Cuantitativa Continua

Es aquella que puede tener infinitos valores, por ejemplo Peso


de una persona, Cantidad de agua caída en el mes, estatura, carga transportada, etc.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 6
GUILLERMO SUBERCASEAUX

Esta diferencia que presenta la variable cuantitativa, discreta


de la continua es más bien teórica que real. Cuando medimos una variable, resulta ser
siempre discreta, pues todas las mediciones se expresan solamente en las unidades que
realmente se pueden medir. Por ejemplo, es posible que una persona mida 1,6537446 mts,
pero para cualquier fin práctico su estatura se considera solamente como 1,65 mts.

Datos cronológicos y no cronológicos

Cuando el tiempo de ocurrencia de la característica en estudio


constituye un elemento importante se dice que el conjunto de datos es una serie
cronológica. En cambio, si en el estudio estadístico no interesa el momento en que se
produjeron las observaciones se dice que los datos forman una serie No Cronológica.

Series de datos Unidimensionales y Bidimensionales

Unidimensionales: Cuando se estudia solamente el


comportamiento de una variable o atributo se dice que la serie de datos es unidimensional.

Bidimensionales: Cuando se estudian dos variables o dos


atributos, o una variable y un atributo se dice que la serie de datos es bidimensional.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 7
GUILLERMO SUBERCASEAUX

ESTUDIO DESCRIPTIVO DE LA INFORMACIÓN

Puede decirse que la estadística descriptiva es un conjunto de


métodos y procedimientos para obtener, describir e interpretar los datos de la observación
de un fenómeno que se produce en los numerosos elementos de un conjunto y de tal manera
dar una apreciación correcta de dicho fenómeno.

Arreglo básico de datos

Una vez recolectado los datos de las diversas medidas


efectuadas, se obtiene un conjunto desordenado de valores que no son susceptibles de
interpretación inmediata, por esto, se procede a su ordenación, de tal forma que se facilite
su comprensión y posterior análisis.

El arreglo de datos de forma ascendente o descendente es una


de las formas más sencillas de presentar información, y ofrecen ciertas ventajas sobre la
presentación de los datos "brutos" Por ejemplo, si se dispone de cargas transportada por
camiones, se puede obtener la siguiente información:

1.- Podemos describir rápidamente los valores máximos y mínimos.

2.- Podemos dividir fácilmente los datos en secciones.

3.- Podemos darnos cuenta si algunos valores aparecen más de una vez en el arreglo.

4.- Podemos observar la distancia entre valores consecutivos de la tabla.

Pese a las ventajas que acabamos de comentar, algunas veces


un arreglo de datos de este tipo no resulta práctico, puesto que al contener todas las
observaciones, resulta engorroso resumir la información y hacerla útil para una posterior
interpretación.

Es cómodo por lo sencillo que resulta su interpretación,


distribuir las observaciones en cuadros o tablas de manera que permitan una rápida
apreciación de los datos reunidos.

Confección de una Tabla de Frecuencias

Un jefe de personal de una empresa de bancaria, ha registrado


en 30 días los atrasos del personal a su cargo.

Designaremos por xi el número de atrasos del día i , en este


caso i = 1,2,3,4,……,30.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 8
GUILLERMO SUBERCASEAUX

X1= 0 X2 = 2 X3= 0 X4 = 0 X5= 3 X6= 0

X7 = 4 X8= 4 X9= 1 X 10 = 3 X 11 = 1 X 12 = 2

X 13 = 5 X 14 = 1 X 15 = 1 X 16 = 4 X 17 = 3 X 18 = 7

X 19 = 8 X 20 = 5 X 21 = 1 X 22 = 2 X 23 = 3 X 24 =3

X 25 = 6 X 26 = 4 X 27 = 5 X 28 = 3 X 29 = 4 X 30 = 7

Los valores de la variable la designaremos por Y i

Definición de Términos:

Frecuencia Absoluta (n i ) = Es el número de veces que se repite un determinado valor de la


variable.
n

∑n
i =1
i = n 1 + n2 + n3 + .............. + nn = N Tamaño de la Población

en nuestro ejemplo N=30

Frecuencia Absoluta Acumulada Ascendente (N ia ) = Es el número de observaciones


menores o iguales que un determinado valor de la variable.

Frecuencia Absoluta Acumulada Descendente (N id ) = Es el número de observaciones


mayores o iguales que un determinado valor de la variable.

Frecuencia Relativa (h i ) = Es el cuociente entre la frecuencia absoluta y el número total de


observaciones.

ni
Es decir = hi 0 ≤ hi ≤ 1
N
n

∑h
i =1
i =1

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 9
GUILLERMO SUBERCASEAUX

Frecuencia Relativa Porcentual o Porcentaje = Es la frecuencia relativa × 100

Frecuencia Relativa Porcentual Acumulada Ascendente = Es el porcentaje de


observaciones menores o iguales a un determinado valor de la variable.

Frecuencia Relativa Porcentual Acumulada Descendente = Es el porcentaje de


observaciones mayores o iguales a un determinado valor de la variable.

Atrasos
Personal Días
Valores Frecue Frecuenci Frecuenci Frecue Frec.Rel Frec.Rel Frec.Rel Frec.Rela.
de la ncia a a ncia a. a. a. Por.Acu.As
variable Absolu Absoluta Absoluta Relativ Acu.Asc Acu.Des Porcenta c..
ta Acu. Acu. a e. c. je
Ascen. Desce.
Yi ni N ia N id hi h ia h id h i × 100 h i × 100(A)
Y1= 0 4 4 30 0,13 0,13 1,0 13 13
Y2 = 1 5 9 26 0,17 0,30 0,87 17 30
Y3= 2 3 12 21 0,10 0,40 0,70 10 40
Y4 = 3 6 18 18 0,20 0,60 0,60 20 60
Y5= 4 5 23 12 0,17 0,77 0,40 17 77
Y6= 5 3 26 7 0,10 0,87 0,23 10 87
Y7 = 6 1 27 4 0,03 0,90 0,13 3 90
Y8= 7 2 29 3 0,07 0,97 0,10 7 97
Y9= 8 1 30 1 0,03 1,0 0,03 3 100

Por ejemplo, podríamos decir que hubieron 6 días del mes, en donde hubo 3 personas
atrasadas.

9 9
TOTALES ∑ ni = 30
i =1
∑h
i =1
i =1

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 10
GUILLERMO SUBERCASEAUX

Distribución de Frecuencia

La distribución de frecuencia es una tabla que organiza los


datos en clases o categorías y muestra el número de observaciones provenientes del
conjunto de datos que caen dentro de cada una de las clases.

Construcción de una tabla de distribución de frecuencia

Para construir una tabla de distribución de frecuencia se deben


seguir los siguientes pasos:

1.- Escoger el número de clases en los cuales se clasifican las observaciones.

El número de clases o intervalo se eligen de acuerdo al número de observaciones


que se disponga. Aunque no existe una regla para definir el número de
intervalos, nunca es menor que 6 ni mayor que 15.

Cuanto más sean las observaciones o más amplia la gama, más clases se
necesitarán, para representarlos. Desde luego, si tenemos solamente 10 datos,
sería absurdo tener también 10 clases.

2.- Determinar el ancho de los intervalos de clase

Dado que necesitamos tomar los intervalos de clase de igual tamaño, el número
de clases determina el ancho de cada uno de ellos.

Se define Rango = Máximo valor - Mínimo Valor

Así, el ancho del intervalo de clase se determinará como

Ancho I.C. = Rango + 1 unidad significativa


N° de intervalos de clase

Ejemplo 1:Supongamos que queremos tener 6 intervalos de un grupo de observaciones, de


las cuales se extrajo la siguiente información

Máximo Valor : 169

Mínimo Valor : 152 Rango : 169 - 152 = 17

Ancho I.C. = 17 + 1 = 3
6

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 11
GUILLERMO SUBERCASEAUX

Los intervalos serían entonces

152 - 154
155 - 157
158 - 160
161 - 163
164 - 166
167 -169

Existen variadas formas de construir tablas de distribución de frecuencias y que podemos


encontrar en algún texto de estudio, como el que a continuación se muestra, con los mismos
datos anteriores:

[152 - 155) [152 – (152+3))


[155 - 158) [155 – (155+3))
[158 - 161) [158 – (158+3))
[161 - 164) [161 – (161+3))
[164 - 167) [164 – (164+3))
[167 – 170) [167 – (167+3))

[ ]= Significa que se considera desde y hasta esa cifra.


( )= Significa que se considera hasta el valor anterior

Pero, ¿que pasará si el cuociente para determinar el ancho del intervalo no entrega un
residuo igual a cero?

Ejemplo 2 : Veamos ahora el siguiente ejemplo, para 8 intervalos

Máximo Valor : 121


Mínimo Valor : 46 Rango : 121 - 46 = 75 Ancho I.C. = 75 + 1
8

76 : 8 = 9,5 --> Ancho del intervalo


4

Ampliar los intervalos a (9) Distribución del resto con 8 intervalos

76 + 5 = 81 : 9 = 9 Ancho del intervalo 76 + 4 = 80 :8 = 10 Ancho del


intervalo
0 0

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 12
GUILLERMO SUBERCASEAUX

Luego repartimos los complementos en el intervalo mínimo y máximo

Luego los intervalos quedarán de la siguiente manera

(9) Intervalos con Ancho (9) (8) Intervalos con Ancho (10)

(1) 44 - 52 (1) 44 - 53
(2) 53 - 61 (2) 54 - 63
(3) 62 - 70 (3) 64 - 73
(4) 71 - 79 (4) 74 - 83
(5) 80 – 88 (5) 84 - 93
(6) 89 – 97 (6) 94 - 103
(7) 98 – 106 (7) 104 - 113
(8) 107 – 115 (8) 114 - 123
(9) 116 – 124

Aquí se puede notar que se sacrificó el número de intervalos aumentando a nueve y


en el otro caso disminuyendo a ocho.

Normalmente este tipo de situaciones no reviste demasiada importancia ya que no


influirá en las conclusiones finales que se puedan extraer de la variable bajo estudio.

Ejemplo 3 : Supongamos ahora que tenemos la siguiente información para 9 intervalos

Máximo Valor : 0.59

Mínimo Valor : 0.15 Rango : 0.59 - 0.15 = 0.44

Ancho I.C. = 0.44 + 0.01 = 0.05


9

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 13
GUILLERMO SUBERCASEAUX

3.- Clasificar los puntos de datos en clases y contar el número de puntos en cada
clase.

Toda observación debe pertenecer a una y solamente una


clase, si existiera alguna duda respecto a la clasificación de algún dato, significa que los
intervalos están mal construidos.

Ejemplo : El Presidente del banco Express, está tratando de estimar cuanto han sido los
tiempos de demora en días en aprobar los créditos hipotecarios. Sus asesores han reunido
los siguientes tiempos de espera de las solicitudes presentadas en el año anterior. Los
datos se dan en días a contar desde la fecha de solicitud hasta el dictamen del banco.

Construir una distribución de frecuencia usando 10 intervalos igualmente espaciados.


¿Qué intervalo ocurre con mayor frecuencia?

32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 27 33 28 30
30 41 39 38 33 35 31 36 37 32
23 45 39 37 38 36 33 35 42 38
34 22 37 43 52 32 35 30 46 36

Máximo Valor : 52
Mínimo Valor : 22 Rango = 52 – 22 = 30 Ancho I.C. = 30 + 1 = 31
10 10
En este caso como el complemento es solo una unidad, esta unidad puede ser despreciable
para el investigador, por lo tanto se le suma al ultimo intervalo, por lo que se puede
apreciar, todos los valores igual se encuentran dentro de los intervalos.

Marca de Clase: Se define como el valor medio del Intervalo de Clase

Intervalo Marca Frecuencia Frecuencia Frecuencia Frecue. Frec. Relat.


de Clase de Clase absoluta Absoluta relativa Relat. Acum. (%)
Acum. Asc. (%) ascendente
22 - 24 23 2 2 0.04 4 4
25 - 27 26 2 4 0.04 4 8
28 - 30 29 7 11 0.14 14 22
31 - 33 32 10 21 0.2 20 42
34 - 36 35 9 30 0.18 18 60
37 - 39 38 9 39 0.18 18 78
40 - 42 41 5 44 0.1 10 88
43 - 45 44 4 48 0.08 8 96
46 - 48 47 1 49 0.02 2 98
49 - 52 50.5 1 50 0.02 2 100
Total 50 1 100

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 14
GUILLERMO SUBERCASEAUX

Medidas de tendencia central o Estadígrafos de Posición

Una de las primeras medidas de interés para el análisis de


datos son aquellas que indican la posición de los datos recolectados. Como primera
instancia se estudiarán aquellas medidas que pudieran ubicar el "centro" de un grupo de
datos, para posteriormente extenderse el estudio hacia cualquier medida de posición de la
distribución de los datos.

Notación : Denotaremos por xi a cualquiera de los n valores


x1,x2,....xn que toma una variable X.

El Promedio (Media Aritmética)

El Promedio, también conocido como media aritmética, de un


conjunto de observaciones, es el centro de gravedad de ese conjunto de valores. El
promedio se calcula sumando las n observaciones y posteriormente dividiendo esta
sumatoria por el total de observaciones

a) Datos no agrupados
n
∑ xi
Se calcula como X = i =1
n

b) Para datos agrupados


n

∑n i × xi
Se calcula como X =
i =1

en donde xi es la i-ésima marca de clase


ni frecuencia observada para la clase ni
i es el número de clases

Este promedio también se conoce como promedio ponderado ya que está considerando fi
veces cada unos de los valores de la variable que se presenta en la distribución.

Propiedades

a) Si a cada valor de la variable se le suma una constante, el promedio de estos nuevos


valores, será igual al promedio de los valores originales más la constante.

b) Si a cada valor de la variable se multiplica por una constante entonces el promedio


calculado con estos nuevos valores será igual al promedio de los valores originales
multiplicado por la constante.

c) El promedio de un grupo de valores iguales es igual a uno de esos valores.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 15
GUILLERMO SUBERCASEAUX

Media Aritmética ponderada

Se define como:

X =
n1 ∗ x1 + n2 ∗ x 2 + ............ + nk ∗ x k
=
∑n i ∗ xi
n1 + n2 + ....... + nk n

Media Geométrica (G)

La media geométrica se aplica especialmente en casos en que


existe una tasa de crecimiento relativamente constante (población, montos medios de
capitales sujetos a interés compuesto, etc.) o simplemente cuando se desea un porcentaje
medio de crecimiento o baja, según corresponda.

G = n x1 ∗ x 2 ∗ x3 ∗ ............... ∗ x n

Ejemplo: Una ciudad tiene en 1980 una población de 1,5 millones de personas, lo que sube
en 1990 a 2,2 millones de personas y en el 2000 a 4,1 millones de personas. Se pregunta
por la población media del periodo.

G = 3 1,5 ∗ 2,2 ∗ 4,1 = 2,38

Ahora, si para el mismo ejercicio calculamos, el promedio o


su media aritmética x = 2,6

La Mediana

La mediana de un conjunto de valores, es el valor que divide a


las observaciones en 50% menores y 50% mayores que ese valor.

a) Para datos no agrupados: Primeramente se calcula la posición de la mediana y luego se


calcula el estadístico.

X n / 2 + X n / 2 +1
a1) Si n es par Me =
2

a2) Si n es impar Me = X ( n +1) / 2

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 16
GUILLERMO SUBERCASEAUX

b) Para datos agrupados: Primeramente se calcula la posición de la mediana y luego se


calcula el estadístico.

⎛n ⎞
( )1⎟⎠
⎜ − ∑f
⎝2
Me = L i + ×C
f med

en donde Li............. Límite inferior real de la clase de la mediana


n .............. número de observaciones
(Σf)1 .......suma de frecuencias de las clases inferiores a la de la mediana
f med .......frecuencia de la clase mediana
C .............anchura del intervalo de clase de la mediana

La Moda

La moda es el valor del grupo de observaciones que se repite


en más oportunidades (tiene mayor frecuencia), dentro del conjunto de datos. Si el conjunto
de datos tiene una sola moda, se le denomina monomodal, de la misma manera puede ser
bimodal o multimodal, según se aprecien dos o más valores modales respectivamente.

a) Para datos no agrupados

Se revisan los datos y se selecciona aquel se repite más veces.


En caso de no existir un valor que se repite, entonces se dice que el grupo de observaciones
no tiene Moda.

⎛ ∆1 ⎞
b) Para datos agrupados Mo = L i + ⎜ ⎟×C
⎝ ∆1 + ∆2 ⎠

en donde Li...........Límite inferior real de la clase modal.


∆1 .........Exceso de frecuencia modal sobre la clase inferior inmediata.

∆2 Exceso de la frecuencia modal sobre la clase superior


inmediata.

C ...........Anchura del intervalo de clase modal.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 17
GUILLERMO SUBERCASEAUX

Ejercicios:

1.- El examen final de un curso vale tres veces mas que una evaluación parcial, y un
estudiante tiene una nota de 6,2 en el examen final y un 5,5 y un 3,8 en las dos pruebas
parciales. ¿Cuál es la calificación media obtenida por el alumno?

(1) × (5,5) + (1) × (3,8) + (3) × (6,2)


X = = 5,58
1+1+ 3

2.- El conjunto de doce datos es el siguiente:

5, 2, 18, 9, 10, 2, 12, 10, 9, 11, 9, 7

Calcular: a) X b) M e c) M o

Desarrollo:

5 + 2 + 18 + 9 + 10 + 2 + 12 + 10 + 9 + 11 + 9 + 7
a) X = = 8, 6
12

b) M e = posición = 2,2,5,7,9,9,9,10,10,11,12,18

12 12
X n/2 + X n/2 +1 + +1
Me = = 2 2 = 6,5 posición
2 2

M e = posición = 2,2,5,7,9,9,9,10,10,11,12,18

posición

9+9
El calculo del estadístico es M e = =9
2

c) Mo = 9 es el dato que mas se repite

3.- El conjunto de siete datos es el siguiente:

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 18
GUILLERMO SUBERCASEAUX

12, 5, 3, 8, 10, 16, 15

Calcular: a) X b) M e c) M o

3 + 5 + 8 + 10 + 12 + 15 + 16
a) X = = 9,86
7

7 +1
b) Me = =4 posición
2

M e = 3, 5, 8, 10, 12, 15, 16

M e = 10

c) M o = No tiene Porque no hay ningún dato que se repita

4.- Se sabe que los sueldos en una empresa bancaria son los siguientes:
Los empleados ganan $ 500.000 y son 50, $ 850.000 para los ejecutivos y son 20 y de $
1.350.000 para los gerentes de áreas y son 5.
¿Calcular el sueldo promedio de la Empresa Bancaria?

50 × 500.000 + 20 × 850.000 + 5 × 1.350.000


X = = 650.000
75

5.- Si la renta anual media de los trabajadores agrícolas y no agrícolas en Estados Unidos,
es de US$ 8.500 y US$ 10.000 respectivamente. Si se sabe que hay un trabajador agrícola
por cada 11 trabajadores no agrícolas, determinar la renta promedio anual de estos
trabajadores.

X a = US$ 8500.- X na = US$ 10.000.-

1 × 8.500 + 11 × 10.000
X = = US$ 9.875.-
12

6.- Se tienen los siguientes datos agrupados:

Calcular la Media, Mediana y Moda.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 19
GUILLERMO SUBERCASEAUX

Yi ni xi ni × x i hi hia hia × 100


89 – 109 6 99 594 0,100 0,100 10,0
110 - 130 10 120 1200 0,167 0,267 26,7
131 - 151 13 141 1833 0,217 0,484 48,4
152 - 172 12 162 1944 0,200 0,684 68,4
173 - 193 9 183 1647 0,150 0,834 83,4
194 - 214 7 204 1428 0,116 0,950 95,0
215 - 235 3 225 675 0,050 1,000 100,0
∑ = 60 ∑ = 9.321 ∑ =1

∑n i × xi
9.321
Media: X =
i =1
= = 155,35
n 60

⎜ − (∑ f )1 ⎟
⎛n ⎞ ⎛ 60 ⎞
⎜ − 29 ⎟
⎝2 ⎠ × C = 151,5 + ⎝ 2 ⎠ × 21 = 153,25
Mediana: Me = Li +
f med 12

⎛ ∆1 ⎞
Moda: Mo = Li + ⎜⎜ ⎟⎟ × C = 130,5 + ⎛⎜ 3 ⎞⎟ × 21 = 146,25
⎝ ∆1 + ∆ 2 ⎠ ⎝ 3 + 1⎠

7.- El número de prestamos cursados durante 31 días, en una financiera fueron los
siguientes:

130-125-157-138-170-137-160-128-112-159-148-136-173-158-153-145-127-119-143-120-
148-118-163-141-151-169-136-119-137-129-175

a) Construya una tabla de frecuencias con 8 intervalos.


b) Calcule la media
c) Calcule la mediana
d) Calcule la moda

8.- El número de usuarios atendidos en una Capitanía de Puerto, durante 80 días fueron los
siguientes:

68-84-75-82-68-90-62-88-76-93-73-79-88-73-60-93-71-59-85-75-61-65-75-87-73-81-72
74-62-95-78-63-72-66-78-82-75-94-77-69-74-68-60-96-78-89-61-75-95-60-79-63-76-75

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 20
GUILLERMO SUBERCASEAUX

83-71-79-62-67-97-78-85-76-65-71-75-65-80-73-57-88-78-62-76-53-74-86-67-85-77

a)Construya una tabla de frecuencias con 9 intervalos.


b)Calcule la media
c)Calcule la mediana
d)Calcule la moda

9.- El número de tarjetas visas vendidas por 40 empleados de una empresa bancaria, están
representadas en la siguiente tabla::

Tarjetas Visa Frecuencia


118 – 126 3
127 - 135 5
136 - 144 9
145 - 153 12
154 - 162 5
163 - 171 4
172 - 180 2
Total 40

a)Calcule la media
b)Calcule la mediana
c)Calcule la moda

10.- Los clientes atendidos por una ejecutiva de cuentas de un banco durante diez días
consecutivos fueron los siguientes:

Dias Nro. Clientes


1 49
2 50
3 21
4 33
5 43
6 52
7 30
8 31
9 25
10 29

a)Calcule la media
b)Calcule la mediana

11.- Un tren lleva 600 pasajeros con una estatura media de 1,70 metros. Silos 2/3 son
mujeres cuya estatura media es de 1,60. ¿Cuál es la estatura media de los hombres?

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 21
GUILLERMO SUBERCASEAUX

X =
n1 ∗ x1 + n2 ∗ x 2 + ............ + nk ∗ x k
=
∑n i ∗ xi
n1 + n2 + ....... + nk n

n1 ∗ x1 + n 2 ∗ x 2
X =
n1 + n 2

Se sabe que N = n1 + n 2

600=400+200

Entonces reemplazando en la formula y despegando X tenemos:

1,60 × 400 + X 2 × 200


1,70 = =
600

X 2 = 1,9

Los Fractiles

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 22
GUILLERMO SUBERCASEAUX

Son medidas descriptivas de una serie de observaciones que


consideran fracciones acumuladas de estas. Podemos enumerar los siguientes fractiles:

Deciles (Dk k=1,2,...,10) Divide el conjunto de observaciones en diez sectores de


10% de los datos cada uno. El D5 coincide con la mediana

⎛ n(k / 10) − (∑ f )1 ⎞
Dk = Li + ⎜ ⎟×C
⎜ f ⎟
⎝ dk ⎠

en donde Li.............Límite inferior real de la clase del decil


n ..............número de observaciones
k ..............Valor del decil que se desea calcular
(Σf)1 .......suma de frecuencias de las clases inferiores a la del decil
C .............anchura del intervalo de clase del decil
f dk ..........valor de frecuencia en donde se ubica el decil

Percentiles (Pk k=1,2,....,100) Divide el conjunto de observaciones en cien sectores


de 1% de los datos cada uno. El P50 coincide con la mediana.

⎛ n(k / 100) − ( ∑ f ) ⎞
P k = Li + ⎜ 1
⎟ ×C
⎝ f pk ⎠

Cuartiles: (Qk k=1,2,3,4) Dividen el conjunto de observaciones en cuatro sectores


de 25% de los datos cada uno. El Q2 coincide con la mediana

⎛ n(k / 4) − (∑ f )1 ⎞
Qk = Li + ⎜ ⎟×C
⎜ f ⎟
⎝ q k ⎠

OBS: P25=Q1 P50=

Q2=D5 P10=D1 P75=Q3 P20=D2 P30=D3, etc.

12.- Se tienen los siguientes datos agrupados:

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 23
GUILLERMO SUBERCASEAUX

Calcular: Decil 7, Percentil 59, Cuartil 1

Yi ni xi ni × x i hi hia hia × 100


89 – 109 6 99 594 0,100 0,100 10,0
110 - 130 10 120 1200 0,167 0,267 26,7
131 - 151 13 141 1833 0,217 0,484 48,4
152 - 172 12 162 1944 0,200 0,684 68,4
173 - 193 9 183 1647 0,150 0,834 83,4
194 - 214 7 204 1428 0,116 0,950 95,0
215 - 235 3 225 675 0,050 1,000 100,0
∑ = 60 ∑ = 9.321 ∑ =1

⎛ ⎛7⎞ ⎞
⎜ 60 × ⎜ ⎟ − 41 ⎟
D7 = 172,5 + ⎜ ⎝ 10 ⎠ ⎟ × 21 = 174,83
⎜ 9 ⎟
⎜ ⎟
⎝ ⎠

⎛ ⎛ 59 ⎞ ⎞
⎜ 60 × ⎜ ⎟ − 29 ⎟
P59 = 151,5 + ⎜ ⎝ 100 ⎠ ⎟ × 21 = 162,7
⎜ 12 ⎟
⎜ ⎟
⎝ ⎠

⎛ ⎛1⎞ ⎞
⎜ 60 × ⎜ ⎟ − 6 ⎟
Q1 = 109,5 + ⎜ ⎝ 4⎠ ⎟ × 21 = 128,4
⎜ 10 ⎟
⎜ ⎟
⎝ ⎠

Examinemos detenidamente las siguientes figuras, cada una


de las cuales contiene un ejemplo de posibles distribuciones de frecuencia, es decir posibles
comportamientos de un grupo de datos.

La fig. a, es simétrica, la fig b, está sesgada a la derecha y la


fig c, lo está a la izquierda.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 24
GUILLERMO SUBERCASEAUX

Promedio=Mediana=Moda

Fig a : Distribución de datos forma simétrica

Figb : Distribución de datos forma sesgada a la derecha

Fig c : Distribución de datos forma sesgada a la izquierda

En la fig a, donde la distribución es simétrica, y solamente


existe una moda, la tres medidas de tendencia central, (la moda, la mediana y el promedio)
coinciden con el punto más alto de la gráfica. En la fig. b, el conjunto de datos está sesgado
hacia la derecha. Aquí la moda está todavía en el punto más alto de la gráfica, pero la
mediana está a la derecha de ese punto y el promedio se encuentra a la derecha de la
mediana. Cuando la distribución es asimétrica a la izquierda, como ocurre en la fig. c, la
moda se encuentra en el punto más alto de la gráfica, la mediana se sitúa a la izquierda de

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 25
GUILLERMO SUBERCASEAUX

la moda, y el promedio también se encuentra a la izquierda pero de la mediana. Cualquiera


que sea la forma, la moda siempre se sitúa en el punto más alto.

Cuando resolvemos un problema de carácter estadístico, se ha


de decidir si usar la mediana, la moda o el promedio como medida de tendencia central. Las
distribuciones que son simétricas, siempre tienen el mismo valor para las tres medidas
como se demostró previamente.

Cuando la población tiene un sesgo positivo o negativo, la


mediana es a menudo la mejor medida de ubicación, puesto que siempre se encuentra entre
el promedio y la moda. A la mediana no la afecta tanto la frecuencia de ocurrencia de un
solo valor como la moda, tampoco es atraída por valores extremos como el promedio.

Estadígrafos de Dispersión

Dos conjuntos de datos pueden tener las mismas medidas de


tendencia central y ser muy diferentes. Esto queda demostrado en las distribuciones de
frecuencia de la siguiente figura

A
C

Esquema de tres curvas con igual promedio pero diferentes


variabilidades

El promedio en las tres curvas es el mismo, pero la curva A


tiene menor dispersión (variabilidad) que la curva B y ésta a su vez presenta menor
variabilidad que la C. Si calculamos solamente el promedio de estas tres curvas llegaremos
a la conclusión errónea que sus distribuciones son iguales sin captar la diferencia entre
ellas. Para mejorar el conocimiento sobre las distribuciones de frecuencia, es preciso que se
mida su dispersión, o sea su variabilidad.

La dispersión es una característica importante de medir y


entender porque entrega información que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos están ampliamente dispersos como los de la curva C, el
promedio será menos "representativo" de los datos en general que lo que ocurre con la
curva A.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 26
GUILLERMO SUBERCASEAUX

Desviación Media

Para calcular la desviación media, se debe calcular en primer


lugar el promedio de las observaciones, luego se determina el valor absoluto de la
diferencia de cada observación y el promedio. Finalmente se suman todas estas diferencias
y se dividen por el número total de elementos de la muestra. Simbólicamente tendremos
que:

Para datos sin agrupar la formula es la siguiente:


n
∑ xi − X
MD = i =1
n

en donde

X = promedio de las observaciones.


x i − X = Desviación absoluta de xi con respecto de X .

Esta desviación media es una buena medida de dispersión


porque toma en cuenta todas las observaciones, pondera por igual a cada elemento e indica
a qué distancia del promedio se halla cada observación. Pese a estas ventajas, no se utiliza
mucho debido a razones técnicas.

Ejercicio:

Se tienen la siguiente información del numero de tarjetas visa, vendidas por 10 vendedores,
durante el periodo de una semana.

Vendedores 1 2 3 4 5 6 7 8 9 10
Tarjetas Visa 7 23 4 8 2 12 6 13 9 4

Calcular la media aritmética, mediana, moda, desviación media.

X = 8,8 tarjetas visas

M e = 7,5

Mo = 4

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 27
GUILLERMO SUBERCASEAUX

Para el calculo de la desviación media, tenemos que construir la siguiente tabla:

OBSERVACIÓN MEDIA DESVIACIÓN DESVIACIÓN ABSOLUTA


xi X (xi − X ) xi − X
2 8,8 -6,8 6,8
4 8,8 -4,8 4,8
4 8,8 -4,8 4,8
6 8,8 -2,8 2,8
7 8,8 -1,8 1,8
8 8,8 -0,8 0,8
9 8,8 0,2 0,2
12 8,8 3,2 3,2
13 8,8 4,2 4,2
23 8,8 14,2 14,2
∑ = 43,6

Por tanto, reemplazando en la formula tenemos que:


n

∑x i −X
43,6
MD = i =1
= = 4,36
n 10

Para datos agrupados la formula de la desviación media se calcula como:


k

∑f i × mi − X
MD = i =1

en donde
k = número de intervalos
fi = frecuencia de la i-ésima clase
mi = i-ésima marca de clase
n = número de observaciones

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 28
GUILLERMO SUBERCASEAUX

Ejercicio: Calcular la desviación media de la siguiente tabla, si sabemos que en cálculos


anteriores la X = 155,35

Yi fi mi (m i − X ) f i × mi − X
89 – 109 6 99 -56,35 338,1
110 - 130 10 120 -35,35 353,5
131 - 151 13 141 -14,35 186,55
152 - 172 12 162 6,65 79,80
173 - 193 9 183 27,65 248,85
194 - 214 7 204 48,65 340,55
215 - 235 3 225 69,65 208,95
∑ = 60 ∑ = 1.756,3

Por tanto reemplazando en la formula tenemos que:


7

∑f i × mi − X
1.756,3
MD = i =1
= = 29,27
n 60

Varianza

La Varianza es la medida de dispersión más importante en la


estadística, principalmente porque cumple muchas propiedades que la hacen ser preferida
ante otras medidas de dispersión.

La Varianza se calcula de la siguiente manera:

Para datos sin agrupar, la formula es la siguiente:

n
∑ (xi − X)
2

S =
2 i=1
n −1

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 29
GUILLERMO SUBERCASEAUX

Del ejercicio de los vendedores de tarjetas visa, calcular la varianza:

OBSERVACIÓN MEDIA DESVIACIÓN (x − X)


2

xi X (xi − X ) i

2 8,8 -6,8 46,24


4 8,8 -4,8 23,04
4 8,8 -4,8 23,04
6 8,8 -2,8 7,84
7 8,8 -1,8 3,24
8 8,8 0,8 0,64
9 8,8 0,2 0,04
12 8,8 3,2 10,24
13 8,8 4,2 17,64
23 8,8 14,2 201,64
∑ = 333,6
Luego reemplazando en la formula tenemos que:

∑ (x − X)
10
2
i
333,56
S = i =1
= = 37,06
2
n −1 9

Para datos agrupados, la Varianza se calcula de la siguiente manera:

∑ f × (m − X)
k
2
i i
S = i =1
2
n −1

Para los siguientes datos descritos en la tabla, calcularemos la varianza:

Yi fi mi (m i − X) (m − X)
i
2
f i (mi − X )
2

89 – 109 6 99 -56,35 3.175,32 19.051,92


110 - 130 10 120 -35,35 1.249,62 12.496,22
131 - 151 13 141 -14,35 205,92 2.676,99
152 - 172 12 162 6,65 44,22 530,64
173 - 193 9 183 27,65 764,52 6.880,68
194 - 214 7 204 48,65 2.366,82 16.567,74
215 - 235 3 225 69,65 4.851,12 14.553,36
∑ = 60 ∑ = 72.757,55

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 30
GUILLERMO SUBERCASEAUX

Luego reemplazando en la formula tenemos que:

∑ f (m − X)
k
2
i i
72.757,55
S = i =1
= = 1.233,18
2
n −1 59

Propiedades de la Varianza

i.- S2 > 0

ii.- S2 = 0 si sólo sí todas las observaciones son iguales.

iii.- Si cada una de las observaciones aumenta en k unidades, la varianza calculada


con estas nuevas observaciones no cambia.

iv.- Si cada una de las observaciones se multiplica por una constante k, entonces la
nueva varianza calculada con estas observaciones, será igual a la varianza original
multiplicada por la constante k al cuadrado.

Al calcular la varianza para un grupo de datos, nos


percatamos que el valor resultante quedará expresado en las unidades de las observaciones
pero al cuadrado, es decir, metros cuadrados, dólares cuadrados, autos cuadrados, etc. Estas
dos últimas expresiones no son intuitivamente claras ni fáciles de interpretar. Por este
motivo, es necesario realizar un cambio importante en la varianza para obtener una medida
útil de la dispersión, la cual no nos plantee un problema con las unidades de medida y que
por lo mismo resulte menos confusa. Esta medida recibe el nombre de Desviación
Standard.

Desviación Standard

La Desviación Standard, es simplemente la raíz cuadrada de la


varianza de la población, tanto para datos sin agrupar y agrupados.

∑ (x − X)
k
2
i

Para datos sin agrupar la formula es S = i =1

n −1

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 31
GUILLERMO SUBERCASEAUX

∑ f × (m − X)
k
2
i i

Para datos agrupados la formula es S = i =1

n −1

Ejercicio: Calcular la desviación estandar para los ejercicios anteriores:

La desviación estandar para las ventas de tarjetas visa (datos sin agrupar) S = 6,08

La desviación estandar para el ejercicio de datos agrupados S = 35,12

Coeficiente de Variación

El coeficiente de variación se obtiene dividiendo la desviación


estándar por su media, expresándose el resultado en términos porcentuales.

sy
CV y = ⋅ 100 %
y

Este coeficiente se utiliza para comparar dos o más muestras las cuales no necesariamente
deben tener el mismo tamaño (n) y determinar cuál tiene mayor o menor variabilidad
relativa o bien cuál es más homogénea. Mientras menor sea el coeficiente de variación la
muestra es más homogénea.

Se debe tener presente que el valor del coeficiente de variación es porcentual por lo que no
importa su signo. Lo anterior ocurre cuando las observaciones de la muestra toman valores
negativos por lo que la media puede dar un valor negativo.

Para establecer el grado de homogeneidad o heterogeneidad de una muestra, se clasificará


el coeficiente de variación en los siguientes rangos:

Muestra Homogénea : 0% ≤ cv y ≤ 25%


Muestra Regularmente Homogénea : 25% < cv y ≤ 75%
Muestra Heterogénea : 75% < cv y ≤ 100%

Ejemplo: Para los 100 ingresos de los empleados de una empresa se obtuvieron los
siguientes resultados:

y = $450.000
S y2 = 2.500.000.000

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 32
GUILLERMO SUBERCASEAUX

Se quiere conocer la homogeneidad de la empresa en términos del pago de sueldos a sus


empleados. Para ello es necesario conocer la desviación estándar:

s y = 2.500.000.000 = $50.000

Por lo tanto, el valor del coeficiente de variación de la muestra será:

$50.000
cv y = ⋅ 100 = 11,1%
$450.000

Lo que refleja que la muestra no es muy dispersa en términos del sueldo de los empleados.

Distribuciones Bidimensionales

En los capítulos anteriores se ha contemplado el caso de


distribución de los valores de sólo una variable, a menudo se presentan las observaciones
respecto a dos variables en forma simultanea, como ocurre cuando se conocen el peso y
edad de un grupo de alumnos, la estatura de padres e hijos, o los ingresos y gastos de varias
familias. Se trata en estos casos de distribuciones bidimensionales. Es posible analizar
posteriormente si existe alguna relación funcional entre ambas variables e incluso,
cuantificar esta relación.

Presentación de los Datos.

Los antecedentes propios de las distribuciones bidimensionales, para los fines de su


estudio, pueden corresponder a un pequeño grupo de observaciones o a uno muy numeroso.
Cuando los datos son mas numerosos, su presentación y su análisis es algo mas engorroso.

Ejemplo: Supóngase que se poseen los siguientes datos de un grupo de 127 familias, que
considera las variables Ingresos y Gastos en consumo respectivamente.

Ingresos (x) Gasto Consumo (y) Nro. Familias


117 47 2
125 49 3
129 60 5
130 55 4
131 56 6
132 60 6
135 80 10
139 58 12
130 63 14
140 70 8
142 72 8
145 68 7

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 33
GUILLERMO SUBERCASEAUX

149 59 8
153 49 7
155 79 6
159 85 7
160 80 6
162 82 5
164 88 3
∑ = 127
Como por ejemplo debe interpretar en el sentido de que existen dos familias, donde el
Ingreso es de 117 y el Gasto en consumo es de 47.

Para determinar el cuadro de frecuencias se hace igual que el caso de una variable, teniendo
presente

xi = representa el i-esimo valor de la variable Ingreso.

mientras

y j = significa el j-esimo valor de la otra variable, en este caso el gasto en Consumo.

La frecuencia absoluta nij corresponde al número de veces que se presentan conjuntamente


los valores de xi y y j

Para el ejemplo, construir una tabla de frecuencias de 6 intervalos de clases:

47 + 1
Variable Ingreso: 164-117= =8
6

41 + 1
Variable Gasto: 88-47= =7
6

DISTRIBUCIÓN DE FAMILIAS CONSIDERANDO


EL INGRESO Y EL GASTO EN CONSUMO

X 117-124 125-132 133-140 141-148 149-156 157-164 nj


Y
47-53 2 3 7 12
54-60 21 12 8 41
61-67 14 14
68-74 8 15 23
75-81 10 6 6 22
82-88 15 15
ni 2 38 30 15 21 21 127

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 34
GUILLERMO SUBERCASEAUX

Ejercicio: A partir de la tabla anterior, calcular la media, varianza y desviación estandar y


coeficiente de variación, para la distribución marginal del gasto en consumo y de los
ingresos respectivamente.

Para la variable Gasto Y = 66,6 S y2 = 123,50 S y = 11,11 CVY = 0,16

Para la variable Ingresos X = 141,3 S X2 = 144,71 S X = 12,02 CV X = 0,08

Covarianza

Cuando se estudian dos variables, se definirá una nueva


medida de dispersión, la covarianza. Se puede considerar que la covarianza representa el
grado de variabilidad conjunta de ambas variables en relación con sus respectivas medias.

La formula para datos no agrupados es:

∑ (x − x ) ⋅ ( y − y)
n

i i
Cov( x, y ) = i =1

La formula para datos agrupados es:

∑ (x )( )
n

i − x ⋅ y i − y × nij
Cov( x, y ) = i =1

La covarianza puede tomar cualquier valor: cero, positivo o negativo.

Cov ( x , y ) > 0 , significa que las dos variables se mueven en el mismo sentido, es decir, a
medida que una variable crece la otra también crece y viceversa. Por ejemplo, ingreso y
ahorro, por lo general, tienen una covarianza positiva ya que a medida que aumentan los
ingresos mayor es la capacidad de ahorro.

Cov ( x , y ) < 0 significa que las variables se mueven en sentido contrario, es decir, a medida
que una variable crece la otra decrece y viceversa. Por ejemplo, gasto y ahorro, por lo
general, tienen una covarianza negativa ya que a medida que aumentan los gastos menor es
la capacidad de ahorro.

Cov ( x , y ) = 0 significa una de dos cosas, o una de las variables es constante, o las dos
variables son independientes, es decir, no existe ninguna relación entre ellas.
Observación: dos covarianzas son comparables sólo si las variables se encuentran
expresadas en unidades comparables.

Distribución Normal

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 35
GUILLERMO SUBERCASEAUX

Una de las distribuciones teóricas mejor estudiadas y más utilizada en la práctica es la


distribución normal, también llamada distribución gaussiana. Su importancia se debe
fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos
naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos
(como la talla o el peso), o psicológicos (como el coeficiente intelectual) son ejemplos de
variables de las que frecuentemente se asume que siguen una distribución normal.

El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse,


además, por otras razones. Muchos de los procedimientos estadísticos habitualmente
utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas
no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede
obviarse cuando se dispone de un número suficiente de datos, resulta recomendable
contrastar siempre si se puede asumir o no una distribución Normal. La simple exploración
visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras
medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir,
de un modo más riguroso, si la muestra de la que se dispone procede o no de una
distribución normal.

En resumen, la importancia de la distribución normal se debe principalmente a que hay


muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal.

Caracteres morfológicos de individuos (personas, animales, plantas) de una especie, por


ejemplo, tallas, pesos, envergaduras, diámetros, perímetros.

Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una
misma cantidad de abono.

Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen.

Caracteres psicológicos, por ejemplo, coeficiente intelectual, grado de adaptación a un


medio.

La distribución normal tiene forma de campana, en dónde existe una simetría en la


distribución de los valores en torno a su media. A su vez se tiene que la media, mediana y
moda son iguales.

Para una distribución normal se tiene que:

[
El 68,3% de las observaciones se encuentran en el intervalo y − s y , y + s y ; ]
[ ]
El 95,5% de las observaciones se encuentran en el intervalo y − 2 ⋅ s y , y + 2 ⋅ s y ;

[ ]
El 99,7% de las observaciones se encuentran en el intervalo y − 3 ⋅ s y , y + 3 ⋅ s y .

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 36
GUILLERMO SUBERCASEAUX

Por lo tanto, mientras más pequeño sea el valor de la desviación estándar la muestra es más
homogénea.

Ejemplo: La siguiente tabla muestra los sueldos de 50 funcionarios de un banco (en miles
de $), calcular los intervalos en que se encuentra el 68,3%, el 95,5% y el 99,7% de los
datos.

Intervalos ni
842-1.102 5
1.103-1.363 10
1.364-1.624 4
1.625-1.885 7
1.886-2.146 2
2.147-2.407 6
2.408-2.668 8
2.669-2.929 8
Total 50

Entonces tenemos que calcular, la media, varianza y la desviación estandar:

y = 1.916,8

S y2 =

SY =

[ ]
El 68,3% de los ingresos se encuentran en el intervalo y − s y , y + s y , es decir,

[ ]
El 95,5% de los ingresos se encuentran en el intervalo: y − 2 ⋅ s y , y + 2 ⋅ s y , es decir

[ ]
El 99,7% de los ingresos se encuentran en el intervalo: y − 3 ⋅ s y , y + 3 ⋅ s y , es decir

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 37
GUILLERMO SUBERCASEAUX

En general, el eje de simetría de una distribución normal será el valor de la media.

ni

y
y = Me = Mo

En este caso la distribución normal es simétrica respecto de su media, ya que se observa la


misma cantidad de valores tanto a la derecha como a la izquierda del valor de la media.

En algunos casos existen distribuciones asimétricas a la derecha o izquierda de la media.


Distribución Asimétrica Nagativa (Alargamiento Izquierda)
Distribución Asimétrica Positiva (Alargam iento Derecha)

ni
ni

yi yi
Mo Me y y Me Mo

Medidas de Forma:

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra.

Se pueden estudiar las siguientes características de la curva:

Concentración: mide si los valores de la variable están más o menos uniformemente


repartidos a lo largo de la muestra.
Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la
misma (centro de simetría) los segmentos de curva que quedan a la derecha e izquierda son
similares.

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 38
GUILLERMO SUBERCASEAUX

Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor
de los valores medios de la muestra.

Representación gráfica

Un gráfico es una representación pictórica (mediante figuras geométricas u otros


elementos) que proporciona visualmente un resumen de la información que interesa

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 39
GUILLERMO SUBERCASEAUX

destacar, y lo más importante recordar. El gráfico cumple aspectos en mejor forma que un
cuadro numérico, el que a su vez, tiene interés desde otros puntos de vista.

Reglas para dibujar gráficos

La observación de las reglas que se mencionarán y comentarán, es importante para que el


gráfico cumpla correctamente su cometido principal: dar una visión global del problema,
con elementos que guardan las proporciones correspondientes.

También es importante conocer estas reglas no solamente para construir un gráfico, sino
que cuando nos enfrentemos a uno hecho por otra persona, no nos engañen con falsas
proporciones o unidades de medida diferente para cada uno de los ejes.

Naturalmente la aplicación de las reglas debe tener cierta flexibilidad y en más de alguna
ocasión será necesario apartarse ligeramente de ellas.

a) La disposición general de un gráfico debe avanzar de izquierda a derecha.

b) Siempre que sea posible, deben representarse las cantidades por magnitudes lineales,
pues las áreas y volúmenes se prestan a confusiones.

c) Debe procurarse que aparezca en el diagrama la línea correspondiente al cero. Una de las
excepciones es cuando una de las variables es el año.

d)Cuando no puede aparecer la línea del cero debido a la magnitud de los valores
representados, debe "quebrarse" la línea de las abcisas (Y) o de las ordenadas (X), según
sea el caso.

e) La línea del cero debe ser más gruesa que los trazos que representan otras coordenadas.

f) En las escalas que tienen porcentaje, conviene hacer resaltar claramente la línea del
100% u otra que se utilice para comparación.

g) En algunas ocasiones es conveniente incluir en el gráfico los datos respectivos o las


fórmulas representadas.

h) Si no se incluyen los datos en el gráfico, se debe presentar en un lugar cercano al gráfico,


un cuadro que contenga las cifras graficadas.

i) Siempre deben incluirse las unidades de medida para la abcisa y la ordenada.

j) Todo gráfico debe contener en forma clara y lo mas completa posible, la información
necesaria para su fácil y total comprensión, como títulos, período que comprende la
información, unidades de medida, fuente, etc.

Gráficos empleados con mayor frecuencia

PROFESOR : PEDRO ROJAS F.


INSTITUTO DE ESTUDIOS BANCARIOS 40
GUILLERMO SUBERCASEAUX

BARRAS SEPARADAS: Cada barra representa un acontecimiento. Su largo corresponde


a la frecuencia con que se ha presentado el acontecimiento.

BARRAS AGRUPADAS: Cuando se desea comparar la frecuencia del acontecimiento en


dos o más categorías de unidades de observación, cada acontecimiento se presenta por un
grupo de barras correspondientes a las categorías.

BARRAS SUBDIVIDIDAS: Cuando se requiere mostrar la diferente proporción con que


ocurren los fenómenos en determinados grupos es conveniente subdividir las barras
correspondiente a los grupos

HISTOGRAMA DE FRECUENCIAS: Consiste en una serie de rectángulos que tienen:


Sus barras sobre el eje horizontal (el eje X), con centros en las marcas de clase y longitud
igual al tamaño de los intervalos de clase.
Superficies proporcionales a las frecuencias de clase.

POLÍGONO DE FRECUENCIAS: Es un gráfico de linea trazado sobre las marcas de clase.


Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el
Histograma.

En general existen una diversidad de otros tipos de gráficos y su uso y tipo va a depender
de lo que se quiera mostrar:

-Sectoriales o circulares o de torta


-Líneas o serie de tiempo
-Frecuencias acumuladas o áreas
-Tela de araña o radial
-Dispersión, etc.

Tarea : Con información actualizada, presentar 7 gráficos diferentes

PROFESOR : PEDRO ROJAS F.

You might also like