Estadistica Descriptiva 2009

INSTITUTO DE ESTUDIOS BANCARIOS 1
GUILLERMO SUBERCASEAUX
ESTADISTICA DESCRIPTIVA
¿Qué es la Estadística?
La Estadística es una ciencia que consta de un conjunto de

procedimientos, que nos permite recoger información, analizarla y posteriormente extraer
conclusiones, ayudándonos a comprender y modelar el comportamiento de una situación
real.
Aunque la palabra Estadística tiene un significado particular

dependiendo del área que uno se desarrolle, en general se le asocia a información, o más
bien a un conjunto de cifras. Por ejemplo:
Periodista deportivo .............goles, tiros arco etc.

Director escuela ...................ausentismo escolar
Investigador médico.............consecuencia de una droga
Todas estas personas están usando correctamente la palabra

estadística, sin embargo, cada una le da un significado ligeramente diferente y lo usa para
un propósito un poco distinto. Pero por Estadística debe entenderse algo mucho más
elaborado, por una parte y más susceptible de tratamiento científico por otra. Se observa en
las cifras del consumo de combustible de los buses intercomunales es muy parecido día tras
día. También se mantiene la relación de automóviles y buses que transitan por una calle, o
la carga transportada por ferrocarril presenta valores de similar magnitud. Pese a que
existen algunas variaciones en las cifras, estas se mantienen dentro de ciertos rangos que
permiten mantener alguna uniformidad en algunas oportunidades, o al menos estos se
repiten con cierta periodicidad. Los métodos estadísticos nos ayudan a tomar decisiones
respecto de un conjunto grande de elementos, en base a la información recopilada en un
grupo más pequeño, que pertenece a este grupo mayor.
En la empresa moderna, los gerentes aplican algunas técnicas

estadísticas prácticamente en todas las ramas de su organización, los científicos necesitan
de esta ciencia para probar sus hipótesis, y nosotros mismos en la vida diaria sin darnos
cuenta estamos ocupando algunas técnicas estadísticas. Estas técnicas son tan diversas que
suelen agruparse en dos categorías generales: Estadística Descriptiva y Estadística
Inferencial.
Estadística Descriptiva. Consiste en la recopilación de datos a

partir de la observación de muestras con el propósito de descubrir las características del
fenómeno estudiado. Los datos se resumen y se analizan sobre la base de tablas y gráficos,
sin pretender sacar conclusiones de tipo mas general.
PROFESOR : PEDRO ROJAS F.

Estadística Inferencial. Consiste en aplicar resultados de

estudios de una muestra a la población y emitir juicios y conclusiones sobre la población en
general.
La Estadística, el método científico. El método de

investigación para el conocimiento de la realidad observable, que consiste en formularse
interrogantes sobre esa realidad, con base en la teoría ya existente, tratando de hallar
soluciones a los problemas planteados. El método científico (mtc) se basa en la
recopilación de datos, su ordenamiento y su posterior análisis.
Pasos del Método Científico:
Observación: el primer paso es la observación de una parte limitada del universo o

población que constituye la muestra. Anotación de lo observable, posterior ordenamiento,
tabulación y selección de los datos obtenidos, para quedarse con los más representativos.
Hipótesis: se desarrolla en esta etapa, el planteamiento de las hipótesis que expliquen los
hechos ocurridos (observados). Este paso intenta explicar la relación causa – efecto entre
los hechos. Para buscar la relación causa – efecto se utiliza la analogía y el método
inductivo. La HP debe estar de acuerdo con lo que se pretende explicar (atingencia) y no se
debe contraponer a otras HP generales ya aceptadas. La HP debe tener matices predictivos,
si es posible. Cuanto más simple sea, mas fácilmente demostrable (las HP complejas,
generalmente son reformulables a dos o más HP simples). La HP debe poder ser
comprobable experimentalmente por otros investigadores, o sea ser reproducible.
Experimentación: la hipótesis debe ser comprobada en estudios controlados, con autentica

veracidad.
Hipótesis en Investigación:
Hipótesis significa literalmente “lo que se supone”. Está compuesta por enunciados teóricos
probables, referentes a variables o relaciones entre ellas. En el campo de la investigación, la
hipótesis, supone soluciones probables al problema de estudio.
El proceso estadístico se basa en la comprobación de hipótesis (HP).
Existen dos tipos de HP, a saber:
HP. Alterna o Científica: es la HP que pretende comprobar el investigador en su muestra

de pacientes. Básicamente significa que la media de una característica o propiedad de un
grupo es diferente a la media del otro grupo o grupos, o que la distribución y frecuencia de
un evento en un grupo es diferente del otro. H1 : grupo 1 grupo 2
HP. Nula: es lo contrario de la anterior, o sea que no existen diferencias entre dos o más
grupos o muestras. H0 : grupo 1 = grupo 2
El valor de p es entonces la medida de la evidencia contra la H0.Cuanto menor sea el valor

de p, menor será la posibilidad de que la HP. Nula sea cierta, por lo cual se rechazará,
aceptando a la HP. Científica como verdadera.

Los datos son colecciones de un número cualquiera de

observaciones relacionadas entre sí. Podemos reunir la cantidad de teléfonos que varios
trabajadores instalan en un día determinado o que uno de ellos instala por día durante un
período de varios días; a los resultados podemos llamarlos datos. Una colección de varios
datos recibe el nombre de conjunto de datos, y se da el nombre de punto de datos a una sola
observación.
Los datos ayudan en la toma de decisiones, a hacer

conjeturas bien fundamentadas acerca de las causas, y por tanto, sobre los efectos
probables de ciertas características en algunas ocasiones. Por lo demás, el conocimiento de
las tendencias adquirido con la experiencia permite conocer los posibles resultados y
planear con anticipación. Nuestra investigación del mercado quizás revele que producto es
preferido por mujeres mayores de 35 años. Entonces el mensaje publicitario deberá
dirigirse a esta audiencia neta.
Cuando los datos se organizan en forma compacta y útil, los

encargados de la toma de decisiones consiguen información confiable del medio en que se
desenvuelven, y se valen de ella para llegar a decisiones inteligentes.
En el momento actual las computadoras permiten reunir

enormes volúmenes de observaciones y condensarlas instantáneamente en tablas, gráficas
números, pero se debe tener mucho cuidado y asegurarse que los datos que se están
utilizando se basan en suposiciones e interpretaciones correctas. Para poder confiar en la
interpretación de unos datos cualesquiera, antes se prueban formulando las siguientes
preguntas.
¿ De dónde proceden los datos?

¿ Apoya o contradicen los datos la otra evidencia con que contamos?
¿ Existen datos que ignoramos y que nos harían llegar a una conclusión diferente?
¿ Representan a todos los grupos que queremos estudiar?
¿ Es lógica la conclusión?
¿Hemos sacado conclusiones en base solamente de los datos obtenidos?
Población y Muestra
La población(o universo) es una colección de todos los

elementos que estamos estudiando de los cuales intentamos extraer conclusiones. Debemos
definirla, de manera que quede claro si un elemento es o no miembro de ella.
La muestra es una colección de algunos de los elementos

que componen una población.

Es muy común observar en los supermercados, secciones en

donde se realicen degustaciones de los productos que allí se venden. Generalmente se
prueba un trozo de queso, por ejemplo antes de adquirirlo, del cual se deducen todos los
parámetros de gusto del trozo mayor. De igual forma un catador prueba solamente una copa
de vino para poder medir el sabor del tonel completo.
Si el catador tuviera que tomarse todo el tonel o el comprador

se comiera todo el queso no quedaría nada para venderse.
El tiempo es a menudo otro factor importante cuando se desea

tomar alguna decisión rápida. Pongamos el caso de una máquina, que automáticamente
clasifica miles de cartas. ¿Para qué tener que esperar todo el proceso de un día para
verificar si la máquina está funcionando bien? En este caso se toman muestras a distintos
horarios para verificar si la máquina está funcionando correctamente.
Desde el punto de vista matemático, podemos obtener de la

población y de la muestra las diferentes medidas definidas previamente como el promedio,
la mediana, la varianza, etc. Cuando estos términos se refieren a la población se denominan
parámetros y cuando se refieren a la muestra se denominan estadísticos.
MUESTRA
Estadísticos
POBLACION
Parámetros
Censo y Encuesta
El censo es examinar a todas las personas o miembros de la

población que queremos estudiar
La encuesta es el método que se utiliza para conocer el

estado de opinión sobre un determinado tema y que consiste en realizar una serie de
preguntas a una población o a una muestra representativa de la misma. Es una técnica muy
utilizada para obtener información sobre algún aspecto de la realidad social y determinadas
opiniones o reacciones individuales. Suele realizarse mediante un cuestionario escrito, al
que debe responder un grupo de personas escogido al azar o seleccionado según ciertos
criterios.

Parámetros y Estadísticos
Parámetro: Es una medida descriptiva de la población total de todas las observaciones de

interés para el investigador.
Estadístico: Es una medida descriptiva de una muestra y sirve como estimación del
parámetro de la población correspondiente.
ATRIBUTOS Y VARIABLES
Tipos de variables
El conjunto de todos los valores que puede tomar la

característica o fenómeno observado recibe el nombre de variable. Estadísticamente, estas
se pueden agrupar en dos tipos, la Variable Cualitativa y Cuantitativa.
Variable Cualitativa
Cuando la observación se refiere a los atributos de un

conjunto, por ejemplo: Estado Civil (soltero-casado-separado-viudo), Profesión (ingeniero-
contador-técnico-secretaria), Sexo (masculino-femenino), etc.
Variable Cuantitativa
Cuando la observación tiene un valor expresado por un

número, por ejemplo: Numero de hijos (0,1,2,3,....), IPC (0,1-0,5), Peso en kilos (58-65,7),
Altura de un adulto (1,65-1,80), etc.
Una variable cuantitativa puede ser Discreta o Continua.
Variable Continua: Son aquellas que pueden tomar cualquier valor real dentro de cierto
rango.
Variable Discreta: Son aquellas que sólo toma valores enteros.
Variable Cuantitativa Discreta
Es aquella que consta de un número finito o infinito de

valores, ejemplo número de empleados de una fábrica, número de hijos por familia.
Generalmente se trata de números enteros y positivos, por

ejemplo, una familia puede tener 0,1,2,... hijos, pero no un valor intermedio.
Variable Cuantitativa Continua
Es aquella que puede tener infinitos valores, por ejemplo Peso

de una persona, Cantidad de agua caída en el mes, estatura, carga transportada, etc.

Esta diferencia que presenta la variable cuantitativa, discreta

de la continua es más bien teórica que real. Cuando medimos una variable, resulta ser
siempre discreta, pues todas las mediciones se expresan solamente en las unidades que
realmente se pueden medir. Por ejemplo, es posible que una persona mida 1,6537446 mts,
pero para cualquier fin práctico su estatura se considera solamente como 1,65 mts.
Datos cronológicos y no cronológicos
Cuando el tiempo de ocurrencia de la característica en estudio

constituye un elemento importante se dice que el conjunto de datos es una serie
cronológica. En cambio, si en el estudio estadístico no interesa el momento en que se
produjeron las observaciones se dice que los datos forman una serie No Cronológica.
Series de datos Unidimensionales y Bidimensionales
Unidimensionales: Cuando se estudia solamente el

comportamiento de una variable o atributo se dice que la serie de datos es unidimensional.
Bidimensionales: Cuando se estudian dos variables o dos

atributos, o una variable y un atributo se dice que la serie de datos es bidimensional.

ESTUDIO DESCRIPTIVO DE LA INFORMACIÓN
Puede decirse que la estadística descriptiva es un conjunto de

métodos y procedimientos para obtener, describir e interpretar los datos de la observación
de un fenómeno que se produce en los numerosos elementos de un conjunto y de tal manera
dar una apreciación correcta de dicho fenómeno.
Arreglo básico de datos
Una vez recolectado los datos de las diversas medidas

efectuadas, se obtiene un conjunto desordenado de valores que no son susceptibles de
interpretación inmediata, por esto, se procede a su ordenación, de tal forma que se facilite
su comprensión y posterior análisis.
El arreglo de datos de forma ascendente o descendente es una

de las formas más sencillas de presentar información, y ofrecen ciertas ventajas sobre la
presentación de los datos "brutos" Por ejemplo, si se dispone de cargas transportada por
camiones, se puede obtener la siguiente información:
1.- Podemos describir rápidamente los valores máximos y mínimos.
2.- Podemos dividir fácilmente los datos en secciones.
3.- Podemos darnos cuenta si algunos valores aparecen más de una vez en el arreglo.
4.- Podemos observar la distancia entre valores consecutivos de la tabla.
Pese a las ventajas que acabamos de comentar, algunas veces

un arreglo de datos de este tipo no resulta práctico, puesto que al contener todas las
observaciones, resulta engorroso resumir la información y hacerla útil para una posterior
interpretación.
Es cómodo por lo sencillo que resulta su interpretación,

distribuir las observaciones en cuadros o tablas de manera que permitan una rápida
apreciación de los datos reunidos.
Confección de una Tabla de Frecuencias
Un jefe de personal de una empresa de bancaria, ha registrado

en 30 días los atrasos del personal a su cargo.
Designaremos por xi el número de atrasos del día i , en este

caso i = 1,2,3,4,……,30.

X1= 0 X2 = 2 X3= 0 X4 = 0 X5= 3 X6= 0
X7 = 4 X8= 4 X9= 1 X 10 = 3 X 11 = 1 X 12 = 2
X 13 = 5 X 14 = 1 X 15 = 1 X 16 = 4 X 17 = 3 X 18 = 7
X 19 = 8 X 20 = 5 X 21 = 1 X 22 = 2 X 23 = 3 X 24 =3
X 25 = 6 X 26 = 4 X 27 = 5 X 28 = 3 X 29 = 4 X 30 = 7
Los valores de la variable la designaremos por Y i
Definición de Términos:
Frecuencia Absoluta (n i ) = Es el número de veces que se repite un determinado valor de la

variable.
n
∑n
i =1
i = n 1 + n2 + n3 + .............. + nn = N Tamaño de la Población
en nuestro ejemplo N=30
Frecuencia Absoluta Acumulada Ascendente (N ia ) = Es el número de observaciones

menores o iguales que un determinado valor de la variable.
Frecuencia Absoluta Acumulada Descendente (N id ) = Es el número de observaciones

mayores o iguales que un determinado valor de la variable.
Frecuencia Relativa (h i ) = Es el cuociente entre la frecuencia absoluta y el número total de

observaciones.
ni
Es decir = hi 0 ≤ hi ≤ 1
N
n
∑h
i =1
i =1

Frecuencia Relativa Porcentual o Porcentaje = Es la frecuencia relativa × 100
Frecuencia Relativa Porcentual Acumulada Ascendente = Es el porcentaje de

observaciones menores o iguales a un determinado valor de la variable.
Frecuencia Relativa Porcentual Acumulada Descendente = Es el porcentaje de

observaciones mayores o iguales a un determinado valor de la variable.
Atrasos
Personal Días
Valores Frecue Frecuenci Frecuenci Frecue Frec.Rel Frec.Rel Frec.Rel Frec.Rela.
de la ncia a a ncia a. a. a. Por.Acu.As
variable Absolu Absoluta Absoluta Relativ Acu.Asc Acu.Des Porcenta c..
ta Acu. Acu. a e. c. je
Ascen. Desce.
Yi ni N ia N id hi h ia h id h i × 100 h i × 100(A)
Y1= 0 4 4 30 0,13 0,13 1,0 13 13
Y2 = 1 5 9 26 0,17 0,30 0,87 17 30
Y3= 2 3 12 21 0,10 0,40 0,70 10 40
Y4 = 3 6 18 18 0,20 0,60 0,60 20 60
Y5= 4 5 23 12 0,17 0,77 0,40 17 77
Y6= 5 3 26 7 0,10 0,87 0,23 10 87
Y7 = 6 1 27 4 0,03 0,90 0,13 3 90
Y8= 7 2 29 3 0,07 0,97 0,10 7 97
Y9= 8 1 30 1 0,03 1,0 0,03 3 100
Por ejemplo, podríamos decir que hubieron 6 días del mes, en donde hubo 3 personas
atrasadas.
9 9
TOTALES ∑ ni = 30
i =1
∑h
i =1
i =1

Distribución de Frecuencia
La distribución de frecuencia es una tabla que organiza los

datos en clases o categorías y muestra el número de observaciones provenientes del
conjunto de datos que caen dentro de cada una de las clases.
Construcción de una tabla de distribución de frecuencia
Para construir una tabla de distribución de frecuencia se deben

seguir los siguientes pasos:
1.- Escoger el número de clases en los cuales se clasifican las observaciones.
El número de clases o intervalo se eligen de acuerdo al número de observaciones

que se disponga. Aunque no existe una regla para definir el número de
intervalos, nunca es menor que 6 ni mayor que 15.
Cuanto más sean las observaciones o más amplia la gama, más clases se
necesitarán, para representarlos. Desde luego, si tenemos solamente 10 datos,
sería absurdo tener también 10 clases.
2.- Determinar el ancho de los intervalos de clase
Dado que necesitamos tomar los intervalos de clase de igual tamaño, el número
de clases determina el ancho de cada uno de ellos.
Se define Rango = Máximo valor - Mínimo Valor
Así, el ancho del intervalo de clase se determinará como
Ancho I.C. = Rango + 1 unidad significativa

N° de intervalos de clase
Ejemplo 1:Supongamos que queremos tener 6 intervalos de un grupo de observaciones, de

las cuales se extrajo la siguiente información
Máximo Valor : 169
Mínimo Valor : 152 Rango : 169 - 152 = 17
Ancho I.C. = 17 + 1 = 3
6

Los intervalos serían entonces
152 - 154
155 - 157
158 - 160
161 - 163
164 - 166
167 -169
Existen variadas formas de construir tablas de distribución de frecuencias y que podemos

encontrar en algún texto de estudio, como el que a continuación se muestra, con los mismos
datos anteriores:
[152 - 155) [152 – (152+3))

[155 - 158) [155 – (155+3))
[158 - 161) [158 – (158+3))
[161 - 164) [161 – (161+3))
[164 - 167) [164 – (164+3))
[167 – 170) [167 – (167+3))
[ ]= Significa que se considera desde y hasta esa cifra.

( )= Significa que se considera hasta el valor anterior
Pero, ¿que pasará si el cuociente para determinar el ancho del intervalo no entrega un
residuo igual a cero?
Ejemplo 2 : Veamos ahora el siguiente ejemplo, para 8 intervalos
Máximo Valor : 121

Mínimo Valor : 46 Rango : 121 - 46 = 75 Ancho I.C. = 75 + 1
8
76 : 8 = 9,5 --> Ancho del intervalo

4
Ampliar los intervalos a (9) Distribución del resto con 8 intervalos
76 + 5 = 81 : 9 = 9 Ancho del intervalo 76 + 4 = 80 :8 = 10 Ancho del

intervalo
0 0

Luego repartimos los complementos en el intervalo mínimo y máximo
Luego los intervalos quedarán de la siguiente manera
(9) Intervalos con Ancho (9) (8) Intervalos con Ancho (10)
(1) 44 - 52 (1) 44 - 53
(2) 53 - 61 (2) 54 - 63
(3) 62 - 70 (3) 64 - 73
(4) 71 - 79 (4) 74 - 83
(5) 80 – 88 (5) 84 - 93
(6) 89 – 97 (6) 94 - 103
(7) 98 – 106 (7) 104 - 113
(8) 107 – 115 (8) 114 - 123
(9) 116 – 124
Aquí se puede notar que se sacrificó el número de intervalos aumentando a nueve y

en el otro caso disminuyendo a ocho.
Normalmente este tipo de situaciones no reviste demasiada importancia ya que no

influirá en las conclusiones finales que se puedan extraer de la variable bajo estudio.
Ejemplo 3 : Supongamos ahora que tenemos la siguiente información para 9 intervalos
Máximo Valor : 0.59
Mínimo Valor : 0.15 Rango : 0.59 - 0.15 = 0.44
Ancho I.C. = 0.44 + 0.01 = 0.05

9

3.- Clasificar los puntos de datos en clases y contar el número de puntos en cada
clase.
Toda observación debe pertenecer a una y solamente una

clase, si existiera alguna duda respecto a la clasificación de algún dato, significa que los
intervalos están mal construidos.
Ejemplo : El Presidente del banco Express, está tratando de estimar cuanto han sido los
tiempos de demora en días en aprobar los créditos hipotecarios. Sus asesores han reunido
los siguientes tiempos de espera de las solicitudes presentadas en el año anterior. Los
datos se dan en días a contar desde la fecha de solicitud hasta el dictamen del banco.
Construir una distribución de frecuencia usando 10 intervalos igualmente espaciados.

¿Qué intervalo ocurre con mayor frecuencia?
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 27 33 28 30
30 41 39 38 33 35 31 36 37 32
23 45 39 37 38 36 33 35 42 38
34 22 37 43 52 32 35 30 46 36
Máximo Valor : 52
Mínimo Valor : 22 Rango = 52 – 22 = 30 Ancho I.C. = 30 + 1 = 31
10 10
En este caso como el complemento es solo una unidad, esta unidad puede ser despreciable
para el investigador, por lo tanto se le suma al ultimo intervalo, por lo que se puede
apreciar, todos los valores igual se encuentran dentro de los intervalos.
Marca de Clase: Se define como el valor medio del Intervalo de Clase
Intervalo Marca Frecuencia Frecuencia Frecuencia Frecue. Frec. Relat.

de Clase de Clase absoluta Absoluta relativa Relat. Acum. (%)
Acum. Asc. (%) ascendente
22 - 24 23 2 2 0.04 4 4
25 - 27 26 2 4 0.04 4 8
28 - 30 29 7 11 0.14 14 22
31 - 33 32 10 21 0.2 20 42
34 - 36 35 9 30 0.18 18 60
37 - 39 38 9 39 0.18 18 78
40 - 42 41 5 44 0.1 10 88
43 - 45 44 4 48 0.08 8 96
46 - 48 47 1 49 0.02 2 98
49 - 52 50.5 1 50 0.02 2 100
Total 50 1 100

Medidas de tendencia central o Estadígrafos de Posición
Una de las primeras medidas de interés para el análisis de

datos son aquellas que indican la posición de los datos recolectados. Como primera
instancia se estudiarán aquellas medidas que pudieran ubicar el "centro" de un grupo de
datos, para posteriormente extenderse el estudio hacia cualquier medida de posición de la
distribución de los datos.
Notación : Denotaremos por xi a cualquiera de los n valores

x1,x2,....xn que toma una variable X.
El Promedio (Media Aritmética)
El Promedio, también conocido como media aritmética, de un

conjunto de observaciones, es el centro de gravedad de ese conjunto de valores. El
promedio se calcula sumando las n observaciones y posteriormente dividiendo esta
sumatoria por el total de observaciones
a) Datos no agrupados
n
∑ xi
Se calcula como X = i =1
n
b) Para datos agrupados

n
∑n i × xi
Se calcula como X =
i =1
en donde xi es la i-ésima marca de clase

ni frecuencia observada para la clase ni
i es el número de clases
Este promedio también se conoce como promedio ponderado ya que está considerando fi
veces cada unos de los valores de la variable que se presenta en la distribución.
Propiedades
a) Si a cada valor de la variable se le suma una constante, el promedio de estos nuevos

valores, será igual al promedio de los valores originales más la constante.
b) Si a cada valor de la variable se multiplica por una constante entonces el promedio

calculado con estos nuevos valores será igual al promedio de los valores originales
multiplicado por la constante.
c) El promedio de un grupo de valores iguales es igual a uno de esos valores.

Media Aritmética ponderada
Se define como:
X =
n1 ∗ x1 + n2 ∗ x 2 + ............ + nk ∗ x k
=
∑n i ∗ xi
n1 + n2 + ....... + nk n
Media Geométrica (G)
La media geométrica se aplica especialmente en casos en que

existe una tasa de crecimiento relativamente constante (población, montos medios de
capitales sujetos a interés compuesto, etc.) o simplemente cuando se desea un porcentaje
medio de crecimiento o baja, según corresponda.
G = n x1 ∗ x 2 ∗ x3 ∗ ............... ∗ x n
Ejemplo: Una ciudad tiene en 1980 una población de 1,5 millones de personas, lo que sube
en 1990 a 2,2 millones de personas y en el 2000 a 4,1 millones de personas. Se pregunta
por la población media del periodo.
G = 3 1,5 ∗ 2,2 ∗ 4,1 = 2,38
Ahora, si para el mismo ejercicio calculamos, el promedio o

su media aritmética x = 2,6
La Mediana
La mediana de un conjunto de valores, es el valor que divide a

las observaciones en 50% menores y 50% mayores que ese valor.
a) Para datos no agrupados: Primeramente se calcula la posición de la mediana y luego se

calcula el estadístico.
X n / 2 + X n / 2 +1
a1) Si n es par Me =
2
a2) Si n es impar Me = X ( n +1) / 2

b) Para datos agrupados: Primeramente se calcula la posición de la mediana y luego se

calcula el estadístico.
⎛n ⎞
( )1⎟⎠
⎜ − ∑f
⎝2
Me = L i + ×C
f med
en donde Li............. Límite inferior real de la clase de la mediana

n .............. número de observaciones
(Σf)1 .......suma de frecuencias de las clases inferiores a la de la mediana
f med .......frecuencia de la clase mediana
C .............anchura del intervalo de clase de la mediana
La Moda
La moda es el valor del grupo de observaciones que se repite

en más oportunidades (tiene mayor frecuencia), dentro del conjunto de datos. Si el conjunto
de datos tiene una sola moda, se le denomina monomodal, de la misma manera puede ser
bimodal o multimodal, según se aprecien dos o más valores modales respectivamente.
a) Para datos no agrupados
Se revisan los datos y se selecciona aquel se repite más veces.

En caso de no existir un valor que se repite, entonces se dice que el grupo de observaciones
no tiene Moda.
⎛ ∆1 ⎞
b) Para datos agrupados Mo = L i + ⎜ ⎟×C
⎝ ∆1 + ∆2 ⎠
en donde Li...........Límite inferior real de la clase modal.

∆1 .........Exceso de frecuencia modal sobre la clase inferior inmediata.
∆2 Exceso de la frecuencia modal sobre la clase superior

inmediata.
C ...........Anchura del intervalo de clase modal.

Ejercicios:
1.- El examen final de un curso vale tres veces mas que una evaluación parcial, y un
estudiante tiene una nota de 6,2 en el examen final y un 5,5 y un 3,8 en las dos pruebas
parciales. ¿Cuál es la calificación media obtenida por el alumno?
(1) × (5,5) + (1) × (3,8) + (3) × (6,2)

X = = 5,58
1+1+ 3
2.- El conjunto de doce datos es el siguiente:
5, 2, 18, 9, 10, 2, 12, 10, 9, 11, 9, 7
Calcular: a) X b) M e c) M o
Desarrollo:
5 + 2 + 18 + 9 + 10 + 2 + 12 + 10 + 9 + 11 + 9 + 7
a) X = = 8, 6
12
b) M e = posición = 2,2,5,7,9,9,9,10,10,11,12,18
12 12
X n/2 + X n/2 +1 + +1
Me = = 2 2 = 6,5 posición
2 2
M e = posición = 2,2,5,7,9,9,9,10,10,11,12,18
posición
9+9
El calculo del estadístico es M e = =9
2
c) Mo = 9 es el dato que mas se repite
3.- El conjunto de siete datos es el siguiente:

12, 5, 3, 8, 10, 16, 15
Calcular: a) X b) M e c) M o
3 + 5 + 8 + 10 + 12 + 15 + 16
a) X = = 9,86
7
7 +1
b) Me = =4 posición
2
M e = 3, 5, 8, 10, 12, 15, 16
M e = 10
c) M o = No tiene Porque no hay ningún dato que se repita
4.- Se sabe que los sueldos en una empresa bancaria son los siguientes:
Los empleados ganan $ 500.000 y son 50, $ 850.000 para los ejecutivos y son 20 y de $
1.350.000 para los gerentes de áreas y son 5.
¿Calcular el sueldo promedio de la Empresa Bancaria?
50 × 500.000 + 20 × 850.000 + 5 × 1.350.000

X = = 650.000
75
5.- Si la renta anual media de los trabajadores agrícolas y no agrícolas en Estados Unidos,
es de US$ 8.500 y US$ 10.000 respectivamente. Si se sabe que hay un trabajador agrícola
por cada 11 trabajadores no agrícolas, determinar la renta promedio anual de estos
trabajadores.
X a = US$ 8500.- X na = US$ 10.000.-
1 × 8.500 + 11 × 10.000
X = = US$ 9.875.-
12
6.- Se tienen los siguientes datos agrupados:
Calcular la Media, Mediana y Moda.

Yi ni xi ni × x i hi hia hia × 100

89 – 109 6 99 594 0,100 0,100 10,0
110 - 130 10 120 1200 0,167 0,267 26,7
131 - 151 13 141 1833 0,217 0,484 48,4
152 - 172 12 162 1944 0,200 0,684 68,4
173 - 193 9 183 1647 0,150 0,834 83,4
194 - 214 7 204 1428 0,116 0,950 95,0
215 - 235 3 225 675 0,050 1,000 100,0
∑ = 60 ∑ = 9.321 ∑ =1
∑n i × xi
9.321
Media: X =
i =1
= = 155,35
n 60
⎜ − (∑ f )1 ⎟
⎛n ⎞ ⎛ 60 ⎞
⎜ − 29 ⎟
⎝2 ⎠ × C = 151,5 + ⎝ 2 ⎠ × 21 = 153,25
Mediana: Me = Li +
f med 12
⎛ ∆1 ⎞
Moda: Mo = Li + ⎜⎜ ⎟⎟ × C = 130,5 + ⎛⎜ 3 ⎞⎟ × 21 = 146,25
⎝ ∆1 + ∆ 2 ⎠ ⎝ 3 + 1⎠
7.- El número de prestamos cursados durante 31 días, en una financiera fueron los
siguientes:
130-125-157-138-170-137-160-128-112-159-148-136-173-158-153-145-127-119-143-120-
148-118-163-141-151-169-136-119-137-129-175
a) Construya una tabla de frecuencias con 8 intervalos.

b) Calcule la media
c) Calcule la mediana
d) Calcule la moda
8.- El número de usuarios atendidos en una Capitanía de Puerto, durante 80 días fueron los
siguientes:
68-84-75-82-68-90-62-88-76-93-73-79-88-73-60-93-71-59-85-75-61-65-75-87-73-81-72
74-62-95-78-63-72-66-78-82-75-94-77-69-74-68-60-96-78-89-61-75-95-60-79-63-76-75

83-71-79-62-67-97-78-85-76-65-71-75-65-80-73-57-88-78-62-76-53-74-86-67-85-77
a)Construya una tabla de frecuencias con 9 intervalos.

b)Calcule la media
c)Calcule la mediana
d)Calcule la moda
9.- El número de tarjetas visas vendidas por 40 empleados de una empresa bancaria, están
representadas en la siguiente tabla::
Tarjetas Visa Frecuencia

118 – 126 3
127 - 135 5
136 - 144 9
145 - 153 12
154 - 162 5
163 - 171 4
172 - 180 2
Total 40
a)Calcule la media
b)Calcule la mediana
c)Calcule la moda
10.- Los clientes atendidos por una ejecutiva de cuentas de un banco durante diez días
consecutivos fueron los siguientes:
Dias Nro. Clientes

1 49
2 50
3 21
4 33
5 43
6 52
7 30
8 31
9 25
10 29
a)Calcule la media
b)Calcule la mediana
11.- Un tren lleva 600 pasajeros con una estatura media de 1,70 metros. Silos 2/3 son
mujeres cuya estatura media es de 1,60. ¿Cuál es la estatura media de los hombres?

X =
n1 ∗ x1 + n2 ∗ x 2 + ............ + nk ∗ x k
=
∑n i ∗ xi
n1 + n2 + ....... + nk n
n1 ∗ x1 + n 2 ∗ x 2
X =
n1 + n 2
Se sabe que N = n1 + n 2
600=400+200
Entonces reemplazando en la formula y despegando X tenemos:
1,60 × 400 + X 2 × 200

1,70 = =
600
X 2 = 1,9
Los Fractiles

Son medidas descriptivas de una serie de observaciones que

consideran fracciones acumuladas de estas. Podemos enumerar los siguientes fractiles:
Deciles (Dk k=1,2,...,10) Divide el conjunto de observaciones en diez sectores de

10% de los datos cada uno. El D5 coincide con la mediana
⎛ n(k / 10) − (∑ f )1 ⎞
Dk = Li + ⎜ ⎟×C
⎜ f ⎟
⎝ dk ⎠
en donde Li.............Límite inferior real de la clase del decil

n ..............número de observaciones
k ..............Valor del decil que se desea calcular
(Σf)1 .......suma de frecuencias de las clases inferiores a la del decil
C .............anchura del intervalo de clase del decil
f dk ..........valor de frecuencia en donde se ubica el decil
Percentiles (Pk k=1,2,....,100) Divide el conjunto de observaciones en cien sectores

de 1% de los datos cada uno. El P50 coincide con la mediana.
⎛ n(k / 100) − ( ∑ f ) ⎞
P k = Li + ⎜ 1
⎟ ×C
⎝ f pk ⎠
Cuartiles: (Qk k=1,2,3,4) Dividen el conjunto de observaciones en cuatro sectores

de 25% de los datos cada uno. El Q2 coincide con la mediana
⎛ n(k / 4) − (∑ f )1 ⎞
Qk = Li + ⎜ ⎟×C
⎜ f ⎟
⎝ q k ⎠
OBS: P25=Q1 P50=
Q2=D5 P10=D1 P75=Q3 P20=D2 P30=D3, etc.
12.- Se tienen los siguientes datos agrupados:

Calcular: Decil 7, Percentil 59, Cuartil 1
Yi ni xi ni × x i hi hia hia × 100

89 – 109 6 99 594 0,100 0,100 10,0
110 - 130 10 120 1200 0,167 0,267 26,7
131 - 151 13 141 1833 0,217 0,484 48,4
152 - 172 12 162 1944 0,200 0,684 68,4
173 - 193 9 183 1647 0,150 0,834 83,4
194 - 214 7 204 1428 0,116 0,950 95,0
215 - 235 3 225 675 0,050 1,000 100,0
∑ = 60 ∑ = 9.321 ∑ =1
⎛ ⎛7⎞ ⎞
⎜ 60 × ⎜ ⎟ − 41 ⎟
D7 = 172,5 + ⎜ ⎝ 10 ⎠ ⎟ × 21 = 174,83
⎜ 9 ⎟
⎜ ⎟
⎝ ⎠
⎛ ⎛ 59 ⎞ ⎞
⎜ 60 × ⎜ ⎟ − 29 ⎟
P59 = 151,5 + ⎜ ⎝ 100 ⎠ ⎟ × 21 = 162,7
⎜ 12 ⎟
⎜ ⎟
⎝ ⎠
⎛ ⎛1⎞ ⎞
⎜ 60 × ⎜ ⎟ − 6 ⎟
Q1 = 109,5 + ⎜ ⎝ 4⎠ ⎟ × 21 = 128,4
⎜ 10 ⎟
⎜ ⎟
⎝ ⎠
Examinemos detenidamente las siguientes figuras, cada una

de las cuales contiene un ejemplo de posibles distribuciones de frecuencia, es decir posibles
comportamientos de un grupo de datos.
La fig. a, es simétrica, la fig b, está sesgada a la derecha y la

fig c, lo está a la izquierda.

Promedio=Mediana=Moda
Fig a : Distribución de datos forma simétrica
Figb : Distribución de datos forma sesgada a la derecha
Fig c : Distribución de datos forma sesgada a la izquierda
En la fig a, donde la distribución es simétrica, y solamente

existe una moda, la tres medidas de tendencia central, (la moda, la mediana y el promedio)
coinciden con el punto más alto de la gráfica. En la fig. b, el conjunto de datos está sesgado
hacia la derecha. Aquí la moda está todavía en el punto más alto de la gráfica, pero la
mediana está a la derecha de ese punto y el promedio se encuentra a la derecha de la
mediana. Cuando la distribución es asimétrica a la izquierda, como ocurre en la fig. c, la
moda se encuentra en el punto más alto de la gráfica, la mediana se sitúa a la izquierda de

la moda, y el promedio también se encuentra a la izquierda pero de la mediana. Cualquiera

que sea la forma, la moda siempre se sitúa en el punto más alto.
Cuando resolvemos un problema de carácter estadístico, se ha

de decidir si usar la mediana, la moda o el promedio como medida de tendencia central. Las
distribuciones que son simétricas, siempre tienen el mismo valor para las tres medidas
como se demostró previamente.
Cuando la población tiene un sesgo positivo o negativo, la

mediana es a menudo la mejor medida de ubicación, puesto que siempre se encuentra entre
el promedio y la moda. A la mediana no la afecta tanto la frecuencia de ocurrencia de un
solo valor como la moda, tampoco es atraída por valores extremos como el promedio.
Estadígrafos de Dispersión
Dos conjuntos de datos pueden tener las mismas medidas de

tendencia central y ser muy diferentes. Esto queda demostrado en las distribuciones de
frecuencia de la siguiente figura
A
C
Esquema de tres curvas con igual promedio pero diferentes

variabilidades
El promedio en las tres curvas es el mismo, pero la curva A

tiene menor dispersión (variabilidad) que la curva B y ésta a su vez presenta menor
variabilidad que la C. Si calculamos solamente el promedio de estas tres curvas llegaremos
a la conclusión errónea que sus distribuciones son iguales sin captar la diferencia entre
ellas. Para mejorar el conocimiento sobre las distribuciones de frecuencia, es preciso que se
mida su dispersión, o sea su variabilidad.
La dispersión es una característica importante de medir y

entender porque entrega información que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos están ampliamente dispersos como los de la curva C, el
promedio será menos "representativo" de los datos en general que lo que ocurre con la
curva A.

Desviación Media
Para calcular la desviación media, se debe calcular en primer

lugar el promedio de las observaciones, luego se determina el valor absoluto de la
diferencia de cada observación y el promedio. Finalmente se suman todas estas diferencias
y se dividen por el número total de elementos de la muestra. Simbólicamente tendremos
que:
Para datos sin agrupar la formula es la siguiente:

n
∑ xi − X
MD = i =1
n
en donde
X = promedio de las observaciones.

x i − X = Desviación absoluta de xi con respecto de X .
Esta desviación media es una buena medida de dispersión

porque toma en cuenta todas las observaciones, pondera por igual a cada elemento e indica
a qué distancia del promedio se halla cada observación. Pese a estas ventajas, no se utiliza
mucho debido a razones técnicas.
Ejercicio:
Se tienen la siguiente información del numero de tarjetas visa, vendidas por 10 vendedores,
durante el periodo de una semana.
Vendedores 1 2 3 4 5 6 7 8 9 10
Tarjetas Visa 7 23 4 8 2 12 6 13 9 4
Calcular la media aritmética, mediana, moda, desviación media.
X = 8,8 tarjetas visas
M e = 7,5
Mo = 4

Para el calculo de la desviación media, tenemos que construir la siguiente tabla:
OBSERVACIÓN MEDIA DESVIACIÓN DESVIACIÓN ABSOLUTA

xi X (xi − X ) xi − X
2 8,8 -6,8 6,8
4 8,8 -4,8 4,8
4 8,8 -4,8 4,8
6 8,8 -2,8 2,8
7 8,8 -1,8 1,8
8 8,8 -0,8 0,8
9 8,8 0,2 0,2
12 8,8 3,2 3,2
13 8,8 4,2 4,2
23 8,8 14,2 14,2
∑ = 43,6
Por tanto, reemplazando en la formula tenemos que:

n
∑x i −X
43,6
MD = i =1
= = 4,36
n 10
Para datos agrupados la formula de la desviación media se calcula como:

k
∑f i × mi − X
MD = i =1
en donde
k = número de intervalos
fi = frecuencia de la i-ésima clase
mi = i-ésima marca de clase
n = número de observaciones

Ejercicio: Calcular la desviación media de la siguiente tabla, si sabemos que en cálculos

anteriores la X = 155,35
Yi fi mi (m i − X ) f i × mi − X
89 – 109 6 99 -56,35 338,1
110 - 130 10 120 -35,35 353,5
131 - 151 13 141 -14,35 186,55
152 - 172 12 162 6,65 79,80
173 - 193 9 183 27,65 248,85
194 - 214 7 204 48,65 340,55
215 - 235 3 225 69,65 208,95
∑ = 60 ∑ = 1.756,3
Por tanto reemplazando en la formula tenemos que:

7
∑f i × mi − X
1.756,3
MD = i =1
= = 29,27
n 60
Varianza
La Varianza es la medida de dispersión más importante en la

estadística, principalmente porque cumple muchas propiedades que la hacen ser preferida
ante otras medidas de dispersión.
La Varianza se calcula de la siguiente manera:
Para datos sin agrupar, la formula es la siguiente:
n
∑ (xi − X)
2
S =
2 i=1
n −1

Del ejercicio de los vendedores de tarjetas visa, calcular la varianza:
OBSERVACIÓN MEDIA DESVIACIÓN (x − X)

2
xi X (xi − X ) i
2 8,8 -6,8 46,24

4 8,8 -4,8 23,04
4 8,8 -4,8 23,04
6 8,8 -2,8 7,84
7 8,8 -1,8 3,24
8 8,8 0,8 0,64
9 8,8 0,2 0,04
12 8,8 3,2 10,24
13 8,8 4,2 17,64
23 8,8 14,2 201,64
∑ = 333,6
Luego reemplazando en la formula tenemos que:
∑ (x − X)
10
2
i
333,56
S = i =1
= = 37,06
2
n −1 9
Para datos agrupados, la Varianza se calcula de la siguiente manera:
∑ f × (m − X)
k
2
i i
S = i =1
2
n −1
Para los siguientes datos descritos en la tabla, calcularemos la varianza:
Yi fi mi (m i − X) (m − X)
i
2
f i (mi − X )
2
89 – 109 6 99 -56,35 3.175,32 19.051,92

110 - 130 10 120 -35,35 1.249,62 12.496,22
131 - 151 13 141 -14,35 205,92 2.676,99
152 - 172 12 162 6,65 44,22 530,64
173 - 193 9 183 27,65 764,52 6.880,68
194 - 214 7 204 48,65 2.366,82 16.567,74
215 - 235 3 225 69,65 4.851,12 14.553,36
∑ = 60 ∑ = 72.757,55

Luego reemplazando en la formula tenemos que:
∑ f (m − X)
k
2
i i
72.757,55
S = i =1
= = 1.233,18
2
n −1 59
Propiedades de la Varianza
i.- S2 > 0
ii.- S2 = 0 si sólo sí todas las observaciones son iguales.
iii.- Si cada una de las observaciones aumenta en k unidades, la varianza calculada

con estas nuevas observaciones no cambia.
iv.- Si cada una de las observaciones se multiplica por una constante k, entonces la
nueva varianza calculada con estas observaciones, será igual a la varianza original
multiplicada por la constante k al cuadrado.
Al calcular la varianza para un grupo de datos, nos

percatamos que el valor resultante quedará expresado en las unidades de las observaciones
pero al cuadrado, es decir, metros cuadrados, dólares cuadrados, autos cuadrados, etc. Estas
dos últimas expresiones no son intuitivamente claras ni fáciles de interpretar. Por este
motivo, es necesario realizar un cambio importante en la varianza para obtener una medida
útil de la dispersión, la cual no nos plantee un problema con las unidades de medida y que
por lo mismo resulte menos confusa. Esta medida recibe el nombre de Desviación
Standard.
Desviación Standard
La Desviación Standard, es simplemente la raíz cuadrada de la

varianza de la población, tanto para datos sin agrupar y agrupados.
∑ (x − X)
k
2
i
Para datos sin agrupar la formula es S = i =1
n −1

∑ f × (m − X)
k
2
i i
Para datos agrupados la formula es S = i =1
n −1
Ejercicio: Calcular la desviación estandar para los ejercicios anteriores:
La desviación estandar para las ventas de tarjetas visa (datos sin agrupar) S = 6,08
La desviación estandar para el ejercicio de datos agrupados S = 35,12
Coeficiente de Variación
El coeficiente de variación se obtiene dividiendo la desviación

estándar por su media, expresándose el resultado en términos porcentuales.
sy
CV y = ⋅ 100 %
y
Este coeficiente se utiliza para comparar dos o más muestras las cuales no necesariamente
deben tener el mismo tamaño (n) y determinar cuál tiene mayor o menor variabilidad
relativa o bien cuál es más homogénea. Mientras menor sea el coeficiente de variación la
muestra es más homogénea.
Se debe tener presente que el valor del coeficiente de variación es porcentual por lo que no
importa su signo. Lo anterior ocurre cuando las observaciones de la muestra toman valores
negativos por lo que la media puede dar un valor negativo.
Para establecer el grado de homogeneidad o heterogeneidad de una muestra, se clasificará

el coeficiente de variación en los siguientes rangos:
Muestra Homogénea : 0% ≤ cv y ≤ 25%

Muestra Regularmente Homogénea : 25% < cv y ≤ 75%
Muestra Heterogénea : 75% < cv y ≤ 100%
Ejemplo: Para los 100 ingresos de los empleados de una empresa se obtuvieron los
siguientes resultados:
y = $450.000
S y2 = 2.500.000.000

Se quiere conocer la homogeneidad de la empresa en términos del pago de sueldos a sus

empleados. Para ello es necesario conocer la desviación estándar:
s y = 2.500.000.000 = $50.000
Por lo tanto, el valor del coeficiente de variación de la muestra será:
$50.000
cv y = ⋅ 100 = 11,1%
$450.000
Lo que refleja que la muestra no es muy dispersa en términos del sueldo de los empleados.
Distribuciones Bidimensionales
En los capítulos anteriores se ha contemplado el caso de

distribución de los valores de sólo una variable, a menudo se presentan las observaciones
respecto a dos variables en forma simultanea, como ocurre cuando se conocen el peso y
edad de un grupo de alumnos, la estatura de padres e hijos, o los ingresos y gastos de varias
familias. Se trata en estos casos de distribuciones bidimensionales. Es posible analizar
posteriormente si existe alguna relación funcional entre ambas variables e incluso,
cuantificar esta relación.
Presentación de los Datos.
Los antecedentes propios de las distribuciones bidimensionales, para los fines de su

estudio, pueden corresponder a un pequeño grupo de observaciones o a uno muy numeroso.
Cuando los datos son mas numerosos, su presentación y su análisis es algo mas engorroso.
Ejemplo: Supóngase que se poseen los siguientes datos de un grupo de 127 familias, que
considera las variables Ingresos y Gastos en consumo respectivamente.
Ingresos (x) Gasto Consumo (y) Nro. Familias

117 47 2
125 49 3
129 60 5
130 55 4
131 56 6
132 60 6
135 80 10
139 58 12
130 63 14
140 70 8
142 72 8
145 68 7

149 59 8
153 49 7
155 79 6
159 85 7
160 80 6
162 82 5
164 88 3
∑ = 127
Como por ejemplo debe interpretar en el sentido de que existen dos familias, donde el
Ingreso es de 117 y el Gasto en consumo es de 47.
Para determinar el cuadro de frecuencias se hace igual que el caso de una variable, teniendo
presente
xi = representa el i-esimo valor de la variable Ingreso.
mientras
y j = significa el j-esimo valor de la otra variable, en este caso el gasto en Consumo.
La frecuencia absoluta nij corresponde al número de veces que se presentan conjuntamente

los valores de xi y y j
Para el ejemplo, construir una tabla de frecuencias de 6 intervalos de clases:
47 + 1
Variable Ingreso: 164-117= =8
6
41 + 1
Variable Gasto: 88-47= =7
6
DISTRIBUCIÓN DE FAMILIAS CONSIDERANDO

EL INGRESO Y EL GASTO EN CONSUMO
X 117-124 125-132 133-140 141-148 149-156 157-164 nj

Y
47-53 2 3 7 12
54-60 21 12 8 41
61-67 14 14
68-74 8 15 23
75-81 10 6 6 22
82-88 15 15
ni 2 38 30 15 21 21 127

Ejercicio: A partir de la tabla anterior, calcular la media, varianza y desviación estandar y

coeficiente de variación, para la distribución marginal del gasto en consumo y de los
ingresos respectivamente.
Para la variable Gasto Y = 66,6 S y2 = 123,50 S y = 11,11 CVY = 0,16
Para la variable Ingresos X = 141,3 S X2 = 144,71 S X = 12,02 CV X = 0,08
Covarianza
Cuando se estudian dos variables, se definirá una nueva

medida de dispersión, la covarianza. Se puede considerar que la covarianza representa el
grado de variabilidad conjunta de ambas variables en relación con sus respectivas medias.
La formula para datos no agrupados es:
∑ (x − x ) ⋅ ( y − y)
n
i i
Cov( x, y ) = i =1
La formula para datos agrupados es:
∑ (x )( )
n
i − x ⋅ y i − y × nij
Cov( x, y ) = i =1
La covarianza puede tomar cualquier valor: cero, positivo o negativo.
Cov ( x , y ) > 0 , significa que las dos variables se mueven en el mismo sentido, es decir, a
medida que una variable crece la otra también crece y viceversa. Por ejemplo, ingreso y
ahorro, por lo general, tienen una covarianza positiva ya que a medida que aumentan los
ingresos mayor es la capacidad de ahorro.
Cov ( x , y ) < 0 significa que las variables se mueven en sentido contrario, es decir, a medida
que una variable crece la otra decrece y viceversa. Por ejemplo, gasto y ahorro, por lo
general, tienen una covarianza negativa ya que a medida que aumentan los gastos menor es
la capacidad de ahorro.
Cov ( x , y ) = 0 significa una de dos cosas, o una de las variables es constante, o las dos
variables son independientes, es decir, no existe ninguna relación entre ellas.
Observación: dos covarianzas son comparables sólo si las variables se encuentran
expresadas en unidades comparables.
Distribución Normal

Una de las distribuciones teóricas mejor estudiadas y más utilizada en la práctica es la

distribución normal, también llamada distribución gaussiana. Su importancia se debe
fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos
naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos
(como la talla o el peso), o psicológicos (como el coeficiente intelectual) son ejemplos de
variables de las que frecuentemente se asume que siguen una distribución normal.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse,

además, por otras razones. Muchos de los procedimientos estadísticos habitualmente
utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas
no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede
obviarse cuando se dispone de un número suficiente de datos, resulta recomendable
contrastar siempre si se puede asumir o no una distribución Normal. La simple exploración
visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras
medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir,
de un modo más riguroso, si la muestra de la que se dispone procede o no de una
distribución normal.
En resumen, la importancia de la distribución normal se debe principalmente a que hay

muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal.
Caracteres morfológicos de individuos (personas, animales, plantas) de una especie, por

ejemplo, tallas, pesos, envergaduras, diámetros, perímetros.
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una
misma cantidad de abono.
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen.
Caracteres psicológicos, por ejemplo, coeficiente intelectual, grado de adaptación a un

medio.
La distribución normal tiene forma de campana, en dónde existe una simetría en la

distribución de los valores en torno a su media. A su vez se tiene que la media, mediana y
moda son iguales.
Para una distribución normal se tiene que:
[
El 68,3% de las observaciones se encuentran en el intervalo y − s y , y + s y ; ]
[ ]
El 95,5% de las observaciones se encuentran en el intervalo y − 2 ⋅ s y , y + 2 ⋅ s y ;
[ ]
El 99,7% de las observaciones se encuentran en el intervalo y − 3 ⋅ s y , y + 3 ⋅ s y .

Por lo tanto, mientras más pequeño sea el valor de la desviación estándar la muestra es más
homogénea.
Ejemplo: La siguiente tabla muestra los sueldos de 50 funcionarios de un banco (en miles
de $), calcular los intervalos en que se encuentra el 68,3%, el 95,5% y el 99,7% de los
datos.
Intervalos ni
842-1.102 5
1.103-1.363 10
1.364-1.624 4
1.625-1.885 7
1.886-2.146 2
2.147-2.407 6
2.408-2.668 8
2.669-2.929 8
Total 50
Entonces tenemos que calcular, la media, varianza y la desviación estandar:
y = 1.916,8
S y2 =
SY =
[ ]
El 68,3% de los ingresos se encuentran en el intervalo y − s y , y + s y , es decir,
[ ]
El 95,5% de los ingresos se encuentran en el intervalo: y − 2 ⋅ s y , y + 2 ⋅ s y , es decir
[ ]
El 99,7% de los ingresos se encuentran en el intervalo: y − 3 ⋅ s y , y + 3 ⋅ s y , es decir

En general, el eje de simetría de una distribución normal será el valor de la media.
ni
y
y = Me = Mo
En este caso la distribución normal es simétrica respecto de su media, ya que se observa la

misma cantidad de valores tanto a la derecha como a la izquierda del valor de la media.
En algunos casos existen distribuciones asimétricas a la derecha o izquierda de la media.

Distribución Asimétrica Nagativa (Alargamiento Izquierda)
Distribución Asimétrica Positiva (Alargam iento Derecha)
ni
ni
yi yi
Mo Me y y Me Mo
Medidas de Forma:
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra.
Se pueden estudiar las siguientes características de la curva:
Concentración: mide si los valores de la variable están más o menos uniformemente

repartidos a lo largo de la muestra.
Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la
misma (centro de simetría) los segmentos de curva que quedan a la derecha e izquierda son
similares.

Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor
de los valores medios de la muestra.
Representación gráfica
Un gráfico es una representación pictórica (mediante figuras geométricas u otros

elementos) que proporciona visualmente un resumen de la información que interesa

destacar, y lo más importante recordar. El gráfico cumple aspectos en mejor forma que un
cuadro numérico, el que a su vez, tiene interés desde otros puntos de vista.
Reglas para dibujar gráficos
La observación de las reglas que se mencionarán y comentarán, es importante para que el

gráfico cumpla correctamente su cometido principal: dar una visión global del problema,
con elementos que guardan las proporciones correspondientes.
También es importante conocer estas reglas no solamente para construir un gráfico, sino
que cuando nos enfrentemos a uno hecho por otra persona, no nos engañen con falsas
proporciones o unidades de medida diferente para cada uno de los ejes.
Naturalmente la aplicación de las reglas debe tener cierta flexibilidad y en más de alguna
ocasión será necesario apartarse ligeramente de ellas.
a) La disposición general de un gráfico debe avanzar de izquierda a derecha.
b) Siempre que sea posible, deben representarse las cantidades por magnitudes lineales,
pues las áreas y volúmenes se prestan a confusiones.
c) Debe procurarse que aparezca en el diagrama la línea correspondiente al cero. Una de las
excepciones es cuando una de las variables es el año.
d)Cuando no puede aparecer la línea del cero debido a la magnitud de los valores
representados, debe "quebrarse" la línea de las abcisas (Y) o de las ordenadas (X), según
sea el caso.
e) La línea del cero debe ser más gruesa que los trazos que representan otras coordenadas.
f) En las escalas que tienen porcentaje, conviene hacer resaltar claramente la línea del
100% u otra que se utilice para comparación.
g) En algunas ocasiones es conveniente incluir en el gráfico los datos respectivos o las

fórmulas representadas.
h) Si no se incluyen los datos en el gráfico, se debe presentar en un lugar cercano al gráfico,

un cuadro que contenga las cifras graficadas.
i) Siempre deben incluirse las unidades de medida para la abcisa y la ordenada.
j) Todo gráfico debe contener en forma clara y lo mas completa posible, la información
necesaria para su fácil y total comprensión, como títulos, período que comprende la
información, unidades de medida, fuente, etc.
Gráficos empleados con mayor frecuencia

BARRAS SEPARADAS: Cada barra representa un acontecimiento. Su largo corresponde

a la frecuencia con que se ha presentado el acontecimiento.
BARRAS AGRUPADAS: Cuando se desea comparar la frecuencia del acontecimiento en

dos o más categorías de unidades de observación, cada acontecimiento se presenta por un
grupo de barras correspondientes a las categorías.
BARRAS SUBDIVIDIDAS: Cuando se requiere mostrar la diferente proporción con que

ocurren los fenómenos en determinados grupos es conveniente subdividir las barras
correspondiente a los grupos
HISTOGRAMA DE FRECUENCIAS: Consiste en una serie de rectángulos que tienen:

Sus barras sobre el eje horizontal (el eje X), con centros en las marcas de clase y longitud
igual al tamaño de los intervalos de clase.
Superficies proporcionales a las frecuencias de clase.
POLÍGONO DE FRECUENCIAS: Es un gráfico de linea trazado sobre las marcas de clase.

Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el
Histograma.
En general existen una diversidad de otros tipos de gráficos y su uso y tipo va a depender
de lo que se quiera mostrar:
-Sectoriales o circulares o de torta

-Líneas o serie de tiempo
-Frecuencias acumuladas o áreas
-Tela de araña o radial
-Dispersión, etc.
Tarea : Con información actualizada, presentar 7 gráficos diferentes

Estadistica Descriptiva 2009

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica Descriptiva 2009

Uploaded by

Copyright:

Available Formats

INSTITUTO DE ESTUDIOS BANCARIOS 1

La Estadística es una ciencia que consta de un conjunto de

Aunque la palabra Estadística tiene un significado particular

Periodista deportivo .............goles, tiros arco etc.

Todas estas personas están usando correctamente la palabra

En la empresa moderna, los gerentes aplican algunas técnicas

Estadística Descriptiva. Consiste en la recopilación de datos a

PROFESOR : PEDRO ROJAS F.

Estadística Inferencial. Consiste en aplicar resultados de

La Estadística, el método científico. El método de

Pasos del Método Científico:

Observación: el primer paso es la observación de una parte limitada del universo o

Experimentación: la hipótesis debe ser comprobada en estudios controlados, con autentica

HP. Alterna o Científica: es la HP que pretende comprobar el investigador en su muestra

El valor de p es entonces la medida de la evidencia contra la H0.Cuanto menor sea el valor

PROFESOR : PEDRO ROJAS F.

Los datos son colecciones de un número cualquiera de

Los datos ayudan en la toma de decisiones, a hacer

Cuando los datos se organizan en forma compacta y útil, los

En el momento actual las computadoras permiten reunir

¿ De dónde proceden los datos?

La población(o universo) es una colección de todos los

La muestra es una colección de algunos de los elementos

PROFESOR : PEDRO ROJAS F.

Es muy común observar en los supermercados, secciones en

Si el catador tuviera que tomarse todo el tonel o el comprador

El tiempo es a menudo otro factor importante cuando se desea

Desde el punto de vista matemático, podemos obtener de la

El censo es examinar a todas las personas o miembros de la

La encuesta es el método que se utiliza para conocer el

PROFESOR : PEDRO ROJAS F.

Parámetro: Es una medida descriptiva de la población total de todas las observaciones de

El conjunto de todos los valores que puede tomar la

Cuando la observación se refiere a los atributos de un

Cuando la observación tiene un valor expresado por un

Una variable cuantitativa puede ser Discreta o Continua.

Variable Discreta: Son aquellas que sólo toma valores enteros.

Variable Cuantitativa Discreta

Es aquella que consta de un número finito o infinito de

Generalmente se trata de números enteros y positivos, por

Variable Cuantitativa Continua

Es aquella que puede tener infinitos valores, por ejemplo Peso

PROFESOR : PEDRO ROJAS F.

Esta diferencia que presenta la variable cuantitativa, discreta

Datos cronológicos y no cronológicos

Cuando el tiempo de ocurrencia de la característica en estudio

Series de datos Unidimensionales y Bidimensionales

Unidimensionales: Cuando se estudia solamente el

Bidimensionales: Cuando se estudian dos variables o dos

PROFESOR : PEDRO ROJAS F.

ESTUDIO DESCRIPTIVO DE LA INFORMACIÓN

Puede decirse que la estadística descriptiva es un conjunto de

Arreglo básico de datos

Una vez recolectado los datos de las diversas medidas

El arreglo de datos de forma ascendente o descendente es una

1.- Podemos describir rápidamente los valores máximos y mínimos.

2.- Podemos dividir fácilmente los datos en secciones.

4.- Podemos observar la distancia entre valores consecutivos de la tabla.

Pese a las ventajas que acabamos de comentar, algunas veces

Es cómodo por lo sencillo que resulta su interpretación,

Confección de una Tabla de Frecuencias

Un jefe de personal de una empresa de bancaria, ha registrado

Designaremos por xi el número de atrasos del día i , en este