Professional Documents
Culture Documents
1 ESTADISTICA: DEFINICIÓN
1.1 POBLACIÓN:
1
Estadística Básica en Administración pág.2
1.2 MUESTRA:
Si bien es cierto que una muestra está constituida por elementos pertenecientes a la
población, tendremos que comprender que no todo subconjunto de la población se
constituye en una muestra debidamente representativa. Vale tal vez recordar que en
1936 en vísperas a las elecciones presidenciales de EE.UU., la encuestadora
LITERARY DIGEST pronosticó el triunfo del candidato Republicano con un apreciable
El estudio realizado sobre una muestra nos permite determinar valores cuyas
características nos referiremos más adelante y a los cuales se los denomina
estimadores pudiendo también tomar el nombre de valores estadísticos, mediante
los cuales se podrá efectuar una correcta estimación sobre los valores de la
población.
Por otra parte, los valores propios de la población toman el nombre de Parámetros.
Si se pretendiere determinar el salario de los empleados metalúrgicos del País,
tomaríamos una muestra constituida por operarios de distintas empresas y distintas
provincias y siempre proporcional al número de operarios de cada lugar, el salario
promedio obtenido en la muestra se denomina estadístico, mientras que el salario
promedio de toda la población obrera metalúrgica se constituye en parámetro
1.4. PARÁMETROS
Aseverar que tal político ganará las próximas elecciones presidenciales no tiene peso
como información si no se lo acompaña con un grado de seguridad. Indicar que las
encuestas los dan ganador por tal cantidad de puntos, solo es tomado en cuenta
cuando se acompaña esa información con una determinada seguridad.
Discretos
Cuantitativos
Continuos
Tipos de Datos
Nominales
Cualitativos
Jerarquizados
Continuos: Se dice que una variable es del tipo continuo cuando asume
valores dentro de un intervalo de números reales.
Nominales: Cuando los valores que adopta la variable en estudio puede ser
clasificada de acuerdo a categorías, tal como lo sería el responder a una encuesta
efectuada al personal de una Empresa automotriz y en la cual se plantea la situación
de cada uno en cuanto a su estado civil. Sabemos que en este caso se tendrían las
categorías de:
En estos casos en donde los datos se pueden agrupar por categorías es necesario
introducir, a fin de poder realizar su estudio, una cierta codificación. De cualquier
manera no se podrán hacer estudios matemáticos entre categorías.
Media
Mediana
De tendencia
central o posición Moda
Valores
estadísticos Rango
De dispersión Desvío medio
Varianza
Desviación estándar
Coeficiente de variación
SERIE SIMPLE
A los efectos de preparar un Congreso Internacional en una zona del Sur del País, se
ha solicitado el registro de las temperaturas mínimas de los últimos once días del mes
de julio del año anterior, obteniendo como respuesta los siguientes datos:
-2 0 1 -1 -3 -1 -2 -2 1 0 -2
-3 -2 -2 -2 -2 -1 -1 0 0 1 1
En este caso, la variable en estudio está dada por las temperaturas y cada una de las
observaciones corresponderá a un nuevo valor adoptado por la incógnita.
x = temperatura
n = número de observaciones = 11
x1 x2 x3 x4 . . . . . . . . . . . . . . . . . . . . . . . . . . .xn
x1= -3 y xn = 1
Con todos los valores que adopta la variable en estudio se genera una distribución,
denominada Distribución de la Variable en estudio
2-3. MEDIA
x1 + x2 + x3 + . . . . + xN
μ = --------------------------------
N
N tamaño de la población
xi
1
N
Se denota como:
x i
x 1
n
El siguiente diagrama representa la analogía entre la media poblacional para una
población y la media muestral para una muestra:
μ
Muestra
Tamaño: N
x
Tamaño: n
En nuestro caso:
-3+(-2)+(-2)+(-2)+(-2)+(-1)+(-1)+0+0+1+1
x = ------------------------------------------------------ = -1
11
Dentro de los valores estadísticos de posición central la media es el de mayor
representatividad, pero debemos tener presente que a su ves es el más sensible a
los valores extremos de la distribución
Los valores extremos de la distribución pueden influir en el valor de la media y de esa
manera hacerle perder su condición de referente, tenga Ud. en cuenta el siguiente
ejemplo: En una Empresa con 9 operarios que ganan cada uno de ellos la cantidad de
$1000 mensuales, y con un Gerente general cuyo sueldo es de $10.000, el sueldo
promedio para esa distribución será:
μ = $ 1900
Recordar
2.4. MEDIANA
Se define como Mediana de una distribución, al valor que ocupa el punto medio de la
distribución
Ocupar el punto medio de la distribución implica que la mediana deja a la izquierda la
misma cantidad de valores que a la derecha. Todos los valores que se encuentran a la
izquierda son menores o eventualmente iguales a él, mientras que los valores que se
ubican a la derecha serán mayores o eventualmente iguales a él.
-3 -2 -2 -2 -2 -1 -1 0 0 1 1
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
Me = x6 = -1
-3 -2 -2 -2 -2 -1 -1 0 0 1
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
x5 + x6
Se tendría en este caso que Me = -------------
2
a) 4 6 6 8 Me = 6
b) 2 10 18 20 Me = 14
No obstante todo esto las propiedades que presenta la media y que veremos
más adelante la hace más atractiva para su utilización.
2.5. MODA
Se define como Moda de una distribución al valor que más veces se repite.
En nuestro caso -2 se repite en cuatro oportunidades y por lo tanto éste valor se
constituye en moda de la distribución.
Mo = -2
Con respecto a este valor es necesario aclarar que si en una distribución se tiene más
de un valor con el mismo máximo de repeticiones, cada uno de ellos se constituirá en
una nueva moda, es decir que una distribución puede tener más de una moda. En
caso de tener dos modas se la denomina bimodal y en caso de tres trimodal, etc.
Así mismo si se presentare el caso en que todos los valores de la distribución tienen
el mismo número de repeticiones, diremos que dicha distribución no tiene moda.
FRECUENCIA
Dada una distribución se define como Frecuencia de un valor, al número de veces que
el mismo se repite.
Ejemplo:
En la distribución correspondiente a las temperaturas mínimos tomadas en una
localidad del Sur del País durante los últimos 10 días, defina para cada valor su
frecuencia:
-2 -2 -4 -1 -1 -1 0 -3 -2 -1
para -4 su f = 1
-3 su f = 1
-2 su f = 3
-1 su f = 4
0 su f = 1
Tenga en cuenta que la suma de todas las frecuencias es igual al número total de
observaciones.
Caso a analizar
Supongamos tener que estudiar el número de accidentes que se producen en una
playa de estacionamiento durante los últimos 50 días. Los datos relevados son los
siguientes
5 6 4 4 4 3 2 7 5 4 4 1
0 4 2 1 3 2 2 0 1 4 4 7
4 3 2 1 4 2 5 4 3 5 6 7
4 4 5 2 3 6 4 3 1 3 4 4
5 6
Es observable que trabajar con todos los valores como lo presenta la serie simple
sería por demás engorroso si no se dispusiera de una computadora, pero si
clasificamos los valores, en este caso de acuerdo a su valor numérico y para cada
uno de ellos determinamos su frecuencia, podríamos confeccionar una tabla de las
siguientes características:
Tabla 1.1
Clase xi fi
1 0 2
2 1 5
3 2 7
4 3 8
5 4 16
6 5 5
7 6 4
8 7 3
( Xi . fi )
1
8
x =
fi
1
Tabla 1.2
Clase xi fi xi * fi
1 0 2 0
2 1 5 5
3 2 7 14
4 3 8 24
5 4 16 64
6 5 5 25
7 6 4 24
8 7 3 21
50 177
( xi. fi )
i 1
x = 177 / 50 = 3,54
n
El valor de la media o promedio de la distribución es de
x 3, 54
fi
fr i = ---------
n
Podemos ampliar la tabla de frecuencias con una nueva columna que contenga la fr de
cada clase:
Tabla 1-3
Clase xi fi xi * fi fri
1 0 2 0 0,04
2 1 5 5 0,1
3 2 7 14 0,14
4 3 8 24 0,16
5 4 16 64 0,32
6 5 5 25 0,1
7 6 4 24 0,08
8 7 3 21 0,06
50 177 1
Propiedad:
La sumas de todas las frecuencias relativas correspondientes a los valores
clases de una distribución es igual a 12:
Tener en cuenta:
(xi . fi)
= -------------- = (xi . fi/fi ) es decir
fi
2
Demostración
fri = fr1 + fr2 + fr3 . . . . . . . . + fr n
f1 f2 f3 fn fi
= --- + --- + ---- + + --- = ------- = 1
fi fi fi fi fi
Tabla 1.4
Clase xi fi xi * fi fri fai
1 0 2 0 0,04 2
2 1 5 5 0,1 7
3 2 7 14 0,14 14
4 3 8 24 0,16 22
5 4 16 64 0,32 38
6 5 5 25 0,1 43
7 6 4 24 0,08 47
8 7 3 21 0,06 50
50 177 1
Tabla 1.5
Clase xi fi xi * fi fri fai fds
1 0 2 0 0,04 2 48
2 1 5 5 0,1 7 43
3 2 7 14 0,14 14 36
4 3 8 24 0,16 22 28
5 4 16 64 0,32 38 12
6 5 5 25 0,1 43 7
7 6 4 24 0,08 47 3
8 7 3 21 0,06 50 0
50 177 1
Tabla 1.6
xi fi fri fi%
Agua c/gas 15 0,05 5
Agua s/gas 18 0,06 6
Jugos 33 0,11 11
Tónicas 44 0,1467 14,67
Colas 55 0,1833 18,33
Naranjas 63 0,21 21
Limón 72 0,24 24
fi = 300 fi% = 100
3-0 DIAGRAMAS
El poder graficar los valores estadísticos nos permite realizar una lectura rápida de la
distribución y sacar conclusiones inmediatas de la misma.
Sería suficiente abrir una hoja de cálculo para observar la cantidad variada de gráficos
con que puede ser representada una distribución: Diagramas de: Líneas, Barras,
Barras acumuladas, de Sectores o circular, Diagramas x-y, de Bastones etc. En este
texto haremos referencia a los diagramas: Circular, de Bastones e Histogramas y a
una combinación de los gráficos de Bastones, Barras y x-y Dispersión.
Ejercicio
Supongamos tener para analizar las notas obtenidas por 20 alumnos de una división
en la asignatura de Estadística:
9 7 6 6 6 5 3 4 5 5 8
7 8 7 7 6 5 6 4 10
Generaremos una distribución de frecuencias complementándola con: Frecuencias
relativas, Frecuencia acumulada y por último Frecuencia desacumulada.
Tabla 1.7
Xi fi fr i fa fds
3 1 0,05 1 19
4 2 0,1 3 17
5 4 0,2 7 13
6 5 0,25 12 8
7 4 0,2 16 4
8 2 0,1 18 2
9 1 0,05 19 1
10 1 0,05 20 0
20 1
Toda vez que se presenta una tabla tal como la 3.1, la primera pregunta que surge es,
“que se debe graficar” debe de tenerse siempre en cuenta que cada vez que se
Llevaremos en el eje de las abscisas las calificaciones y en el eje de las ordenadas las
frecuencias y representamos mediante un segmento centrado en cada una de las
calificaciones su correspondiente frecuencia; tendremos nuestro primer diagrama.
Cada uno de los bastones corresponde a la frecuencia de cada calificación y toma el
nombre de densidad de frecuencia entendiéndose como tal al cociente:
fi
dfi = ---- es decir frecuencia por unidad de intervalo de clase
x
Gráfico 1.1
Diagrama de Bastones
4
frecuencia
0
3 4 5 6 7 8 9 10
calificaciones
Para este gráfico debemos tener presente que el ángulo central del círculo es de 360º
y que cada una de las clases estará dada por un sector cuyo ángulo será proporcional
a su frecuencia:
Debe tenerse en cuenta que en todos los casos la operación que nos permite
determinar el ángulo de cada sector está dado por el producto entre 360º y el cociente
de la frecuencia de la calificación en estudio y la suma de todas las frecuencias (N),
cociente éste que según ya vimos corresponde a la frecuencia relativa (fri = f / N), es
decir que el ángulo correspondiente a un determinado sector está dado por el producto
entre 360º y su frecuencia relativa:
i = 360º. fri
Gráfico 1.2
Diagrama de Sectores
10 3
9
4
5
20%
7
20%
6
25%
3.2-HISTOGRAMA DE FRECUENCIAS:
Éste es otro de los diagramas de gran utilización para el cuál es necesario considerar
un sistema de ejes cartesianos ortogonales, debiendo representar en el eje de las
abscisas las calificaciones y en el de las ordenadas la frecuencia, las clases están
dadas por las calificaciones. El intervalo entre dos clases sucesivas se denomina
“amplitud de intervalo”, en este caso es la unidad y se la expresa como x = 1. Si
consideramos el diagrama de bastones y a partir del extremo inferior de cada uno de
ellos llevamos tanto a izquierda como a derecha la mitad del intervalo, en nuestro
caso 1 / 2 = 0,5 y levantamos las ordenadas correspondientes, nos encontramos con
un diagrama de barras sin discontinuidades al que denominaremos Histograma, en
este caso de Histograma de Frecuencias.
Gráfico 1.4
6
Frecuencia 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificaciones
La superficie encerrada por cada una de las barras está dada por el producto entre la
base x por la altura que según ya vimos estaba dada por la densidad de frecuencia.
Cada una de ellas tendrá un valor igual a su frecuencia y el área total del diagrama
será entonces la suma de todas las frecuencias e igual a N.
Si = fi = N
Si se unen los puntos medios superiores de cada una de las barras del histograma y
se considera cero las frecuencias de las clases adyacentes a los extremos de la
distribución, se formará con el eje de las abscisas un polígono denominado, en este
caso, como Polígono de Frecuencias:
3
fi
0
2 3 4 5 6 7 8 9 10 11
xi
dfri = fri / x
y por lo tanto al igual que en el diagrama anterior, la superficie encerrada por cada
una de las barras del Histograma será igual a su frecuencia relativa:
Si = x. fri / x = fri
De tal manera que el área encerrada por el Histograma de frecuencias relativas será
ahora igual a la suma de todas las frecuencias relativas y por tal razón igual a 1:
Si = fri = 1
Gráfico 1.6
3
Dos triángulos rectángulos en A y A’ con los ángulos y ’ iguales por opuestos por el vértice, y ’
alternos internos entre paralelas y el lado 11’ = 22’= x / 2 por lo tanto son iguales.
0,3
0,25
0,2
0,15
fr
0,1
0,05
0
2 3 4 5 6 7 8 9 10 11
x
Gráfico 1.7
0,3
0,25
0,2
0,15
0,1
0,05
0
2 3 4 5 6 7 8 9 10 11
Tabla 1.8
xi fi fai
0 1 1
1 2 3
2 3 6
3 4 10
4 4 14
5 3 17
6 2 19
7 1 20
fi = 20
Gráfico 1.8
FRECUENCIA ACUMULADA
22
frecuencia acumulada
20
18
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7 8 9
OBSERVACIONES
Observe el lector con que claridad este diagrama le entrega información. Por ejemplo
analizando la observación 4, el punto inferior de la barra indica que menores a 4
accidentes diarios se han producido en 10 oportunidades mientras que el punto
superior indica que en 14 oportunidades se han producido 4 o menos accidentes
diarios. De igual manera en 17 oportunidades se produjeron menos de 6 accidentes en
un día y que en solo 2 oportunidades se produjeron 6 accidentes.
De igual manera podemos graficar la frecuencia desacumulada conjuntamente con la
acumulada tal como lo muestra el Gráfico 1.8 denominado comúnmente como gráfico
de escalones. Debe tenerse en cuenta que para cualquier valor observado la suma de
la frecuencia acumulada y la desacumulada es igual al número total de observaciones.
fa + fds = n
22
20
18
16
frecuencia
14 Frecuencia acumulada
12
10 Frecuencia
8 desacumulada
6
4
2
0
0 1 2 3 4 5 6 7 8 9
observaciones
Me = (x15 + x16) / 2 = 3
Mo = 2
B) =. (xi.fi) / N = 6
Me = x16 = 6
Mo = 6
C) = (xi.fi) / N = 7,296
Me = x14 = 8
Mo = 8
0,3
frecuencia relativa
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8 9 10
observaciones
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8 9 10 11
observaciones
0,3
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8 9 10 11
observaciones
Simétrica = Me = Mo
El jefe de pelotón necesita realizar un estudio estadístico sobre estos tiempos a los
efectos de determinar:
a- Qué proporción de hombres tardan menos de 3,5’ en cruzar la pista de
combate
b- Qué proporción de los hombres del pelotón tardan menos de 4’ en cruzar la
pista
k = 1+ log2(n)
5 <= k <= 15
Es decir que el número de intervalos debe estar comprendido entre 5 y 15. Una
cantidad menor de intervalos da lugar a una distribución con información insuficiente.
Por otro lado una cantidad mayor a 15 intervalos genera una distribución que resulta
engorroso operar.
Para el caso que tenemos en estudio y teniendo en cuenta que n = 21, la raíz
cuadrada de 21 es de 4,58 y considerando la última condición, adoptaremos para k el
valor de 5, k = 5.
xN x1
x =
k
Para nuestro caso:
4,6 3,1
x = 0,3
5
(x mi * fi )
N
Para su determinación creamos una nueva columna conteniendo los productos de
xmi*fi:
Tabla 1.10
Li ls fi xmi xmi * fi
3,09 3,39 1 3,24 3,24
3,39 3,69 4 3,54 14,16
3,69 3,99 6 3,84 23,04
3,99 4,29 5 4,14 20,7
4,29 4,6 5 4,445 22,225
21 83,365
83,365
3,9697’
21
Esto nos indica que el tiempo promedio empleado por los integrantes del pelotón para
cruzar la pista de combate es de 3,9697’
HISTOGRAMA DE FRECUENCIA
Para confeccionar el Histograma y Polígono de frecuencias debemos tener presente
que las frecuencias de los intervalos adyacentes a los extremos de nuestra distribución
son nulas, además se representa en el eje horizontal las marcas de clase.
7
6
5
4
f
3
2
1
0
2,94 3,24 3,54 3,84 4,14 4,445 4,74
x
Tabla 1. 11
Li ls fi xmi Xmi * fi fai fdsi
2,79 3,09 0 2,94 0 0 21
3,09 3,39 1 3,24 3,24 1 20
3,39 3,69 4 3,54 14,16 5 16
3,69 3,99 6 3,84 23,04 11 10
3,99 4,29 5 4,14 20,7 16 5
4,29 4,6 5 4,445 22,225 21 0
4,6 4,39 0 4,74 0 21 0
a) Método gráfico
Tracemos los diagramas correspondientes a la frecuencia acumulada:
Gráfico 1.14
25
20
15
fa
10
0
2,94 3,24 3,54 3,84 4,14 4,445 4,74
x
Gráfico 1.15
25
20
15
fa - fds
10
0
2 2,5 3 3,5 4 4,5 5
-5
x
Fa + frds = N
b) Método Analítico
Gráfico 1.16
12
10
0
3,69 Me 3,99
Li x Ls
2–3 1-2
---------- = -------------
2’ – 3’ 1 – 2’
Si reemplazamos tendremos:
fm x
x (N/2 – fai)
Me = Li + -----------------
fm
Me = 3,965’
Gráfico 1.17
4
f
0
3,54 3,84 4,14
x
Li Ls
Como li se define al inicio del intervalo modal (3,69), el valor de la moda de una
distribución de intervalos de clase esta dada por la expresión:
Conclusiones:
En una distribución de intervalos de clase, la moda se encuentra siempre ubicada en
el intervalo modal, pero desplazada hacia el intervalo adyacente de mayor frecuencia.
Los valores determinados para la media, mediana y moda, indican que la distribución
tiene un leve sesgo derecho:
Media 3,9697’
Mediana Me = 3,965’
Moda Mo = 3,89’
> Me > Mo
4- VALORES DE DISPERSIÓN
¿Son suficientes los valores de posición central para determinar las características de
una distribución? Para responder a esta pregunta observemos la siguiente situación:
Tabla 1. 12
X1 F1 X2 F2
0 0 0 0
1 3 1 6
2 4 2 8
3 7 3 4
4 5 4 3
5 4 5 2
6 2 6 2
7 1 7 1
8 0 8 0
26 26
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10
Gráfico 1.20
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
Es necesario entonces considerar valores que nos determinen que tán cuan dispersos
están. Estos valores se denominan valores de dispersión:
Definición
La diferencia entre los valores extremos de una distribución se denomina Alcance o
Rango y se lo denota como R
R = xn – x1
A) 0 1 1 2 4 6 8 10 12 14
En la distribución A
R = 14 – 0 = 14
En la distribución B
R = 64 – 50 = 14
Ambas tienen el mismo número de elementos, el mismo alcance, no obstante ello son
distintas, es decir que el Rango o Amplitud de una distribución nos entrega una
información limitada.
d1
3,9697
d2
d1 = xm1 -
d2 = xm2 -
pdm
(x mi ). fi
N
Pero nos encontramos con que la suma de todos los desvíos es nula y siempre lo
serán por considerar como punto de referencia a la media. Todas las distancias de las
marcas de clase que se ubiquen a la izquierda de la media serán negativas, mientras
que las distancias de los que se ubiquen a la derecha serán positivas. El problema
radica en anular los signos negativos, para ello podemos:
DM
xmi . fi
N
Esta expresión se define como Desvío medio (Promedio de los desvíos absolutos
medios).
Tabla 1. 13
DM = 0,3074’
pdmc
(x mi )2 . fi
N
Esta expresión que definimos como: el promedio de los desvíos cuadráticos medios y
se denomina Varianza.
Es conveniente entonces considerar una nueva columna conteniendo la suma de los
desvíos cuadráticos medios tal como la tabla:
Tabla 1. 14
( xi ) 2
fi
N
O abreviando
Var (x) =
0,126 0,3549’
Desvío estándar = 2
Desvío estándar =0,5
Desvío estándar =1
CV . 100%
Como tanto la desviación estándar y la media tienen las mismas unidades, al dividirlas
se simplifican y nos queda un coeficiente, es adimensional. Por otra parte el CV
entrega la proporción de la desviación estándar respecto de la media. En el caso que
nos ocupa el:
0,3549
CV .100 8,94
3,9697'
CV = 8,94%
X1 Q1 Q2 Q3 Xn
Una cuarta parte de las observaciones se encuentran por debajo de Q1, como que
también ½ están por debajo de Q2. Entre Q3 y Q1 se concentra el 50% de las
observaciones. Es necesario aclarar que Q1 como Q2 y Q3 son los puntos fractiles,
por debajo de cada uno de ellos se encuentran los porcentajes los correspondientes
porcentajes de datos.
Cuando el número de valores no es lo suficientemente grande la determinación exacta
de los cuartiles puede ser complicada, ya que es factible que el valor del cuartil quede
entre observaciones, de cualquier manera en general podemos decir que la
determinación de cada cuartil quede satisfecha con las expresiones:
La determinación de los cuartiles para datos no agrupados están dadas por las
expresiones:
Q1 = X (1 / 4 N 1 / 4)
Q2 = X (1 / 2 N 1 / 2)
Q3 = X (3 / 4 N 1 / 4)
Gráfico 1.22
Q1 Q2 Q3
xi
80
Gráfico 1.24
fdp
68% N
95%N
99,72% N
( 1 ) se tiene el 68% de N
( ) se tiene el 95% de N
( 3 ) se concentra el 100% de N