You are on page 1of 35

1

1

Competencia especfica a desarrollar
Analizar un conjunto de datos, determinando estadsticamente sus parmetros y
representaciones grficas, facilitando la toma de decisiones.

La importancia de la estadstica en la vida actual
ENSAYO
La estadstica recoge, organiza, resume y analiza datos, nos permite sacar conclusiones y
tomar decisiones basadas en tal anlisis que se realiza en casi cualquier aspecto de
nuestra vida.
Un ejemplo claro que se puede mencionar principalmente en la parte de la recoleccin de
datos son los censos que maneja el INEGI en la cual se cuenta a cada persona que existe
en determinado lugar hasta llegar a un nmero posiblemente no preciso pero si cercano
de habitantes de una poblacin, cuidad, estado hasta del pas entero o del mundo.
Existen varias formas de aplicar la estadstica en nuestras vidas y ms en estos tiempos en
donde la poblacin, hablando del CENSO, viene creciendo de una forma rpida y resulta
muy interesante la forma o estrategias que se usan para contabilizar una poblacin.
La pregunta que casi la mayora se hace es la de, Cmo es que lo saben?, Cmo manejan
tantos nombres, datos, y sus caractersticas de cada persona?, etc.
Este solo se resuelve conociendo parte del trabajo de la estadstica, dndonos cuenta de
que es una maravilla gracias a las tcnicas que existe para la recoleccin de datos, hasta
para su anlisis.
Con este ejemplo nos podemos dar cuenta de que la estadstica es muy importante ya que
nos facilita el manejo de datos de una manera muy singular, y que sin ellas sera muy
difcil llevar el control de datos de todo tipo.





2

2

Qu es la estadstica moderna?
La estadstica es la parte de las matemticas que se ocupa de los mtodos para recoger,
organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar
decisiones razonables basadas en tal anlisis.
Por qu estudiarla?
La Estadstica puede dar respuesta a muchas de las necesidades que la sociedad actual
nos plantea. Su tarea fundamental es la reduccin de datos, con el objetivo de representar
la realidad y transformarla, predecir su futuro o simplemente conocerla.
Partes en que se divide la estadstica moderna para estudiarla
La estadstica se divide en dos grandes reas:
Estadstica descriptiva
Se dedica a la descripcin, visualizacin y resumen de datos originados a partir de los
fenmenos de estudio. Los datos pueden ser resumidos numrica o grficamente.
Ejemplos bsicos de parmetros estadsticos son: la media y la desviacin estndar.
Algunos ejemplos grficos son: histograma, pirmide poblacional, grfico circular, entre
otros.
Estadstica inferencial
Se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los
fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa
para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo
estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas s/no (prueba
de hiptesis), estimaciones de unas caractersticas numricas (estimacin), pronsticos de
futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de
relaciones entre variables (anlisis de regresin). Otras tcnicas de modelamiento
incluyen anova, series de tiempo y minera de datos.
El mtodo cientfico en la Estadstica
El Mtodo Cientfico como un mtodo o conjunto sistematizado de procesos en los que se
basa la ciencia para explicar cualquier fenmeno y las leyes que los administran.

3

3

Proceso que se sigue al aplicar el Mtodo
Cientfico.
La estadstica descriptiva es la herramienta ms til en la etapa de observacin, ya que
nos permite extraer informacin para realizar nuestras hiptesis fundadas en estos
resultados. Tambin es utilizada para valorar los resultados del experimento.
La estadstica analtica se utiliza a partir de la observacin, ya que dependiendo de los
datos observados, se utilizar una tcnica u otra, y por supuesto en el proceso del
experimento, ya que su diseo depender en cierta medida de las tcnicas estadsticas
ms apropiadas, adems, la estadstica analtica es el primer y principal razonamiento
vlido.
Como vemos, la estadstica proporciona un gran apoyo al Mtodo Cientfico en las fases
de observacin y experimentacin, pero en el proceso de hiptesis y en el de la obtencin
de una ley cientfica son otras las bases.
Mtodos para la obtencin de datos
Los datos estadsticos son nmeros que pueden ser comparados, analizados e
interpretados. El campo del cual son tomados los datos estadsticos se identifica como
poblacin o universo.
En un estudio estadstico los mtodos que se aplican son:
A. RECOPILACION: De acuerdo con la localizacin de la informacin los datos
estadsticos pueden ser internos y externos. Los internos son los registros
obtenidos dentro de la organizacin que hace un estudio estadstico, Los externos
se obtienen de datos publicados y encuestas.
4

4

B. ORGANIZACIN: En la organizacin de los datos recopilados, el primer paso es
corregir cada uno de los elementos recopilados.
C. REPRESENTACION: Hay 3 maneras de presentar un conjunto de datos mediante
enunciados tablas estadsticas y grficas estadsticas.
D. ANALISIS: Despus de los datos anteriores los datos estadsticos estn listos para
hacer analizados, para lo cual frecuentemente se emplean operaciones
matemticas durante el proceso de anlisis. Si una muestra es representativa de
una poblacin se pueden deducir importantes deducciones acerca de esta a partir
del anlisis de la misma. Una muestra es un conjunto de medidas u observaciones
tomadas a partir de una poblacin dada.

Cmo recolectar datos?
La recoleccin de datos es el uso de tcnicas y herramientas que pueden ser utilizadas
para desarrollar sistemas de informacin, los cuales pueden ser la entrevistas, la encuesta,
el cuestionario, la observacin, el diagrama de flujo y el diccionario de datos.
La finalidad es buscar informacin que ser til a una investigacin en comn.
Tcnicas para hallar datos
Los analistas utilizan una variedad de mtodos a fin de recopilar los datos sobre una
situacin existente, como entrevistas, cuestionarios, inspeccin de registros (revisin en el
sitio) y observacin.
Las entrevistas se utilizan para recabar informacin en forma verbal. La estructura de la
entrevista vara dependiendo del tipo de informacin que se requiera.
La encuesta es un mtodo de obtener informacin de una muestra de individuos. Esta
"muestra" es usualmente slo una fraccin de la poblacin bajo estudio.
La encuesta muestra Informacin que se desea obtener Confidencialidad y puede ser
encuestas telefnicas, encuestas por correo y encuestas en persona.
Cuestionarios: la recoleccin de datos para una encuesta es mediante el cuestionario.
Abierto: Conocer sentimientos, opiniones y experiencias generales.
Cerrado: Limita las respuestas posibles del interrogado. El analista puede controlar el
marco de referencia
5

5

La Observacin, otra tcnica til para el analista en su progreso de investigacin, consiste
en observar a las personas cuando efectan su trabajo. Como tcnica de investigacin, la
observacin tiene amplia aceptacin cientfica.
Diagramas de flujo
Es una representacin pictrica de los pasos en proceso, til para determinar cmo
funciona realmente el proceso para producir un resultado.
Se utiliza en:
Definicin de proyectos
Identificacin de las causas principales
Diseo de soluciones
Aplicacin de soluciones
Control
Diccionario de datos
Proporciona informacin adicional sobre el sistema. Son el segundo componente del
anlisis del flujo de datos.
Contiene:
Nombres
Descripcin
Alias
Longitud
Valores
Registros

Tipos de datos estadsticos
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso,
talla, tensin arterial sistlica, etctera). Los datos son los valores que toma la variable en
cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables
incluidas en el estudio. Deberemos adems concretar la escala de medida que
aplicaremos a cada variable.
6

6

La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo
estadstico ms apropiado para abordar su anlisis. Con este fin, clasificaremos las
variables, a grandes rasgos, en dos tipos
3-5
: variables cuantitativas o variables cualitativas.
Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o
expresarse numricamente. Las variables cuantitativas pueden ser de dos tipos:
Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango
numrico determinado (edad, peso, talla).
Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango.
Suelen tomar solamente valores enteros (nmero de hijos, nmero de partos, nmero de
hermanos, etc.)
Variables cualitativas. Este tipo de variables representan una cualidad o atributo
que clasifica a cada caso en una de varias categoras. La situacin ms sencilla es
aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer,
enfermo/sano, fumador/no fumador). Son datos dicotmicos o binarios. Como
resulta obvio, en muchas ocasiones este tipo de clasificacin no es suficiente y se
requiere de un mayor nmero de categoras (color de los ojos, grupo sanguneo,
profesin, etctera).
En el proceso de medicin de estas variables, se pueden utilizar dos escalas:
Escalas nominales: sta es una forma de observar o medir en la que los datos se
ajustan por categoras que no mantienen una relacin de orden entre s (color de
los ojos, sexo, profesin, presencia o ausencia de un factor de riesgo o
enfermedad, etctera).
Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarqua entre
las categoras (grados de disnea, estadiaje de un tumor, etctera).

Propiedades que describen una serie numrica de datos
Las tres mejores propiedades que describe una serie numrica de datos son:
1. Tendencia central
2. Variacin
3. Forma
En cualquier anlisis y/o interpretacin puede usarse una variedad de mediciones
descriptivas que representan las propiedades de tendencia central, variacin y forma para
7

7

extraer y resumir las principales caractersticas de la serie de datos. Si estas mediciones
descriptivas de resumen se calculan a partir de una poblacin completa de datos, se
denominan parmetros. Puesto que los estadsticos generalmente toman muestran en de
usar poblaciones enteras, nuestro principal nfasis en este texto est puesto en las
estadsticas ms que en los parmetros.
Mediciones de la tendencia central
La mayor parte de las series de datos muestran una clara tendencia a agruparse alrededor
de un cierto punto central. As pues, dada cualquier serie de datos particular, por lo
general es posible seleccionar algn valor o promedio tpico para describir toda la serie de
datos. Este valor descriptivo tpico es una medicin de tendencia central o de ubicacin.
Cinco tipos de promedios a menudo usados como mediciones de tendencia central son la
media aritmtica, la mediana, la moda, el rango de medio y el eje.
Variacin
La variacin es la cantidad de dispersin o propagacin en los datos. Dos series de datos
pueden diferir tanto en la tendencia central como en la variacin; dos series de datos
pueden tener las mismas mediciones de tendencia central, pero diferir grandemente en
trminos de variacin.
Cinco mediciones de variacin son el rango, el rango intercuartil, la varianza, la desviacin
estndar y el coeficiente de variacin.
Forma
Es la manera en que los datos se distribuyen. Ya sea que sea simtrica o que no lo sea. Si
la distribucin de los datos no es simtrica, se denomina asimtrica o sesgada.
Para describir la forma solo necesitamos comparar la media y la mediana. Si estas dos
mediciones son iguales, por lo general podemos considerar que los datos son simtricos (o
de sesgo cero). Si la media excede la mediana, los datos pueden describirse por lo comn
como de sesgo positivo o sesgado a la derecha. Si la media es excedida por la mediana,
esos datos generalmente pueden llamarse sesgo negativo o sesgado a la izquierda.
Media > mediana: sesgo positivo o derecho
Media = mediana: simetra o de sesgo cero
Media < mediana: sesgo negativo o izquierdo

8

8

Medidas de tendencia central para cantidades pequeas de datos
Al describir grupos de observaciones, con frecuencia es conveniente resumir la
informacin con un solo nmero. Este nmero que, para tal fin, suele situarse hacia el
centro de la distribucin de datos se denomina medida o parmetro de tendencia central
o de centralizacin. Cuando se hace referencia nicamente a la posicin de estos
parmetros dentro de la distribucin, independientemente de que sta est ms o menos
centrada, se habla de estas medidas como medidas de posicin. En este caso se incluyen
tambin los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
Media
Media ponderada
Media geomtrica
Media armnica
Mediana
Moda
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo
que las medidas de posicin o medidas de tendencia se usan de acuerdo al tipo de
variable que se est observando, en este caso se observan variables cuantitativas.
La media aritmtica es el valor obtenido por la suma de todos sus valores dividida entre el
nmero de sumadores.
nio nota
1 6,0 Primero, se suman las notas:
2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6
3 3,1 Luego el total se divide entre la cantidad de alumnos:
4 7,0 27,6/5=5,52
5 6,1
La media aritmtica en este ejemplo es 5,52
La media aritmtica es, probablemente, uno de los parmetros estadsticos ms
extendidos. Se le llama tambin promedio o, simplemente, media.
Definicin formal
Dado un conjunto numrico de datos, x
1
, x
2
, ..., x
n
, se define su media aritmtica como

9

9

Media aritmtica ponderada
A veces puede ser til otorgar pesos o valores a los datos dependiendo de su relevancia
para determinado estudio. En esos casos se puede utilizar una media ponderada.
Si son nuestros datos y son sus "pesos" respectivos, la
media ponderada se define de la siguiente forma:

Moda
La moda es el dato ms repetido de la encuesta, el valor de la variable con mayor
frecuencia absoluta. En cierto sentido la definicin matemtica corresponde con la
locucin "estar de moda", esto es, ser lo que ms se lleva.
Su clculo es extremadamente sencillo, pues slo necesita un recuento. En variables
continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su
defecto, si es necesario obtener un valor concreto de la variable, se recurre a la
interpolacin.
Por ejemplo, el nmero de personas en distintos vehculos en una carretera: 5-7-4-6-9-5-
6-1-5-3-7. El nmero que ms se repite es 5, entonces la moda es 5.
Hablaremos de una distribucin bimodal de los datos, cuando encontremos dos modas, es
decir, dos datos que tengan la misma frecuencia absoluta mxima. Cuando en una
distribucin de datos se encuentran tres o ms modas, entonces es multimodal. Por
ltimo, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de
definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos estn agrupados, es un punto que divide el intervalo modal en
dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo la frecuencia absoluta del intervalo modal y y las frecuencias
absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.
Las calificaciones en la asignatura de Matemticas de 39 alumnos de una clase viene dada
por la siguiente tabla (debajo):
10

10

Calificaciones 1 2 3 4 5 6 7 8 9
Nmero de alumnos 2 2 4 5 8 9 3 4 2
Mediana
La mediana es un valor de la variable que deja por debajo de s a la mitad de los datos, una
vez que stos estn ordenados de menor a mayor.
7
Por ejemplo, la mediana del nmero
de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2,
1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3,
4, el que ocupa la posicin central es 2:

En caso de un nmero par de datos, la mediana no correspondera a ningn valor de la
variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos
valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

Se toma como mediana
Existen mtodos de clculo ms rpidos para datos ms numerosos (vase el artculo
principal dedicado a este parmetro). Del mismo modo, para valores agrupados en
intervalos, se halla el "intervalo mediano" y, dentro de ste, se obtiene un valor concreto
por interpolacin.
Media muestral
Esencialmente, la media muestral es el mismo parmetro que el anterior, aunque el
adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmtica se
calcula para un subconjunto de la poblacin objeto de estudio.
La media muestral es un parmetro de extrema importancia en la inferencia estadstica,
siendo de gran utilidad para la estimacin de la media poblacional, entre otros usos.



11

11

Comparacin entre la media, mediana, y moda (ventajas y desventajas)
+ La media
Propiedades:
La suma de las diferencias entre las media muestral y el valor de cada observacin
es cero.
La media de una constante es la constante.
Si todas las observaciones x
i
se multiplican por una constante a, la X tambin se
debe multiplicar por ese mismo valor constante.
Si se somete a una variable estadstica X a un cambio de origen y escala, Y = a + b X,
la media aritmtica de dicha variable X vara en la misma proporcin.
La media de la suma de dos variables es igual a la suma de sus medias.
Ventajas:
Emplea en su clculo toda la informacin disponible.
Se expresa en las mismas unidades que la variable en estudio.
Es el centro de gravedad de toda la distribucin, representando a todos los valores
observados.
Es una valor nico.
Emplea en su clculo toda la informacin disponible.
Se expresa en las mismas unidades que la variable en estudio.
Es el centro de gravedad de toda la distribucin, representando a todos los valores
observados.
Es una valor nico.
Se trata de un concepto familiar para la mayora de las personas.
Es til para llevar a cabo procedimientos estadsticos como la comparacin de
medias de varios conjuntos de datos.
Desventajas:
Se ve adversamente afectada por valores extremos, perdiendo representatividad.
Si el conjunto de datos es muy grande puede ser tedioso su clculo manual.
No se puede calcular para datos cualitativos.
No se puede calcular para datos que tengan clases de extremo abierto, tanto
superior como inferior.



12

12

+ La mediana
Ventajas:
Fcil de calcular si el nmero de observaciones no es muy grande.
No se ve influenciada por valores extremos, ya que solo influyen los valores
centrales.
Fcil de entender.
Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos con
clase de extremo abierto.
Es la medida de tendencia central ms representativa en el caso de variables que
solo admiten la escala ordinal.
Desventajas:
No utiliza en su clculo toda la informacin disponible.
No pondera cada valor por el nmero de veces que se ha repetido.
Hay que ordenar los datos antes de determinarla.
+ La moda
Ventajas:
No requiere clculos.
Puede usarse para datos tanto cuantitativos como cualitativos.
Fcil de interpretar.
No se ve influenciada por valores extremos.
Se puede calcular en clases de extremo abierto.
Desventajas:
Para conjuntos pequeos de datos su valor no tiene casi utilidad, si es que de
hecho existe. Solo tiene significado en el caso de una gran cantidad de datos.
No utiliza toda la informacin disponible.
No siempre existe, si los datos no se repiten.
En ocasiones, el azar hace que una sola observacin se no representativa se el
valor ms frecuente del conjunto de datos.
Difcil de interpretar si los datos tiene 3 o ms modas.



13

13

Medidas de dispersin para cantidades pequeas de datos (rango, varianza,
desviacin estndar y coeficiente de variacin)
Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la
variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes
puntuaciones de una variable estn muy alejadas de la media. Cuanto mayor sea ese
valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la media. As
se sabe si todos los casos son parecidos o varan mucho entre ellos.
Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la
media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la
suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias
para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviacin
media) y otra es tomando las desviaciones al cuadrado varianza.
Rango
El rango o recorrido interarticular es la diferencia entre el valor mximo y el valor mnimo
en un grupo de nmeros aleatorios. Se le suele simbolizar con R'.
Obtencin del rango
Ordenamos los nmeros segn su tamao.
Restamos el valor mnimo del valor mximo

Ejemplo
Para la muestra (8, 7, 6, 9, 4, 5), el dato menor es 4 y el dato mayor es 9. Sus valores se
encuentran en un rango de:



14

14

Varianza h
La varianza es una medida estadstica que mide la dispersin de los valores respecto a un
valor central (media), es decir, es el cuadrado de las desviaciones:


- Propiedades
La varianza es siempre positiva o 0:
Si a los datos de la distribucin les sumamos una cantidad constante la varianza no
se modifica.
1
c

Si a los datos de la distribucin los multiplicamos una constante, la varianza queda
multiplicada por el cuadrado de esa constante.


Propiedad distributiva: cov
- Desviacin estndar
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas.
Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica,
o desviacin, que se halla como la raz cuadrada positiva de la varianza. La desviacin
tpica informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor
15

15

sea su valor, ms dispersos estarn los datos. Esta medida viene representada en la
mayora de los casos por S, dado que es su inicial de su nominacin en ingls.
- Coeficiente de variacin
La covarianza entre dos variables es un estadstico resumen indicador de si las
puntuaciones estn relacionadas entre s. La formulacin clsica, se simboliza por la letra
griega sigma () cuando ha sido calculada en la poblacin. Si se obtiene sobre una
muestra, se designa por la letra " ".
La frmula suele aparecer expresada como:

Este tipo de estadstico puede utilizarse para medir el grado de relacin de dos variables si
ambas utilizan una escala de medida a nivel de intervalo/razn (variables cuantitativas).
La expresin se resuelve promediando el producto de las puntuaciones diferenciales por
su tamao muestra (n pares de puntuaciones, n-1 en su forma insesgada).
Este estadstico, refleja la relacin lineal que existe entre dos variables. El resultado
numrico flucta entre los rangos de +infinito a -infinito. Al no tener unos lmites
establecidos no puede determinarse el grado de relacin lineal que existe entre las dos
variables, solo es posible ver la tendencia.





16

16

El manejo de grandes cantidades de datos

En ingeniera, como en todas las ramas de la ciencia y la tecnologa, resulta indispensable
el manejo de grandes cantidades de datos. El manejo de estos datos, se realiza por
tcnicas matemticas, que se han compilado en una ciencia denominada estadstica, que
es la encargada del manejo de datos, para describir los fenmenos, pero ms importante
an, para predecirlos.
En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a
partir de una poblacin.
Se har referencia sobre el muestreo estadstico, tcnicas, niveles y tipos fundamentales
de un muestreo; se describen conceptos bsicos que explican lo que esto se refiere al
igual se aprecia cmo y qu tipo de tcnicas se pueden utilizar para poner en prctica la
realizacin de una auditoria con la finalidad de obtener una informacin determinada para
lograr un objetivo especfico.
El muestreo estadstico es un procedimiento por el que se ingresan los valores verdaderos
de una poblacin a travs de la experiencia obtenida con una muestra
El muestreo como herramienta de la investigacin cientfica arroja resultados que se
pueden utilizar para concluir un determinado estudio X de poblacin, al igual las tcnicas
selectivas que se requieren para dicho estudio de acuerdo a lo que se va a evaluar.
El muestreo permite una reduccin considerable de los costos materiales del estudio, una
mayor rapidez en la obtencin de la informacin y el logro de resultados con mxima
calidad.
Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la
variable. Se suelen representar con histogramas y con diagramas de Pareto.
Medidas de tendencia central para datos agrupados
Recuerda que los datos se agrupan cuando estos corresponden a una Poblacin muy
grande. Se consideran Poblaciones grandes las que se describen en los siguientes casos.
1. Los artculos producidos en una empresa grande, como por ejemplo, los miles de
tornillos producidos de 4 cm. de largo.
2. Alguno de los componentes de una computadora, del cual se producen millones en
un solo da.
3. Cierto tipo de conector de plstico empleado en los transfusores de sangre, de los
cuales se producen miles en un solo da.
17

17

4. Alguna de las partes de la cubierta de algunas televisiones LED, de las que se
hacen tambin cientos en un solo da.
5. Los millones de tuercas que se generan, las que como todo artculo, debe cumplir
con ciertas especificaciones establecidas en los estndares de calidad empleados
por la empresa.
6. Los datos derivados por las encuestas que se aplican durante el Censo Poblacional.
En todos estos casos, es necesario extraer muestras representativas de tamao moderado
para efectuar el anlisis de la Poblacin. Los datos, que la mayora de las veces
corresponden a variables numricas se agrupan y se ordenan en lo que ya conocemos
como Tabla de Distribucin de Frecuencia (TDF).
Para estos datos ordenados, es necesario efectuar los clculos de las diferentes Medidas
de Tendencia Central con la finalidad de que a travs de un anlisis de sus valores,
podamos llegar a conocer el comportamiento de los mismos, as como tambin hacer
diversas inferencias que seran valiosas para el proceso del cual procede
la poblacin referida.
El clculo de las Medidas de Tendencia Central para datos agrupados es ligeramente
distinto a aquellas que corresponden a los datos individuales.
No est de ms indicar que los significados de estos parmetros estadsticos dados en
secciones anteriores, no cambian.
- MEDIA ARITMETICA
Es la suma de todas las observaciones dividida entre el nmero total de observaciones.
Expresada de forma ms intuitiva, podemos decir que la media aritmtica es la cantidad
total de la variable distribuida a partes iguales entre cada observacin.
Por ejemplo, si en una habitacin hay tres personas, la media de dinero que tienen en sus
bolsillos sera el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales
entre cada uno de ellos.
Es decir, la media es una forma de resumir la informacin de una distribucin (dinero en el
bolsillo) suponiendo que cada observacin (persona) tendra la misma cantidad de la
variable.
Clculo de la media aritmtica

n
f m
X
k
i
i i

1
18

18


Donde: m
i
: punto medio de la clase i
f
i
: frecuencia absoluta de la clase i

- MEDIANA
Es el valor que ocupa la posicin central de un conjunto de observaciones, una vez que
han sido ordenados en forma ascendente o descendente.
Divide al conjunto de datos en dos partes iguales.
Clculo de la mediana
Clase mediana es la que contiene a la observacin que ocupa la posicin n/2.


Donde:
Lm: lmite inferior de la clase mediana.
F(x
m-1
): frecuencia acumulada de la clase anterior a la clase mediana.
f(x
m
): frecuencia absoluta de la clase mediana
Cm: amplitud de la clase mediana.

MODA
Observacin o clase que tiene la mayor frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal o multimodal.
Es la nica medida de tendencia central que se puede determinar para datos de tipo
cualitativo.


Cm
x f
x F
n
Lm Md
m
m
) (
) (
2
1
1


Cm Lim Mo
2 1
1



19

19

Donde: L i m : lmite inferior de la clase modal.

1
: diferencia entre f
i
de la clase modal y la anterior.

2
: diferencia entre f
i
de la clase modal y la posterior.
Cm : amplitud de la clase modal (clase de mayor frecuencia).

Construccin de una distribucin de frecuencias real
En estadstica, se le llama distribucin de frecuencias a la agrupacin de datos en
categoras mutuamente excluyentes que indican el nmero de observaciones en cada
categora.

Esto proporciona un valor aadido a la agrupacin de datos. La distribucin de
frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero
existente en cada clase.
Medidas de posicin
Cuartil
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro
partes porcentualmente iguales. Aparecen citados en la literatura cientfica por primera
vez en 1879 por D. McAlister.
1

La diferencia entre el tercer cuartil y el primero se conoce como rango intercuartlico. Se
representa grficamente como la anchura de las cajas en los llamados diagramas de cajas.
Dada una serie de valores X
1
,X
2
,X
3
...X
n
ordenados en forma creciente, podemos pensar
que su clculo podra efectuarse:
Primer cuartil (Q
1
) como la mediana de la primera mitad de valores;
Segundo cuartil (Q
2
) como la propia mediana de la serie;
Tercer cuartil (Q
3
) como la mediana de la segunda mitad de valores.
Pero esto conduce a distintos mtodos de clculo de los cuartiles primero (as como
tercero) segn la propia mediana se incluya o excluya en la serie de la primera (respecto
de la segunda) mitad de valores.
Clculo con datos no agrupados
20

20

No hay uniformidad sobre su clculo. En la bibliografa se encuentran hasta cinco mtodos
que dan resultados diferentes.
2
Uno de los mtodos es el siguiente: dados n datos
ordenados,
El primer cuartil:
(n+1)/4
Para el tercer cuartil:
(3*(n+1))/4
Los cuartiles son los valores de la variable que dividen los datos en cuatro partes, por su
puesto, una vez ordenados de menor a mayor.
Los cuartiles son:
1. Q
1
primer cuartil o cuartil inferior, hay un cuarto de los datos menores que l,
dicho de otro modo el 25% de los datos son menores. Coincide con P
25
.
2. Q
2
segundo cuartil o cuartil intermedio, el 50% de los datos son menores que l.
Coincide con la mediana, D
5
y P
50
.
3. Q
3
tercer cuartil o cuartil superior, deja el 75% de los datos de debajo. Coincide con
P
75
.
En el caso de variables discretas para obtener Q
1
buscamos la primera observacin que
supere el 25% de los datos, esta observacin ocupar el lugar donde n es el
total de observaciones y E representa la parte entera. Q
2
coincide con la Mediana por
tanto al calcular la mediana lo estamos calculando y Q
3
ocupar el lugar .
En el caso en que tengamos una variable continua, como conocemos la relacin existente
entre los percentiles y los cuartiles la frmula a usar ser una adaptacin:

donde k=1,2,3.
Deciles
Llamaremos deciles a aquellos valores que dividen el conjunto de datos en diez
subconjuntos iguales. Los notaremos con D
i
y tendremos 9 deciles que coinciden con los
percentiles 10,20,30,40,50,60,70,80,90.
As D
i
= P
10i
donde i = 1,2,...,9.
21

21

D
i
dejar por debajo de l observaciones, donde n es el total de los datos, para
determinar D
i
basta con hallar el lugar en el que se encuentra y buscarlo.
En el caso de variables continuas el razonamiento es igual que el caso de los percentiles,
quedando la frmula de clculo:


Percentil
El percentil es una medida no central usada en estadstica que indica, una vez ordenados
los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un
porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el
percentil 20 es el valor debajo del cual se encuentran el 20 por ciento de las
observaciones.
Se representan con la letra P. Para el percentil i-simo, donde la i toma valores del 1 al 99.
El i % de la muestra son valores menores que l y el 100-i % restante son mayores.
Aparecen citados en la literatura cientfica por primera vez por Francis Galton en 1885
1

P
25
= Q
1
.
P
50
= Q
2
= mediana.
P
75
= Q
3
.
Clculo con datos no agrupados
Un mtodo para establecer un percentil sera el siguiente: Calculamos...
donde n es el nmero de elementos de la muestra e i, el percentil. El resultado
de realizar esta operacin es un nmero real con parte entera E y parte decimal D.
Teniendo en cuenta estos dos valores, aplicamos la siguiente funcin:

22

22

Esta ltima operacin brinda el valor del percentil pedido.



Medidas de dispersin para datos agrupados
Rango Intercuartilico
En estadstica descriptiva, se le llama rango intercuartlico o rango intercuartil, a la
diferencia entre el tercer y el primer cuartil de una distribucin. Es una medida de la
dispersin estadstica.
A diferencia del rango, se trata de un estadstico robusto.
Forma de calcular
Se obtiene al evaluar:
Q3 - Q1
Donde:
Q3 es cuartil tercero
Q1 es cuartil primero.
Definicin
El rango intercuartlico es una medida de variabilidad adecuada cuando la medida de
posicin central empleada ha sido la mediana. Se define como la diferencia entre el tercer
cuartil (Q
3
) y el primer cuartil (Q
1
), es decir: RQ = Q
3
- Q
1
. A la mitad del rango intercuartil
se le conoce como desviacin cuartil (DQ): DQ = RQ/2= (Q
3
- Q
1
)/2.
Se usa para construir los diagramas de caja y bigote (box plots) que sirven para visualizar la
variabilidad de una variable y comparar distribuciones de la misma variable; adems de
ubicar valores extremos.
LA VARIANZA (S2 2 ):
La varianza es una medida de dispersin relativa a algn punto de referencia. Ese punto
de referencia es la media aritmtica de la distribucin. Ms especficamente, la varianza es
23

23

una medida de que tan cerca, o que tan lejos estn los diferentes valores de su propia
media aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la
varianza; cuando ms cerca estn las Xi a su media menos es la varianza. Y se define y
expresa matemticamente de la siguiente manera:

La varianza para datos no agrupados
Dado un conjunto de observaciones, tales como X1, X2, , Xn, la varianza denotada
usualmente por la letra minscula griega (sigma) elevada al cuadrado (2)y en otros
casos S2 segn otros analistas, se define como: el cuadrado medio de las desviaciones con
respecto a su media aritmtica"
Matemticamente, se expresa como:

La varianza para datos agrupados
Si en una tabla de distribucin de frecuencias. Los puntos medios de las clases son X1, X2,
, Xn; y las frecuencias de las clases f1, f2, , fn; la varianza se calcula as:
(Xi-
2 = ----------------
fi
Sin embargo la formula anterior tiene algn inconveniente para su uso en la prctica,
sobre todo cuando se trabaja con nmeros decimales o cuando la media aritmtica es un
nmero entero. Asimismo cuando se trabaja con mquinas calculadoras, La tarea de
computar la varianza se simplifica utilizando la frmula de computacin que se da a
continuacin:
Xi2fi - *(Xifi)2/N+
2 = ----------------------------N donde N=fi
24

24

LA DESVIACIN ESTNDAR (S )
Es una medida de la cantidad tpica en la que los valores del conjunto de datos difieren de
la media. Es la medida de dispersin ms utilizada, se le llama tambin desviacin tpica.
La desviacin estndar siempre se calcula con respecto a la media y es un mnimo cuando
se estima con respecto a este valor.
Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raz cuadrada
positiva de esta. A la desviacin se le representa por la letra minscula griega "sigma" ( )
por la letra S mayscula, segn otros analistas.
Clculo de la Desviacin Estndar
= 2 S = S2

Propiedades de la Desviacin Estndar
A su vez la desviacin estndar, tambin tiene una serie de propiedades que se deducen
fcilmente de las de la varianza (ya que la desviacin tpica es la raz cuadrada positiva de
la varianza):
La desviacin estndar es siempre un valor no negativo S ser siempre 0 por
definicin. Cuando S = 0 X = xi (para todo i).
Es la medida de dispersin ptima por ser la ms pequea.
La desviacin estndar toma en cuenta las desviaciones de todos los valores de la
variable
Si a todos los valores de la variable se le suma una misma constante la desviacin
estndar no vara.
Si a todos los valores de la variable se multiplican por una misma constante, la
desviacin estndar queda multiplicada por el valor absoluto de dicha constante.
El Coeficiente de Variacin de Pearson (C.V.)
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de
tendencia central son representativas como sntesis de la informacin. Las medidas de
dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la
distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas,
que no son comparables entre diferentes muestras y las relativas que nos permitirn
comparar varias muestras.
25

25

El problema de las medidas de dispersin absolutas es que normalmente son un indicador
que nos da problemas a la hora de comparar. Comparar muestras de variables que entre s
no tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a
medidas de dispersin relativas.
Un problema que se plantea, tanto la varianza como la desviacin estndar,
especialmente a efectos de comparaciones entre distribuciones, es el de la dependencia
respecto a las unidades de medida de la variable. Cuando se quiere comparar el grado de
dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las
medias no son iguales se utiliza el llamado "Coeficiente de Variacin de Pearson", del que
se demuestra que nos da un nmero independiente de las unidades de medidas
empleadas, por lo que entre dos distribuciones dadas diremos que posee menor
dispersin aquella cuyo coeficiente de variacin sea menor., y que se define como la
relacin por cociente entre la desviacin estndar y la media aritmtica; o en otras
palabras es la desviacin estndar expresada como porcentaje de la media aritmtica.
Definicin del Coeficiente de Variacin

Donde: C.V. representa el nmero de veces que la desviacin tpica contiene a la media
aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la
representatividad de la media.
Propiedades del Coeficiente de Variacin:
Si a todos los valores de la variable se le suma una misma constante el coeficiente
de variacin queda alterado.

Los histogramas, el polgono de frecuencia y la curva de % acumulada u ojiva
Los histogramas, polgonos de frecuencia y ojivas se utilizan slo con variables
cuantitativas (intervalos y razn). Por ejemplo, salario, edad, cantidad de produccin,
tiempo, etc.
Histograma
Un histograma es un conjunto de rectngulos, cada uno de los cuales representa un
intervalo de agrupacin. Sus bases son iguales al intervalo de clase empleada en la
distribucin de frecuencias y las alturas son proporcionales a la frecuencia absoluta ni o
relativa fi de la clase.
26

26

El histograma es apropiado para datos continuos, medidos con una misma escala y se lo
emplea cuando un diagrama de tallo y hojas es tedioso de construir.
Igualmente puede ayudar a detectar observaciones atpicas y cualquier brecha entre los
datos
Especialmente se utiliza para analizar la dispersin que presentan unos datos
El eje X debe respetar la escala de valores
Se utilizan los lmites reales para dibujar los lmites de las columnas.


POLIGONO DE FRECUENCIA
Un polgono de frecuencia es un grfico que se obtiene uniendo con segmentos de recta
los puntos que tienen proporcionalmente como abscisa a la marca de clase y como
ordenada la frecuencia respectiva.
Se cierra en ambos extremos en las marcas adyacentes con frecuencia cero.
Caractersticas de los polgonos de frecuencias
No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto con mayor altura representa la mayor frecuencia.
El rea bajo la curva representa el 100% de los datos. El polgono de frecuencia
est diseado para mantener la misma rea de las columnas.
Utiliza la marcas de clase para graficar los puntos, que al ser conectados nos darn el
polgono.
27

27



OJIVA
La ojiva es un polgono de frecuencias acumuladas, es decir, en las abscisas se colocan los
lmites superiores de cada intervalo de clase y en las ordenadas se coloca la frecuencia
acumulada (absoluta o relativa) de la clase.
La ojiva es til para:
Calcular el nmero o el porcentaje de observaciones que corresponden a un
intervalo determinado de la variable
Calcula los percentiles de la distribucin de los datos
Caractersticas de las ojivas:
Muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto de inicio equivale a una frecuencia de 0.
El punto final equivale al 100% de los datos.
Interpretando la informacin en las ojivas
Dada su ventaja de representar frecuencias acumuladas, las ojivas se convierten en
una herramienta vital para el anlisis estadstico.

OJIVA DE FRECUENCIA ACUMULADA MENOR DE
Se grafica colocando en el eje horizontal las clases de una distribucin de frecuencia
acumulada menor de y en el eje vertical las frecuencias acumuladas menor de.

28

28

CLASES
FRECUENCIA
ABSOLUTA
F. ACUMULADA
MENOR DE (DIAS)
MENOS DE 50 0 0
MENOS DE 60 3 3
MENOS DE 70 7 10
MENOS DE 80 18 28
MENOS DE 90 12 40
MENOS DE 100 8 48
MENOS DE 110 2 50

Ojiva Menor qu:




29

29

OJIVA DE FRECUENCIA ACUMULADA MAYOR DE
Se grafica colocando en el eje horizontal las clases de una distribucin de frecuencia
acumulada mayor de y en el eje vertical las frecuencias acumuladas mayor de.
CLASES FRECUENCIA ABSOLUTA
F. ACUMULADA MAYOR
DE (DIAS)
50 O MAS 3 50
60 O MAS 7 47
70 O MAS 18 40
80 O MAS 12 22
90 O MAS 8 10
100 O MAS 2 2
110 O MAS 0 0

Ojiva Mayor qu:




30

30

Importancia de la forma de los datos
Constituye una forma de organizar datos en una o ms direcciones.
La presentacin de datos estadsticos en sus diferentes modalidades constituye uno de los
aspectos de mayor uso en la estadstica descriptiva.
En base ella podemos visualizar los datos estadsticos y el comportamiento de las
variables.
Existen tres formas diferentes de presentar los datos estadsticos, que son:
Presentacin tabular:
Cuando los datos estadsticos se presentan a travs de un conjunto de filas y de columnas
que responden a un ordenamiento lgico; es de gran eso e importancia para el uso e
importancia para el usuario ya que constituye la forma ms exacta de presentar las
informaciones.

Una tabla consta de varias partes, las principales son las siguientes:
Ttulo: Es la parte ms importante del cuadro y sirve para indicar su contenido, la
clasificacin de los datos, la fecha o el periodo a que estos se refieren y el lugar o
rea geogrfica a que pertenecen.
Encabezados: Son los diferentes subttulos que se colocan en la parte superior de
cada columna. Indica el contenido de cada columna.
Columna matriz: Es la columna principal del cuadro. Indica el contenido de las filas.
Cuerpo: El cuerpo contiene todas las informaciones numricas que aparecen en la
tabla.
Fuente: Es necesario indicar de donde fueron extrados los datos del cuadro.
Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que
aparecen en la tabla o cuadro y que no han sido explicados en otras partes.

Presentacin grfica:
Proporciona al lector o usuario mayor rapidez en la comprensin de los datos, una grfica
es una expresin artstica usada para representar un conjunto de datos.
Tipos de grficos: De acuerdo al tipo de variable que vaya a representar, las principales
grficas son las siguientes:
31

31

Histograma:
Es un conjunto de barras o rectngulos unidas una de otra, por tal razn se utiliza para
representar variables continuas.
Se usa para mostrar la distribucin relativa de las frecuencias de los valores de una
variable continua que est agrupada en clases.

Polgono de frecuencias:
Esta grfica se usa para representar los puntos medios de clase en una distribucin de
frecuencias. Se usa para mostrar la distribucin relativa de las frecuencias de los valores
de una variable continua que este agrupada en clases.


Grfica de barras:
Es un conjunto de rectngulos o barras separadas una de la otra, en razn de que se usa
para representar variables discretas; las barras deben ser de igual base o ancho y
separadas a igual distancia. Pueden disponerse en forma vertical y horizontal.




32

32

El grfico de barras verticales se usa cuando la cantidad de barras no es muy numerosa o
los nombres correspondientes a las barras no son muy largos.
El grfico de barras horizontales se utiliza cuando son muchas barras o los nombres
correspondientes a las barras son muy largos.
Grfica lineal:
Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o
sea, se usan para representar series de tiempo o cronolgicas.
Se usa para ilustrar la tendencia o la evolucin de los valores, una medida o la magnitud
de una variable en tiempo.

Grfica de barra 100%:
Se usan especialmente para representar las partes en que se divide una cantidad total en
consideracin varias situaciones.
Tambin permite la comparacin de la distribucin de los elementos de varios conjuntos
de datos.

Grafico circular o de pastel.
Se usa para mostrar la distribucin relativa de las frecuencias de los valores de una
variable cualitativa o discreta.
33

33



La ojiva:
Es un grfico lineal, consiste en la representacin de las frecuencias acumuladas de una
distribucin de frecuencias.
Puede construirse de dos maneras diferentes; sobre la base menor que o sobre la base
o ms. Puede determinar el valor de la mediana de la distribucin.



Presentacin escrita:
Esta forma de presentacin de informaciones se usa cuando una serie de datos incluye
pocos valores, por lo cual resulta ms apropiada la palabra escrita como forma de escribir
el comportamiento de los datos; mediante la forma escrita, se resalta la importancia de
las informaciones principales.

Grficas para datos cualitativos o categricos
Las grficas de barras y de pastel se utilizan sobre todo con variables cualitativas
(nominales y ordinales). Por ejemplo, sexo, religin, diagnstico, etc.
Qu es un dato cualitativo?
34

34

Los datos cualitativos son datos no numricos utilizados para describir un objeto o cosa.
Por ejemplo, cuando se describe un objeto como los M&M's, existen muchos colores que
se pueden utilizar para describir el dulce. Los dulces se pueden agrupar por colores caf,
amarillo, verde o azul, entre otros. Estos colores representan los atributos cualitativos de
los M&M's.
Grfica de barras
Tipos de escalas: Nominal, ordinal y cuantitativas discretas.






Grficas de columnas
Sus bases son del mismo ancho y sus alturas equivalentes con las frecuencias.


Grfica de pastel
0
10
20
30
40
Hombre Mujer
Sexo
35

35


Tipos de escala: Nominal, Ordinal y Cuantitativas Discretas.
Cuando lo que se desea es resaltar las proporciones que representan algunos
subconjuntos con respecto al total, es decir, cuando se est usando una escala categrica,
conviene utilizar una grfica llamada de pastel o circular.
Por ejemplo, para ilustrar la matrcula en licenciatura (en Mxico) por reas de
conocimiento en el ao de 1992 se puede usar algo as como sigue (Fuente: ANUIES,1995):

41%
59%
Sexo
Hombre Mujer

You might also like