You are on page 1of 52

Mtra.

Cecilia Garibay Lpez

Departamento de Matemticas

Iintroduccin
Descripcin
Relacin

entre dos conjuntos.

Conceptos
Modelos

de un conjunto de datos.

bsicos de probabilidad

probabilsticos

Distribuciones

derivada del muestreo,


estimacin y prueba de hiptesis

La

Estadstica es una rama de la matemtica


que se refiere a la recoleccin, anlisis e
interpretacin de los datos obtenidos en un
estudio.
La
Estadstica
esta
estrechamente
relacionada con la Probabilidad, juntas
proporcionan los elementos bsicos para
hacer una descripcin de un conjunto de
datos.

DATO:

La materia prima de la estadstica


es el dato. Este se refiere al registro que
se obtiene del proceso de medicin de
algn evento o fenmeno, o de igual
manera el registro resultado del proceso
de conteo.

PARMETRO: Existen medidas para realizar descripciones cuantitativas de los


conjuntos de datos, o poblaciones, y de sus muestras, diferencindose entre
ellas las que se refieren a las mismas poblaciones y a las muestras.
Para el caso de las poblaciones, las medidas que las describen se denominan
parmetros, y suelen estar representadas con letras griegas (por ejemplo y
)
ESTIMADOR O ESTADSTICO
. Por otro lado, para el caso de aquellas medidas que describen a una muestra
se les llama estadsticos o estimadores, y son representados por letras de
nuestro alfabeto (por ejemplo, x o s).

VARIABLE: La variable es una caracterstica (magnitud, vector o nmero) que


puede ser medida, adoptando diferentes valores en cada uno de los casos de
un estudio. Se puede tambin definir como todo aquello que vamos a medir,
controlar y estudiar en una investigacin o estudio.

Tabla 1. Clasificacin de las variables en un estudio cientfico.


CRITERIO DE
CLASIFICACIN

TIPOS DE VARIABLES

1. Cualitativas

DE ACUERDO A
MEDICIN

1.1. ordinales

1.2. nominales

2. Cuantitativas

2.1. discreta

2.2. continua

POR SE ASIGNA
SOBRE OTRAS
VARIABLES

1. Independiente

2. Dependiente

3. Extraa

DESCRIPCIPCIN
Son las variables que expresan distintas cualidades,
caractersticas o modalidad. Cada modalidad que se presenta se
denomina atributo o categora, y la medicin consiste en una
clasificacin de dichos atributos, pues no puede construirse una
serie numrica definida, sino que se ordenan en jerarquas con
respecto a la caracterstica que se evala
La variable cualitativa ordinal es aquella que toma distintos
valores ordenados siguiendo una escala establecida. Por
ejemplo para medir la severidad de una lesin se puede usar la
escala de: leve, moderada y grave. Otro ejemplo puede ser el
nivel socioeconmico, bajo, medio y alto.
La variable cualitativa nominal los valores no tienen alguna
forma natural de ordenacin, y adems los posibles valores que
tome son mutuamente excluyentes. Por ejemplo los posibles
valores de un estudio son si y no, u hombre y mujer.
Son las variables que se expresan mediante cantidades
numricas
Son las variables que nicamente toman valores enteros o
numricamente fijos. Por ejemplo, las ocasiones en que ocurre
un suceso, la cantidad de pesos que se gastan en una semana,
los puntos con que cierra diariamente una bolsa de valores, el
nmero de hijos, etc.
Estas son llamadas tambin variables de medicin, y son
aquellas que toman cualquier valor numrico ya sea entero,
fraccionario, o incluso irracional. Este tipo de variable se
obtienen a travs de mediciones y su valor est sujeto a la
precisin de los instrumentos de medicin. Por ejemplo el
tiempo que un corredor tarda en recorrer una cierta distancia, la
estatura de los alumnos de una clase, la cantidad de litros que
despacha una bomba de combustible, etc.
La variable independiente es aquella propiedad de un fenmeno
al que se le va a evaluar su capacidad para influir, incidir o
afectar a otras variables. Por lo tanto es la que el investigador
escoge o manipula para observar los efectos en la variable
dependiente.
Son las variables de respuesta que se observan en el estudio y
que podran estar influidas por los valores de las variables
independientes. En otras palabras son las que registran los
cambios de la manipulacin de la variable independiente por el
investigador.
Son aquellas variables que el investigador no controla
directamente, pero que pueden influir en el resultado de su
investigacin. Por lo tanto deben ser controladas hasta donde
sea posible, para asegurarnos que los resultados se deben
nicamente al manejo que el investigador hace de la variable
independiente, y no a las variables extraas no controladas.

POBLACIN: Se refiere a la coleccin completa de todos los


elementos (puntajes, personas,mediciones, etc.) que se van a
estudiar.

MUESTRA: Es un subconjunto de elementos extraidos de una


poblacin.

MUESTREO:El muestreo es una herramienta de la investigacin


cientfica. Su funcin bsica es determinar que parte de una
realidad en estudio (poblacin o universo) debe examinarse con
la finalidad de hacer inferencias sobre dicha poblacin.

Se dedica nica y exclusivamente al


ordenamiento y tratamiento mecnico de la
informacin para su presentacin por medio de
tablas y de representaciones grficas, as como
de la obtencin de algunos parmetros tiles
para la explicacin de la informacin.

ESTADSTICA
DESCRIPTIVA

MEDIDAS DE
TENDENCIA
CENTRAL

Media
Mediana
Moda

MEDIDAS DE
DISPERSIN

Rango
Desviacin Estandar
Coeficiente de variacin

El

valor de la variable elegido para


representar a una distribucin se llama
promedio o medida de posicin, y es un valor
representativo de todos los valores que toma
la variable.

Media aritmtica o promedio


La medida ms usual es la media (o promedio)
muestral.

X
1 + X 2 + ...+ X n
X=
,
n
La media poblacional se denota con m

Mediana:

Es un conjunto de nmeros ordenados en orden de magnitud


ascendente, es decir, de menor a mayor; el dato que ocupa la posicin
central corresponde a la mediana.
CASO 1

2,3,3,3,4,4,4,4,5,5,5,6,6,7,7,7,7,8,8,8,8,12

La mediana en ste caso es

CASO 2

Me =

5 + 6
= 5.5
2

2,3,3,3,4,4,4,4,5,5,6,6,7,7,7,7,8,8,8,8,12

La mediana en ste caso es


El promedio es en el caso 1 es:

El promedio es en el caso 2 es:

Me = 6

X= 2+3+3+3+4+4+4+4+5+5+5+6+6+7+7+7+7+8+8+8+8+12 = 5.54
22

X=

2+3+3+3+4+4+4+4+5+5+6+6+7+7+7+7+8+8+8+8+12

21

= 5.76

Moda:
En un conjunto de nmeros es el valor que ocurre con mayor
frecuencia, es decir, es el valor mas frecuente.
La moda puede no existir en la distribucin, e incluso puede
hasta tener 2 o mas.
En el caso de una moda la distribucin es unimodal, en el caso de
dos modas es bimodal, tres modas trimodal y as sucesivamente.

Cabe sealar que la moda es la medida ms representativa en


caso de distribuciones de variables en escala nominal. Esto es
debido a que las distribuciones de este tipo presentan los datos
no susceptibles de ordenacin, de tal forma que para estas
distribuciones no es posible realizar operaciones elementales con
sus observaciones.

Me

Me
Mo

Distribuciones sesgadas izquierdas

Mo

Distribuciones sesgadas derechas

X
Me

Mo

Distribuciones simtricas

La

dispersin o variabilidad de los datos


intenta dar una idea de que tan esparcidos
se encuentran los datos en una distribucin
de frecuencias.
Las medidas de dispersin mas comunes son:
El rango
Desviacin estndar
Coeficiente de variacin

El rango se define como la diferencia


existente entre el valor mximo y el valor
mnimo de un conjunto de datos.
2,4,3,5,4,3,5,7,6,2,4,5,7,4

Rango =

R = Vmax - V min
R = 7 - 2
R = 5

Datos de puntajes de 30 aspirantes a ocupar un cargo


poltico.

120,121,112,113,123,132,157,132,157,118,119,115,150,121,
138,107,104,140,109,113,106,129,134,121,109,102,123,116,
110,121
n

S ( Xj X )2

R = Vmx - Vmn
R = 157 102 = 55
La relacin corresponde a que el rango es
aproximadamente igual a 4 veces la desviacin
estndar

S=

j=1

n-1

S = 13.8
R = 4S = 4(13.8) = 55.2

Medida que se emplea fundamentalmente para:

Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas


de unidades de medida, por ejemplo, kilos y cms.
Comparar la variabilidad entre dos grupos de datos obtenidos entre dos o ms
personas distintas.
Comparar dos grupos de datos que tienen la misma media aritmtica.

El coeficiente de variacin se denota y se define de la manera


siguiente:

C.V. = ( S / prom. ) * 100%

El coeficiente de variacin pertenece al grupo de medidas


conocidas como variabilidad relativa, en contraste con la
varianza, a la que se le denomina variabilidad absoluta.

Como ejemplo ilustrativo del coeficiente de variacin tomemos


los datos siguientes que consisten en los resultados finales de
dos grupos de datos de alineacin tomados en las mquinas de
la lnea J y la lnea C respectivamente:

Promedio
Desv. Std.
CV =
CV =
CV =

Lnea J
Lnea C
+ 98.50 + 94.39
0.98
0.67
0.98/98.50
0.67/94.39
0.009949
0.007098
0. 9949 %
0. 7098 %

La lnea J tiene ms variacin que la lnea C

En muchos de los casos, los datos que surgen en


la prctica se ha observado que, para
distribuciones normales, se cumple lo siguiente.

1. x -S y x +S (una desviacin estndar) estn


aproximadamente el 68% del total de los datos.
2. x 2S (dos desviaciones estndar) estn
aproximadamente el 95% del total de los datos.
3. x 3S (3 desviaciones estndar) estn
aproximadamente el 99% del total de los datos.

Las

distribuciones de frecuencias son la


herramienta ms sencilla y ms utilizada
y eficaz cuando estamos rodeados de
montones de datos, que no nos dicen
nada sino hacemos ms que enumerarlos.
El expresar los datos en forma de una
distribucin
de
frecuencias
nos
proporciona ideas de la forma de su
distribucin, su tendencia central y su
dispersin.

El histograma es una representacin visual de los


datos en la pueden observarse ms fcilmente
tres propiedades esenciales de una distribucin:
Forma, tendencia central acumulacin y
dispersin o variabilidad.

De esta forma el histograma da una idea del


proceso, lo que un simple examen de los datos
tabulados no lo hace.

Realizar

el histograma de los siguientes datos


que representan las edades de 40 personas

PASO

1. Calcular el rango de los datos.


Rango= Dato mayor Dato menor = 45-20=25
PASO 2. Determinar el nmero de clases. Hay
varias maneras de determinar el nmero de
clases, el cual vara entre 5 y 15 dependiendo
del nmero de datos, uno de los ms comunes
es que el nmero de clases sea
aproximadamente igual a la raz cuadrada del
nmero de datos. En las edades de los adultos
se tiene que son 40 datos, entonces el numero
de clases ser aproximadamente igual a
,
como tiene que ser un numero entero, en este
caso puede ser el 6 o el 7, tomaremos el
numero 6. 32

PASO 3. Fijar la longitud de clase. Una forma de


asignar la misma importancia a todas las clases
es tomando la longitud de clase (lc) igual a:

PASO 4. Construir los intervalos de clase. Los


intervalos se obtienen dividiendo el total de los
datos en seis intervalos de igual longitud de
clase.

PASO 5. Cuantificar la frecuencia de cada clase.


Realizar el conteo de los datos que caen en cada
intervalo de clase y especificar su frecuencia.

PASO 6. Las frecuencias relativas de cada


intervalo de clase. Las frecuencias relativas se
obtienen dividiendo cada frecuencia por el total
de datos.

PASO 7. Hacer el histograma de frecuencias o


de frecuencias relativas. El histograma consiste
en una serie de barras cuya longitud de las bases
son los intervalos de clase y la altura representa
la frecuencia o la frecuencia relativa de los
datos contenida en cada clase.

Histogramas

de frecuencias para la edades.

Histograma

edades.

de frecuencias relativas para las

Tipo distribucin normal


El histograma de una muestra tomada de un proceso
aleatorio bien controlado (distribucin normal), siempre ser de
este tipo, si la muestra proviene de una poblacin grande o
indeterminada.

Tipo serrucho
Tendremos esta forma cundo el tamao de la clase
del histograma, no ha sido establecida
adecuadamente.
14
12
10
8
6
4
2
0
1

9 10

Tipo sesgada
Estos histogramas se observan en casos de defectos o
fallas.

12
10
8
6
4
2
0
1

9 10

Datos aislados
Este tipo de histogramas se presenta debido a
errores en mediciones o en la toma de la muestra.

El Diagrama de Pareto es una forma especial de


grfico de barras verticales que separa los problemas
muy importantes de los menos importantes,
estableciendo un orden de prioridades.
Fue creado sobre la base del principio de Pareto,
segn el cual, el 80% de los problemas son
provenientes de apenas el 20% de las causas (ley 8020, pocos vitales, muchos triviales). Vilfredo Pareto
fue un economista italiano.
que, en el siglo XIX, present una frmula que
mostraba la desigualdad en la distribucin de los
salarios.
El Diagrama de Pareto se usa para, identificar y dar
prioridad a las causas o defectos ms importantes en
cualquier proceso, evaluando el comportamiento de
un problema, comparando los datos entre el "antes" y
el "despus".

En una fbrica de ropa se registran los defectos


encontrados en prendas de vestir cuando se hace
la inspeccin final. Los registros de las ltimas
dos semanas se muestran a continuacin.

Se trazan dos ejes verticales de la misma longitud


perpendicular en cada esquina de un eje horizontal.
En el eje vertical izquierdo, se traza una escala
desde el cero hasta el nmero de defectos en
listados. En el eje vertical derecho haga una escala
de 0 a 100%. El 100% corresponder al total de
defectos enlistados. Divida el eje horizontal en
intervalos iguales, de acuerdo con la cantidad de
categoras o lista de defectos. Construya y denomine
las barras, colocando las categoras en orden
decreciente de frecuencia, de izquierda a derecha.
Trace una lnea punteada que conecte el origen con
la esquina superior derecha de la primera barra, se
suma la altura de la primera barra, la altura de la
segunda barra.

Marque con un punto el valor obtenido en la


prolongacin del lado derecho de la segunda barra.
Sume a esta nueva altura la altura de la tercera
barra. Marque con un punto el valor obtenido en la
prolongacin del lado derecho de la tercera barra.
Hacer esto, sucesivamente, hasta la ltima barra
.Enlace todos los puntos marcados con una lnea,
dando continuidad a la lnea punteada iniciada en el
origen, para formar la curva de Pareto. El ltimo
punto representa el 100 % de los eventos. Complete
el grfico con informaciones tales como: nombre del
grfico, perodo, responsable, etc.

Se

refiere a las variaciones que son a menudo


inevitables. El error puede definirse tambin
como la variacin producida por factores
distorsionantes tanto conocidos como
desconocidos.

De

tratamiento: debido a la incapacidad de


replicar o repetir el tratamiento desde una
aplicacin a la siguiente.
De medida: debido a las imprecisiones en el
proceso de medicin o recuento.
De muestreo: debido a la seleccin aleatoria
de unidades experimentales para la
investigacin.

La

funcin ALEATORIO (RAND en la versin


inglesa) de Excel genera nmeros aleatorios.
Esta funcin no tiene argumentos y es
recalculada nuevamente cada vez que se
produce un cambio en la hoja, excepto que
el modo de clculo sea "manual".
Los nmeros que produce ALEATORIO (RAND)
van
de
del
0
al
1.
En esta hoja usamos la frmula =ALEATORIO()
en
el
rango
A2:A11

Si

queremos producir una serie de nmeros


aleatorios enteros, debemos combinar la
funcin ALEATORIO con la funcin
REDONDEAR (ROUND), o con alguna otra
funcin de este tipo como REDONDEAR.MAS o
REDONDEAR.MENOS.
En esta hoja, usamos la frmula combinada
=REDONDEAR(ALEATORIO()*100,0) para
producir nmeros aleatorios entre 0 y 100

Si

queremos producir nmeros aleatorios que


se encuentren en un rango entre dos
nmeros, digamos entre 12 y 88, podemos
usar la frmula

=REDONDEAR(ALEATORIO()*(88-12)+12,0)

CLCULO DEL TAMAO MUESTRAL

Se trata de una situacin especial, en la que se va a determinar la presencia o ausencia de


un determinado documento. En este caso, hay que determinar la proporcin esperada de la
variable de inters, la precisin deseada, y el nivel de confianza. Podemos aplicar las
siguientes frmulas para el clculo del tamao muestral (si el muestreo es aleatorio).
Si conocemos el tamao de la poblacin usaremos el mtodo para poblaciones finitas.

Si por el contrario el tamao de la poblacin es desconocido o infinito usaremos la otra


alternativa.

Tamao muestral

Tamao de la poblacin, nmero total de historias.

Valor correspondiente a la distribucin de Gauss 1,96 para a =0,05 y 2,58 para a =0,01.

Prevalencia esperada del parmetro a evaluar. En caso de desconocerse, aplicar la opcin ms desfavorable (p=0,5), que hace
mayor el tamao muestral.

1-p (Si p=30%, q=70%)

Error que se prev cometer. Por ejemplo, para un error del 10%, introduciremos en la frmula el valor 0,1. As, con un error del
10%, si el parmetro estimado resulta del 80%, tendramos una seguridad del 95% (para a =0,05) de que el parmetro real se
sita entre el 70% y el 90%. Vemos, por tanto, que la amplitud total del intervalo es el doble del error que introducimos en la
frmula.

You might also like