You are on page 1of 48

Enzo Bravo Burgos

2


PRESENTACION





Dos principios han presidido en todo momento la redaccin de este texto de ayuda dirigido a los
participantes del curso Estadstica Aplicada para Ingenieros del Programa WA de la
Universidad Privada del Norte.

El primero es la necesidad de demostrar la utilidad de la Estadstica para encontrar soluciones a
los muchos problemas que se presentan a diario en condiciones reales. El texto pone de
relieve que en el mundo competitivo actual ya no es posible tomar decisiones basadas en
simples conjeturas o en lo que haya funcionado bien en el pasado. Muy al contrario, solo
despus de una consideracin detallada y de indagacin cientfica se pueden plasmar decisiones
bien informadas e inteligentes.

El segundo es la necesidad de interpretar correctamente los resultados de todas las pruebas
estadsticas. Nunca se ponderar bastante la importancia de interpretar debidamente los
resultados de todas las pruebas estadsticas. No basta con masticar nmeros y deducir una
respuesta. Sin la capacidad de interpretar sta, se pierden su significado y su utilidad.






3





INTRODUCCION

El origen etimolgico de la palabra Estadstica, tiene diversas referencias: par algunos, proviene
de la voz griega STATERA, que significa balanza, otros sostienen que deriva del latn STATUS
que significa situacin, mientras que algunos autores afirman que procede del alemn STAAT
que significa estado. En el caso concreto de suponer que viene del vocablo estado, es por el
hecho que una de las funciones tradicionales del gobierno y del Estado es llevar registros sobre
la situacin de la poblacin, nacimientos, defunciones, produccin, impuestos, entre otros.

Es nuestro propsito, introducir al estudiante en los primeros pasos sobre el uso y manejo de
datos numricos: distinguir y clasificar caractersticas en estudio, ensearle a organizar y
tabular medidas obtenidas mediante la construccin de tablas de frecuencia, los mtodos para
elaborar una imagen que sea capaz de mostrar grficamente unos resultados y el clculo de las
medidas.

Llegar un da en el que el razonamiento estadstico ser tan necesario, como ahora lo es la
habilidad de leer y escribir.
H.G. Wells (1866-1946)







4




ESTADSTICA E INVESTIGACIN

La estadstica interviene en la investigacin y/o el mtodo cientfico a travs de la
experimentacin y observacin. Esto es, las observaciones experimentales y
conocimientos son partes integrantes del mtodo cientfico y esos mtodos
invariablemente conducen al empleo de tcnicas de la estadstica.
El uso de la Estadstica como herramienta de la investigacin no puede separarse de
la planeacin general del proyecto de investigacin. Si un proyecto de investigacin
debe producir datos que van a ser tratados estadsticamente entonces un mtodo
estadstico apropiado debe formar parte integrante de un diseo total.
Aunque parece demasiado obvio, un proceso de investigacin debe ser diseado y
planificado antes de efectuarse. Sin embargo, es bastante frecuente que muchos
investigadores aporten muchos datos, obtenidos de manera fortuita y a menudo sin
una idea precisa de por qu fueron obtenidos. En tales casos, es a veces triste decirle
al investigador que sus esfuerzos fueron desperdiciados porque no hay una manera
lgica de analizar sus datos.

PROCESO DE LA INVESTIGACION


1. Planteamiento del problema.
2. Fijacin de los objetivos.
3. Formulacin de la hiptesis.
4. Definicin de la unidad de observacin y de la unidad de medida.
5. Determinacin de la poblacin y de la muestra.
6. La recoleccin.
7. Crtica, clasificacin y ordenacin.
8. Tabulacin.
9. Presentacin
10. Anlisis
11. Conclusiones





5



LAS COMPUTADORAS Y LA ESTADSTICA

La computadora se ha convertido en una herramienta importante en la presentacin y
anlisis de los datos. Si bien muchas tcnicas estadsticas slo necesitan de una
calculadora de mano, su empleo consume mucho tiempo y esfuerzo. La computadora
realiza tales tareas con mucha mayor eficiencia. En el trabajo en computadora, el
usuario introduce los datos y luego selecciona los tipos de anlisis y la presentacin de
los datos que le interesa. Estas ventajas hacen del uso de la computadora una labor
prcticamente imprescindible en el proceso del anlisis de datos, vistos tambin la
popularidad que van adquiriendo las computadoras y su imposicin en la labor de
cualquier actividad humana.

Para ello se ha credo conveniente utilizar no solo la hoja de clculo de Excel, que
definitivamente es una excelente herramienta en el procesamiento de datos, as
mismo el uso de los paquetes estadsticos especializados brindan su mayor utilidad en
la parte inferencial del curso a desarrollar, entre ellos SPSS, PAS 18, Minitab, etc.






6



I.LA ESTADISTICA
1. DEFINICIN:
La Estadstica es una ciencia que nos ofrece un conjunto de mtodos y tcnicaspara
recopilar, organizar, presentar, analizar e interpretar un conjunto de datos respecto a
variables en estudio de una poblacin, con el fin de obtener conclusiones y tomar decisiones
sobre determinados hechos o fenmenos en estudio.
La estadstica es una rama de la matemtica y es parte del mtodo cientfico. En la
actualidad, para hacer investigacin cientfica se necesita conocer de estadstica.

2. CLASIFICACION DE LA ESTADSTICA
La Estadstica se clasifica de la siguiente manera:
2.1. Estadstica Descriptiva
Es aquella rea de la Estadstica que describe y analiza una poblacin, sin pretender
sacar conclusiones de tipo general. Es decir, las conclusiones obtenidas con validas
solo para dicha poblacin.
2.2. Estadstica Inferencial
Es aquella rea de la Estadstica, cuyo propsito es inferir o inducir leyes de
comportamiento de una poblacin, a partir del estudio de una muestra. Es decir las
conclusiones obtenidas a partir de una muestra, son validas para toda la poblacin.





Estadstica Descriptiva

7



3. DEFINICIONES PRELIMINARES:
3.1. POBLACIN:
Es un conjunto grande y completo de individuos, elementos o unidades que presentan
como mnimo una caracterstica en comn y observable.Para definir una poblacin esta
debe contener los siguientes elementos: contenido, espacio y tiempo. Al nmero de
elementos de una poblacin de denota por N.
Una poblacin puede clasificarse de la siguiente manera:
A. Segn su extensin:
Poblacin Finita: es aquella que tiene un determinado nmero de elementos.
Poblacin Infinita: Es aquella cuyos elementos no se pueden contar.
B. Segn su mbito o naturaleza:
Poblacin Objeto: est dada por los elementos que forman la poblacin.
Poblacin Objetivo: est dada por la informacin que da la poblacin objeto



Ejemplo:

Lote de 10,000 botellas producidas para envases de cerveza. Compaa MONTESUR
S.A. Lima Octubre 2010.


8



3.2. MUESTRA
Es una parte o un subconjunto de la poblacin en estudio. Tambin se puede decir que
es una coleccin de unidades de muestreo seleccionados de un marco muestral o de
varios marcos muestrales.Al nmero de elementos de la muestra se denota por n.
Una muestra tiene las siguientes caractersticas:

a. Es representativa.
b. Es adecuada.

Ejemplo:

100 botellas de un lote; producidas para envases de cerveza. Compaa Compaa
MONTESUR S.A. Lima Octubre 2010.

3.3. UNIDAD DE ESTUDIO:
Es el animal persona o cosa de quien se dice algo. Es el elemento quien nos va a dar la
informacin. Es el individuo u objeto del cual se toman las mediciones u observaciones.

Ejemplo:

Una botella para envase de cerveza.

3.4. VARIABLE:
Una variable es una caracterstica de estudio de una poblacin. Una variable es lo que
se quiere evaluar en una investigacin. Las caractersticas toma diferentes valores que
varan de individuo a individuo o de objeto a objeto. Aquellas caractersticas que
permanecen inalterables en las unidades de estudio reciben el nombre de constantes.

9

Generalmente, las variables se designan con las ltimas letras maysculas del
abecedario: X, Y, Z; y los valores de las variables se designan con letras minsculas: x
i
, y
i
, etc.
Las variables se clasifican de la siguiente manera:
- Por su relacin: Variable dependiente - variable independiente.
- Por su escala de medicin: Nominal Ordinal Intervalo Razn.
- Por su naturaleza: Cuantitativas - Cualitativas.














Ejemplo:

Presin de la botella de cerveza medida en lb/pul
2


3.5. OBSERVACIONES:
Estadsticamente son los datos que se recolectan para un estudio. Una observacin o
dato es cuando una variable en si toma un valor especifico.

Ejemplo:

Variable
Cualitativa
Cuantitativa
Nominal

Ordinal
Discreta
Continua
Cualidad
O
Atributo
Cantidad
o
Nmero
Conteo Medicin No orden
Orden

10


262.02 (lb/pul
2
)
ELEMENTOS DE UNA VARIABLE:

La identificacin y definicin de variables, es la tarea ms delicada de toda la investigacin y
del trabajo estadstico, y por tanto, para tener xito en la seleccin de variables es
recomendable distinguir:





3.6 PARAMETRO:
Es un valor, una cantidad, un indicador que se obtiene con informacin de la
poblacin. Dentro de estos tenemos:
a. El promedio poblacional()
b. La varianza poblacional(
2
)
c. La proporcin poblacional (P).

Ejemplo:
Presin promedio de las botellas de un Lote de 10,000 producidas para envases de
cerveza. Compaa MONTESUR S.A. Lima Octubre 2010.

3.7 ESTIMADOR:
Es un valor, una cantidad, un indicador que se obtiene con informacin de la
muestra. Dentro de estos tenemos:
- Media Muestra (

)
- Varianza Poblacional ( S
2
)
- Proporcin Muestral ( p)

Ejemplo:

1. Un nombre o denominacin de la variable
2. Alguna definicin o conceptualizacin
3. Un conjunto de categoras, que es definida por el investigador.
4. Procedimientos para categorizar las unidades de anlisis
5. Algunas medidas de resumen o anlisis.

11

Presin promedio de las botellas de una muestra de 100 de ellas, producidas para
envases de cerveza. Compaa MONTESUR S.A. Lima Octubre 2010.
CASO: Una fbrica de gaseosas proyecta lanzar al mercado un nuevo sabor. Se realiza un test
de aceptacin de dicho sabor en una muestra de 30 personas, utilizando una escala de 10
puntos, para medir el grado de aceptacin. Los puntos obtenidos en las 30 personas fueron los
siguientes:
2 6 8 7 4 5 10 6 6 7 6 7 3 8 7 6 8 6 5 4 7 8 5 7 6 7 2 7 2 7
La muestra estuvo compuesta por igual personas de ambos sexos, de un barrio residencial de
una ciudad.
a) Cul es la poblacin? b) Cul es la muestra? c) Cul es la variable? d) De qu tipo es? e)
Cul es el estimador? f) Cul es el parmetro? g) Cul es la unidad de estudio?



4. Mtodos y Tcnicas de Recoleccin de Datos:

La informacin estadstica, como datos procesados de acuerdo a ciertos objetivos, es un
medio que permite cuantificar y cualificar los aspectos de una realidad, de un fenmeno o
problema determinado, en un momento o periodo dado y un mbito concreto. En general,
para identificar los datos y la informacin requerida es recomendable considerar:

a.- Naturaleza y objetivo de la investigacin, como referencia para identificar las variables.
b.- Conocidas las variables se identifica los datos e informacin que se necesitara.
c.- Asegurar la posibilidad de acceso a la fuente de datos.
d.- Considerar las tcnicas para la recoleccin de los datos.

Unidad de estudio

Variable de estudio
Tipo:

Poblacin
Muestra
Estimador
Parmetro


12


4.1. Fuentes de Datos
La fuente de datos es el lugar, la institucin, las personas o elementos donde estn
los datos que necesitan para cada una de las variables o aspectos de la investigacin.
A) Las Oficinas de estadstica
B) Archivos o Registros Administrativos
C) Documentos
D) Encuestas y Censos
E) Los elementos o sujetos

4.2. Tcnicas de Recoleccin de Datos

Las tcnicas de recoleccin son diversas y dependen de: la naturaleza del objeto de
estudio, de las posibilidades de acceso o contacto con los elementos investigados, del
tamao de la poblacin o muestra, de los recursos y de la oportunidad de obtener los
datos. Entre las ms frecuentes tenemos:

4.2.1 LA OBSERVACION: La observacin es el mtodo bsico que se utiliza para
adquirir informacin acerca del mundo que nos rodea, y por lo tanto constituye la
tcnica primordial de la investigacin cientfica.
Tipos de Observacin:
Segn los medios utilizados:
Observacin Estructurada

13

Observacin No Estructurada

Segn la participacin del observador:
Observacin Participante
Observacin No Participante

Segn el lugar donde se realiza:
Observacin Documental
Observacin de Campo

Segn el nmero de Observadores:
Observacin Individual
Observacin Colectiva

Ventajas:
Los hechos se estudian sin intermediarios
Se obtiene informacin independiente , los fenmenos se estudian en el
momento que ocurren.
Desventajas:
No sirve para estudiar muestras grandes
Es una tcnica muy costosa, requiere de observadores altamente entrenados y
calificados.
No ofrece informacin sobre hechos pasados, futuros o manifestaciones
subjetivas.




14

4.2.2 LA ENTREVISTA: Es una situacin de interrelacin o dialogo entre personas, es
una tcnica donde una persona llamada entrevistador, solicita el entrevistado, le
proporcione algunos datos o informacin.
Tipos de Entrevistas:
Entrevista Estructurada
Entrevista No Estructurada
Entrevista Focalizada
Entrevista Simultanea
Entrevista Sucesiva

Ventajas:
Permite estudiar un gran nmero de personas
Permite captar manifestaciones subjetivas de los entrevistados por su
comportamiento en el momento de la entrevista.
Permite preguntar sobre acontecimientos pasados y/o futuros.
Es menos costoso que la observacin.

Desventajas:
Depende de la memoria y el deseo de participacin de los entrevistados.
Se pueden obtener resultados diferentes segn el tipo de preguntas y la manera
de formularlas.
La ausencia de secreto puede influir en la veracidad o deseo de proporcionar las
respuestas.

4.2.3 EL CUESTIONARIO: Es un instrumento constituido por un conjunto de
preguntas sistemticamente elaborados, con el propsito de obtener informacin;
cuando las preguntas se organizan e imprimen, se obtiene el Formulario o Cedula,
que es el instrumento que se utiliza para registrar las respuestas.



15


Tipos de Cuestionarios:
Cuestionario Abierto
Cuestionario Cerrado

Ventajas:
Es una tcnica muy econmica requiere de menos personas y menos tiempo para
abarcar una gran poblacin.
Existe menos riesgo de distorsin de las respuestas pues generalmente son
annimos.
No influye es las respuestas el aspecto u opinin del entrevistador; proporciona
mayor libertad al responder..
Desventajas:
Depende de la memoria y el deseo de participacin de los entrevistados.
Se requiere que los encuestados sepan leer y escribir.
Puede existir un alto porcentaje de preguntas sin contestar.
Se debe cuidar la redaccin de las preguntas para que sean entendidas por igual
por parte de los entrevistados.

4.2.4 LA ENCUESTA: Es una tcnica de recoleccin de datos, donde se obtiene la
informacin tal como se necesita, preparada ex profesamente y con objetivo
estadstico; permite observar y registrar caractersticas de las unidades de anlisis de
una determinada poblacin o muestra, delimitada en tiempo y espacio. En toda
encuesta se hace uso del cuestionario, cuyas respuestas se registran en el formulario
o cedula.
Cuando una encuesta est dirigida a la totalidad de la poblacin se llama CENSO; en
tanto cuando est dirigida a una muestra se llama ENCUESTA POR MUESTREO.



16

II. PRESENTACIN DE LA INFORMACIN:
En la Estadstica se trabaja generalmente con una gran cantidad de datos los cuales por
facilidad de anlisis y clculos se organizan en Cuadros de Distribucin de Frecuencias (CDF) y
Grficos Estadsticos (GE).

1. CUADRO DE DISTRIBUCIN DE FRECUENCIAS (CDF):

1.1. DEFINICIN:

Un cuadro de distribucin de frecuencias, es una tabla resumen de un conjunto de
datos que muestra el comportamiento o distribucin de la variable en estudio en forma
rpida y resumida.
An cuando un cuadro de frecuencias se construye a libre criterio de quien lo ejecuta,
generalmente es comn seguir algunos pasos que de alguna forma homogenizan
criterios y ayudan a los fines didcticos.
Para realizar este anlisis se tienen que tener en cuenta el tipo de variable que se esta
evaluando.

1.2. PARTES DE UN CUADRO DE DISTRIBUCION DE FRECUENCIAS:
Las partes de un CDF son las siguientes:
a. Nmero del cuadro de frecuencias en forma correlativa.
b. Ttulo: Especificar la variable y la poblacin en estudio
c. Encabezado o conceptos.
d. Cuerpo o contenido del cuadro de frecuencias
e. Nota de pie (no siempre es necesaria)
f. Fuente
g. Elaboracin

1.3. ELEMENTOS PARA CONSTRUIR UN CDF:
Para construir un cuadro de frecuencias se utilizan los siguientes elementos:
A. Valores de la variable Xi:
Los valores de la variable o datos se representan por Xi. Ejm: Si se tienen 50
datos sus valores correspondientes no agrupados se representan como X
1
, X
2
,
X
3
,..., X
50
.



17

B. Intervalos de clase:
Los intervalos son subconjuntos de la recta real Ron que estn definidos por un
lmite menor o inferior Li y un lmite mayor o superior Ls.

C. Frecuencia:

1. Frecuencia absoluta simple:
Se denotan por fi. Est constituida por el nmero de veces que se repite un
valor. En el caso de intervalos es el nmero de observaciones comprendidas
en dicho intervalo. Estas frecuencias siempre son enteros positivos y adems
la suma de todos ellos es el tamao de la muestra n.

2. Frecuencia relativa:
Se denotan por hi. Indica la relacin o proporcin existente entre la
frecuencia absoluta simple y el nmero total de datos. Estas frecuencias son
nmeros fraccionarios positivos entre o y 1. Para fines interpretativos estas
frecuencias se expresan en % (hi%). As:

n
f i
hi =

100 (%) x
n
i f
hi =


3. Frecuencia absoluta acumulada:
Se denotan por Fi. Resulta de la suma de las frecuencias cuyas marcas de
clase son iguales o menores a la marca de clase del intervalo dado o
considerado, es decir:
F
1
= f
1

F
2
= f
1
+ f
2

F
3
= f
1
+ f
2
+ f
3

.............................................

Fj = f
1
+ f
2
+ f
3
+ ....... + fi



18

4. Frecuencia relativa acumulada:
SE denotan Hi. Resulta de la suma de las frecuencias relativas simples hasta
la frecuencia del intervalo considerado. As:
H
4
= h
1
+ h
2
+ h
3
+ h
4

H
6
= h
1
+ h
2
+ ....+ h
6

Para fines interpretativos estas frecuencias se expresan en % (Hi%)

D. Marca de clase:
Se denota por Yi. Es el promedio de los valores correspondientes a los lmites
inferior y superior de cada uno de los intervalos determinados.


1.4. PROPIEDADES DE UN CDF:

A. Las fi y Fi son siempre nmeros enteros positivos. Es decir: fi , Fi 0
B. Las hi y Hi son siempre nmeros fraccionarios positivos comprendidos entre 0 y 1,
es decir 0 hi , Hi 1
C. F1 siempre es igual f1 y H1 siempre es igual a h1.
D. La suma de todas las fi es igual a n y la suma de las hi es igual a 1.
E. Fm siempre es igual a n y Hm siempre es igual a 1.


1.5. CONSTRUCCIN DE CUADROS DE FRECUENCIAS:

Para la construccin de los CDF hay que tener en cuenta el tipo de variable que se est
analizando, es decir, si es cuantitativa continua, cuantitativa discreta o variable
cualitativa.

A. CDF PARA UNA VARIABLE CUANTITATIVA CONTINUA:
Para la construccin de este cuadro hay que realizar los siguientes pasos:

PASO 1.Determinar el Rango del conjunto de datos.


PASO 2. Determinar el nmero de intervalos k.


Este valor siempre es un nmero entero (Redondeo)
R = Valor mximo - Valor mnimo
k = 1 + 3.3 log ( n )

19

PASO 3. Determinar la amplitud A intervlica (de cada intervalo).



Este valor est en funcin de la estructura de la base de datos (tomar el inmediato
superior)

PASO 4. Determinar el nuevo rango R
2
(Solamente si se tomo un
inmediato superior)




A: es la amplitud teniendo en cuenta el inmediato superior.
PASO 5. Determinar los intervalos y finalmente construir el cuadro.

B. CDF PARA UNA VARIABLE CUANTITATIVA DISCRETA:
Para la construccin de un CDF para una variable cuantitativa discreta (valores
discretos) ya no se utiliza los pasos anteriores solamente colocar en los intervalos a
los diferentes valores discretos.

C. CDF PARA UNA VARIABLE CUALITATIVA:
Para la construccin de un CDF para una variable cualitativa se sigue los mismos
pasos que para una variable cuantitativa discreta, es decir, solamente colocar en
los en los intervalos a las diferentes categoras de la variable cualitativa.



EJERCICIO DE APLICACIN

UTILIZANDO UNA BASE DE DATOS CON VARIABLES QUE ESTEN INVOLUCRADAS EN
SUS CENTROS DE TRABAJO CONSTRUYA CUADROS Y GRAFICOS ESTADISTICOS.



A = R / m
R
2
= A * m

20

III. GRFICOS ESTADSTICOS:

1. DEFINICION:

- Un grfico estadstico es una representacin pictrica, cuyo objetivo es expresar el
comportamiento de una variable en estudio.
- Los grficos estadsticos son representaciones de informacin real que existe en nuestro
mundo, es una expresin artstica de datos reales y observados.
- Un grfico sirve tambin para comparar visualmente el comportamiento de dos o ms
variables similares o relacionadas.

2. PARTES DE UN GRAFICO ESTADISTICO:

- Numeracin.
- Ttulo: Aqu se seala la poblacin en estudio y la variable de inters.
- Diagrama: est dado por el propio dibujo el cual representa el comportamiento de los
datos.
- Escalas y/o leyendas: Son indicadores donde se precisa la correspondencia entre los
elementos del grfico y la naturaleza de las medidas representadas.
- Fuente: Aqu se seala el CDF que permiti obtener el respectivo grfico.

3. CRITERIOS PARA CONSTRUIR GRAFICOS:

- No existe una regla especfica para la construccin de grficos, pero si es posible
considerar algunas recomendaciones o criterios.
- Se emplea una diversidad de grficos, cuya estructura o forma depender del tipo de
variable que se est estudiando.
- Este grfico debe tener rasgos simples y de fcil comprensin.

4. TIPOS DE GRAFICOS ESTADISTICOS

Hay varias tipos de grficos, los cuales dependen del tipo de variable que esta evaluando.
Presentaremos aqu los ms importantes:
a. Grfico de bastones: Se utliza cuando se tienen datos de una variable cuantitativa
discreta.
b. Histograma: Se utiliza cuando se tienen datos de una variable cuantitativa continua.
c. Grfico de Barras: Se utiliza cuando se tienen datos de una variable cualitativa.
d. Grfico Sectorial o Pastel: Se utiliza cuando se tienen informacin de una variable
cualitativa o cuantitativa discreta.
e. Polgono de frecuencias: Se utiliza para indicar el comportamiento de un conjunto de
datos.
f. Grfico de series de tiempo: Se utiliza para analizar variables cuantitativas continuas
pero expresadas en el tiempo.
g. Pirmide poblacional: Se utiliza para analizar el comportamiento de una poblacin segn
sexo y edad.
h. Pictograma.
i. Cartograma, etc.


21

5. CONSTRUCCIN DE GRAFICOS ESTADISTICOS DE EXCEL:

Excel puede crear grficos a partir de datos previamente seleccionados en una hoja de
clculo.El usuario puede incrustar un grfico en una hoja de clculo, o crear el grfico en
una hoja especial para grficos. En cada caso el grfico queda vinculado a los datos a partir
de los cuales fue creado,por lo que si en algn momento los datos cambian, el grfico se
actualizar de forma automtica.Los grficos de Excel contienen muchos objetos, ttulos,
etiquetas en los ejesquepueden ser seleccionados y modificados individualmente segn las
necesidades del usuario.

Para crear un grfico con el Asistente para Grficos, se deben seguir los siguientes pasos:
1. Seleccionar los datos a representar.
2. Ejecutar el comando Insertar / Grfico o hacer clic en el botn

A continuacin aparece el siguiente cuadro de dilogo del Asistente para Grfico.Que
permite elegir el tipo y subtipo degrfico que se va a utilizar entre dos listas que son
estndares y personalizados.




22

Para agregar las etiquetas de los datos debemos ubicarnos dentro de la grafica, hacer clic
derecho y aparecer:

Luego de agregar las etiquetas podemos adems cambiar el formato de las etiquetas y
aparecer la siguiente ventana para realizar los cambios:

Luego debemos configurar los aspectos que conciernen a la presentacin del grfico,
aportando una vista preliminar del mismo. As, se determinan el ttulo, las inscripciones de
los ejes, la apariencia de stos, la leyenda, la aparicin o no de tabla de datos y los rtulos.
Finalmente si se quiere desplazar a algn otro lugar sobre la propia hoja en que se
encuentra basta seleccionar todo el grfico y arrastrarlo con el mouse.

23

IV. ANALISIS ESTADISTICO DESCRIPTIVO:

La estadstica descriptiva es una tcnica que consiste en obtener indicadores que describen el
comportamiento de un conjunto de datos. Dentro de estas medidas estadsticas tenemos:
A. Las medidas de Posicin: Dentro de estas tenemos:
a. Medidas de tendencia central: Media, Moda, Mediana.
b. Medidas de localizacin: Cuartiles y Percentiles.
B. Las medidas de variacin: rango, varianza, desviacin estndar, coeficiente de variacin.
C. Las medidas de deformacin: asimetra y kurtosis.

1. MEDIDAS DE TENDENCIA CENTRAL

1.1. MEDIA ARITMTICA:
- Se denota por x
- Es la medida estadstica ms fcil de calcular.
- La media o promedio es el punto central de un conjunto de datos.
- Para calcular la media aritmtica se utilizan las frmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

MEDIDAS
PARA DATOS NO
AGRUPADOS
PARA DATOS AGRUPADOS
PROMEDIO
n
X
X
n
i
i
=
=
1

Xi: datos
n = nmero de datos

n
f X
X
m
i i
i i
=
=

Xi: Marca de clase o punto
medio
fi: frecuencia absoluta simple
n: nmero de datos.



24

PROPIEDADES DE LA MEDIA ARITMETICA:
a. La media es tpica en el sentido de que es el centro de gravedad de la distribucin,
equilibrando los valores a uno y otro lado de ella.
b. La media aritmtica es un valor representativo de los valores individuales de X, puesto
que la suma total no vara si se sustituye cada valor dado por su media, es decir:
nx x =


c. M (XK)= M(X) K, donde K es constante y M(X) es media.
d. M(X K)= K M(X), donde K es constante.

1.2. MEDIANA:
- Se denota por Me.
- Es un valor que divide al conjunto de datos en dos partes iguales, es decir, cada
segmento tiene el 50% de los datos.
- Para calcular la mediana se utilizan las frmulas adecuadas ya sea sin son datos
agrupados o datos no agrupados.
MEDIDAS
PARA DATOS NO
AGRUPADOS
PARA DATOS AGRUPADOS
MEDIANA
Procedimiento:
- Ordenar la serie en forma
ascendente
- Calcular el valor

, que
indica el lugar que ocupa la
mediana.
- Ubicar a

en la serie de
datos.

- Cuando n impar:
Me =Valor Central

- Cuando n par:
Me =Promedio de valores
centrales.

(
(


+ =

j
j
f
F n
A Li Me
1
2 /

Li: lmite inferior del intervalo
mediano.
A: amplitud intervlica.
2 / n es el elemento
determinante
Fj-1: Frecuencia acumulada
anterior al intervalo mediano
fj: Frecuencia absoluta simple
del intervalo mediano



25

PROPIEDADES DE LA MEDIANA:
a. La mediana es un punto tal que la vertical levantada sobre el histograma y el polgono
de frecuencias divide a este en dos reas de idntica superficie.
b. La mediana es menos sensible a los valores extremos que la media aritmtica.
c. Se puede calcular siempre; y cuando la unidad de la escala no es constante.

1.3. MODA: Mo
- La moda es el valor que ms se repite en un conjunto de datos.
- En un conjunto de datos se presentan los siguientes casos:
a. No existir datos Amodal
b. 1 moda Unimodal.
c. 2 modas Bimodal
d. 3 a ms modas Multimodal

- Se utiliza cuando se hace un anlisis exploratorio visual
- Para calcular la moda se utilizan las frmulas adecuadas ya sea sin son datos
agrupados o datos no agrupados.
MEDIDAS
PARA DATOS NO
AGRUPADOS
PARA DATOS AGRUPADOS
MODA
Procedimiento:
Observar la base de datos y
determinar el valor que ms se
repite, o ms frecuente.
(

A + A
A
+ =
2 1
1
* A Li Mo
Li: lmite inferior del intervalo
modal.
A: amplitud intervlica
1 2
1 1
+

= A
= A
j j
j j
f f
f f



26

PROPIEDADES DE LA MODA:
a. Carece de significado si la distribucin no contiene un gran nmero de observaciones y
posee una clara tendencia central.
b. Solo es afectada por el nmero de datos y no por la magnitud de estos.
c. Es el valor ms inestable de tendencia central depende del modo de clasificacin de la
variable.
RELACION ENTRE MEDIA, MEDIANA Y MODA
X =Me= Mo Si las tres medidas coinciden entonces se dice que la distribucin de frecuencias
es simtrica.


Mo < Me < X Si la distribucin de frecuencias es asimtrica de cola a la derecha entonces, la
moda es menor que la mediana y esta a su vez es menor que la media.

X < Me< Mo Si la distribucin de frecuencias es asimtrica de cola a la izquierda entonces,
la media es menor que la mediana y esta a su vez es menor que la moda.



Media = Mediana = Moda

27

2. MEDIDAS DE LOCALIZACIN:

2.1. CUARTILES:
- Se denotan por Qk, donde k=1,2,3
- Son valores que dividen a un conjunto de datos en 4 partes iguales, es decir, cada
sector tiene el 25% de los datos.
2.2. PERCENTILES:

- Se denotan por Pk, donde k=1,2,3,4,5,6,7,8,9,10, , 99
- Son valores que dividen a un conjunto de datos en 100 partes iguales, es decir,
cada sector tiene el 1% de los datos.








RELACION ENTRE CUARTILES Y PERCENTILES

Q
1
= P
25
Q
2
= Me = P
50
Q
3
= P
75







MEDIDAS
PARA DATOS NO
AGRUPADOS
PARA DATOS AGRUPADOS
CUANTILES

)
Procedimiento:
- Ordenar la serie en forma
ascendente
- Calcular el valor :


(
(


+ =

j
j
k j
f
F k jn
A Li C
1
/
/



28

3. MEDIDAS DE VARIABILIDAD:

3.1. RANGO:
- Se denota por R y la medida de variabilidad ms fcil de calcular.
- Es la diferencia que existe entre el valor mximo y el valor mnimo del conjunto de
datos.
MEDIDAS
PARA DATOS NO
AGRUPADOS
PARA DATOS AGRUPADOS
RANGO

min max V V R =

LI LS R =
Ls: Lmite superior
Li: Lmite inferior

3.2. VARIANZA:
- Mide la variabilidad de un conjunto de datos respecto a un valor central(promedio)
- Mide la variabilidad pero en unidades elevadas al cuadrado, por lo tanto es ilgica
su interpretacin.
- Para calcular la media aritmtica se utilizan las frmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.
MEDIDAS
PARA DATOS NO
AGRUPADOS
PARA DATOS AGRUPADOS
V
A
R
I
A
N
Z
A

MUESTRAL
(n )
|
|
|
|
.
|

\
|

=


=
=
n
i
n
i
i
i
n
x
x
n
s
1
1
2
2 2
) (
1
1

Xi : Datos de la poblacin
u : promedio poblacional
N: Nmero de elementos de
la poblacin
|
|
|
|
.
|

\
|

=


=
=
m
i
m
i
i i
i i
n
f X
f X
n
s
1
1
2
2 2
) (
1
1

Xi : Marca de clase
u : promedio poblacional
N: Nmero de elementos de la
poblacin
fi: frecuencia absoluta simple

29

MUESTRAL
(n >30)


Xi : Datos de la muestra
x : promedio muestral
n : Nmero de elementos de
la muestra



Xi : Marca de clase
X : promedio muestral
n : Nmero de elementos de la
muestra
fi: frecuencia absoluta simple

CRUZAR UN RO

Si ests de paseo en el campo y te encuentras frente a un ro que cruzar, le preguntas a
quin sepa ms, que profundidad tiene ese ro.
Alguien te dice que el ro tiene una profundidad promedio de 1 metro, lo cruzaras sin
informacin adicional?
Probablemente no. T querras saber acerca de la variacin de la profundidad.








Si la profundidad mxima es de 1.5
metros y la mnima de 0.5 metros
podra ser que te animaras a cruzarlo.
Qu pasara si averiguas que la
profundidad del ro va de 0.1 metros (o
sea 10 centmetros en la orilla) hasta
1.9 metros


30

3.3. DESVIACIN ESTANDAR:

- Mide la variabilidad de un conjunto de datos respecto a su valor central pero en
unidades originales.
- Esta es la medida de variabilidad que tiene una interpretacin lgica.
- Se obtiene al sacar la raz cuadrada de la varianza.

MEDIDAS FORMULA
DESVIACION
ESTANDAR
2
o o =

D.E. Poblacional

2
s s =

D.E. Muestral


3.4. COEFICIENTE DE VARIACIN:

- Se denota por C.V.
- El C.V. sirve para determinar si un conjunto de datos tiene un comportamiento
homogneo o heterogneo.
- Para llegar a determinar la homogeneidad se compara con un valor convencional
del 33%.

- Si el CV 33% el conjunto de datos tiene un comportamiento homogneo.

- Si el CV > 33% el conjunto de datos tiene un comportamiento heterogneo.




31


4. MEDIDAS DE FORMA

ASIMETRIA
La asimetra se entiende como la deformacin
horizontal de un conjunto de datos.

Para conocer esta asimetra se calcula el
Coeficiente de asimetra











En un conjunto de datospueden presentar los
siguientes casos:
As= 0, el conjunto de datos es simtrica.
As<0, el conjunto de datos es asimtrica
negativa.
As>0, el conjunto de datos es asimtrica
positiva

KURTOSIS

Se entiende por Kurtosis a ladeformacin
vertical de unconjunto de datos, es decir,
mide el apuntamiento, achatamiento de un
conjunto de datos.

Kurtosis en funcin de los cuantiles:


Si K>0, el conjunto de datos es
leptocrtica.
Si K=0 el conjunto de datos es
mesoctica.
Si K<0, el conjunto de datos es
platicrtica.


















MEDIDAS FORMULA
COEFIENTE DE
VARIACIN
100 * . .
u
V C
o
=

C.V. Poblacional
100 * . .
x
s
V C =

C.V. Muestral
S
Mo X
As

=
S
Me X
As
) ( 3
=
1 3
1 2 3
2
Q Q
Q Q Q
As

+
=
3
) ( 2
10 90
1 3

=
P P
Q Q
k
MESOKURTICA
PLATIKURTICA
LEPTOKURTICA

32

CASO:
Los datos siguientes representan el nmero de ciclos transcurridos hasta que se
presenta una falla en una prueba de piezas de aluminio sujetas a un esfuerzo
alternante repetido de 21 000 psi a 18 ciclos por segundo
1115 1567 1223 1782 1055 798 1016 2100 910 1501
1310 1883 375 1522 1764 1020 1102 1594 1730 1238
1540 1203 2265 1792 1330 865 1605 2023 1102 990
1502 1270 1910 1000 1608 2130 706 1315 1578 1468
1258 1015 1018 1820 1535 1421 2215 1269 758 1512
1315 845 1452 1940 1781 1109 785 1260 1416 1750
1085 1674 1890 1120 1750 1481 885 1888 1560 1642

Realizar el Anlisis Estadstico correspondiente.



























33

SOLUCION:

Medidas de Resumen Ciclos
Media 1403.66
Error tpico 48.09
Mediana 1436.50
Moda 1315.00
Desviacin estndar 402.39
Varianza de la muestra 161913.88
Curtosis -0.44
Coeficiente de asimetra -0.03
Rango 1890
Mnimo 375
Mximo 2265
Suma 98256
Cuenta 70
k = 1 + 3.3 log (n)= 7
A = 270




Intervalos
Ciclos
Xi fi hi% Fi Hi%
Li Ls
I
1
375 645 510 1 1.43 1 1.43
I
2
645 915 780 8 11.43 9 12.86
I
3
915 1185 1050 13 18.57 22 31.43
I
4
1185 1455 1320 14 20.00 36 51.43
I
5
1455 1725 1590 16 22.86 52 74.29
I
6
1725 1995 1860 13 18.57 65 92.86
I
7
1995 2265 2130 5 7.14 70 100.00
70 100.00
Tabla N 01: Distribucin del nmero de ciclos
transcurridos hasta que se presenta una falla en una
prueba de piezas de aluminio.
Fuente: Registros de Produccin de Piezas de Aluminio

34






























0
2
4
6
8
10
12
14
16
18
645 915 1185 1455 1725 1995 2265
f
i

Ciclos
Grfico N 1: Histograma del nmero de ciclos transcurridos
hasta que se presenta una falla en una prueba de piezas de
aluminio
0
2
4
6
8
10
12
14
16
18
*240 *510 *780 *1050 *1320 *1590 *1860 *2130 *2400
f
i

Grfico N 2: Polgono del nmero de ciclos
transcurridos hasta que se presenta una falla en una
prueba de piezas de aluminio

35

ANALISIS DE REGRESION Y CORRELACION

El trmino regresin fue utilizada por primera vez por FRANCIS GALTON (1822
1911) en sus estudios biolgicos sobre la herencia.
GALTON manifest que: la estatura de los hijos de padres inusualmente
altos o inusualmente bajos, tienden a moverse o regresar a la estatura
promedio de la poblacin.

I. DEFINICIN:

Es una tcnica estadstica que sirve para analizar la dependencia de una variable
respecto a otra variable, es decir, conociendo los valores de una variable
independiente se trata de estimar los valores de una variable dependiente.


II. FUNCIONES DEL ANLISIS DE REGRESIN:

Las funciones que persigue el Anlisis de Regresin son:

1. Determinar si las variables independientes y la variable dependiente presentan
fuerzas de relacin.
2. Determinar la estructura o la ecuacin matemtica que relaciona las variables
independientes con las dependientes.
3. Pronosticar o predecir los valores de la variable dependiente en funcin de la
variable independiente.
4. Controlar otras variables independientes al evaluar las contribuciones de una
variable especifica o un conjunto de variables






36

III. TIPOS DE REGRESIN:

TIPO Ecuacin
REGRESIN LINEAL
Simple
X Y
1 0
| | + =
Mltiple
N N
X X Y | | | + + + = ...
1 1 0


REGRESIN NO
LINEAL
Potencia 1
0
|
| X Y =
Exponencial
X
Y
1 0
| | =
Hiperblico
X
Y
1
0
|
| + =


IV. DIAGRAMA DE DISPERSIN

Es el primer paso a realizar para determinar si existe una relacin entre dos
variables.
Este grafico consiste en un conjunto de puntos (x,y) presentados en un plano
cartesiano.
Este diagrama permite visualizar el patrn de comportamiento de estas
variables y por ende conocer la ecuacin de regresin que describen dichos
datos.
Para estudiar las posibles relaciones se presentan los siguientes diagramas de
dispersin:






37






a. Lineal, positiva, perfecta b. Lineal, negativa, perfecta c. Lineal, Positiva,
imperfecta.






d. Lineal, negativa, imperfecta e. No lineal. f. Sin relacin.

V. LA ECUACIN DE REGRESIN:
Si la variable respuesta o variable dependiente (Y) est en relacin con la variable
independiente (X), entonces la relacin funcional o ecuacin de regresin entre Y y
X tienen la siguiente forma:


c | | + + = X Y
1 0
Ecuacin de regresin poblacional

X Y
1 0

| | + = Ecuacin de regresin muestral
X Y | o + =


bX a Y + =


0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Y
X
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Y
X
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Y
X
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Y
X
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Y
X
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Y
X

38


donde:Y = Variable dependiente X = Variable independiente
1 0
, | | = Parmetro de la ecuacin
1 0

,

| | = Estimadores de la ecuacin
0
| = Intercepto. Valor de Y cuando X es igual a cero
1
| = Pendiente. Incremento de Y, cuando X aumenta en una unidad.


REPRESENTACIN GRAFICA:
















Pendiente
I
n
t
e
r
c
e
p
t
o

39

VI. ESTIMACIN DE LOS COEFICIENTES DE REGRESIN:

Para estimar los coeficientes de la ecuacin de regresin, se utiliza el Mtodo de
los Mnimos Cuadrados Ordinarios (MMCO).
Este Mtodo trata de encontrar las coeficientes de la ecuacin que ms se
aproxime al conjunto de datos, es decir, encuentra la ecuacin de la recta de tal
manera que los errores
i i i
Y Y e

= que se forman sean los ms pequeos
posibles.
Para estimar estos coeficientes de regresin , primeramente se deben construir
las ecuaciones normales que son las siguientes:


Ecuaciones
Normales



Al resolver este sistema de ecuaciones normales obtenemos las siguientes formulas:




= =
= = =

=
n
i
n
i
i i
n
i
n
i
n
i
i i i i
x x n
y x y x n
1 1
2 2
1 1 1
1
) (

|

x y
1 0

| | =


Luego se sustituyen los valores en la ecuacin de la recta para obtener la
ecuacin estimada o predecida por el MMCO.


= =
+ =
n
i
n
i
i i
X n Y
1 1
1 0
| |

= = =
+ =
n
i
n
i
n
i
i i i
X X X Y
1 1 1
2
1 1 0
| |

40

VII. ERROR ESTNDAR DE LA ESTIMACIN:
Despus de calcular la ecuacin de la lnea de regresin de la muestra, podra
interesarse en medir hasta qu grado los puntos de datos de la muestra, se
encuentran dispersos alrededor de la lnea de regresin de la muestra.
El error estndar de la estimacin mide la cantidad estndar en la cual los
valores reales de Y difieren de los valores estimados Y

.
Para su clculo se utiliza la siguiente frmula:



2

1 1 1
1 0
2
.


=

= = =
n
y x y y
S
n
i
n
i
n
i
i i i i
x y
| |


ANALISIS DE CORRELACIN:

- El anlisis de correlacin es una tcnica estadstica que mide el grado de asociacin
o afinidad entre las variables cuantitativas consideradas en un estudio.

- Se llamar CORRELACION SIMPLE cuando se trata de analizar la relacin entre dos
variables. Se llamar CORRELACION LINEAL O RECTILINEA si la funcin es una
recta, y de CORRELACION NO LINEAL cuando la funcin es una curva o una funcin
de grado superior.

- El COEFICIENTE DE CORRELACION DE PEARSON, es el estadgrafo que mide el
grado de asociacin o afinidad entre las variables cuantitativas y se denota por r
la cual se define como:






= = = =
= = =

=
n
i
n
i
i
n
i
n
i
i i
n
i
n
i
n
i
i i i i
Y Y n X X n
Y X Y X n
r
1
2
1
1
2
1 1
2 2
1 1 1
) ( ) (

41

Interpretacin:
-1 -0.7 -0.4 0 0.4 0.7 -1

Perfecta Alta Regular Baja Baja Regular Alta
Perfecta
N E G A T I V A P O S I T I V A

COEFICIENTE DE DETERMINACIN:

El coeficiente de determinacin mide el porcentaje de variabilidad en Y que
puede ser explicada por la variable independiente X.

Se denota por R
2
o r
2
Para su clculo se utiliza la siguiente frmula:

+
=
2 2
2
1 0
2

y n y
y n y x y
r
i
i i i
| |


Si r
2
> 0.70, la ecuacin estimada se ajusta o tiende a representar los datos
Si r
2
= 1, la ecuacin estimada es perfecta.






42

EJERCICIOS DE APLICACIN:

CASO N 01: Se tienen informacin de los costos de mantenimiento de 06 maquinas
llenadotas de gaseosas de distintas edades de la Empresa Enrique Cassinelli e Hijos
S.A. La Gerencia desea hacer estimaciones o pronsticos acerca del costo de
mantenimiento (Y) en funcin del tiempo operativo de la mquina (X). La informacin
que se tienen es la siguiente:

Maquina Tiempo
operativo
(X) Aos
Costo de
mantenimiento
$ (Y)
1
2
3
4
5
6
1
1
2
2
3
3
30
40
70
80
100
100

1. Determinar la ecuacin de regresin. Interpretar sus coeficientes
2. Hallar el error estndar de estimacin.
3. Pronosticar el costo de mantenimiento para una mquina que tienen 4 aos
operativos.







43

SOLUCIN

1. Diagrama de dispersin:












1. Determinacin de la ecuacin de regresin:

MAQUINA X Y XY X*X Y*Y
1 1 30 30 1 900
2 1 40 40 1 1600
3 2 70 140 4 4900
4 2 80 160 4 6400
5 3 100 300 9 10000
6 3 100 300 9 10000
TOTAL 12 420 970 28 33800

0
20
40
60
80
100
120
0 1 2 3 4
C
O
S
T
O

TIEMPO
COSTO DE MANTENIMIENTO

44



= =
= = =

=
n
i
n
i
i i
n
i
n
i
n
i
i i i i
x x n
y x y x n
1 1
2 2
1 1 1
1
) (

| =
2
) 12 ( ) 28 ( 6
) 420 )( 12 ( ) 970 ( 6

=32.5

x y
1 0

| | = = 70 - 932.5 (2) = 5


Por lo tanto la ecuacin de regresin es: Y = 5 + 32.5 X

2. Interpretacin:

B
0
= 5: Cuando la mquina no tienen ningn ao de funcionamiento su costo de
mantenimiento es de 5 dlares.

B
1
= 32.5: Por cada ao de funcionamiento de la maquina su costo de
mantenimiento aumenta en 32.5 dlares.
3. Pronostico cuando la mquina tienen 4 aos de funcionamiento: Y=5+32.5*4=135,
que significa, que el costo de mantenimiento para la maquina si tiene 4 aos de
funcionamiento es de 135$.
4. Calculamos el error estndar de estimacin:


2

1 1 1
1 0
2
.


=

= = =
n
y x y y
S
n
i
n
i
n
i
i i i i
x y
| |
=
4
) 970 ( 5 . 32 ) 420 ( 5 33800
= 6.61




45

PARTE OPERATIVA UTILIZANDO SOFTWARE: (EXCEL)
1. CASO N 01:
Ingreso de datos en la hoja de clculo EXCEL:












46


GRAFICAR PARA CONOCER LA TENDENCIA DE LOS DATOS




b.Hacer clic en Datos /Anlisis de Datos/Regresin y aparece la siguiente ventana:













47

c. Ingresar la respectiva informacin; Luego aparece la ventana de dialogo donde hay
que ingresar el rango de Y, el rango de X, activar rtulos, las opciones de salida y
algunas alternativas de inters para el investigador.























48

d. Obtener los resultados finales.

You might also like