Professional Documents
Culture Documents
Estadstica
Versin 4
Institucin universitaria CEIPA
2011
Notas de
Estadstica
2011
SOBRE EL AUTOR
Francisco Javier Jaramillo lvarez. Especialista en Estadstica; Ingeniero de Alimentos. Estudiante de Maestra en Educacin y nuevas Tecnologas. Docente Escuela de Administracin, Institucin Universitaria CEIPA. e-mail: francisco.jaramillo@ceipa.edu.co
Presentacin
Para la Escuela de Administracin de la Fundacin Universitaria Ceipa, es muy grato e importante presentar hoy, lo que conversacionalmente, y muy modestamente
digo yo, hemos denominado Notas de.
Estos cuadernos de administracin, adquieren su importancia por ser parte muy
relevante en nuestro modelo educativo; todo su contenido responde a la arquitectura del ncleo temtico para el cual fue elaborado; no significa lo anterior, que no
sean de gran utilidad tambin para el estudiante de administracin de empresas de
cualquier otra institucin, y para los profesores de administracin, ya que su contenido recoge, en forma muy clara y breve, los aspectos fundamentales del tema
propuesto; a los profesionales de la administracin y directivos en general, les facilita la recordacin de importantes conceptos administrativos.
Son varios los aspectos que debemos destacar en estas Notas de; son elaboradas
por nuestros profesores y ello garantiza su pertinencia dentro de nuestro diseo
curricular por ncleos problmicos; si bien retoman lo fundamental de la teora de
los temas tratados, ya en los casos que plantean y en los ejercicios que proponen,
stos se elaboran a partir del conocimiento de nuestra realidad, de nuestro entorno, y en mi modesto sentir, esa pertinencia las diferencia de la gran mayora de los
tratados de administracin que se manejan en nuestras instituciones, y que contemplan realidades culturalmente muy diferentes a la nuestra; en este sentido, estamos seguros de que estamos haciendo un aporte muy importante, a la ciencia de
la administracin de empresas en Colombia.
Otro aspecto que consideramos debe destacarse, es que su elaboracin, apunta
ms a facilitar el desarrollo de competencias, que a la adquisicin de una erudicin
en la ciencia administrativa; diramos en un lenguaje muy sencillo: apuntan ms a
lo urgente que a lo eminente, sin que lo eminente est ausente de ellas.
Celebramos la iniciativa de la Escuela de Administracin, quienes idearon estas
publicaciones; felicitamos al Decano, a su equipo de directores de programas y a
todos y cada uno de los profesores autores de ellas; todos deben sentir hoy la gran
satisfaccin de estar construyendo administracin de empresas colombiana y de
estar haciendo un gran aporte a la calidad de la formacin de los profesionales colombianos.
Antonio Mazo Meja
Rector Fundador
Tabla de Contenido
INTRODUCCIN.................................................................................... 8
NOCIONES PRELIMINARES DE ESTADSTICA........................................ 10
Estadstica................................................................................................... 10
Poblacin.................................................................................................... 11
Muestra ...................................................................................................... 11
Censo.......................................................................................................... 11
Muestreo.................................................................................................... 11
Parmetros................................................................................................. 12
Estadgrafos................................................................................................ 12
Variable...................................................................................................... 12
EJERCICIO GENERAL............................................................................ 13
OBJETO DE APRENDIZAJE 1 TCNICAS DESCRIPTIVAS.........................14
1.1. VARIABLES CUALITATIVAS................................................................... 14
1.1.1. TABLAS DE FRECUENCIA...............................................................14
1.1.2. GRFICOS......................................................................................15
1.1.3. ESTADSTICOS DE RESUMEN........................................................ 17
1.2. VARIABLES CUANTITATIVAS................................................................ 17
1.2.1. TABLAS DE FRECUENCIA............................................................... 17
1.2.2. GRFICOS:.................................................................................... 19
1.2.3. ESTADSTICOS DE RESUMEN........................................................21
1.3. TABULACIONES CRUZADAS................................................................ 29
EJERCICIOS PROPUESTOS......................................................................... 31
OBJETO DE APRENDIZAJE 2 REGRESIN Y CORRELACIN....................38
2.1. REGRESIN LINEAL SIMPLE ............................................................... 39
2.2. OTROS MODELOS............................................................................... 44
2.3. SERIES CRONOLGICAS...................................................................... 46
2.3.1. IMPORTANCIA DE LAS SERIES CRONOLGICAS..........................47
2.3.2. COMPONENTES DE UNA SERIE DE TIEMPO:............................... 48
2.3.3. EMPLEO DEL ANLISIS DE REGRESIN EN PRONSTICOS....... 50
EJERCICIOS PROPUESTOS......................................................................... 56
OBJETO DE APRENDIZAJE 3 PROBABILIDADES.....................................61
3.1. CONCEPTOS BSICOS ........................................................................ 61
3.1.1. Qu es?:....................................................................................... 61
3.1.2. Experimento:................................................................................. 62
3.1.3. Espacio muestral (S): ..................................................................... 63
3.1.4. Punto muestral: ............................................................................ 63
3.1.5. Evento o suceso (E):....................................................................... 63
3.1.6. Evento aleatorio: .......................................................................... 63
INTRODUCCIN
Estas notas presentan los fundamentos generales de la estadstica, de forma tal
que puedan ser de utilidad para cualquier estudiante de administracin, independientemente de su campo de especializacin.
Se pretende que el estudiante obtenga una apreciacin sobre la utilidad del mtodo estadstico en su campo profesional, que adquiera una buena comprensin
de los parmetros o estadsticos bsicos y la lgica que refuerza la aplicacin de
las herramientas estadsticas, que sea capaz de seleccionar la tcnica estadstica
apropiada y de realizar los clculos necesarios, as como interpretar y comprender
los resultados de su estudio.
La mayora de textos de estadstica utilizados en nuestro medio son traducciones
de libros de Estados Unidos. Por eso, los ejemplos que traen son descontextualizados y desactualizados; uno de los objetivos de este texto es adaptar las herramientas estadsticas a casos de nuestro medio y, para ello, utiliza datos reales y actuales.
La estadstica es una herramienta esencial en la formacin profesional de un administrador. Toda persona responsable de la toma de decisiones debe tener una
formacin muy slida en fundamentos de estadstica, ya que ella interacta directamente con la investigacin, el mercadeo, el control de calidad, rea de ventas,
rea de produccin, entre otras.
La labor a desarrollar en una organizacin requiere de personas con una alta dosis de creatividad, asertividad, sentido comn y con un conocimiento profundo de
tcnicas administrativas y de anlisis, entre otras. Cotidianamente el administrador enfrenta situaciones, especialmente en las reas financiera, contable, de mercadeo, produccin e investigacin, donde se requiere la utilizacin de mtodos y
procedimientos que faciliten la organizacin, anlisis y representacin de las informaciones. Este texto aspira a aportar luces que logren ese fin.
Los objetos de aprendizaje, que harn las veces de captulos, son:
1.
2.
3.
4.
5.
8
Tcnicas descriptivas
Regresin y correlacin
Probabilidades
Distribuciones de probabilidades
Estadstica inferencial
NOCIONES PRELIMINARES DE
ESTADSTICA
Se empezar por definir algunos conceptos elementales que son bsicos para una
comprensin integral de la estadstica.
Estadstica
Es un conjunto de mtodos cientficos que estudian la recoleccin, resumen, anlisis e interpretacin de datos, para ayudar en la toma de decisiones informadas e
inteligentes, o para explicar comportamientos de algn fenmeno o estudio, principalmente en aquellos casos en que hay incertidumbre.
La estadstica permite obtener resultados en cualquier tipo de estudio cuyos movimientos y relaciones, por su variabilidad intrnseca, no puedan ser abordados desde la perspectiva de las leyes deterministas. Podramos, desde un punto de vista
ms amplio, definir la estadstica como la ciencia que estudia cmo sacar provecho
de la informacin y cmo sugerir una gua de accin en situaciones que implican
incertidumbre.
Anderson, Sweeney y Williams (2008) dicen que:
Especialmente en los negocios y en la economa, la informacin obtenida al
reunir datos, analizarlos, presentarlos e interpretarlos proporciona a directivos, administradores y personas que deben tomar decisiones una mejor comprensin del negocio o entorno econmico, permitindoles as tomar mejores decisiones con base en mejor informacin (p.3).
La estadstica se divide en:
E. Descriptiva, cuyo objetivo es el logro de un orden lgico que logre revelar rpida y fcilmente el mensaje que contienen los datos, ya que grandes
masas de datos desorganizados son de poco valor; la estadstica descriptiva
proporciona tcnicas para organizar este tipo de datos. En este caso, los resultados del anlisis no pretenden ir ms all del conjunto de datos.
E. Inferencial, cuyo objetivo es la elaboracin de estimaciones y pruebas de
hiptesis acerca de las caractersticas de una poblacin, a partir de los datos
obtenidos de una muestra; apoyndose en el clculo de probabilidades efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un
conjunto mayor de datos.
10
PIENSA!
Por qu y para qu la estadstica en tu profesin?
Poblacin
Muestra
Censo
Muestreo
Proceso de seleccin de una muestra dentro de una poblacin; lo preferido es hacerlo aleatoriamente para no incurrir en sesgo, pero cuando la poblacin es muy
heterognea es mejor hacerlo estratificado, que consiste en dividir la poblacin en
11
Parmetros
Valores caractersticos de una poblacin. Un parmetro es un valor fijo (no aleatorio) que caracteriza a una poblacin en particular; en general, un parmetro es una
cantidad desconocida y rara vez se puede determinar exactamente su valor, debido a la dificultad prctica de observar todas las unidades de una poblacin.
Estadgrafos
Variable
Caracterstica que al ser medida en diferentes unidades elementales puede adoptar valores diferentes.
Las variables pueden ser:
Cualitativas: etiquetas o nombres que se usan para identificar un atributo de
un elemento. Pueden ser numricas o no numricas; para procesar datos cualitativos es frecuente codificar con nmeros las diferentes categoras, pero
esos nmeros tienen nicamente un carcter representativo y, por lo tanto,
las operaciones aritmticas carecen de sentido en este caso.
Cuantitativas: siempre se expresan en escala numrica. Pueden ser: discretas (solamente pueden asumir ciertos valores generalmente enteros y hay
huecos entre ellos; son el resultado de un conteo) o continuas (pueden tomar cualquier valor dentro de un rango especfico y son resultado de una medicin).
12
EJERCICIO GENERAL
Para el desarrollo de los diferentes objetos de aprendizaje, consideraremos el siguiente ejemplo:
Cierta compaa tiene 50 representantes de ventas que venden un producto suyo
en todo el territorio nacional; dichos representantes tienen como ciudad sede a
Medelln, Bogot o Cali, ciudades donde se encuentran las fbricas.
A continuacin se muestra el nmero de productos vendidos por cada representante durante el mes anterior, al igual que su ciudad sede y sus aos de experiencia.
Ciudad
sede
Ciudad
sede
Aos Productos
exper. vendidos
Aos Productos
exper. vendidos
215
26
205
186
27
180
240
28
175
105
29
12
318
156
30
185
225
31
56
133
32
118
120
33
152
85
34
235
10
185
35
196
11
76
36
199
12
190
37
11
305
13
256
38
12
312
14
102
39
198
15
12
350
40
111
16
198
41
165
17
235
42
321
18
13
303
43
180
19
11
250
44
156
20
178
45
10
215
21
196
46
10
193
22
204
47
150
23
11
303
48
128
24
15
356
49
10
165
25
256
50
15
300
13
OBJETO DE APRENDIZAJE 1
TCNICAS DESCRIPTIVAS
El manejo de la informacin depende del tipo de variable que se evale, aunque
siempre se reduce a la construccin de tablas, grficos o medidas de resumen. Este
tipo de resmenes se ven a menudo en informes, artculos periodsticos y estudios
investigativos; por eso es muy importante comprender cmo se elaboran y cmo
interpretarlos.
14
EJEMPLO
Remtase al ejercicio general, que se encuentra despus de las nociones preliminares. Construya la distribucin de frecuencias de la variable Ciudad sede.
Solucin:
FRECUENCIA
ABSOLUTA
FRECUENCIA
RELATIVA
PORCENTAJE
Bogot
28
28/50 (0,56)
56%
Cali
12
12/50 (0,24)
24%
Medelln
10
10/50 (0,2)
24%
50
100%
PROGRAMA
Un caso en que las clases no son excluyentes y exhaustivas se da cuando una pregunta tiene mltiples respuestas posibles. En ese caso la suma de las frecuencias
puede exceder el 100%.
1.1.2. GRFICOS
Una segunda manera de resumir y presentar informacin consiste en la utilizacin
de grficos; ellos deben disearse de tal forma que comuniquen de manera elemental los patrones generales de un conjunto de observaciones, para que puedan
percibirse los hechos esenciales y sea fcil compararlos con otros.
Cada vez es ms habitual el uso de grficos o imgenes para representar la informacin obtenida. No obstante, hay que ser prudentes al elaborar o interpretar
grficos, puesto que una misma informacin puede representarse de formas muy
diversas y no todas ellas son pertinentes, correctas o vlidas.
El tipo de grfico debe coincidir con el tipo de informacin o el objetivo que se
persigue al representarla, de otra manera la representacin grfica se convierte
en un instrumento ineficaz, que produce ms confusin que otra cosa y podra ser
innecesario o productor de interpretaciones equivocadas.
HAY QUE TENER EN CUENTA QUE LOS GRFICOS ESTADSTICOS SE UTILIZAN POR
CONCISIN Y FACILIDAD DE INTERPRETACIN; SI ESTO NO ES AS, ES MEJOR NO
EMPLEARLOS.
15
CIUDAD SEDE
30
Frecuencia
25
20
15
10
5
0
Bogot
Cali
Medelln
CIUDAD SEDE
Medelln
20%
Bogot
56%
Cali
24%
tivas) de cada clase con las de las clases anteriores; se representan como Ni (frecuencia absoluta acumulada del dato i) y Hi (relativa acumulada del dato i); se encuentran con el fin de mostrar la cantidad de elementos menores o iguales al lmite
superior de cada clase.
Si la variable es discreta y tiene pocos resultados posibles, debe trabajarse como
las cualitativas.
Cuando la variable es continua o es discreta con muchos resultados posibles se
debe hacer un agrupamiento de los datos. Para ello debe emplearse cierto criterio,
de tal forma que pueda desarrollarse un diagrama razonable (Montgomery y Runger, 1996, p. 8). En general, se recomienda usar entre 3 y 12 clases de igual ancho,
segn el tamao de la muestra (a mayor tamao de muestra, ms clases); el nmero de clases debe ser suficiente para mostrar la variabilidad en los datos, pero no
deben ser muchas porque no se cumplira el objetivo de resumir la informacin ya
que no se tendran grandes ventajas en comparacin a los datos sin procesar ni
muy pocas porque se perdera gran cantidad de informacin.
Como regla general se recomienda utilizar el mismo ancho para todas las clases
(salvo casos excepcionales), con el fin de facilitar la comparacin entre clases y
reducir la probabilidad de una interpretacin errnea. Para determinar un ancho
aproximado de clase se empieza por identificar el rango del conjunto de datos
dado por la diferencia entre el valor mximo y el mnimo y se divide por la cantidad de clases que se quiera construir.
Notas:
Tambin suele calcularse la marca de clase, que es el promedio entre los lmites de cada intervalo y es, por lo tanto, un valor representativo de todo el
conjunto.
No hay distribucin ptima de frecuencias para determinado conjunto, ya
que distintas personas pueden formar distribuciones diferentes, aunque todas ellas sean igualmente correctas; el objetivo es mostrar el agrupamiento
natural y la variabilidad en los datos. Existen algunas frmulas para determinar el nmero apropiado de intervalos, pero el analista puede seleccionar ese
nmero de manera subjetiva.
Es necesario aclarar si los lmites de los intervalos son abiertos o cerrados, de
manera que quede claro a cul intervalo pertenece un valor igual a uno de los
lmites. No es conveniente crear espacios entre cada intervalo y el siguiente
si la variable es continua.
18
h2 =11/50 ...
N1 = 6 N2 = 6+11
N3 = 17+20
ni
hi
Ni
Hi
Marca
clase
[56 - 116]
(116 - 176]
(176 - 236]
(236 - 296]
(296 - 356]
6
11
20
4
9
0,12
0,22
0,4
0,08
0,18
6
17
37
41
50
0,12
0,34
0,74
0,82
1
86
146
206
266
326
1.2.2. GRFICOS:
Cuando la variable es continua o es discreta con muchos resultados posibles, las
grficas utilizadas son:
Histograma, en el cual la variable de inters es colocada en el eje horizontal
y la frecuencia de cada clase en el eje vertical. Posteriormente se traza una
barra cuya base es el intervalo de clase sobre el eje horizontal y cuya altura
19
Cantidad de vendedores
20
[56-116]
15
11
10
(116-176]
(176-236]
(236-296]
(296-356]
0
1
20
Frecuencia
20
15
11
10
5
0
4
0
0
56
86
146
206
266
20
326
356
100
74
80
100
82
60
34
40
20
12
0
0
56
116
176
236
296
356
Esta grfica se presenta con el porcentaje, pero puede hacerse con cualquier
frecuencia acumulada.
X =
xi
i =1
x
i =1
La forma de clculo anterior se denomina promedio simple, pero cuando algunos datos tienen ms importancia que otros se debe ponderar, as:
n
xn
i i
=
n
i =1
xh
i =1
i i
(donde
EJEMPLO
Calcule la nota definitiva de un estudiante que tiene las siguientes notas:
Seguimiento (30%): 3,48
Examen parcial (20%): 3,8
Trabajo aplicativo (20%): 4,5
Examen final (30%): 2,5
Solucin:
50
= 204, 8
se dice que la mediana es robusta, lo que significa que es mucho menos sensible a los datos atpicos.
Cada una (media y mediana) tiene ventajas y desventajas segn los datos y el
objetivo perseguido; ambas medidas diferirn mucho cuando la distribucin
no es muy simtrica, lo que sugiere heterogeneidad en los datos.
Moda (Mo): es el valor de los datos que tiene mayor frecuencia. Un conjunto
de datos puede ser multimodal, unimodal o carecer de moda.
MEDIDAS DE POSICIN:
Determinan la ubicacin de los valores que dividen un conjunto de datos en partes iguales.
Percentiles: el percentil p es un valor tal que por lo menos p% de las observaciones son menores o iguales que este valor y por lo menos (100 p)% son
mayores o iguales que este valor (Anderson et al., 2008, p. 86). Por ejemplo,
el valor de un percentil 80 es superado por el 20% de los datos y es igual o
superior al 80% de ellos.
Un percentil puede calcularse, de manera aproximada, al hallar un ndice i
representado por
, donde p es el percentil de inters y n es la
cantidad de elementos.
Si i no es entero, el valor entero inmediato mayor que i indica la posicin del
percentil p (despus de ordenar los datos de manera ascendente). Si i es entero, el percentil p es el promedio de los valores de los datos ubicados en los
lugares i e i+1.
Para hacer el clculo exactamente, lo ms apropiado es recurrir a un software. En el anexo 2 se encuentran indicaciones al respecto.
EJEMPLO
Calcule el percentil 65 de los siguientes datos:
2350 2450 2550 2380 2255 2210 2390 2630 2440 2825 2420 2380
Solucin:
Los datos ordenados en forma ascendente son:
2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825
24
i=
65 12
= 7,8
100
Eso implica que el percentil 65 es el dato que ocupa la octava posicin (2440) (con
Excel se halla que ese valor es exactamente 2441,5).
Nota: cuando se tienen pocos valores no es muy apropiado hablar de porcentajes;
el ejemplo se hace con pocos datos para facilidad de comprensin.
25
La forma ms natural de medir dispersin toma la media como punto de referencia. Aparentemente lo ms lgico sera calcular la diferencia de cada valor
con respecto a la media (desviaciones) y promediarlos, pero la sumatoria de
las desviaciones siempre es cero; por ello se han buscado otras alternativas
para calcular la dispersin. Entre ellas estn las medidas que se mencionan a
continuacin.
Varianza: un mtodo consiste en eliminar signos, empleando valores absolutos, pero esto no es lo mejor. Una segunda idea consiste en eliminar signos,
pero sin emplear valores absolutos, sino elevando al cuadrado; de esa idea se
deriva la varianza, que es el dato promedio de las desviaciones cuadrticas
respecto a la media. La varianza de una poblacin se representa como 2 y la
varianza muestral se representa con S2 n-12.
n
2 =
(x )
i =1
n1 2 =
(x
i =1
X )2
n 1
Desviacin tpica o estndar: como las unidades de la varianza son cuadradas, es difcil formarse una idea intuitiva e interpretar su valor numrico. Por
ello es ms conveniente usar su raz cuadrada positiva para medir variabilidad, lo cual se conoce como desviacin estndar. La desviacin estndar poblacional se representa como y la desviacin estndar muestral se representa como
S.
Al comparar dos grupos de datos, el grupo con la menor desviacin estndar
tiene las observaciones ms homogneas. Sin embargo, la magnitud real de
la desviacin estndar depende de los valores del conjunto de datos lo que
puede ser grande para un grupo de datos puede ser pequeo para otro; adems, como la desviacin estndar tiene unidades de medicin, comparar las
desviaciones tpicas de dos cantidades no relacionadas carece de significado.
Coeficiente de variacin (Cv): es una medida relativa de variabilidad, que
evala qu tan grande es la desviacin estndar en relacin con la media.
Cv = Desviacin estndar / Media 100
Como la desviacin estndar y la media tienen las mismas unidades de medicin, se cancelan y el coeficiente de variacin es adimensional. Si se multiplica por 100 queda expresado en porcentaje.
Si se evala una sola muestra: Si Cv es pequeo (ms o menos inferior a 10%),
puede afirmarse que dicha muestra es muy homognea; si es grande (superior al 30%) la muestra es muy heterognea.
26
~
X = 194,5
(215
202,1)2 +
+( 300
28
202,1)2
= 4759,3
productos
= 4759, 3 = 69 productos
= 69 100 =34,1%
202,1
Los estadsticos de resumen tienen como unidad de medida la de los datos originales (en este caso, productos), excepto la varianza (cuya unidad de medida es el
cuadrado de la original) y el coeficiente de variacin (dado en porcentaje).
Debe tenerse en cuenta que se est manejando una poblacin, ya que dice que
esos son todos los vendedores de la empresa.
Trabajando de igual forma se obtienen las siguientes medidas para Cali y Medelln
(tambin se incluye Bogot para comparar).
Media
Mediana
Moda
Cuartil 1
Cuartil 3
Desviacin estndar
Varianza
Coef. de variacin (%)
Rango
Mnimo
Mximo
Suma
Cantidad
BOGOT
202,1
194,5
156
162,8
238,8
69
4759,3
34,1
280
76
356
5660
28
CALI
163,5
163,5
No hay
116,3
198,3
66,4
4038,8
38,9
256
56
312
1962
12
MEDELLN
239,9
237,5
No hay
187,8
291,3
65,5
4292,1
27,3
217
133
350
2399
10
Comparaciones:
Lo anterior implica que los representantes que ms productos venden, en promedio, son los de Medelln; por el contrario, los de Cali son los que menos venden, en
promedio. Tambin puede notarse que, en cantidad, los que ms vendieron fueron
los representantes de Bogot (pero son muchos) y los que menos vendieron fueron
los de Cali (an menos que los de Medelln, que son ms pocos vendedores).
Adems, como el coeficiente de variacin de los de Cali es el mayor significa que
sus ventas tienen una dispersin grande con respecto al promedio, es decir, hay
unos representantes que venden mucho pero otros venden muy poco. Por el contrario, entre los vendedores de Medelln hay mayor homogeneidad, aunque los coeficientes de variacin son relativamente altos en todos los casos, lo que implica
que hay diferencias significativas entre los vendedores de cada ciudad.
28
Tambin puede deducirse que por lo menos la cuarta parte de los vendedores de
Bogot vendi 162,8 productos o menos y la cuarta parte de ellos vendi 238,8 o
ms productos. Lo mismo se aplica para los vendedores de las otras ciudades, aunque no tiene mucho sentido hablar de porcentajes cuando los datos son tan pocos.
Es importante destacar que no necesariamente los que tienen una desviacin absoluta mayor (desviacin estndar) tienen una desviacin relativa mayor (coeficiente
de variacin).
El mayor rango se present en Bogot, ya que hubo una persona que vendi muy
pocos productos en el mes (76) y otra que vendi muchos (356).
EJEMPLO
Realizar el cruce de las variables ciudad sede y cantidad de productos vendidos,
tomando como base de referencia las ventas inferiores a 200 productos y los iguales o mayores a l.
29
Solucin:
CIUDAD SEDE
Bogot
Cali
Medelln
Total
Total
28
12
10
50
Se observa, por ejemplo, que el 42,9% (12 de 28) de los representantes de Bogot
vendieron 200 productos o ms, al igual que el 16,7% de los de Cali y el 60% de los
de Medelln. Tambin se concluye que el 60% de los vendedores del pas (30 de 50)
vendi menos de 200 productos y el 40% restante vendi 200 productos o ms.
A continuacin se presenta la grfica correspondiente:
CANTIDAD DE PRODUCTOS
VENDIDOS SEGN CIUDAD
20
15
16
12
10
5
10
200 productos o ms
0
Bogot
Cali
Medelln
Finalmente, si las dos variables de inters son cuantitativas debe realizarse un diagrama de dispersin, que es una representacin grfica de la relacin entre dos
variables cuantitativas, en la cual cada par (xi, yi) es representado con un punto
en un sistema de coordenadas bidimensional. Para representarlo, la variable independiente (si la hay) se indica en el eje x y la variable dependiente en el eje y; en el
desarrollo del objeto de aprendizaje 2 se har mayor nfasis en este grfico.
30
EJERCICIOS PROPUESTOS
1. Un informe de Skyscraper Life (2011) detalla el Producto Interno Bruto PPA
per cpita en dlares de los pases latinoamericanos en 2010. A continuacin se presentan los valores:
PAS
Argentina
Chile
Uruguay
Mxico
Panam
Venezuela
Brasil
Costa Rica
Colombia
Per
Rep. Dominicana
Ecuador
El Salvador
Paraguay
Guatemala
Bolivia
Honduras
Nicaragua
Hait
31
Represente la informacin con una tabla de frecuencias lo ms completa posible y el bosquejo de un diagrama circular.
3. Se seleccion una muestra aleatoria de 25 municipios antioqueos y se verific su tasa de analfabetismo (en %):
9,2
15,8
22,5
14,1
15,2
8,8
27,2
32,7
15,1
11,4
23,6
15,8
9,9
20,8
30,6
33,0
19,8
10,7
17,6
22,9
14,7
12,8
15,6
27,7
12,4
Chile
Uruguay
Per
ndice lib.
econmica
77,4
70,0
68,6
68,0
Bolivia
Guyana Ecuador
PAS
Surinam Argentina
ndice lib.
53,1
51,7
econmica
Colombia Paraguay
50,0
49,4
62,3
47,1
Brasil
56,3
Venezuela
37,6
2742,5
2913,4
3291,2
2738,1
2876,4
3553,6
2898,6
3345,2
3426,1
2673,5
3491,0
3845,5
2796,0
3565,3
3782,0
2948,7
3058,0
3947,6
2861,3
3154,9
4899,4
3055,3
1958,7
5656,2
1875,2
3005,6
1896,3
2635,3
4321,2
3236,4
4088,6
3995,3
4821,0
2655,6
4215,2
3656,3
3555,1
3514,3
3714,1
3237,0
3305,2
4902,5
4155,8
3255,3
4014,6
PAS VECINO
A FAVOR
61,2%
Halle media y coeficiente de variacin de cada uno y con base en ello responda:
a. Si decide su inversin teniendo en cuenta nicamente la rentabilidad
promedio, cul mtodo preferira y por qu?
b. Si quiere hacer su inversin sin correr riesgos, cul mtodo preferira y
por qu?
9. A continuacin se presentan los ndices de desarrollo humano 2010 de los
pases de Amrica Latina; datos aportados por el Programa de las Naciones
Unidas para el Desarrollo PNUD (2011).
PAS
Chile
Argentina
Uruguay
Panam
Mxico
Costa Rica
Per
Brasil
Venezuela
Ecuador
Colombia
Rep. Dominicana
El Salvador
Bolivia
Paraguay
Honduras
Nicaragua
Guatemala
Hait
34
IDH 2010
0,783
0,775
0,765
0,755
0,75
0,725
0,723
0,699
0,696
0,695
0,689
0,663
0,659
0,643
0,64
0,604
0,565
0,56
0,404
2001
2002
2003
2004
2005
2006
2007
7317,9
2008
2009
2010
IES
CARCTER
IES
SECTOR
IES
METODOLOGA
NMERO
CREDITOS
PERIODICIDAD
Universidad
Privada
Distancia (virtual)
146
Semestral
Privada
Presencial
166
Anual
Privada
Presencial
132
Semestral
Privada
Presencial
160
Semestral
2
3
4
Institucin
Universitaria
Institucin
Tecnolgica
Institucin
Universitaria
PROMEDIO
DE SUS
EGRESADOS
EN SABER
PRO*
103,5
99,6
95,4
105,3
101,2
Universidad
Oficial
Distancia (tradicional)
172
Semestral
Institucin
Tecnolgica
Privada
Presencial
144
Semestral
Universidad
Privada
Presencial
161
Semestral
98,7
Universidad
Oficial
Presencial
157
Sin definir
100,2
Oficial
Distancia (tradicional)
156
Semestral
Privada
Distancia (virtual)
169
Bimensual
Privada
Presencial
164
Anual
Privada
Presencial
163
Anual
9
10
11
12
Institucin
Universitaria
Institucin
Universitaria
Institucin
Universitaria
Institucin
Universitaria
99,7
107,6
100,8
98,3
92,5
103,4
13
Universidad
Privada
Presencial
130
Semestral
14
Institucin
Universitaria
Privada
Distancia (tradicional)
160
Semestral
15
Universidad
Privada
Presencial
169
Semestral
98,0
16
Universidad
Privada
Presencial
156
Trimestral
102,4
17
Institucin
Universitaria
Privada
Presencial
165
Anual
18
Universidad
Oficial
Distancia (tradicional)
196
Semestral
36
106,2
99,8
103,9
19
20
21
22
23
24
25
Institucin
Universitaria
Institucin
Tecnolgica
Universidad
Institucin
Universitaria
Institucin
Tcnica
Institucin
Universitaria
Universidad
Privada
Presencial
166
Anual
Privada
Presencial
169
Semestral
Privada
Distancia (virtual)
160
Semestral
Privada
Distancia (tradicional)
173
Semestral
Privada
Distancia (tradicional)
141
Semestral
Privada
Distancia (tradicional)
152
Semestral
Privada
Presencial
170
Semestral
99,6
96,8
103,5
102,1
93,3
100,0
108,7
37
OBJETO DE APRENDIZAJE 2
REGRESIN Y CORRELACIN
A menudo, las decisiones gerenciales se basan en la relacin entre dos o ms variables. Puede emplearse un procedimiento estadstico llamado anlisis de regresin
para plantear una ecuacin que muestre la manera como se interrelacionan dichas
variables; por ejemplo, cuando se evala cmo se comportan algunas variables del
negocio de acuerdo al comportamiento de los indicadores financieros.
La forma ms simple para mostrar dicha relacin es la construccin de un diagrama
de dispersin, que es una grfica en la que cada par (xi, yi) est representado con un
punto en un sistema de coordenadas bidimensional. Este mtodo puede ofrecer
una idea base y por ello siempre es conveniente graficar los datos, pero es demasiado subjetivo y se limita exclusivamente a dos variables.
En la mayora de aplicaciones se debe hacer una distincin entre las variables en lo
que respecta a su papel en el experimento, as:
Variable dependiente o respuesta (y): no se controla en el experimento y es
el resultado producido por la accin de una variable independiente. Se representa en el eje vertical de un diagrama de dispersin.
Variable independiente o regresora (x): se controla en el proceso y es la supuesta causa; los experimentos manipulan variables independientes para ver
sus efectos sobre variables dependientes. Se representa en el eje horizontal
del diagrama de dispersin.
La relacin que se ajusta a un conjunto de datos experimentales se caracteriza con
una ecuacin, que se denomina ecuacin de regresin y describe en forma razonable el comportamiento de la variable respuesta, dados los valores de las variables
regresoras.
Segn sea la dispersin de los datos (nube de puntos) en el plano cartesiano, pueden darse alguna de las siguientes relaciones: Lineal, Logartmica, Exponencial,
entre otras.
38
REGRESIN LINEAL
REGRESIN LOGARTMICA
25
12
20
10
8
15
10
2
0
0
0
10
20
30
SIN RELACIN
20
40
60
80
REGRESIN EXPONENCIAL
25
250
20
200
15
150
10
100
50
0
0
10
20
30
40
10
20
30
40
50
60
40
50
40
30
30
20
20
10
10
0
0
10
20
30
40
10
20
30
40
El caso ms sencillo de una regresin simple ocurre cuando se da una relacin lineal
entre ambas variables. El valor estimado de y est dado por:
y = A + Bx ,
n xy
xy x y
A=
n x 2 ( x ) 2
y B x
n
EJEMPLO
Los representantes de Cali vendieron las siguientes cantidades de productos en el
mes y tienen los siguientes aos de experiencia:
Aos de
4
6
3
8
6
6
exp.
Prod.
105 120 102 198 178 175
vendidos
2
56
12
10
a. Evaluar la correlacin entre ambas variables, tomando la cantidad de productos vendidos como variable dependiente.
b. Cunto se espera que venda un representante caleo con una experiencia de
7 aos?
Solucin:
Productos vendidos
VENDEDORES DE CALI
350
300
250
200
150
100
50
0
0
Aos de experiencia
40
10
12
14
a. Se observa que existe una relacin directa entre ambas variables, ya que tienden a vender ms productos aquellos representantes que tienen ms aos de
experiencia.
B=
x = 76
y = 1962
12(14406) (76)(1962)
= 22,33
12(570) (76) 2
xy = 14406
A=
x2 = 507
1962 (22,33)(76)
= 22,08
12
En consecuencia, y = 22,08 + 22,33x , lo cual implica que por cada ao de experiencia adicional, un representante de Cali vende, en promedio, 22,3 productos ms (pendiente); adems, se esperara que alguien sin experiencia vendiese aproximadamente 22 productos en el mes (punto de corte).
b. Para el caso especfico en estudio: y = 22,08 + 22,33(7) = 178,4
Se espera que quien tenga 7 aos de experiencia venda en el mes aproximadamente 178 productos.
La adecuacin del modelo de regresin se puede medir con el coeficiente de determinacin (R2), que expresa la proporcin de la variacin total en los valores de la
variable y que se puede explicar mediante una relacin lineal con los valores de x.
El grado de solidez de la relacin lineal tambin puede medirse con el coeficiente
de correlacin (r), que es la raz cuadrada de R2 con el signo de la pendiente; el coeficiente puede tener cualquier valor entre -1 y 1, inclusive; pero su valor absoluto
debe ser cercano a 1 para poder considerar un buen ajuste (preferiblemente superior a 0,8).
Si se tiene duda sobre varios modelos, se debe preferir aquel cuyo coeficiente de
correlacin es ms cercano a 1 o a -1.
VALOR DE r
1
-1
Cercano a 0
0<r<1
-1 < r < 0
SIGNIFICADO
Correlacin positiva perfecta
Correlacin negativa perfecta
Sin correlacin
Relacin directa entre variables (a medida que aumenta x, tambin
aumenta y). La relacin es ms fuerte mientras mayor sea r
Relacin inversa entre variables (a medida que aumenta x, y disminuye). La relacin es ms fuerte mientras ms cercano sea r a -1
41
10
25
20
15
10
0
0
12
16
24
x
14
12
25
20
10
8
15
10
0
0
12
16
24
Sin correlacin
y 25
20
15
10
5
0
0
16
24
x
42
VENDEDORES DE BOGOT
Productos vendidos
400
300
200
100
y = 19,358x + 45,893
R = 0,7645
0
0
10
12
14
16
Aos de experiencia
Productos vendidos
VENDEDORES DE CALI
350
300
250
200
150
100
50
0
y = 22,331x + 22,071
R = 0,9123
0
10
12
14
Aos de experiencia
Productos vendidos
VENDEDORES DE MEDELLN
400
300
200
100
y = 14,499x + 148,56
R = 0,4902
0
0
10
12
14
Aos de experiencia
43
Puede observarse que la correlacin es apropiada para Bogot y Cali, pero no para
Medelln porque el coeficiente de correlacin es relativamente bajo (0,70, ya que
R2 es 0,4902).
Forma funcional
y = AeBx
y = A + Blnx
Y = Ax2 + BX + C
EJEMPLO
En el siguiente ejemplo se muestra el costo por unidad de cierto producto, segn la
cantidad de unidades que se produzcan:
Cantidad de unidades
producidas
10000
20000
30000
40000
50000
959
885
797
748
729
Cantidad de unidades
producidas
60000
70000
80000
90000
100000
714
708
705
703
702
Realice una regresin apropiada para predecir el costo por unidad de acuerdo a una
cantidad especfica de unidades producidas.
44
Solucin:
Este es el diagrama de dispersin:
20000
40000
60000
80000
100000
120000
Cantidad producida
Por la forma de la nube de puntos, podran ser apropiadas las regresiones Logartmica, Exponencial o Polinomial de segundo grado.
Despus de hacer ajustes de regresin, puede detectarse que la regresin Exponencial no es apropiada, pues el coeficiente de correlacin es bajo.
Cualquiera de las dos siguientes regresiones puede resultar apropiada. El primer
grfico corresponde a una regresin Polinomial de segundo grado y el segundo
corresponde a una regresin Logartmica.
20000
40000
60000
80000
100000
120000
Cantidad producida
45
y = -118,2ln(x) + 2032
R = 0,9393
20000
40000
60000
80000
100000
120000
Cantidad producida
Nota: debe tenerse presente que al hacer un anlisis de regresin no debe extrapolarse, es decir, no es conveniente hallar valores esperados para valores fuera del
rango de los datos y, si decide hacerse, deben ser valores no muy retirados. Al hacer el anlisis hay que ser muy lgicos; por ejemplo, en el caso bajo estudio, si se
quiere hallar el valor esperado del costo unitario si se producen 120 000 unidades,
es ms apropiado utilizar la regresin Logartmica, aunque el coeficiente de determinacin sea menor, ya que el grfico de una ecuacin polinmica de segundo
grado es una parbola y en este caso no se conoce el vrtice.
valores de la magnitud observada x(t). Se obtiene as una serie de puntos (t, X(t))
que, unidos, proporcionan una visin dinmica de la evolucin del fenmeno que
se est analizando.
Se trata, por tanto, de un caso particular de variable estadstica bidimensional,
donde la variable independiente es el tiempo (t) y la variable dependiente es la
magnitud de inters (y).
La suposicin bsica fundamental en el anlisis de series de tiempo es que los factores que han influido en el pasado o en el presente en los patrones continuarn
hacindolo ms o menos en la misma forma en el futuro. Eso significa que los datos
histricos son usados para pronosticar posibles valores futuros.
Una presentacin del Centro de Investigacin Estadstica y Mercadeo CIEM
(2010) dice:
El tratamiento numrico de las series temporales es variado y la metodologa
a utilizar en cada caso depende de los objetivos planteados por el analista.
En general, se puede decir que de una secuencia cronolgica puede interesar
adquirir un conocimiento descriptivo o diagnstico, en el sentido de poder detectar la dinmica generadora del fenmeno bajo estudio (si este es el objetivo, solamente se hace un anlisis grfico, que incluye grfico y evaluacin de
los componentes); o un conocimiento predictivo o pronstico, si se pretende
deducir de los datos registrados hasta el momento, cmo ser el comportamiento futuro.
Usualmente, una serie cronolgica muestra una correlacin entre observaciones
adyacentes; a partir de eso se usan tcnicas especiales para hacer modelos y anlisis.
Pueden servir como registros histricos valiosos. Por ejemplo, para estudiar
el comportamiento a lo largo del tiempo de una variable macroeconmica o
el comportamiento de una accin.
PIENSA!
Para qu ms le podra servir una serie cronolgica a un profesional
de tu rea?
ndice de actividad
econmica
TENDENCIA
400
350
300
250
200
0
10
20
30
40
50
60
Meses
Ese desplazamiento gradual es, generalmente, el resultado de factores a largo plazo, como cambios en la poblacin, tecnologa o preferencias del consumidor.
Para establecer una lnea de tendencia que sea significativa para una serie
cronolgica, el perodo tiene que ser suficientemente largo.
Algunas veces se da una ruptura de tendencia, que es cuando la serie trae
una tendencia definida y cambia bruscamente. En ese caso, si se quiere hacer
pronsticos hay que tener en cuenta nicamente el ltimo tramo.
48
RUPTURA DE TENDENCIA
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
49
10
12
14
16
2. Si hay una ruptura de tendencia y se quiere hacer pronsticos hay que tener
en cuenta nicamente el ltimo tramo.
3. Si en la serie se detecta estacionalidad o ciclos, deben tenerse en cuenta esos
aspectos al hacer un pronstico. Por ejemplo, si se nota que en una serie cronolgica existe estacionalidad en los diciembres y desea establecerse un pronstico para un diciembre prximo, deben tenerse nicamente en cuenta los
datos correspondientes a ese mes.
4. Si no hay una tendencia definida deben emplearse otros mtodos para hacer
proyecciones, como por ejemplo media mvil, suavizamiento exponencial,
ndice de fuerza relativa, variacin porcentual, mtodos subjetivos, entre
otros. Eso sucede, por ejemplo, con el precio del dlar y con el precio diario
de las acciones; estos mtodos no sern tenidos en cuenta en el desarrollo de
estas notas.
Uno de los mtodos ms usados es el de media mvil, que consiste en promediar los n datos ms recientes; n es un nmero que el analista determina
subjetivamente (generalmente tres o ms, pero no un valor alto).
EJEMPLO
La siguiente tabla contiene datos anuales para la poblacin colombiana (en miles
de habitantes) desde 1985 hasta 2010
1985 1986 1987 1988 1989 1990 1991 1992 1993
30794 31433 32092 32764 33443 34125 34834 35530 36208
Solucin:
48000
46000
44000
42000
40000
38000
36000
34000
32000
30000
y = 585,44x + 30675
R = 0,9962
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Miles de habitantes
POBLACIN COLOMBIANA
Ao
EJEMPLO
Cierta empresa desarrolla, fabrica y vende productos para acceso a redes. Los siguientes datos son las ventas anuales (en millones de dlares) de 1997 a 2010:
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
3,8
8,6
4,1
6,9
2,8
5,4
6,2
12,7 20,6 26,4 42,6 56,5 92,8 126,4
Solucin:
A continuacin puede observarse el diagrama de lneas correspondiente:
140
120
100
80
60
40
20
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
0
1997
VENTAS ANUALES DE XX
Es fcil detectar que hasta el ao 2001 no se presenta una tendencia definida, pero
a partir de all se revela una tendencia exponencial; por eso se har nuevamente la
grfica con los datos tomados desde ese momento y se har el anlisis de regresin
nicamente con esos datos:
y = 2,116e0,4189x
R = 0,9912
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
53
EJEMPLO
La siguiente tabla muestra el nmero de matriculados en Ceipa desde el perodo 1
de 2007 hasta el perodo 2 de 2011:
PERODO
1
2
3
4
5
2007
2008
2009
2010
2011
1160
1300
1194
1309
1314
1370
1570
1493
1597
1592
1619
1846
1774
1858
1896
1943
2164
2088
2058
2068
2317
2573
MATRICULADOS EN CEIPA
Nmero de matriculados
3000
2500
2000
1500
1000
500
0
1
3
2007
3
2008
3
2009
3
2010
2011
54
3000
2500
2000
y = 314x + 948,6
R = 0,9919
1500
1000
500
0
1
55
EJERCICIOS PROPUESTOS
1. Se pretende explicar los cambios en la variable ndice de desarrollo humano
a partir de los cambios en Producto Interno Bruto per cpita. Para ello se
tuvieron en cuenta los datos ms recientes de los pases de Amrica Latina,
tomados de Skyscraper Life (2011):
PAS
PIB PER CPITA
(dlares)
IDH
Venezuela
Brasil
15604
14983
14342
14266
12398
11889
11289
0,775
0,783
0,765
0,75
0,755
0,696
0,699
PAS
Costa
Rica
Colombia
Per
10732
9445
9281
8648
7952
7442
4915
IDH
0,725
0,689
0,723
0,663
0,695
0,659
0,64
PAS
PIB PER CPITA
(dlares)
IDH
Repblica
El
Ecuador
Paraguay
Dominicana
Salvador
Guatemala
Bolivia
Honduras
Nicaragua
Hait
4871
4584
4405
2970
1122
0,56
0,643
0,604
0,565
0,404
Produccin
10
20
30
40
50
60
70
80
90
100
Pobreza
75
66
46
41
32
27
26
26
25
24
Unidades demandadas
PRECIO VS DEMANDA
200
150
100
50
0
0
10
15
20
25
30
35
b) y = 100 + 100 x
d ) y = 220 + 7 x
JUSTIFIQUE SU RESPUESTA
5. Una aplicacin importante del anlisis de regresin es la estimacin de costos. Al reunir datos sobre volumen y costo, un administrador puede estimar
el costo asociado con determinada operacin de manufactura, Se obtuvo la
siguiente muestra de volmenes de produccin y costo total para una operacin de manufactura:
Volumen de produccin
(unidades)
400
450
550
600
Costo total
(millones de pesos)
8
8,6
9,6
9,9
57
700
750
830
900
10,5
10,7
11,1
11,4
a. Use una regresin lineal para deducir una ecuacin de regresin con la
que se pueda predecir el costo total segn determinado volumen de produccin.
b. Cul es el costo variable o costo adicional por unidad producida?
c. Calcule el coeficiente de determinacin. Qu porcentaje de la variacin
en el costo total puede explicar el volumen de produccin?
d. Es el modelo lineal el ms adecuado para hacer un anlisis de regresin
en este caso?
6. Se quieren explicar las ventas de una empresa nicamente en funcin de los
gastos en publicidad (ambas variables en millones de pesos). Para ello se
tom una muestra de diez tiendas y se encontr lo siguiente:
Gastos
public.
Ventas
300
280
390
460
320
150
80
360
140
90
5000
4500
6200
7500
6500
2600
1800
4700
3200
2500
20
3,2
15
1,5
12
1
3
2,6
8
3,8
10
2,3
6
1,8
60
2
22
2,6
12
1,5
58
a. Interprete A, B y r.
b. Cul es la tasa de desempleo que se esperara si el Producto Interno Bruto es de 90 000 millones de dlares?
9. La mentalidad emprendedora implica perseverancia y esfuerzo, especialmente si se tienen en cuenta las estadsticas en creacin y desarrollo de empresas.
De acuerdo con el centro de emprendimiento Bogot Emprende el 75% de
las empresas sobreviven el primer ao y nicamente el 29% sobreviven los
primeros 10 aos. Los datos completos pueden verse en la tabla siguiente:
Aos
0
% de empresas
100
que sobreviven
10
75
64
56
50
45
40
37
34
31
29
F22 (M)
689
F23 (M)
657
F24 (J)
715
M4(V)
805
M5(S)
1758
F25 (V)
796
M6(D)
1164
F26 (S)
1595
M7(L)
655
F27 (D)
1008
F28 (L)
202
M11(V) M12(S) M13(D) M14(L) M15(M) M16(M) M17(J) M18(V) M19(S) M20(D)
861
1995
1114
456
555
650
768
960
2510
1385
60
OBJETO DE APRENDIZAJE 3
PROBABILIDADES
Los fenmenos pueden ser determinsticos (si no hay incertidumbre acerca de su
resultado cuando se repita o que puedan predecirse por ecuaciones matemticas)
o aleatorios (que no pueden predecirse exactamente, aunque se repitan en forma
similar).
En estadstica se manejan datos aleatorios; en ellos no es posible hacer predicciones exactas mediante el uso de modelos matemticos, pero cuando son estudiados
muchas veces bajo condiciones similares se encuentra que los resultados presentan
cierta regularidad. Por lo tanto, nunca puede estarse seguro de lo que vaya a pasar,
pero con base en la informacin del pasado puede predecirse con fundamentos.
El concepto de probabilidad ocupa un lugar importante en el proceso de toma de
decisiones bajo incertidumbre, independientemente de que se trate del campo de
los negocios, de la ingeniera, de las ciencias sociales, o simplemente en nuestras
vidas diarias. En muy pocas situaciones de toma de decisiones la informacin perfecta est disponible todos los factores o hechos necesarios; la mayora de las
decisiones se toman encarando la incertidumbre.
El objetivo de la teora de probabilidades es poder hacer predicciones y tener ms
elementos de juicio para tomar decisiones ms fundamentadas (si se pronostica
qu tan probable es que ocurra algo, se puede determinar si se toma el riesgo o no).
Con la teora de probabilidades se pueden construir modelos que describen adecuadamente la regularidad de los resultados aleatorios, de tal forma que se puedan
hacer predicciones.
P( A) = n
3.1.2. Experimento:
Es cualquier accin cuyo resultado se registra como un dato. En estadstica, la
nocin de experimento es distinta de la nocin en ciencias fsicas; en ellas, por lo
62
general, un experimento se lleva a cabo en un laboratorio o en un ambiente controlado, para aprender acerca de un hecho cientfico, y cuando se repiten los experimentos bajo condiciones idnticas se espera obtener el mismo resultado. En los
experimentos estadsticos, los resultados estn determinados por el azar y aunque
el experimento se repita exactamente en la misma forma, puede obtenerse un resultado diferente.
63
EJEMPLO
Ceipa piensa ofrecer tres nuevos programas de especializacin: Gestin del mejoramiento y la productividad (A), Gestin empresarial (B) y Especializacin en administracin hospitalaria (C). En una investigacin de mercados realizada, los programas fueron ofrecidos a 1200 estudiantes de pregrado de administracin: 18 se
mostraron interesados en A y B, 30 en A y C, 55 en B y C, 10 mostraron inters por
los tres programas, 45 solamente en A, 90 nicamente en B y 36 solamente en C.
a. Qu tan probable es que un estudiante de los encuestados no muestre inters por ninguno de los programas ofrecidos?
b. Cul es la probabilidad de que muestre inters en por lo menos dos de los
programas?
Solucin:
A
B
8
45
20
10
90
45
36
C
946
P (A U B) = P(A) + P(B)
Eventos no excluyentes: si es posible que ambos ocurran simultneamente.
En este caso:
P (A U B) = P(A) + P(B) P(A B)
P (A B) es diferente de 0,
P(A U B U C) = P(A) + P(B) + P(C) P(A B P(A C) P(B C) + P(A B C)
EJEMPLO
Cierta empresa desarroll una investigacin de mercados para proyectar la probabilidad de xito de dos productos que piensa lanzar al mercado. La probabilidad de
que el producto A tenga xito es 0,68 y la probabilidad de que el producto B tenga
xito es 0,84; adems encontr que la probabilidad de que al menos uno de los
productos se convierta en un xito es 0,98.
a. Cul es la probabilidad de que ambos productos tengan xito?
b. Qu tan probable es que ambos productos fracasen?
Solucin:
a. P(A B) = P(A) + P(B) P(A B)
= 0,68 + 0,84 0,98
= 0,54
b. P (ambos fracasen) = 1 0,98 = 0,02
65
Total
80
81
89
(informacin detallada por cantidades)
Total
178
72
250
Motivo de la solicitud
Calidad
Costo
Otros
Diurna
25,6
14,4
31,2
Jornada
Mixta
6,4
18
4,4
Total
32
32,4
35,6
(informacin detallada por porcentajes)
Total
71,2
28,8
100
Nota: En la ltima tabla se sacaron todos los porcentajes con base en los 250 estudiantes. Por ejemplo, los estudiantes de jornada diurna que escogieron la universidad por calidad fueron 64/250x100
66
Cr =
n!
r!(n r )!
C6 =
45!
= 8 145 060 (Hay 8 145 060 combinaciones posibles)
6! 39!
P ( ganar ) =
1
= 0,000000123
8145060
67
Pr =
n!
(n r )!
EJEMPLO
Qu tan probable sera ganar el premio mayor del Baloto si se compra un boleto y
los nmeros se marcan de tal manera que tienen que coincidir con el orden en que
salen en el sorteo?
Solucin:
45
P6 =
45!
= 5 864 443 200 (Hay casi 6000 millones de permutaciones posibles)
39!
Total
56
24
20
100
69
EJEMPLO
El 80% de las empresas pequeas del sector de alimentos no estn preparadas para
un tratado de libre comercio con USA, al igual que el 63% de las empresas medianas y 30% de las grandes.
El 80% de las empresas del sector son pequeas, el 15% son medianas y el resto
grandes.
a. Cul es la probabilidad de que una empresa no est preparada para el TLC y
sea pequea?
b. Qu porcentaje est preparada?
c. Si una empresa no est preparada para el TLC, cul es la probabilidad de que
sea pequea?
d. Si una empresa es pequea, cul es la probabilidad de que est preparada?
Solucin:
No
Nivel de
preparacin
Tamao
Pequea (P) Mediana (M) Grande (G)
64
9,45
1,5
16
5,55
3,5
25,05
Total
80
15
100
70
Total
74,95
EJERCICIOS PROPUESTOS
1. Cierta empresa planea exportar sus productos a otros pases. Para aprovechar un tratado firmado recientemente se ha presupuestado exportar el 60%
de su produccin a pases del Lejano Oriente y se ha presupuestado exportar
el resto a Estados Unidos y a Europa por partes iguales. Es sabido que la posibilidad de xito se ve influenciada directamente por la cultura de cada pas;
anlisis que se han hecho demuestran que si se hacen exportaciones al Oriente, la probabilidad de que haya xito es 0,45; si se exporta a Estados Unidos
la probabilidad de xito es 0,75 y si se exporta a Europa, dicha probabilidad
es 0,55.
a. Si se lleva a cabo lo presupuestado, cul es la probabilidad de que la exportacin no sea un xito?
b. Si una exportacin tiene xito, cul es la probabilidad de que sea al Lejano Oriente?
c. Cul es la probabilidad de que una exportacin tenga xito y sea al Lejano Oriente?
2. El 49% de las exportaciones antioqueas tienen como destino Estados Unidos, 20% va a pases cercanos de Suramrica, 16% a Europa y el resto a otros
pases. El 45% de lo que se exporta a Estados Unidos hace parte del sector
agropecuario, al igual que 38% de lo que se exporta a pases cercanos, 60% de
lo que se exporta a Europa y 50% de lo que se exporta a otros pases.
a. Qu proporcin de las exportaciones antioqueas es de productos agropecuarios?
b. Si una exportacin es de productos que no son agropecuarios, cul es la
probabilidad de que sea a Europa?
3. Una empresa tiene tres plantas: A, B y C. La planta A origina el 50% de la produccin total, B produce el 35% y C, el resto. El 3% de la produccin de A es
defectuosa, mientras que el 4% de B y el 5% de C tambin lo son.
a. Si se elige al azar un artculo producido por la empresa, cul es la probabilidad de que ese artculo sea defectuoso?
b. Si el artculo elegido resulta ser defectuoso, cul es la probabilidad de
que provenga de C?
4. Una compaa de seguros clasifica a sus clientes como de alto, mediano y
bajo riesgo; ellos reclaman el pago de un seguro con probabilidades 0,02, 0,01
y 0,0025, respectivamente. El 10% de los clientes es de alto riesgo, el 20% de
71
Horario
Diurno
Mixto
Motivo de la solicitud
Calidad
Costo
Otros
64
36
105
16
45
11
a. Si un alumno es de horario mixto, cul es la probabilidad de que la calidad sea el motivo principal para haber elegido la universidad?
b. Si un estudiante de administracin eligi la universidad por costo, cul
es la probabilidad de que sea de horario diurno?
6. Por estadsticas anteriores se conoce que el 90% de los negocios que son
franquicias pasan de los diez aos en el mercado, mientras que el 29% de los
negocios totalmente nuevos sobreviven por ms de diez aos.
Para verificarlo, una empresa de estadsticas evalu los casos de 395 empresas, de las cuales 108 eran franquicias; de ellas, 92 sobrevivan todava a los
diez aos. De las que no eran franquicia, encontr que 204 haban cerrado
antes de los diez aos de funcionamiento.
a. Segn el ltimo estudio, cul es la probabilidad de que una empresa
-sea franquicia o no sobreviva diez aos o ms en el mercado?
b. Segn los datos encontrados, qu tan probable es que una franquicia
sobreviva diez aos o menos en el mercado? Qu tan probable es que
un negocio que no es franquicia sobreviva ese tiempo? Parece estar eso
en armona con el estudio detallado previamente?
72
OBJETO DE APRENDIZAJE 4
DISTRIBUCIONES DE
PROBABILIDADES
Una variable aleatoria es discreta si puede asumir nicamente valores enteros y es
continua cuando puede tomar cualquier valor dentro de un intervalo de nmeros
reales. Las variables aleatorias cualitativas deben asumirse como discretas para su
estudio como distribucin, puesto que a cada posible valor podra asignrsele un
nmero entero.
Si la variable aleatoria es discreta, pero el rango es muy amplio, resulta ms conveniente utilizar un modelo basado en variables aleatorias continuas.
MODELOS DE DISTRIBUCIONES
Con frecuencia, las observaciones que se generan en experimentos estadsticos
tienen algunos tipos generales de comportamiento y por eso se pueden describir
esencialmente con unas pocas distribuciones, las cuales se representan mediante
una ecuacin.
Jaramillo (2003) menciona: Frente a la complejidad de los fenmenos bajo estudio, el experimentador aproxima y hace algunos postulados tentativos acerca
del mecanismo aleatorio y deriva un modelo por el empleo de esos postulados en
combinacin con las leyes de probabilidad.
Un modelo de probabilidad para la variable aleatoria X es una forma especfica de
distribucin de probabilidades que es asumida para reflejar el comportamiento de
dicha variable. Las probabilidades son registradas en trminos de parmetros desconocidos que relacionan las caractersticas de la poblacin y el mtodo de muestreo.
EL MODELO DEBE SER COHERENTE CON LA REALIDAD
En las pginas siguientes se examinarn detalladamente algunas distribuciones especficas de probabilidad que han demostrado, empricamente, ser modelos tiles
para diversos problemas prcticos. Pero dichas distribuciones son tericas porque
sus funciones de probabilidad se deducen matemticamente con base en ciertas
hiptesis que se suponen vlidas para esos fenmenos aleatorios. Dichas distribuciones son idealizaciones del mundo real, por lo tanto sus resultados no siempre
coinciden con la realidad.
73
Cx =
n!
x!(n x)!
Por ejemplo, si se quieren conformar diferentes parejas de un grupo de 10 elementos podran conformarse 45 parejas diferentes, ya que:
10
74
C2 =
10!
= 45
2!*8!
EJEMPLO
El presidente de una compaa planea contactar a otras 18 compaas en busca de
nuevos socios para su negocio. Sus analistas han estimado que la probabilidad de
que una firma contactada al azar acepte incorporarse como socio es de 0,25.
a. Qu tan probable es que ninguna de las empresas contactadas acepte incorporarse como socio?
b. Cul es la probabilidad de que acabe reclutando mximo dos socios de entre
las compaas contactadas?
c. Cul es el nmero esperado de socios que se incorporarn al proyecto?
Solucin:
a. P(x=0) = 0,250 * 0,7518 *18 C0 = 0,00564
b. P(x2) = P(x=0) + P(x=1) + P(x=2)
= 0,25 0 * 0,7518 *18 C 0 + 0,251 * 0,7517 *18 C1 + 0,25 2 * 0,7516 *18 C 2
= 0,1353
c.
= 18 0,25=4 ,5
de cinco preguntas?
c. Cul es la probabilidad de que el estudiante gane el examen?
d. Cul es el nmero esperado de respuestas correctas?
e. Responder las preguntas a) y c) si cada pregunta tiene cinco opciones.
Solucin:
p=
n = 20
C x * N k C n x
N Cn
b. P(x = 5) =
c. P(x = 4) =
C 6 *39 C 0
= 0,000000123
45 C 6
C 5 *39 C1
= 0,000029
45 C 6
C 4 *39 C 2
= 0,001365
45 C 6
d. P(x 1) = P (x = 0) + P (x = 1) =
C 0 *39 C 6 + 6 C1 *39 C 5
= 0,825
45 C 6
luado.
e ( ) x
, donde es el nmero promedio de resultados en el intervalo evax!
77
EJEMPLO
A la sucursal Aves Mara de cierto banco llegan en promedio 36 clientes en una hora
pico. Un cajero puede atender, en promedio 8 clientes en esa hora.
a. Cul es la probabilidad de que en un espacio determinado de 5 minutos
lleguen 2 clientes como mximo?
b. Qu tan probable es que un cajero alcance a atender entre 3 y 4 personas en
una hora?
Solucin:
a. 36 clientes que llegan por hora es equivalente a 3 llegadas en 5 minutos (Esto
implica que = 3)
2) =
0) +
1) +
2) =
(3)0
0!
4) =
3) +
4) =
(8)3
3!
+
8 (8)4
4!
3 (3)1
1!
(3)2
=0,4232
2!
=0 ,0859
EJEMPLO
Los mensajes que llegan a un computador utilizado como servidor lo hacen de
acuerdo con una distribucin Poisson con una tasa promedio de 10 mensajes por
hora.
a. a) Cul es la probabilidad de que lleguen ms de 3 mensajes en un espacio de
15 minutos?
b. Cul es la probabilidad de que lleguen entre 15 y 20 mensajes en un espacio
de una hora?
78
Solucin:
a. = 2,5
P( X > 3) = 1 P( X 3)
= 1 0,7576
= 0,2424
b. = 10
P(15 X 20) = P( X 20) P( X 14)
= 0,9984 0,9165
= 0,0819
f ( x) =
1
2
( x )2
2
2
, < x <
79
El eje x es una asntota horizontal, es decir, los extremos de la curva se prolongan al infinito en ambas direcciones.
La desviacin estndar determina el ancho de la curva. A mayores valores de
se obtienen curvas ms anchas y bajas (mayor dispersin de los datos).
80
EJEMPLO
El volumen que una mquina de llenado automtico deposita en latas de una bebida gaseosa tiene una distribucin normal con media 150 mililitros y desviacin
estndar de 0,63 mililitros.
a. Cul es la probabilidad de que el volumen depositado sea menor de 148,5
mililitros?
b. Cul es la probabilidad de que el volumen depositado sea superior a 151,3
mililitros?
c. Si se desechan todas las latas que contienen menos de 148 o ms de 152 mililitros de bebida, cul es la proporcin de latas desechadas?
d. Calcule especificaciones que sean simtricas alrededor de la media, de tal forma que se incluya al 99% de todas las latas.
81
Solucin:
148,5 150
= P( Z < 2,38) = 0,0087
0,63
151,3 150
= P( Z > 2,06) = 1 P( Z < 2,06) = 1 0,9803 = 0,0197
0,63
< 148) =2
0.0008 =0 ,0016
Nota: La segunda forma solo puede utilizarse porque los dos valores estn
igualmente alejados de la media.
d.
z=
82
EJERCICIOS PROPUESTOS
1. Cierto producto tiene una demanda que exhibe una variabilidad que sigue
aproximadamente una distribucin normal con media 26,5 unidades demandadas por da y una desviacin estndar de 7,8 unidades demandadas por da.
a. Qu tan probable es que en un da se demanden ms de 50 unidades?
b. Qu tan probable es que en un da se demanden entre 20 y 30 unidades?
c. A partir de qu cantidad de pedidos se encuentra el 20% de los das en
que el producto se demanda menos?
2. Se elige una muestra de 20 empresas colombianas exportadoras. Se sabe por
estadsticas de aos anteriores que aproximadamente el 40% de las empresas colombianas exportadoras registra operaciones en varias ciudades.
a. Qu tan probable es encontrar al menos 18 empresas que tengan operaciones en varias ciudades?
b. Qu tan probable es encontrar entre 10 y 15 empresas que operen en
varias ciudades?
3. Un embarque contiene 1000 artculos, de los cuales hay 20 defectuosos (lo
sabe la empresa productora). La empresa que realiza las inspecciones toma
una muestra aleatoria de 10 artculos y si encuentra por lo menos uno defectuoso rechaza el embarque, cul es la probabilidad de que el embarque se
rechace?
4. Al conmutador de una universidad llegan en promedio 120 llamadas/hora durante el perodo de actividad. El conmutador no puede hacer ms de 5 conexiones por minuto; calcule la probabilidad de que:
a. el conmutador se encuentre congestionado en un minuto dado.
b. se pierdan 3 o ms llamadas si la recepcionista sali 2 minutos de la oficina.
5. El 80% de los contadores graduados en cierta universidad trabajan en su rea
de estudios. Si se evalan los 20 egresados de Contadura de dicha universidad en este semestre,
a. cul es la probabilidad de que todos se empleen en contadura?
b. cul es la probabilidad de que al menos el 80% de ellos se emplee en el
rea?
c. cul es la probabilidad de que menos de 12 se empleen en el rea?
83
6. La carretera que usa la empresa X para transportar sus productos hasta cierto
pueblo del Departamento presenta, en promedio, 8 huecos grandes por kilmetro; si se presenta algn trayecto de un kilmetro que tenga 20 huecos
o ms, la carretera se considera intransitable. Qu tan probable es que lo
anterior se presente?
7. Se ha encontrado, por datos histricos, que el monto de negocios en las ferias
de textiles que se han desarrollado en Colombia durante los ltimos 5 aos
sigue aproximadamente una distribucin normal con media 9,8 millones de
dlares y desviacin estndar de 8,7 millones de dlares.
a. En la ltima feria de Colombiatex, realizada en Medelln, se efectuaron
negocios por 33 millones de dlares; har parte del 5% de ferias textileras donde ms negocios se han hecho?
b. Cul es la probabilidad de que en una feria de este tipo se hagan negocios por ms de 15 millones de dlares?
8. La empresa petrolera que lidera actualmente el sector de los hidrocarburos
en Colombia extrajo, durante el primer semestre de 2011, una cantidad promedio de 707 300 barriles diarios de petrleo. La distribucin del nmero de
barriles extrados diariamente se ajusta al modelo normal y tiene una desviacin estndar de 105 565 barriles/da.
a. Qu tan probable es que maana se extraigan ms de un milln de barriles?
b. Qu tan probable es que maana se extraigan entre 800 000 y 950 000
barriles?
c. Cuntos barriles de petrleo se extraen en el 50% de los das ms comunes?
9. 3256 personas presentaron los exmenes de ingreso a una universidad, los
cuales se calificaban con un puntaje mximo de 100. Las calificaciones se
aproximan a una distribucin normal, con una media de 67,8 y una desviacin
estndar de 9,1.
a. El 12% de los postulantes con ms alta calificacin en el examen son
aceptados en la universidad. Un estudiante que obtiene un puntaje de
73 en el examen es aceptado o no?
b. Qu porcentaje de postulantes obtuvieron una calificacin entre 60 y
80?
10. En un reporte presentado por el Observatorio Laboral el 2 de agosto de
2011 se revela que el salario promedio de un profesional en Colombia es
$1 444 180, con desviacin estndar de $369 690.
84
85
OBJETO DE APRENDIZAJE 5
ESTADSTICA INFERENCIAL
El objetivo de la estadstica inferencial es la elaboracin de estimaciones y pruebas
de hiptesis acerca de las caractersticas de una poblacin, a partir de los datos
obtenidos de una muestra representativa; se apoya en la teora de probabilidades
para hacer generalizaciones sobre la poblacin.
Para garantizar la generalizacin es necesario que la muestra sea representativa y
que se haya hecho un adecuado diseo de muestreo.
5.1. ESTIMACIN
Se ha venido manejando informacin de muestras aleatorias tomadas de una poblacin conocida; pero lo ms importante es inferir informacin sobre la poblacin
a partir de muestras suyas. Eso es lo que se conoce como estimacin.
Con base en estimaciones se determinan presupuestos, planes de negocios, inversiones y pronsticos.
A un valor calculado con los datos de una muestra se le llama estadgrafo. Al estadstico que se usa para predecir el valor de un parmetro de la poblacin se le llama
estimador; si para estimar el parmetro se usa un valor nico dicho estimador es
llamado estimador puntual.
Algunos estimadores puntuales son:
La proporcin muestral ( p ), usado como estimador de la proporcin poblacional (p).
La media muestral ( X ), usado como estimador del valor esperado poblacional ().
La varianza de la muestra ( n 1 2 ), usado como estimador de la varianza de la
poblacin ( n 2 ).
Aunque esta es la manera ms comn de expresar una estimacin, da lugar a muchas preguntas; por ejemplo, no indica la cantidad de informacin sobre la cual se
basa la estimacin y no dice nada acerca del posible tamao del error (y siempre
que se toman muestras existe algn error).
86
En consecuencia, se opta por un segundo mtodo de estimacin denominado estimacin por intervalos, que indica la precisin de una estimacin; dicha idea de
precisin es definida por el error estndar, que es la desviacin estndar de la distribucin muestral de las medias de las muestras.
La tcnica de este tipo de estimacin consiste, entonces, en asociar a cada muestra un intervalo que se sospecha que debe contener al parmetro; se le denomina
intervalo de confianza. Este parmetro ser habitualmente una proporcin en el
caso de variables cualitativas y la media o la varianza para variables cuantitativas.
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A
la probabilidad de que hayamos acertado al expresar que el parmetro estaba contenido en dicho intervalo se le denomina nivel de confianza.
Un intervalo de confianza, si es bilateral, se expresa mediante dos valores: L (lmite
inferior) y U (lmite superior), de tal manera que la siguiente proposicin de probabilidad es verdadera:
P( L U ) = 1
donde es un nmero entre 0 y 1 (arbitrario y preferiblemente pequeo por ejemplo 0,05 o 0,1).
El intervalo de confianza resultante se conoce como intervalo de confianza de
100(1-)% para el parmetro desconocido . Las cantidades L y U reciben los nombres de lmites de confianza inferior y superior, respectivamente, y 1- es el nivel
de confianza.
Se tiene una probabilidad de 1 de seleccionar una muestra que produzca un
intervalo que contiene el valor verdadero de .
para cada una de las muestras, entonces el 100(1)% de esos intervalos contiene
el verdadero valor de .
En la prctica se obtiene solamente una muestra aleatoria y se calcula un intervalo
de confianza. Puesto que ese intervalo puede o no contener el valor verdadero de
, no es razonable asociar un nivel de probabilidad a este evento especfico. La proposicin adecuada es que el intervalo observado [L,U] contiene el verdadero valor
de con una confianza de 100(1-). Esta proposicin tiene una interpretacin de
frecuencia, es decir, no se sabe si es correcta para la muestra en particular, pero el
mtodo usado para obtener ese intervalo proporciona proposiciones correctas el
100(1 - )% de las veces.
Obviamente, entre ms amplio sea el intervalo de confianza, mayor es la seguridad
de que realmente el intervalo contenga el verdadero valor de , pero menor informacin se tiene acerca de ese valor. Lo ideal es, entonces, un intervalo de confianza relativamente pequeo con una confianza grande, lo que se logra aumentando
el tamao de la muestra evaluada.
Se presentarn algunos mtodos para encontrar intervalos de confianza para medias y proporciones.
88
La diferencia con el Z planteado en el Objeto de aprendizaje anterior es muy sencilla: es mucho ms difcil hallar un valor de la media alejado de la media poblacional
en una muestra que para un valor individual; mirmoslo con un ejemplo:
EJEMPLO
Una empresa fabrica focos que tienen una duracin con media de 800 horas y desviacin estndar de 35 horas.
a. Encuentre la probabilidad de que un foco que alguien compr dure menos de
780 horas.
b. Encuentre la probabilidad de que una muestra de 50 focos tenga una vida
promedio de menos de 780 horas.
Solucin:
a.
780
b.
780
35
800
800
35/ 50
0,57
4,04
780)= 0,2843
< 780)= 2,67 10
Conclusin: que un foco de esa empresa tenga una duracin tan corta es poco probable, pero que una muestra relativamente grande tenga un promedio de duracin
tan bajo es casi imposible.
EJEMPLO
Para vigilar la calidad de su servicio, una empresa que se dedica exclusivamente a
satisfacer pedidos por internet selecciona una muestra aleatoria de clientes cada
mes; se establece contacto con cada cliente muestreado, se le hace una serie de
preguntas acerca de la calidad del servicio y se determina una calificacin de satisfaccin por cliente muestreado entre 0 y 100.
89
Las encuestas mensuales anteriores han demostrado que, aunque la media cambia
mes a mes, la desviacin estndar de las calificaciones ha tendido a estabilizarse en
20. La ltima encuesta se hizo a 100 clientes seleccionados aleatoriamente y arroj
una calificacin promedio de 82. Estime la calificacin para perodos posteriores.
Solucin:
Como X = 82 , bajo la suposicin de que las calificaciones recibidas son independientes, el intervalo de confianza de 90% es:
82 1, 645
20
20
< < 82 + 1, 645
100
100
78, 71 < < 85, 29
De ello puede deducirse que existe un 90% de confianza de que el valor promedio
de las calificaciones que se reciben est entre 78,71 y 85,29. Dicho de otra forma, si
se tomaran 100 muestras y a partir de ellas se establecieran intervalos de confianza, aproximadamente 90 de esos intervalos contendran el verdadero valor de la
media poblacional.
Nota: se prefiri hacer un intervalo de confianza de 90%, pero bien pudo ser de
otro valor alto (generalmente 95 99%).
Si la poblacin es finita y de un tamao conocido, debe emplearse un factor de correccin. En este caso, el intervalo de confianza de 1 es:
X Z / 2 / n
N n
N n
< < X + Z / 2 / n
N 1
N 1
Lo anterior implica que el tamao de la muestra a emplear depende de tres factores: el nivel de confianza que se desea, el margen de error que puede tolerar el
investigador y la variabilidad en la poblacin que se estudia.
90
1.96* 20
=
n =
384, 2
2
Esto implica que para satisfacer los requerimientos debe tomarse una muestra de
385 clientes.
Varianza desconocida:
Como se ha mencionado, el caso anterior se presentar poco en la prctica, ya que
lo usual es que el valor exacto de los parmetros y no sean conocidos; de lo
contrario, no interesara buscar intervalos de confianza para ellos.
Si la muestra tomada es grande, un procedimiento aceptable consiste en reemplazar por el valor calculado de la desviacin estndar muestral.
Cuando el tamao de la muestra es pequeo (menos de 30 unidades) debe emplearse otro procedimiento; para producir un intervalo de confianza vlido debe
hacerse una hiptesis ms fuerte con respecto a la poblacin de inters y es que
ella est distribuida normalmente. Esto conduce a intervalos de confianza basados
en la distribucin t de Student, que es una distribucin continua que tiene una
forma muy similar a la distribucin normal estndar (tiene forma de campana y es
91
simtrica con una media de 0); una distribucin t especfica depende de un parmetro llamado grados de libertad, que para efectos prcticos equivale a n 1 (una
unidad menos que el tamao de la muestra). A medida que aumenta la cantidad
de grados de libertad, la diferencia entre la distribucin t y la distribucin normal
estndar se hace ms y ms pequea.
T=
n 1 / n
EJEMPLO
La Asociacin Americana de Agencias de Publicidad tiene un registro de datos sobre minutos de anuncios por cada media hora de programas principales de TV. En
la tabla siguiente vemos una lista de datos de una muestra de programas preferentes en cadenas principales a las 8 P.M.:
6,0
6,5
7,0
6,5
7,2
7,6
7,0
6,2
6,0
5,8
7,3
6,2
6,0
6,4
6,6
6,2
6,3
7,2
5,7
6,8
6,525
2, 093*0,5437
2, 093*0,5437
6,525 +
20
20
6, 27 6, 78
Debe tenerse muy presente que este intervalo de confianza supone que el muestreo se hace sobre una poblacin normal; esta hiptesis es vlida en muchas situaciones prcticas, pero si es muy alejada de la realidad deben emplearse mtodos
diferentes.
92
n 1
N n
N n
X + t / 2,n 1 n 1
N 1
N 1
n
n
n 1
N n
N n
X + Z / 2 n 1
N 1
N 1
n
n
Para determinar el tamao apropiado de la muestra a utilizar es necesario encontrar una estimacin preliminar de la desviacin estndar de la poblacin. Una forma posible consiste en disponer de la dispersin de otro estudio relacionado (obviamente, si se considera confiable); el mtodo ms comn para hacerlo consiste
en la realizacin de un estudio piloto, basado en la utilizacin de una muestra a la
cual se le determina su desviacin estndar y ese valor es usado para determinar el
tamao apropiado de la muestra.
El tamao de la muestra para estimar una media poblacional es:
Z
n = / 2 n 1
e
Z 2 2 N
( N 1)e 2 + Z 2 2
EJEMPLO
Se quiere estimar la media poblacional de los puntajes en Saber Pro de los estudiantes de cierta universidad, 356 estudiantes de esa universidad presentaron la
prueba y se desea determinar un intervalo de confianza aproximado de 95%, con
anchura mxima de 8 puntos. El ao anterior se hizo el mismo estudio y se encontr que la desviacin estndar de la muestra que se tom es 15,5.
a. Calcule el tamao de la muestra que se debe tomar.
b. Estime si se tom una muestra aleatoria del tamao apropiado y se hall
una media para esa muestra de 105,3 y una desviacin estndar de 14,4.
93
Solucin:
=
n
1,96
14,4
50
356 50
355
105,3 +1 ,96
101, 6 109
14,4
50
356 50
355
X
n
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normal cuando el tamao de la muestra n es grande y p no es una cantidad muy cercana a cero o uno.
Se sabe tambin que p tiene una distribucin aproximadamente normal con
Z=
p p
pq
n
94
p p
p q
n
p q
p q
< p < p + Z / 2
n
n
0,56*0, 44
0,56*0, 44
p 0,56 + 1,96
1000
1000
0,529 p 0,591
0,56*0, 44
0,56*0, 44
p 0,56 + 1, 645
1000
1000
95
0,534 p 0,586
Z
n = / 2 pq
e
Para utilizar la anterior ecuacin se debe hacer una estimacin de p. Para ello debemos basarnos en un valor p de una muestra anterior o en el establecimiento de p a
partir de una muestra piloto (y se determina cuntas observaciones adicionales se
necesitan para estimar p con una exactitud predeterminada) o haciendo una estimacin subjetiva (en este caso, debe conocerse muy bien lo que se hace).
Otro enfoque para seleccionar el tamao de muestra consiste en maximizar la
ecuacin, teniendo en cuenta que pq es mximo cuando p y q tienen un valor de
0,5.
Si la poblacin es finita, el tamao de la muestra que debe seleccionarse es:
n=
Z 2 p qN
( N 1)e 2 + Z 2 pq
EJEMPLO
Se va a realizar una investigacin sobre Perfil y percepcin del turista extranjero
que visita la ciudad de Medelln. Una de las etapas del estudio comprende a los
turistas que vinieron a Medelln durante la celebracin de la feria de Colombiatex.
96
1, 6452 *0,5*0,5*1300
=
388
1299*0, 0352 + 1, 6452 *0,5*0,5
EJEMPLO
Una entidad bancaria seleccion una muestra aleatoria de 30 das y registr el nmero de reclamos de sus usuarios en cada uno de ellos. Dichos registros fueron:
17
24
21
24
33
24
12
12
29
28
15
17
15
21
18
19
24
24
23
36
30
32
18
14
15
15
21
18
19
18
Establezca un intervalo de confianza unilateral, de tal manera que tenga una confianza aproximada de 90% de que el promedio de reclamos diarios en la entidad no
supere un valor determinado.
97
Solucin:
X = 21, 2 y n 1 = 6,332; Z = 1, 28
21, 2 +
1, 28*6,332
30
22, 7 reclamos
p q
n
N n
< p < p + Z / 2
N 1
p q
n
N n
N 1
Identificar parmetro
de inters
Plantear Ho y H1
Seleccionar nivel de
significancia
Formular regla de
decisin
99
EJEMPLO
Una agencia de viajes planea desarrollar una propaganda para televisin si el promedio de clientes es por lo menos 15 al da en temporada fra. Para estimar dicho promedio, tom una muestra aleatoria de 25 das de estos ltimos tres meses
(temporada fra); los datos que encuentre se usarn para probar las siguientes hiptesis: Ho: 15; H1: <15
a. Cul es el error de tipo I en este caso? Cules seran sus consecuencias?
b. Cul es el error de tipo II en este caso? Cules seran sus consecuencias?
Solucin:
a. Existe un error de tipo I cuando se concluye que dicho promedio no es mayor
o igual a 15 clientes cuando realmente lo es. Podra perderse la oportunidad
de proyectar el comercial y ganar nuevos clientes.
b. Existe un error de tipo II cuando se concluye que dicho promedio es mayor o
igual a 15 clientes cuando realmente no lo es. En ese caso, se proyectar el
comercial cuando el plan inicial indica que no se justificara.
Seleccionar nivel de significancia: refleja la probabilidad de que el estadgrafo caiga por fuera de regin de aceptacin. Se elige subjetivamente (no es
producto de ningn clculo), pero debe ser un valor bajo, aproximadamente
0,05.
Formular la regla de decisin: con base en el nivel de significancia, en el valor hipottico del parmetro y asumiendo que los datos poblacionales siguen
una distribucin normal, deben establecerse una regin crtica (o de rechazo)
y una regin de aceptacin. Como se haba dicho antes, si la muestra tomada
es muy pequea (de tamao inferior a 30) no debe utilizarse la distribucin
normal, sino la distribucin t de Student.
Tomar una muestra, calcular estadstico de prueba, comparar y decidir:
finalmente debe tomarse una muestra, preferiblemente aleatoria para garantizar una buena estimacin de los parmetros poblacionales, y se calculan
los datos necesarios para el contraste, es decir, la media de la muestra o su
proporcin (tambin podra ser su desviacin estndar, pero no se est considerando el caso).
100
(para proporcin)
Fuente: educastur.princast.es
101
EJEMPLO
Una empresa comercializa una bebida refrescante en un envase en cuya etiqueta
se puede leer: Contenido: 250 centmetros cbicos. El Departamento de Consumo toma aleatoriamente 25 envases y estudia el contenido medio, obteniendo una
media de 234 cc y una desviacin tpica de 18 cc. Puede afirmarse, con un nivel de
significancia de 5%, que no se est vendiendo el contenido indicado?
(Ejercicio tomado de educastur.princast.es, se hicieron algunos ajustes)
Solucin:
Ho: 250 cc
n 1 / n
t=
234 250
18 / 25
= -4,44
78
= 0, 65
120
p p
0, 65 0, 7
= -1,20
=
pq
0, 7 *0,3
n
120
t=
d
Sd / n
EJEMPLO
Ahorros y Prstamos X contrata dos firmas, A y B, para evaluar las propiedades
sobre las que hace prstamos; es importante que estas dos firmas tengan avalos
semejantes. Para verificar la congruencia, X selecciona diez casas de manera aleatoria y pide a cada una de las firmas que haga su avalo. Los resultados, en millones
de pesos, son:
Propiedad
1
2
3
4
5
6
7
8
9
10
A
135
110
131
142
105
130
131
110
125
149
B
128
105
119
140
98
123
127
115
122
145
103
Con un nivel de significancia de 0,05 puede concluirse que las dos firmas hacen
avalos diferentes?
Solucin:
El primer paso consiste en establecer las hiptesis nula y alternativa; en este caso
es apropiado utilizar una prueba de dos colas porque el inters estriba en determinar si existe diferencia entre los valores calculados.
Ho: d = 0
H 1: d 0
Las diferencias son 7, 5, 12, 2, 7, 7, 4, -5, 3 y 4, cuya media es 4,6 y cuya desviacin
estndar es 4,402.
Por lo tanto el valor de t es: t =
4, 6
= 3,305
4, 402 / 10
104
EJERCICIOS PROPUESTOS
1. Se est desarrollando una investigacin entre pequeas y medianas empresas industriales del Valle de Aburr. Fueron censadas 856 empresas de confecciones, 1057 empresas de alimentos, 165 empresas metalrgicas y 1456
empresas de otros sectores. Cul debe ser el tamao de la muestra seleccionada si en la investigacin se quiere tener un nivel de confianza de 95% y un
margen de error de 4%?
2. El siguiente ejercicio fue tomado de las pruebas Ecaes de 2006: Seleccione la
respuesta correcta y justifique su eleccin:
El gerente de una empresa que realiza estudios de mercado de diferentes
productos presta gran atencin a los detalles. En el informe final de uno de
estos estudios se lee que la muestra fue de 200 personas y que se trabaj con
nivel de confianza de 85% y con un margen de error del 10%. Una vez ledo el
informe, el gerente decide no aceptarlo porque:
a. El nivel de confianza y el margen de error no suman 100%
b. El menor nivel de confianza permitido es 95%
c. El margen de error no supera el 10%
d. El nivel de confianza es bajo y el margen de error es alto
3. Cierta compaa tiene 168 representantes de ventas que venden un producto
suyo en todo el territorio nacional; dichos agentes tienen como ciudad sede a
Medelln, Bogot o Cali, ciudades donde se encuentran las fbricas.
En la siguiente tabla se muestra el nmero de productos vendidos por una
muestra aleatoria de algunos vendedores durante el mes anterior:
265
188
109
214
233
186
199
239
333
169
205
293
314
222
196
305
125
242
188
314
167
198
225
233
155
197
215
309
356
188
214
268
145
235
85
195
215
182
175
100
135
120
90
235
212
196
169
250
242
188
200
225
180
135
242
191
12. El presidente de cierta compaa cree que el 30% de los pedidos a su empresa
provienen de clientes nuevos. De 80 pedidos elegidos al azar, se encontr que
17 fueron hechos por clientes nuevos. A partir de un anlisis bilateral, compruebe la veracidad de la hiptesis.
13. La Cmara de Comercio afirma que las microempresas de Medelln presentan
ventas totales promedio de 12 millones de pesos por da. Para comprobarlo,
se tom una muestra aleatoria de 25 microempresas y se registraron sus ventas promedio (en millones), as:
15,5
7,6
12,5
23,1
8,2
11,4
15,3
9,1
6,9
10,5
12,4
9,3
21,1
12,8
15,5
13,9
6,5
20
15,5
11,1
10,5
9,6
15,2
12
12,5
108
15. Se va a estimar el promedio del Producto Interno Bruto por persona de los
pases del mundo. En el mundo hay 225 pases y se tom para el estudio una
muestra de 30 pases.
En los pases seleccionados en la muestra se registraron los siguientes PIB per
cpita en 2010 (en dlares):
12700
34000
15900
6600
30000
500
24200
36600
1900
5500
14700
23200
3400
11500
47200
35700
6200
17400
1500
9200
23200
8000
38500
7000
2700
3100
1800
300
1900
42600
a. Estime, mediante un intervalo de confianza, el PIB promedio de los pases del mundo.
b. Una investigacin de 2009 revel un promedio de 16 500 dlares para el
producto interno bruto per cpita. Segn lo reportado por la muestra,
parecera que ese promedio se conserva?
109
BIBLIOGRAFA
Anderson, D., Sweeney D., Williams, T. (2008). Estadstica para Administracin
y economa. Mxico, D.F.: Cengage Learning Editores.
ngel, B. (2010). Cartilla de Investigacin y empresarimo. Sabaneta: Institucin Universitaria Ceipa.
Banco de la Repblica. Series estadsticas. Recuperado el 25 de julio de 2011
de www.banrep.gov.co
Centro de Investigacin Estadstica y Mercadeo. Series, Enfoque clsico. Recuperado el 5 de mayo de 2011 de http://www.slidefinder.net/s/series_clasico_ciem/20750047
Educastur. Test de contraste de hiptesis. Recuperado el 5 de agosto de 2008
de http://web.educastur.princast.es/ies/pravia/carpetas/recursos/mates/Descartes_antiguo/curso_inferencia_estadistica/tests_de_contraste_de_hipotesis.htm
Indexmundi. Mapa comparativo de pases. Recuperado el 20 de agosto de
2010 de http://www.indexmundi.com/map/?t=0&v=71&r=sa&l=es
Jaramillo F. (2003). Distribuciones de probabilidad. Recuperado el 4 de junio de
2008 de estadisticaiue.awardspace.com/est1ce/t_dispro.doc
Montgomery D. y Runger G. (1996). Probabilidad y estadstica aplicadas a la
ingeniera. Mxico, D.F.: McGraw-Hill Interamericana Editores.
Programa de las Naciones Unidas para el Desarrollo (2011). Informe sobre
Desarrollo Humano 2010. Recuperado el 24 de junio de 2011 de http://www.
pnud.org.co/sitio.shtml?x=63277
Scribd (2008). Recuperado en noviembre de 2009 de http://es.scribd.com/
doc/30215787/ECAES-ADMON
Skyscraper Life (2011). Recuperado el 25 de julio de 2011 de http://www.skyscraperlife.com/latin-bar/51018-indice-de-libertad-economica-2011-a.html
Walpole R., Myers R. y Myers S. (1999). Probabilidad y estadstica para ingenieros. Mxico, D.F.: Pearson Prentice Hall.
110
ANEXO 1
2. ANLISIS DE REGRESIN
Debe usarse el Modo REG (Mode REG). En ciertas calculadoras aparece
Mode LR.
Seleccionar el modelo adecuado, segn el caso: Lin (lineal), Log (logartmico), Exp (exponencial), Quad (cuadrtico), Pow (potencial).
Se escoge uno de ellos segn la forma del grfico de dispersin; si se tiene
duda entre varios modelos, debe hallarse el coeficiente de correlacin (r)
para cada uno y elegir el modelo cuyo r sea ms cercano a 1 en valor absoluto.
111
Borrar datos anteriores: para ello debe usarse Scl. En algunas calculadoras
se ve directamente en el teclado; de lo contrario, se encuentra con CLR
(clear).
Introducir nuevos datos: digita cada dato de la forma x,y (primero el respectivo valor de la variable independiente y luego el valor de la variable
dependiente, separados por coma) y lo confirmas con DT.
Por ejemplo, si deseas introducir los siguientes datos:
X
5
Y
2
10 8
Finalmente, se selecciona lo que se necesite: n (nmero de datos introducidos), X (media), x n (desviacin estndar poblacional) y x n 1 (desviacin estndar muestral).
2. ANLISIS DE REGRESIN
Luego de elegir el modo STAT, debe escogerse A+BX si el modelo es lineal, lnX si es logartmico o ex si es exponencial. Luego se teclea EXE.
Despus deben introducirse los valores de x en forma matricial, digitando
EXE despus de cada valor.
Una vez introducidos todos los valores, debe seleccionarse Shift S-MENU
y en ese men escoger REG.
Por ltimo, seleccionar lo que se necesite: A, B, r, x o y
3. COMBINACIONES Y PERMUTACIONES:
Si las funciones nCr y nPr no se encuentran directamente en el teclado, debe
buscarse en el catlogo (CTLG); algunas veces se encuentran como C y P, respectivamente.
113
ANEXO 2
yyyyy
Ubicado en la celda Frecuencia de xxxxx, debe seleccionarse el men Frmulas, Insertar funcin, posteriormente la categora Estadsticas y la
funcin CONTAR.SI
En Contar.si aparece:
Rango: son los datos que se quieren contar. Puede utilizarse cualquiera de
dos formas para elegirlo:
Seleccionar rango de datos escribiendo las celdas de comienzo y fin,
separadas por dos puntos.
O pueden asignarse los datos, seleccionndolos. Debe tenerse cuidado de estar ubicado en el rectngulo respectivo.
Criterio: Son los resultados posibles.
En Excel deben fijarse las celdas que no cambian cuando se hace un arrastre de frmula. Para ello, debe ubicarse el cursor en la barra de frmulas al
comienzo del espacio que muestra la ubicacin de la celda que quiere cambiarse y pulsar F4; lo mismo se hace para la celda final. Queda, entonces,
algo de la siguiente forma:
=C1/$C$5
(est fijada la celda C5)
114
SI
SI
SI
SI
SI
NO
SI
NO
NO
SI
SI
SI
SI
SI
SI
NO
14
6
0.7
0.3
70
30
1.2. GRFICOS:
1.2.1. Grfico de columnas:
Paso 1: Seleccionar los datos que se desea graficar (en este caso las clases y
las frecuencias absolutas).
Paso 2: Dar clic en el men Insertar y luego en la flecha que est en el inferior de Columnas y ah escoger el subtipo que se prefiera.
Paso 3: Luego de que aparezca el grfico, escoger en Diseo del grfico
aquel que ms se ajuste (preferiblemente aquellos que tienen ttulo y nombre de ejes).
116
Nota: Si las dos variables son numricas, Excel graficar ambas variables.
Para eliminar la que no deba graficarse, debe sealarse con clic derecho una
de las barras correspondiente a la variable no deseada y se escoge Eliminar.
Si se prefiere, pueden borrarse las lneas de divisin, sealando alguna y
suprimiendo.
Si an se ve la leyenda, debe eliminarse si no aporta nada.
Si se quiere cambiar el formato de las barras:
Clic derecho sobre cualquiera de ellas (verificar que queden seleccionadas todas las barras).
Dar formato a series de datos, relleno.
Cambiar segn lo deseado (color, efectos de relleno, etc).
Si se quiere cambiar una sola barra:
Hacer dos veces clic en la barra que quiere cambiarse (debe quedar
seleccionada solamente la que se necesita).
Clic derecho en la requerida.
Formato de punto de datos y se hace el cambio deseado.
Si desea hacerse un cambio en cualquiera de las secciones sealadas en
el grfico, debe darse clic derecho sobre la respectiva seccin y seguir las
indicaciones.
1.2.2. Grfico de Sectores:
Paso 1: Seleccionar los datos que se van a graficar (las clases con las frecuencias absolutas o las relativas).
117
119
ANEXO 3
120
121
2008
1570
2009
1846
2010
2164
2011
2573
Y se quiere hacer una proyeccin para 2012, X es 2012, Conocido_x es la matriz que
comprende los nmeros entre 2007 y 2011, y Conocido_y es la matriz que comprende los nmeros entre 1300 y 2573. La respuesta es 2832,6.
Nota importante: Si en lugar del diagrama de lneas, se construye el diagrama de
dispersin se obtiene la misma grfica, pero la ecuacin de regresin dara con la
misma pendiente, pero con un punto de corte errado.
122
EJEMPLOS
1. Se pretende explicar los cambios en la variable ndice de desarrollo humano a partir de los cambios en Producto Interno Bruto per cpita.
Para ello se tuvieron en cuenta los datos ms recientes de los pases de
Amrica Latina:
PAS
PIB PER
CPITA
(dlares)
IDH
PAS
PIB PER
CPITA
(dlares)
IDH
PAS
PIB PER
CPITA
(dlares)
IDH
Argentina
Chile
Uruguay
Mxico
Panam
Venezuela
Brasil
15604
14983
14342
14266
12398
11889
11289
0,775
0,783
0,765
0,75
0,755
0,696
0,699
Costa
Rica
Colombia
Per
Rep.
El
Ecuador
Paraguay
Dominicana
Salvador
10732
9445
9281
8648
7952
7442
4915
0,725
0,689
0,723
0,663
0,695
0,659
0,64
Guatemala
Bolivia
Honduras
Nicaragua
Hait
4871
4584
4405
2970
1122
0,56
0,643
0,604
0,565
0,404
Solucin:
Primero deben pegarse los datos en Excel, de tal manera que queden en columnas;
luego deben seleccionarse.
Posteriormente ir a Insertar Grfico y escoger el grfico de dispersin.
Escoger el subtipo de grfico que no une los puntos.
Asignar ttulos, borrar leyenda y lneas de divisin.
123
Luego, despus de dar clic derecho sobre uno de los marcadores (puntos), elegir
Agregar Lnea de tendencia; por la forma del grfico se selecciona logartmico y
en la pestaa opciones se seleccionan Presentar ecuacin en el grfico y Presentar el valor R cuadrado en el grfico.
El grfico debe quedar de la siguiente forma, aunque puede editarse de tal manera
que quede estticamente ms agradable:
IDH
y = 0,1337ln(x) - 0,5223
R = 0,9344
5000
10000
15000
20000
VENTAS DE LA MICROEMPRESA X
Millones de pesos
2500
2000
y = 68,926e0,3746x
R = 0,9863
1500
1000
500
0
2008
2009
2010
2011
125
ANEXO 4
Solucin:
Se observa que se sigue una distribucin binomial porque los eventos son independientes (el hecho de que una empresa opere en varias ciudades no tiene por qu
influir en el hecho de que otra funcione en una o varias ciudades), la probabilidad
de que opere en varias ciudades es constante (es 0,4 para todo el proceso), hay un
nmero de ensayos determinado (20 empresas) y cada ensayo tiene 2 opciones
(opera en una ciudad o en varias).
Eso implica que debe elegirse la opcin DISTR.BINOM. Vamos a considerar que el
xito es funcionar en varias ciudades (aunque perfectamente podra hacerse si se
elige que el xito sea el caso contrario).
a.
18 )= 1
17)
17):
Para hallar
Nm_xito: 17
Ensayos: 20
Prob_xito: 0,4
Acumulado: VERDADERO
La respuesta obtenida es 0,99999, de donde se deduce que
aproximadamente cero.
b. (10
15) =
Nm_xito
Ensayos
Prob_xito
Acumulado
Respuesta
Por lo tanto, (10
15)
9)
15)
15
20
0,4
VERDADERO
0,9997
15)= 0,9997
18) es
9)
9
20
0,4
VERDADERO
0,7553
0,7553 =0,2444
5)
Para hallar
5)
X: 5
Media: 2
Acumulado: VERDADERO
La respuesta obtenida es 0,983436
Por lo tanto,
6)6= 1
0,9834366= 0,016564
3)
129
Solucin:
a. Puede resolverse con DISTR.NORM o con DISTR.NORM.ESTAND (ms recomendable con el primero porque el segundo exige hacer antes la operacin
para Z).
Con DISTR.NORM:
X = 395 000
Media = 586 000
Desviacin estndar = 115 000
Acumulado = VERDADERO
La respuesta es 0,0483698
Con DISTR.NORM.ESTAND:
Z = -1,66087 ((395000-586000)/115000)
La respuesta es 0,0483698
b. Puede resolverse con DISTR.NORM o con DISTR.NORM.ESTAND, aunque
solamente va a ser hecha con DISTR.NORM:
X1 = 500 000
Media = 586 000
Desviacin estndar = 115 000
Acum = VERDADERO
La respuesta es 0,22728246
X2 = 600 000
Media = 586 000
Desviacin estndar = 115 000
Acum = VERDADERO
La respuesta es 0,54844723
La respuesta es 1,644853
Posteriormente habra que despejar X de la frmula de Z
4. Un embarque contiene 1000 artculos, de los cuales hay 20 defectuosos
(lo sabe la empresa productora). La empresa que realiza las inspecciones
toma una muestra aleatoria de 10 artculos y si encuentra por lo menos
uno defectuoso rechaza el embarque, cul es la probabilidad de que el
embarque se rechace?
Solucin:
Debe usarse DISTR.HIPERGEOM. La nica forma de no rechazar el embarque es
que no se encuentren defectuosos en la muestra; para este ltimo caso:
Muestra_xito: 0
Nm_de_muestra: 10
Poblacin_xito: 20
Nm_de_poblacin: 1000
La respuesta es 0,816318. Por lo tanto, la probabilidad de que el embarque se rechace es 1 0,816318, o sea 0,183682.
131
ANEXO 5
STATGRAPHICS PLUS
1. GENERALIDADES:
Statgraphics es un paquete estadstico que aborda ampliamente la mayora de los
temas estadsticos; es sencillo de aprender y manejar.
El men principal contiene los siguientes comandos:
FILE (Archivo): con rdenes que permiten abrir, cerrar o guardar Statfolio
(grupos de trabajo) y Data file (ficheros de datos). Adems permite imprimir.
EDIT (Corregir): permite, entre otras cosas, copiar, cortar e insertar datos.
PLOT (Diagramas): principalmente para elaborar grficos, bien sea Scatterplots (grficos de dispersin), exploratory plots (entre ellos el histograma
de frecuencias) o business charts (barchart o grfico de barras y piechart o
grfico de sectores).
DESCRIBE (Describir): por medio del cual se analizan y procesan datos de
muestras individuales una sola muestra.
COMPARE (Comparar): mediante l se puede hacer todo tipo de anlisis que
permita la comparacin de muestras.
RELATE (Relacionar): para hacer regresiones.
VIEW (Mirar): para ver u ocultar las barras (toolbar, que contiene conos directos y Status bar, que va reseando lo que se hace) y el StatAdvisor.
WINDOW: para organizar las ventanas.
HELP (Ayuda).
Otras herramientas importantes son:
STATADVISOR: aparece cada que se hace una prueba; explica el significado
de los resultados obtenidos.
STATFOLIO: permite guardar y recuperar rpidamente grupos de trabajo
anlisis previos.
132
133
3. DISTRIBUCIONES DE PROBABILIDAD:
Para establecer una distribucin de probabilidades debe seleccionarse Plot del
men principal, posteriormente debe seleccionarse probability distributions (distribuciones de probabilidad) del submen, que contiene 22 tipos de distribucin,
entre ellas Binomial, Poisson, Normal, entre otras.
Para dar los parmetros conocidos debe presionarse el botn alterno del ratn y
seleccionar Analysis options (opciones de anlisis). Aparece entonces una caja de
dilogo que permite ingresar los parmetros deseados (media y desviacin estndar de la poblacin y nmero de sucesos o solamente uno o dos de ellos).
Probability distributions contiene tres opciones tabulares (cono amarillo de la barra de herramientas especfica) y cinco opciones grficas (cono azul).
134
Si se parte de los estadsticos muestrales (X, S o p): debe seleccionarse Describe del men principal e Hypothesis Tests del submen.
Aparece una caja de dilogo donde primero debe escogerse uno de los siguientes parmetros: Normal mean (media normal), Normal sigma (desviacin estndar normal), Binomial proportion (proporcin binomial) o Poisson
rate.
Si se selecciona normal mean, el programa calcula intervalos de confianza para la media usando la distribucin t. Asume que los datos vienen de
una distribucin normal, por eso debe verificarse previamente el grado de
normalidad.
Si se selecciona normal sigma, calcula intervalos de confianza para la desviacin estndar usando la distribucin chi cuadrado. Tambin asume que
los datos estn normalmente distribuidos.
El anlisis para una distribucin binomial calcula intervalos de confianza
para la proporcin; debido a que usa una aproximacin normal, no debe
usarse para muestras muy pequeas. Para proporciones cercanas a 0,5,
el anlisis proporciona aproximaciones tiles con muestras de 20 o ms;
para proporciones menores de 0,4 o mayores de 0,6, el anlisis proporciona aproximaciones tiles con muestras de 50 o ms.
Para una distribucin Poisson, el programa estima la media de la distribucin. Como usa una aproximacin normal, no debe usarse para muestras
muy pequeas. La aproximacin es razonable cuando la media de la distribucin Poisson es 10 o ms (por ejemplo, cuando n = 10 y p = 0,2).
En cualquiera de los casos puede calcularse el tamao mnimo de la muestra que se necesita para obtener un intervalo de confianza de manera que se
tenga una confianza determinada de que el error al hacer la estimacin sea
menor que un cierto error especificado. Para ello se selecciona Describe del
men principal y Sample size determination del submen; aparece una caja
de dilogo, donde se escoge el parmetro a seguir (normal mean, normal sigma, binomial o Poisson) y se suministran los valores de , y error absoluto.
Si se desea cambiar el nivel de confianza debe presionarse el botn alterno
del ratn y seleccionar la opcin Analysis option; luego se puede ver una caja
de dilogo donde puede escogerse un valor de Alpha () y si se desea que el
intervalo de confianza sea bilateral o unilateral.
4.2. Intervalos de confianza para la comparacin de dos muestras:
Si se van a calcular intervalos de confianza para la diferencia de dos medias
(1 - 2), la diferencia de dos proporciones (p1 - p2) o el cociente de varian136
137
Entre las opciones tabulares est Hypothesis Tests, que produce valores
de t (computed t statics) y p (p-value), segn la hiptesis nula (Null hypothesis) y alternativa (alternative).
Si desea hacerse algn cambio, debe presionarse el botn alterno del ratn y seleccionar Pane options. Aparece una caja de dilogo, donde pueden cambiarse la media (mean) y el nivel de significancia (alpha); tambin
puede cambiarse la hiptesis alternativa, que puede ser not equal (), less
than (<) o greater than (>),
La hiptesis nula debe rechazarse si > p.
Si se parte de los estadsticos muestrales ( X , S o p): Seleccionar Describe Hypothesis Tests. En la caja de dilogo que se encuentra se puede escoger
un parmetro, segn el tipo de prueba de hiptesis que vaya a hacerse:
Normal mean (para media), normal sigma (para desviacin estndar) o Binomial proportion (para proporcin).
Deben suministrarse los datos que el programa pida, lo cual depende del
tipo de prueba. Esos datos pueden ser Null Hypothesis (H0), sample mean (
X ), sample sigma (S), sample size (n) o sample proportion (p).
El programa proporciona valores para t y p y si la hiptesis nula debe rechazarse o no con un determinado nivel de significancia. Si se quieren
cambiar la hiptesis alternativa y/o el nivel de significancia, debe emplearse Analysis options.
5.2. Pruebas de hiptesis para comparacin de dos muestras:
El procedimiento es exactamente el mismo que el realizado para hallar intervalos de confianza. Adems del intervalo de confianza correspondiente, el
programa tambin arroja valores de t y p y si la hiptesis debe rechazarse o
no.
6. REGRESIN:
6.1 Anlisis de regresin simple:
Estima principalmente una relacin lineal entre dos variables; el modelo relaciona una variable independiente y una dependiente, minimizando la suma
de los cuadrados de los errores respecto a la lnea ajustada.
138
Inicialmente deben introducirse los datos. Luego se selecciona Relate - simple regression (regresin simple). Aparece una caja de dilogo que debe completarse; la variable independiente (X) debe corresponder a la columna 1 y la
dependiente (Y) a la columna 2.
El programa devuelve valores para la pendiente (slope), el intercepto con el
eje Y (intercept), la ecuacin de la lnea ajustada y el coeficiente de correlacin.
Adems brinda valores de la desviacin estndar de la pendiente y el intercepto y sus valores t y p.
Adems de una lnea recta, tambin puede emplearse el anlisis para estimar
algunos modelos estandarizados no lineales: el anlisis puede ajustar automticamente cualquiera de doce modelos (entre ellos exponencial, logartmico y multiplicativo).
El modelo preferido es el ajuste lineal a no ser que otro tipo de modelo incremente el valor de R cuadrado significativamente. Para seleccionar el mejor
modelo se puede usar la opcin tabular de comparacin de modelos alternos.
Si ningn modelo se ajusta (para ninguno el grado de correlacin es cercano
a uno) debe emplearse el anlisis de regresin polinomial.
Principales opciones tabulares:
Forecasts (pronsticos): muestra los valores esperados para la variable
dependiente usando la ecuacin de la recta ajustada.
Si se desea conocer el valor de Y cuando X toma un valor determinado,
se debe seleccionar Pane option y escribir dicho valor de X. Tambin da
intervalos de confianza para el intercepto y la pendiente.
Con Analysis options se puede cambiar el tipo de modelo.
Comparison of alternative models (comparacin de modelos alternativos): da el grado de correlacin para cada modelo; por lo tanto permite
observar cual es el ms adecuado para ajustar los datos.
Principales opciones grficas:
Plot of fitted model (grfico del modelo ajustado): devuelve la grfica de
la lnea ajustada.
Con Pane options se pueden incluir o no los lmites de confianza y variar
su nivel de confianza.
Con Analysis options se puede mirar la grfica para los diferentes modelos.
139
140
ANEXO 6
9007,3 dlares
9281 dlares
No hay
14 482 dlares
4233,4 dlares
47%
ni
313
23
29
365
hi
85,8%
6,3%
7,9%
1
NIVEL DE SATISFACCIN
Insatisfechos
6,3%
No sabe, no
responde
7,9%
Satisfechos
85,8%
141
3. a. Media: 18,4%, Coeficiente de variacin: 40%. El promedio de analfabetismo en los municipios seleccionados es 18,4%; el valor del coeficiente de
variacin indica que en el grupo seleccionado hay unos municipios con
una tasa de analfabetismo alta y otros con una tasa baja (hay un grado de
dispersin ms o menos alto).
b. Las tres cuartas partes de los municipios antioqueos seleccionados en la
muestra tienen tasas de analfabetismo igual o inferior a 22,9%.
4.
Media
Mediana
Moda
Rango
Desv, estndar
Coeficiente de variacin
57,6
54,7
No hay
39,8
11,1
19,3%
COLOMBIA
3238,5
3172,3
16,1
PAS VECINO
3530,3
3534,7
26,3
Colombia ha exportado menos durante los ltimos 24 meses y presenta menor variabilidad. Durante ese perodo, en los 12 meses en que Colombia ha tenido ms bajas exportaciones, ellas han sido por montos superiores a 3172,3
millones de dlares, mientras que en el pas vecino, en ms de la mitad de los
meses evaluados se han hecho exportaciones por 3534,7 millones de dlares
o ms.
142
6.
POSICIN
A favor
En contra
Frecuencia
306
194
F. relativa
0,612
0,388
Porcentaje
61,2%
38,8%
0,673
0,695
No hay
0,379
0,090
13,4%
0,642
0,738
Mediana: 8,8%
hi
60%
28%
12%
TOTAL
ni
15
7
3
25
ni
3
11
8
3
25
hi
12%
44%
32%
12%
c.
Media
Mediana
Moda
Desviacin est.
CV
Q1
Q3
CRDITOS
160
161
160
14
8,7%
156
169
d.
PROMEDIO
102
< 102
Total
144
SECTOR IES
Oficial
Privada
2
13
2
8
4
21
Total
15
10
25
62
50
50
38
40
102
30
<102
20
10
0
OFICIAL
PRIVADA
OBJETO DE APRENDIZAJE 2
1. a.
b. 11.690 dlares
, que presenta un
y tambin
b. 5,5%
9.
No es vlida
b.
La ecuacin de regresin es vlida, pero si solo se basa en datos para
Suramrica solamente es vlida para ellos y no debe hacerse extensiva a
otras regiones.
OBJETO DE APRENDIZAJE 3
1. a. 0,47
b. 0,509
2. a. 46,75%
b. 0,12
3. a. 0,0365
b. 0,2055
4. 0,304
5. a. 0,222
6. a. 0,443
146
b. 0,444
c. 0,27
b. 0,471
2. a. 0,000005
b. 0,2443
c. 20 unidades
3. 0,184
4. a. 0,0166
b. 0,762
5. a. 0,0115
b. 0,6296
c. 0,01
6. La probabilidad es 0,017
7. a. S b. 0,275
8. a. La probabilidad es 0,0028
b. La probabilidad es 0,1792
c. Entre 636 097,5 y 778 502,5 barriles.
9. a. No porque el puntaje mnimo para ser aceptado es 78,5
b. 0,7143
10. a. 0,0664
b. S
11. a. 0,9985
12. a. 0,8329
b. 0,1642
c. $836.094
c. Casi imposible (
OBJETO DE APRENDIZAJE 5
1. 514
2. D
3. 208,3 245,7. El margen de error disminuira
4. 241
147
b. 2708
148