You are on page 1of 19

ESTADISTICA II

Desarrollo del trabajo colaborativo

Presentado por grupo 4

Calderon Romero Angie Vanessa : Código 1811981409


Díaz Ramírez Miryam Shirley : Código 1811981281
Jaramillo Muñoz Jessica Paola Código: 1811982207
Puertas Segura Viviana Patricia Código: 1811981618
Ruiz Narváez Leidy Johana Código: 1811980170

Presentado a:

MORENO RODRIGUEZ SEBASTIAN

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

ADMINISTRACIÓN DE EMPRESAS

BOGOTÁ D.C., NOVIEMBRE- 2018


OBJETIVOS

 Entender y aplicar los temas vistos en esta materia para el análisis de la


información de una muestra de población.
 Analizar todos los elementos de una población para así poder hallar la
muestra.
 Emplear y observar bases de datos para así extraer todos los datos
necesarios para tener un resultado idóneo para la actividad propuesta.
 Desarrollar procesos aprendidos durante el modulo, para así dar respuesta
a las incógnitas que se presentaron durante la solución del trabajo.
 Trabajar en equipo y poner en práctica el saber adquirido en el curso.
 Adquirir habilidades para conseguir una tabla de frecuencias, un diagrama
de barras y algunos índices descriptivos
 Cuestionar la validez y generalidad de las afirmaciones en relación a los
conocimientos del método estadístico.
Parte 1 (semana 3 - 5)

(Semana 3) Selección de muestra

En ocasiones en que no es posible o conveniente realizar un censo (analizar a


todos los elementos de una población), se selecciona una muestra, entendiendo
por tal una parte representativa de la población. En ese sentido, escoja un tipo de
muestreo y argumente la viabilidad de esta técnica para la base de datos dada.
Úselo como herramienta para elegir una muestra representativa.

 Procedimiento de muestreo

1. Utilizando la estrategia de muestreo completamente al azar sin remplazo


(MAS) y con el método de selección Fan Müller se selecciona una muestra
representativa para las variables. Como la población es finita, es decir
conocemos el total de la población y deseásemos saber cuántos del total
tendremos que estudiar la fórmula sería:

𝑵𝒁𝟐 𝒑𝒒
𝒏 = (𝑵−𝟏)𝑬𝟐 +𝒁𝟐 𝑷𝒒

Donde, se tiene lo siguiente:

𝑁= Total de la población

Z= el cuantil de la distribución normal estándar al nivel de significancia que se


establezca.

𝑝 = proporción esperada (0.5)

𝑞 = 1 – p (en este caso 1-0.5 = 0.5)

E : precisión (en este caso use un 3%=0.03).

Para calcular el tamaño de la muestra, utilice un nivel de confianza del 99%


Para la base de datos se tienen:

𝑁 = 60356

𝑃 = 0.5

𝑞 = 0.5

𝑍𝛼/2 = 2.58

𝐸 = 0.03

Remplazando los datos en la ecuación 1 se tiene la estimación del tamaño de la


muestra

(60356)(2.58)2 (0.5)(0.5)
𝑛= = 1795
(60356 − 1)(0.03)2 + (2.58)2 (0.5)(0.05)

Teniendo en cuenta los resultados anteriores, realicemos una selección de


elementos para una muestra, utilizando el algoritmo del coordinado negativo.

Veamos la implementación del algoritmo del coordinado negativo. Para realizar


una selección de elemento para una muestra.

Para extraer la muestra de tamaño n de un universo de N objetos.

 Generar N realizaciones de una variable aleatoria 𝜀𝑘 (k ∈ U) con distribución


uniforme (0,1).
 Asignar 𝜀𝑘 al elemento k-´esimo de la población.
 Ordenar la lista de elementos descendente (o ascendentemente) con
respecto a este número aleatorio 𝜀𝑘 .
 A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta
selección corresponde a la muestra realizada.
Teniendo en cuenta los pasos del algoritmo se tiene la selección de elementos
de la muestra
A continuación veamos algunas imágenes de la selección de los elementos de la
muestra utilizando el método de selección de coordinado negativo.
2. Utilizando la variable género P(6020) determine el tamaño de la muestra
seleccionando adecuadamente y justificando:
a. Fórmula a desarrollar
En este caso utilizando la ecuación (1) y los resultados se tiene que la estimación
del tamaño de la muestra para la variable genero P (6020).
𝑵𝒁𝟐 𝒑𝒒
𝒏 = (𝑵−𝟏)𝑬𝟐 +𝒁𝟐 𝑷𝒒=1795

Luego para esta variable seleccionada se tiene la selección adecuada y las


siguientes imágenes.
a. Estimación de la proporción de mujeres
La estimación de la proporción de las mujeres para la variable seleccionada viene
dada de la siguiente manera.

𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠
𝑝̂ =𝑛=𝑛𝑢𝑚𝑒𝑟𝑜𝑠 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠

En este caso se tiene que X =973, n =1795, de donde

973
𝑝̂ = =0.5420≈0.54
1795

b. Nivel de confiabilidad
El nivel de confianza es 95% es decir α=0.05
c. Error de estimación
El error de estimación en este caso es 2.7% de error de la muestra la cual se
calcula por la ecuación (𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎)(𝑝̂ )= (0.05)(0.54)=0.027=2.7%

(Semana 4) Intervalo de confianza para dos variables numéricas

Un investigador, cree determinar que existen diferencias entre los niveles de


estudio de los hombres y las mujeres en Colombia. Para determinar lo anterior,
use la “muestra” encontrada en la semana 3:

 Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un


histograma para los hombres y mujeres. Según los resultados, ¿Existen
diferencias?

Veamos la siguiente tabla que resumen la escolaridad para los hombres y


las mujeres.
Escolaridad Hombres Mujeres
0 93 99
1 27 30
2 25 39
3 41 44
4 42 27
5 85 97
6 30 35
7 37 47
8 36 44
9 26 27
10 15 29
11 143 205
12 14 21
13 32 40
14 35 30
15 15 15
16 50 65
17 11 13
18 15 13
19 2 3
20 1 2
21 1 1
22 1 1
23 0 0
24 0 0
25 0 0
26 0 1
Total 777 928
(Tabla N: 1)
En la (Tabla N: 1) se observa escolaridad en cuanto a los hombres y las
mujeres, nótese que la escolaridad varia de 0 a 20 para hombre 0 a 26 para las
mujeres.

250

200

150 Escolaridad
Hombres
100
Mujeres

50

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

(Grafico N: 1)
De la (Grafico N: 1) se puede concluir 143 hombres y 205 mujeres tienen
escolaridad 11, seguidas por 85 hombres y 97 mujeres con escolaridad 5 y 93
hombre y 99 mujeres con escolaridad 0. Por otro lado se puede observar que
solamente 1 hombre y 1 mujer tienen el nivel de escolaridad 20 y 21, solamente
una mujer tiene el nivel de escolaridad más alto y no hay hombre con ese nivel de
escolaridad.

 Asumiendo que los datos son normales, calcule un intervalo de confianza


del 95% y determine, la escolaridad de los hombres y de las mujeres de
forma individual.

Con un nivel de confianza del 95%, realicemos una estimación para escolaridad
de los hombres.
La siguiente tabla muestra el resumen estadístico en cuanto la escolaridad para
diferentes sexo.
Escolaridad Hombres Mujeres
̅
𝑿 28.77778 34.37037
S 33.25349 43.46099
n 777 928
(Tabla N: 2)
En donde se puede observar que en promedio la escolaridad para las mujeres es
más alta que para los hombres con 28.77778 y 34.37037respectivamente.
También se puede observar que la desviación estándar de escolaridad para los
hombres es más bajas que para las mujeres.

Dado que escolaridad la definieron como una variables escala, por ende es
cuantitativa

En este caso dicha estimación corresponde a un intervalo de confianza para la


media varianza descocida.

Un intervalo de confianza del (1 - α) 100% para µ está dado por

𝑺 𝑺
̅- 𝒕(𝜶,𝒏−𝟏)
𝒙 ̅+ 𝒕(𝜶,𝒏−𝟏)
≤ µ ≤𝒙
𝟐 √𝒏 𝟐 √𝒏

Donde 𝑡(𝛼,𝑛−1) es el punto de la distribución t, con n - 1 grados de libertad, que


2

deja a su derecha un área de 𝛼/2.

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑡(0.05,777−1)= 1.962806


2

Con estos datos se tiene


33.25349 33.25349
(28.77778)- (1.962806) ≤ µ ≤ (28.77778)+ (1.962806)
√777 √777

15.623 ≤ µ ≤ 41.932
Por lo que el intervalo pedido para la escolaridad de los hombres es [15.623 41.93
2], Es decir la media verdadera se encuentra en algún lugar entre 15.623 y 41.93
2.

De manera análoga en este caso dicha estimación corresponde a un intervalo de


confianza para la media varianza descocida.

Con un nivel de confianza del 95%, realicemos una estimación para escolaridad
de las mujeres.
Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑡(0.05,928−1) = 1.962526
2

Con estos datos se tiene

43.46099 43.46099
(34.37037)- (1.962526) ≤ µ ≤ (34.37037)+ (1.962526)
√928 √928

17.177 ≤ µ ≤ 51.562
Por lo que el intervalo pedido para la escolaridad de las mujeres es [17.177 51.56
2], Es decir la media verdadera se encuentra en algún lugar entre 17.177 y 51.56
2.

 Asumiendo que los datos son normales, calcule un Intervalo de confianza al


95% para la diferencia de los niveles de escolaridad para los hombres y
mujeres.

Inicialmente calculemos un intervalo de confianza para la razón de varianzas si


dicho intervalo de confianza contiene a la unidad, realizaremos un intervalo de
confianza para la diferencia de medias con varianzas desconocidas pero iguales,
de lo contrario realizaremos un intervalo de confianza para diferencia de medias
con varianzas desconocidas pero desiguales
𝜎1 2
Un intervalo de confianza del (1 - α) 100% para cociente de varianzas está
𝜎2 2

dado por:

𝑆1 2 𝜎 2 𝑆 2
2 𝐹(1−𝛼,𝑛2 −1,𝑛1−1)≤ 𝜎1 2 ≤𝑆1 2 𝐹(𝛼,𝑛2 −1,𝑛1−1)
𝑆2 2 2

De los datos anteriores se tienen

(33.25349)2 𝜎 2 (33.25349)2
𝐹(0.95,928−1,777−1) ≤ 𝜎1 2 ≤ (43.46099)2 𝐹(0.05,928−1,777−1)
(43.46099)2 2

(33.25349)2 𝜎 2 (33.25349)2
(43.46099)2
(0.8932249) ≤ 𝜎1 2 ≤ (43.46099)2 (1.120277)
2

𝜎 2
0.5229209≤ 𝜎1 2 ≤ 0.6558442
2

Puesto que este intervalo de confianza no incluye la unidad podríamos requerir


que las desviaciones estándar de los niveles de escolaridad para los hombres y
mujeres. Realizaremos un intervalo de confianza para diferencia de medias con
varianzas desconocidas pero desiguales

En este caso calculemos un intervalo de confianza para µ1 − µ2 Dos


distribuciones normales 𝜎1 2 ≠ 𝜎2 2 desconocida.

Un intervalo de confianza del (1 - α) 100% para µ1 − µ2 está dado por:

𝑠1 2 𝑠2 2 𝑠1 2 𝑠2 2
(𝑥̅1 − 𝑥̅2 ) -𝑡(𝛼,𝑣) √ + ≤ µ1 − µ2 ≤ (𝑥̅1 − 𝑥̅2 ) +𝑡(𝛼,𝑣) √ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2

Donde 𝑡𝛼/2 es el punto crítico de la distribución t con 𝑣 grados de libertad que deja
a su derecha un área de 𝛼/2.

𝑠 2 𝑠 2
( 1 + 2 )2
𝑛 𝑛2
𝑣 = 𝑠121 𝑠 2
-2
( )2 ( 2 )2
𝑛1 𝑛
+ 2
𝑛1 +1 𝑛2+1

Luego del resumen de los datos anteriores se tiene

𝑥̅1 =28.77778 , 𝑥̅2 =34.37037, 𝑠1 2 =1105.795 , 𝑠2 2 =1888.858,𝑛1 = 777, 𝑛2 =928


1105.795 1888.858 2
( + )
777 928
𝑣 = 1105.795 2 1888.858 2 - 2= 1692
( ) ( )
777 + 928
777+1 928+1

Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑡𝛼/2,𝑣 = 𝑡(1−0.05,1692)=
2

1.96136
Luego reemplazando los datos en la ecuación anterior se tiene:

1105.795 1888.858
(28.77778 − 34.37037)-(1.96136)√ + ≤µ1 − µ2 ≤ (28.77778 − 34.
777 928

1105.795 1888.858
37037)+ (1.96136)√ +
777 928

-26.72565 ≤µ1 − µ2 15.54046


Por lo tanto el intervalo al 95% para la diferencia de los niveles de escolaridad par
a los hombres y mujeres es de (-26.72565 y 15.54046).

(Semana 5) Prueba de hipótesis para dos variables nominales

Un investigador, cree determinar que los hombres asisten más a un colegio oficial
que las mujeres en Colombia. Para determinar lo anterior, use la “muestra”
encontrada en la semana 3:

 Utilizando la variable si actualmente asiste a un establecimiento oficial


(P6175) y sexo (P6020), realice un diagrama de barras comparativo para
los hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen
diferencias?

Veamos en la siguiente tabla el resultado de la asistencia a un


establecimiento público o no para las mujeres y hombre.
Asistencia Hombres Mujeres
SI 222 211

NO 55 70
Vacío 545 692
TOTAL 822 973
(Tabla N: 3)

Diagrama de Barra comparativo


Hombres y mujeres

250

200

150 SI
NO
100

50

0
Hombres Mujeres

(Grafico N: 2)

Del diagrama de barras para (P6175) y (P6020) Se puede observar que existe
diferencia en cuanto a la asistencia por parte de los hombres y mujeres a
establecimientos oficiales de 222 y 211 respectivamente. Por otro lado
podemos observar que en la no asistencia por parte de los hombres y mujeres
hay diferencias, es decir 70 mujeres están asistiendo a un establecimiento
oficial respecto al total de mujeres, mientras que 55 hombres están asistiendo
a dicho estadero oficial respecto al total de hombres.

 Con un nivel de confianza del 95%, realice una estimación de los hombres y
de las mujeres que asisten a un establecimiento oficial.
En este caso dicha estimación corresponde a un intervalo de confianza para la
proporción

Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad de éxito


𝜋 entonces un intervalo de confianza al (1 - 𝛼) 100% para 𝜋 está dado por

̂(𝟏−𝒑
𝒑 ̂) ̂(𝟏−𝒑
𝒑 ̂)
̂- 𝒛(𝜶) √
𝒑 ̂+ 𝒛(𝜶) √
≤ 𝝅 ≤𝒑
𝟐 𝒏 𝟐 𝒏

𝑋 𝒏𝒖𝒎𝒆𝒓𝒐 𝒅𝒆 𝒆𝒙𝒊𝒕𝒐𝒔 𝒆𝒏 𝒍𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂


Donde 𝑝̂ =𝑛= 𝒏𝒖𝒎𝒆𝒓𝒐𝒔 𝒅𝒆 𝒆𝒏𝒔𝒂𝒚𝒐𝒔

y z 𝛼/2 el valor que deja un área de 𝛼/2 en la cola superior de la distribución


normal estándar.

En este caso se tiene que X =222, n =277, de donde

𝑋 222
𝑝̂ =𝑛= 277 =0.8014≈0.80

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑧0.05/2=1.96

Con estos datos se tiene

(0.80)(1−0.80) (0.80)(1−0.80)
(0.80)- (1.96)√ ≤ 𝜋 ≤ (0.80)+ (1.96)√
277 277

0.7504842 ≤ 𝜋 ≤ 0.8441573
Estamos 95% confiados que el porcentaje de los hombres que asisten a un
establecimiento oficial. Está entre un 75.04% y un 84.41%.

Para el caso de las mujeres seria de forma análoga esto es

En este caso se tiene que X =211, n =281, de donde


𝑋 211
𝑝̂ =𝑛= 281 =0.7508≈0.76

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 𝑧0.05/2=1.96

Con estos datos se tiene

(0.76)(1−0.76) (0.76)(1−0.76)
(0.76)- (1.96)√ ≤ 𝜋 ≤ (0.76)+ (1.96)√
281 281

0.6971661 ≤ 𝜋 ≤ 0.7978462
Estamos 95% confiados que el porcentaje de los hombres que asisten a un
establecimiento oficial. Está entre un 69.71% y un 79.78%.

 Realice una prueba de hipótesis para determinar la afirmación del


investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede decir
de lo anterior?

En este caso estamos interesados en realizar una prueba de hipótesis sobre dos
proporciones. Que los hombres asisten más a un establecimiento oficial que las
mujeres en Colombia

Sea el juego de hipótesis

𝑝1 ≤ 𝑝2
{ 𝑣𝑠
𝑝1 > 𝑝2

Donde
𝑋1 222
𝑝̂1= = 277 =0.8014≈0.80
𝑛1

𝑋2 211
𝑝̂ 2 = = =0.7508≈0.76
𝑛2 281

𝑋 +𝑋 222+211
𝑃̂= 𝑛1 +𝑛2 = 277+281 =0.7759857≈0.78
1 2

El valor de la estadística de prueba es

𝑝̂1 −𝑝̂2 0.80−0.76


Z= 1 1
= 1 1
=1.140453
√𝑝̂(1−𝑝̂)(𝑛 +𝑛 ) √(0.78)(1−0.78)( + )
1 2 277 281

Con un nivel de significancia de 𝛼 = 0.05 𝑍𝛼 = 𝑍0.05 =1.64

Como el valor del estadístico de prueba Z=1.140453 < 𝑍0.05=1.64 con un nivel d
e confianza 𝛼 = 0.05 No se rechaza la hipótesis nula H0, es decir que no hay sufi
ciente evidencia para concluir que la afirmación del investigador es la correcta.
CONCLUSIONES

El presente trabajo nos ayuda analizar y comprender todos los datos obtenidos par
a proponer una posible solución de acuerdo a los objetivos planteados, al igual es
notoria la aplicación de las herramientas que la estadística nos brinda para enten
der, organizar y analizar la información obtenida, vemos la importancia de estudiar
e interpretar cierta características de un conjunto de individuos llamado población.
Cuando nos referimos a muestra y población hablamos de conceptos relativos per
o estrechamente ligados. Una población es un todo y una muestra es una fracción
o segmento de ese todo.
REFERENCIAS

 http://educacionestadisticageneral.blogspot.com/2009/08/poblacion-y-
muestra.html
 https://www.youtube.com/watch?v=L64FdpvZFxw
 https://www.youtube.com/watch?v=rxw2fTJUafM
 https://webs.ucm.es/info/genetica/Estadistica/estadistica_basica%202.htm
 https://slideplayer.es/slide/11621445/

You might also like