Trabajo Colaborativo - Estadistica 511004 - 2

Paso 4 Estadística Descriptiva
UNIDAD 2: Medidas estadísticas y de dispersión:
Por
Yurley Esmeralda Guerrero Aceros Cód: 63.550.390
Olga Yamile Castellanos Cárdenas Cód: 37398673
Johatan Troches Cod:
Víctor Bolaños Cód:
Grupo: 511004_2
Presentado a
María Camila Gonzales
Universidad Nacional Abierta y a Distancia UNAD
ECEDU
Mayo de 2019
Introducción
En este trabajo colaborativo se desarrollan ejercicios con diferentes problemáticas a
analizar con medidas de tendencia y e dispersión, dividido en 2 partes, la tarea 1
corresponde a definiciones de conceptos estadísticos, tales como, medidas de dispersión,
regresión lineal, correlación lineal y diagramas de caja. Y en las tareas 2 a 5 se solucionan
actividades relacionadas con varianza y algunas medidas de dispersión.

1. Medidas de dispersión:
La medida de dispersión tratará de medir la distancia a la que se encuentran los datos de
una determinada medida de posición. Así, cuanto menor sea la medida de dispersión, menor
será la distancia de los datos a la medida de posición y más representativa resultará ésta.
Dentro de las medidas de dispersión encontramos unos tipos que enunciaremos a
continuación:
1.1 Rango: Se determina mediante la sustracción de un valor mínimo a un valor máximo.
𝑹 = 𝑴𝒂𝒙 𝒙𝟏 − 𝑴𝒊𝒏 𝒙𝟏
1.2 Varianza: Definimos la varianza como la media aritmética de la distancia de cada uno
de los valores que toma la variable en la muestra a la media aritmética y la calculamos
haciendo uso de la siguiente fórmula:
̅̅̅𝟐 ∗ 𝒏𝒊
∑𝒏𝒊=𝟏(𝒙𝟏 − 𝒙)
𝑺𝟐 =
𝑵
Propiedades de la varianza
 La varianza no puede ser nunca negativa, es decir:
𝑺𝟐 ≥ 𝟎
Cuando la calculamos, primero determinamos las distancias de cada valor a la media
aritmética y después las elevamos al cuadrado, de modo que ya tenemos únicamente
valores positivos. Estos valores positivos los multiplicamos por sus frecuencias, que
también lo son, los sumamos todos y los dividimos entre el total de datos que aparecen
en la muestra. De este modo, el resultado debe ser en cualquier caso un valor positivo.
 La varianza es la medida de dispersión más utilizada y se considera la más precisa,
ya que se cumple que:

𝒏 𝒏
𝒏𝒊 𝒏
𝟐
̅)
𝑺 = ∑( 𝒙𝟏 − 𝒙 𝟐 ̅)𝟐 𝒊 ∀𝒌 ≠ 𝒙
< ∑( 𝒙𝟏 − 𝒌 ̅
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏
Es decir, que si calculamos las distancias de todos los valores de la muestra a una constante
k y hacemos la media de sus cuadrados, esa distancia se hace mínima cuando es respecto a
la media aritmética. Dicho de otro modo, la varianza es la mínima distancia cuadrática de
todos los valores de la muestra a una constante k.
 Podemos calcular también la varianza haciendo uso de esta otra fórmula:
∑𝒏𝒊=𝟏 𝒙𝟐𝒊 . 𝒏𝒊
𝑺𝟐 = ̅𝟐
− 𝒙
𝑵
 La varianza permanece invariable ante translaciones, es decir, si a todos los valores
de la muestra les sumamos una constante, la varianza no varía:
𝑺𝟐 (𝑿 + 𝒂) = 𝑺𝟐 (𝑿)
 Si realizamos cambios de escala a la variable, es decir, si multiplicamos por un
valor constante todos los valores de la muestra, la varianza queda multiplicada por
el cuadrado de este valor:
𝑺𝟐 (𝑿 . 𝒃) = 𝑺𝟐 (𝑿)
La desviación típica: Al calcular la varianza ya hemos visto que calculamos la distancia de
cada valor a la media aritmética y después la elevamos al cuadrado. Esto hace que la
varianza se mida en las unidades en las que se mide la variable original, pero elevadas al
cuadrado. Por ejemplo, si estamos considerando los precios en euros de los productos de
una tienda, la varianza se mide en euros al cuadrado. Esto puede hace que generalmente la
varianza tome valores grandes y resulte poco intuitiva su interpretación. Para eliminar estos
cuadrados se calcula la raíz cuadrada de la varianza y se obtiene la denominada desviación

típica. La desviación típica, o desviación estándar, es la raíz cuadrada positiva de la
varianza, es decir:
𝒏
𝟐
𝟐 𝒏𝒊
𝑺= √𝒔𝟐 ̅) 𝟐
= √∑( 𝒙𝟏 − 𝒙
𝑵
𝒊=𝟏
Como vemos, se representa por S, y para calcularla es preciso en todo caso calcular
previamente la varianza.
Propiedades de la desviación típica:
 Al igual que la varianza, la desviación típica no puede ser nunca negativa, es decir:
𝑺𝟐 ≥ 𝟎
Al calcularla hacemos la raíz cuadrada de la varianza y nos quedamos, por tanto, con la
raíz positiva.
Su interpretación resulta más intuitiva que la de la varianza, ya que se mide en las

mismas unidades en las que se mide la variable.
3. Al igual que la varianza, la desviación típica también permanece invariable ante
translaciones, es decir, si a todos los valores de la muestra les sumamos una constante,
la desviación típica no varía:
𝑺𝟐 (𝑿 + 𝒂) = 𝑺𝟐 (𝑿)
 Si realizamos cambios de escala a la variable, es decir, si multiplicamos por un
valor constante todos los valores de la muestra, la desviación típica queda
multiplicada por el valor absoluto de este valor:
𝑺𝟐 (𝑿 . 𝒃) = 𝑺𝟐 (𝑿)
Coeficiente de Variación
Necesitamos, por tanto, una media adimensional, es decir, una media que no tenga unidades
asociadas, para, así, poder comparar la representatividad de las medias o la variabilidad o
dispersión que presentan distintas variables, sean cuales sean las unidades de media en las
que se midan.
El coeficiente de variación es una de las medidas de dispersión adimensionales más
importantes. Se define como el cociente entre la desviación típica y la media aritmética:
𝑆
𝑉=
𝑋̅
Como ambas medidas tienen las mismas unidades que la variable original, dividirlas hace
que desaparezcan las unidades y nos proporciona una medida de dispersión o variabilidad
adimensional.
Regresión Lineal
La estructura del modelo de regresión lineal es la siguiente: Y = β0 + β1X + ε. En esta
expresión estamos admitiendo que todos los factores o causas que influyen en la variable
respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable explicativa
X y el segundo incluye un conjunto amplio de factores no controlados que englobaremos
bajo el nombre de perturbación o error aleatorio, ε, que provoca que la dependencia entre
las variables dependiente e independiente no sea perfecta, sino que esté sujeta a
incertidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y ) influyen la
velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera, las
condiciones ambientales, etc., que quedarían englobados en el error. Lo que en primer lugar
sería deseable en un modelo de regresión es que estos errores aleatorios sean en media cero
para cualquier valor x de X, es decir, E[ε/X = x] = E[ε]=0, y por lo tanto:
E [Y /X = x] = β0 + β1x + E[ε/X = x] = β0 + β1x
En dicha expresión se observa que:
• La media de Y, para un valor fijo x, varía linealmente con x.
• Para un valor x se predice un valor en Y dado por ˆ y = E[Y /X = x] = β0 + β1x, por lo
que el modelo de predicción puede expresarse también como ˆ Y = β0 + β1X.
• El parámetro β0 es la ordenada al origen del modelo (punto de corte con el eje Y) y β1 la
pendiente, que puede interpretarse como el incremento de la variable dependiente por cada
incremento en una unidad de la variable independiente. Estos parámetros son desconocidos
y habrá que estimarlos de cara a realizar predicciones.
Además de la hipótesis establecida sobre los errores de que en media han de ser cero, se
establecen las siguientes hipótesis:
II) La varianza de ε es constante para cualquier valor de x, es decir, V ar(ε/X = x) = σ2
III) La distribución de ε es normal, de media 0 y desviación σ.
IV) Los errores asociados a los valores de Y son independientes unos de otros. En
consecuencia, la distribución de Y para x fijo es normal, con varianza constante σ2, y
media que varía linealmente con x, dada por β0 + β1x.
Además, los valores de Y son independientes entre sí.
2. Correlación lineal.
El coeficiente de correlación lineal es una media del grado de dependencia estadística que
presentan dos variables. Se calcula como el cociente entre su varianza y el producto de sus
desviaciones típicas, es decir:
𝑺𝒙𝒚
𝒓=
𝑺𝒙 . 𝑺𝒚
De forma más precisa, podemos decir que nos indica hasta qué punto dos variables están
linealmente relacionadas entre sí. El coeficiente de correlación lineal toma siempre valores
entre -1 y 1:
- Si toma el valor 1, podemos decir que existe una dependencia funcional positiva
entre las variables, es decir, que presentan una relación lineal perfecta y, además,
cuando una toma valores más grandes la otra también.
- Si toma el valor -1, podemos decir que existe una dependencia funcional negativa
entre las variables, es decir, que presentan una relación lineal perfecta, pero cuando
una toma valores más grandes la otra disminuye.
- Si toma valor 0, podemos decir que las variables son linealmente independientes.
Sin embargo, esto no quiere decir que las variables no presenten algún tipo de
estructura de dependencia que no sea lineal.
- Lo normal será que tome valores entre 0 y 1 o entre -1 y 0.
- Si toma valores entre 0 y 1, estaremos ante una relación estadística positiva, que
será más fuerte si el valor está cerca de 1 y menos si está más cerca de 0.
- Si toma valores entre -1 y 0, estaremos ante una relación estadística negativa, que
será más fuerte cuanto más se aproxime el valor a -1.
Diagramas De Caja.
Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles,
cada uno con igual cantidad de valores. El diagrama de caja no grafica frecuencia ni
muestra las estadísticas individuales, pero en ellos podemos ver claramente dónde se
encuentra la mitad de los datos. Es un buen diagrama para analizar la asimetría en los datos.
A continuación, te dejamos algunas palabras que debes tener en cuenta cuando graficas
diagramas de caja:
 Q1 – Cuartil 1, la mediana de la mitad menor de los datos.
 Q2 – Cuartil 2, la mediana de todos los datos.
 Q3 – Cuartil 3, la mediana de la mitad mayor de los datos.
 IQR – Rango Inter cuartil, la diferencia entre Q3 y Q1.
 Valores extremos – Los valores más pequeños y los más grandes de los datos.
 Valores atípicos
 Los valores atípicos son aquellos mucho más grandes o mucho más pequeños que
el resto de los datos. Se representan con un punto en cualquier extremo del

diagrama. En nuestro ejemplo no hubo ningún valor atípico; y aunque 53 parece ser
mucho más pequeño que el resto, en realidad no fue lo suficientemente pequeño.
 Para ser considerado un valor atípico, el valor debe ser:
 mayor que Q3 por, al menos, 1.5 veces el rango Inter cuartil (IQR), o menor que Q1
por, al menos, 1.5 veces el IQR.
 Los valores atípicos son aquellos que:
 1.5(IQR) > Q3
1.5(IQR) < Q1
2. De forma grupal los estudiantes deben resolver las siguientes tareas:
Tarea 1: Los porcentajes de rentabilidad de los fondos de la inversión de diez grandes
empresas fueron:
28,2 18,1 34,4 28,9 26,5 26
11,5 10 10,9 20,5 25,5 14,9
Para esta población determine:

10 + 10,9 + 11,5 + 14,9 + 18,1 + 20,5 + 25,5 + 26 + 26,5 + 28,2 + 28,9 + 34,4
̅
X=
12
255,4
= = 21,2833333
12
a) La varianza
∑𝑛𝑖=1( 𝑥 − 𝑥𝑖 )2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 =
𝑛
(10 − 21,283)2 + (10,9 − 21,283)2 + (11,5 − 21,283)2 + (14,9 − 21,28)2 +

(18,1 − 21,28)2 + (20,5 − 21,283)2 + (25,5 − 21,283)2 + (26 − 21,283)2 + (26,5 − 21,283)2 +
(28,2 − 21,283)2 + (28,9 − 21,283)2 + (34,4 − 21,283)2
=
12
∑𝑛𝑖=1( 𝑥 − 𝑥𝑖 )2 7274692
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = = = 60.622
𝑛 12
b) La desviación típica o estándar
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑇𝑖𝑝𝑖𝑐𝑎 = √𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑇𝑖𝑝𝑖𝑐𝑎 = √60,622
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑇𝑖𝑝𝑖𝑐𝑎 = 7,78
c) c) Desviación media.
∑𝑛𝑖=1( 𝑥 − 𝑥𝑖 )
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑀𝑒𝑑𝑖𝑎 =
𝑛
(10 − 21,283) + (10,9 − 21,283) + (11,5 − 21,283) + (14,9 − 21,28) +

(18,1 − 21,28) + (20,5 − 21,283) + (25,5 − 21,283) + (26 − 21,283) + (26,5 − 21,283)
+(28,2 − 21,283) + (28,9 − 21,283) + (34,4 − 21,283)
12
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑀𝑒𝑑𝑖𝑎 = 6,96666

Tarea 2: En la siguiente aparecen los años de servicio acumulados por 360
trabajadores de una gran empresa antes de su retiro voluntario:
Años de Número de empleados

experiencia
0-1 10
1-2 34
2-3 56
3-4 76
4-5 80
5-6 25
6-7 10
7-8 27
8-9 12
9-10 8
10-11 19
11-12 3
Vamos a encontrar ejercicios Para esta muestra halle:
a. Histograma
b. Media
c. Mediana
d. Moda
e. Varianza
f. Qué porcentaje de empleados tiene más de 8 años de experiencia y menos de 6 años
de experiencia
Tabla de frecuencias
Marca de clase: 𝑥𝑖
Frecuencia absoluta:𝑓𝑖
Frecuencia acumulada: 𝐹𝑖
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖
experiencia
0-1 0.5 10 10
1-2 1.5 34 44
2-3 2.5 56 100
3-4 3.5 76 176
4-5 4.5 80 256
5-6 5.5 25 281
6-7 6.5 10 291
7-8 7.5 27 318
8-9 8.5 12 330
9-10 9.5 8 338
10-11 10.5 19 357
11-12 11.5 3 360
a) Dibuje el histograma
Número de empleados
80
76
Empleados
56
34
25 27
19
10 10 12 8 3
0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12
Años de experiencia
b) Media
Sumamos la totalidad de los productos de frecuencia absoluta por la marca de clase
de cada intervalo
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖 𝑥𝑖 * 𝑓𝑖
experiencia
0-1 0.5 10 10
5
1-2 1.5 34 44
51
2-3 2.5 56 100
140
3-4 3.5 76 176
266
4-5 4.5 80 256
360
5-6 5.5 25 281
137,5
6-7 6.5 10 291
65
7-8 7.5 27 318
202,5
8-9 8.5 12 330
102
9-10 9.5 8 338
76
10-11 10.5 19 357
199,5
11-12 11.5 3 360
34,5
360
1639
1639
𝑋=
360
1639
𝑋=
360
𝑋 = 4,55
c) Mediana
Identificamos la clase mediana:
360
= 180
2
Ahora debemos buscar el intervalo donde la frecuencia acumulada (Fi ) contenga el
valor obtenido (180).
4-5 4.5 80 256

𝑁
−𝐹𝑖 −1
Buscamos los valores para agregar a la formula 𝐿𝑖 + 2 ∗ 𝑡𝑖
𝑓1
Li-1 Es el límite inferior de la clase donde se encuentra la mediana=4.
N / 2 Es la semisuma de las frecuencias absolutas: 180
Fi-1 Es la frecuencia acumulada anterior a la clase mediana: 176
fi Es la frecuencia absoluta del intervalo mediano:80
ti Es la amplitud de los intervalos:1.

180−176 4
Me=4 + = 20 = 0,05
80
d) Moda
Buscamos los valores:
Li-1 Es el límite inferior de la clase donde se encuentra la mediana=4.
fi-1 Intervalo anterior al de mayor frecuencia: 176
fi El intervalo de mayor frecuencia: 80
fi+1 Intervalo posterior al de mayor frecuencia: 25
ti Es la amplitud de los intervalos:1.
𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖 + ∗𝑡
(𝑓𝑖 − 𝑓𝑖−1 ) + ((𝑓𝑖 − 𝑓𝑖+1 ) 𝑖
80−76 4 4
𝑀𝑜 = 4 + (80−76)+(80−25) ∗ 1== 4 + 4+55 ∗ 1 = 59 = 0,06
Mo= 0,06
e) Varianza
Realizamos la operación: el producto del cuadrado de la marca de clase por la
frecuencia absoluta
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖 𝑥𝑖 * 𝑓𝑖 𝑥𝑖 2 * 𝑓𝑖
experiencia
0-1 0.5 10 10
5 2,5
1-2 1.5 34 44
51 76,5
2-3 2.5 56 100
140 350
3-4 3.5 76 176
266 931
4-5 4.5 80 256
360 1620
5-6 5.5 25 281
137,5 756,25
6-7 6.5 10 291
65 422,5
7-8 7.5 27 318
202,5 1518,75
8-9 8.5 12 330
102 867
9-10 9.5 8 338
76 722
10-11 10.5 19 357
199,5 2094,75
11-12 11.5 3 360
34,5 396,75
360 9758
1639
9758 9758
𝑣= − 4,552 = − 20,7 = 26,1
360 360
f) Desviación típica
Necesitamos:
Media: 𝑋 = 4,55
Varianza: 26,1
9758
√
360
− −4,552 = √27.10 − 20,7025 = √6,7025=2,529
g) Qué porcentaje de empleados tiene más de 8 años de experiencia y menos de 6
años de experiencia.
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖 𝑥𝑖 * 𝑓𝑖 𝑥𝑖 2 * 𝑓𝑖 % F1%
experiencia
0-1 0.5 10 10 5 2,5 2,8 2,8
1-2 1.5 34 44
51 76,5 9,4 12,2
2-3 2.5 56 100
140 350 15,6 27,8
3-4 3.5 76 176 266 931 21,1 48,9
4-5 4.5 80 256 360 1620 22,2 71,1
5-6 5.5 25 281
137,5 756,25 6,9 78,1
6-7 6.5 10 291 65 422,5 2,8 80,8
7-8 7.5 27 318 202,5 1518,75 7,5 88,3
8-9 8.5 12 330
102 867 3,3 91,7
9-10 9.5 8 338
76 722 2,2 93,9
10-11 10.5 19 357
199,5 2094,75 5,3 99,2
11-12 11.5 3 360 34,5 396,75 0,8 100,0
360 1639 9758 100%
De acuerdo a la gráfica, se estima que un 89.7% se encuentra en el rango de mas de
8 años de experiencia y los que tienen menos de 6.
Tarea 3: La siguiente tabla refiere a los usos más comunes citados en una encuesta
realizada a usuarios de ordenadores de pequeñas y medianas empresas.
Área Respuesta
Contabilidad 26%
Procesadores de texto 15%

Hojas de calculo 24%
Bases de datos 13%
Puntos de venta 10%
Información 4%
Otros 8%
Hallar:
a) Media
b) Mediana
c) Moda
d) Varianza
e) Desviación típica
f) Realizar el histograma correspondiente a los datos.
Media 14%
mediana 13%
ningún dato se
moda
repite
varianza 0,005677551
desviación
típica 0,075349526
Tarea 4:Una compañía asigna diferentes precios a un equipo de sonido particular

en ocho regiones diferentes del país. La tabla adjunta muestra el número de unidades
vendidas y los precios correspondientes (en miles de pesos).
Para poder realizar el ejercicio complementamos la tabla con los siguientes datos:
producto (xy), potencia (x), y sumatorias.
Realizamos el complemento de la tabla acorde a los requerimientos:

x y (𝑿𝒀) 𝑥2
402 45 18090 161604
381 66 25146 145161
350 70 24500 122500
430 90 38700 184900
441 75 33075 194481
380 45 17100 144400
405 65 26325 164025
420 70 29400 176400
421 65 27365 177241
SUMATORIA 3630 591 239701 1470712
n= 9
a) Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se
ajuste.
𝒚 = 𝒂𝒙 + 𝒃
Para encontrar el valor de (a) y (b) procedemos a:
𝑥 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑎=
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
9 (3630)(591) − (3630)(591)
𝑎=
9 (1470712) − (3630)2
(19307970) − (2145330)
𝑎=
(13236408) − (1470712)
17162640
𝑎=
11765696
𝑎 = 1.4587
∑𝑦 − 𝑎∑𝑥
𝑏=
𝑛
591 − (1.4587)(3630)
𝑏=
9
591 − (5295.1)
𝑏=
8
−4704
𝑏=
9
𝑏 = −522.66
Ecuación lineal que se aproxima a la relación precio-ventas:
𝒚 = 𝟏. 𝟒𝟓𝟖𝟕𝒙 − 𝟓𝟐𝟐. 𝟔𝟔
𝒚 + 𝟓𝟐𝟐. 𝟔𝟔 = 𝟏. 𝟒𝟓𝟖𝟕𝒙
𝒚 + 𝟓𝟐𝟐. 𝟔𝟔
= 𝒙
𝟏. 𝟒𝟓𝟖𝟕
𝒚 + 𝟓𝟐𝟐. 𝟔𝟔
𝒙=
𝟏. 𝟒𝟓𝟖𝟕
b) Determinar las ventas si el precio es de 55, 58, 68, y 70 miles de pesos.
1) 𝒚 = 𝟓𝟓
2) 𝒚 = 𝟓𝟖
3) 𝒚 = 𝟔𝟖
4) 𝒚 = 𝟕𝟎
Precio 1: $55000
𝑦 + 522.66
𝑥=
1.4587
55 + 522.66
𝑥=
1.4587
577.66
𝑥=
1.4587
𝒙 = 396.01
Precio 2: $58
𝑦 + 522.66
𝑥=
1.4587
58 + 522.66
𝑥=
1.4587
580.66
𝑥=
1.4587
𝒙 = 398.06
Precio 3: $68
𝑦 + 522.66
𝑥=
1.4587
68 + 522.66
𝑥=
1.4587
590.66
𝑥= 𝒙 = 404.92
1.4587
Precio 4: $70
𝑦 + 522.66
𝑥=
1.4587
70 + 522.66
𝑥=
1.4587
592.66
𝑥=
1.4587
𝒙 = 406.29
ventas 55 58 68 70
precio 396,01 398,06 404,92 406,29
c) Determinar R y dar una interpretación
x y
02 5 -1,33 -20,67 1,78 427,11 27,56
381 66 -22,33 0,33 498,78 0,11 -7,44
350 70 -53,33 4,33 2844,44 18,78 -231,11
430 90 26,67 24,33 711,11 592,11 648,89
441 75 37,67 9,33 1418,78 87,11 351,56
380 5 -23,33 -20,67 544,44 427,11 482,22
405 5 1,67 -0,67 2,78 0,44 -1,11
20 0 16,67 4,33 277,78 18,78 72,22
421 5 17,67 -0,67 312,11 0,44 -11,78
SUMATORI
A 3630 91 6612 1572 1331
403,3 65,6
Media 3 7
n= 9
∑(𝒙 − 𝒙
̅)(𝒚 − 𝒚
̅)
𝒓=
̅)𝟐 √∑(𝒚 − 𝒚
√∑(𝒙 − 𝒙 ̅ )𝟐
𝟏𝟑𝟑𝟏
𝒓=
√𝟔𝟔𝟏𝟐√𝟏𝟓𝟕𝟐
𝟏𝟑𝟑𝟏
𝒓=
(𝟖𝟏. 𝟑𝟏)(𝟑𝟗. 𝟔𝟒)
𝟏𝟑𝟑𝟏
𝒓=
𝟑𝟐𝟐𝟑. 𝟑
𝒓 = 𝟎. 𝟒𝟏𝟐𝟗
El valor de r contempla el valor de 0.4129 (entre 0 y 1), estaremos ante una relación
estadística positiva, según (Pearson) el valor de r se encuentra muy próximo al valor de
(0.476) que indica que:
Relación positiva moderada: Pearson r = 0.476

Algunos puntos están cerca de la línea, pero otros puntos están lejos de ella, lo que
indica que solo existe una relación lineal moderada entre las variables.
Los valores resaltados en amarillo corresponden a los puntos encontrados
aplicada la ecuación a los datos dados.

Tarea 5: Los datos de la siguiente tabla representa las alturas (X) cm. y los pesos
(Y) kg. de varios hombres.
Para poder realizar el ejercicio complementamos la tabla con los siguientes datos:
producto (xy), potencia (x), y sumatorias.
Realizamos el complemento de la tabla acorde a los requerimientos:
X Y (XY)
185 40 7400 34225
152 51,5 7828 23104
185 53,5 9897,5 34225
155 56,5 8757,5 24025
126 53,5 6741 15876
196 58 11368 38416
172 62,5 10750 29584
187 82 15334 34969
Sumatoria 1358 457,5 78076 234424
n=8, datos
a) Estimar la ecuación que mejor se ajuste de modo que el peso dependa de la altura.
𝒚 = 𝒂𝒙 + 𝒃
Para encontrar el valor de (a) y (b) procedemos a:
𝑥 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 − ∑ 𝑦𝑖
𝑎=
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
8 (78076) − (1358) − (457,5)
𝑎=
8 (234424) − (1358)2
3323
𝑎= = 0,1064
31228
∑𝑦 − 𝑎∑𝑥
𝑏=
𝑛
457.5 − (0.1064)(1358)
𝑏=
8
457.5 − (0.1064)(1358)
𝑏=
8
457.5 − (144.49)
𝑏=
8
313.01
𝑏=
8
𝑏 = 39.12
Ecuación lineal que se aproxima a la relación peso-altura:
𝒚 = 𝟎. 𝟏𝟎𝟔𝟒𝒙 + 𝟑𝟗. 𝟏𝟐
b) Determinar el peso si la altura es de 150, 153 y 175 cm.

5) 𝒙 = 𝟏𝟓𝟎
6) 𝒙 = 𝟏𝟓𝟑
7) 𝒙 = 𝟏𝟕𝟓
Peso 1: 150 cm
𝑦 = 0.1064𝑥 + 39.12
𝑦 = 0.1064(150 ) + 39.12
𝑦 = 15.95 + 39.12
𝑦 = 55.08 kg
Peso 2: 153 cm
𝑦 = 0.1064𝑥 + 39.12
𝑦 = 0.1064(153 𝑘𝑔) + 39.12
𝑦 = 16.27 + 39.12
𝑦 = 55.39 kg
Peso 3: 175 cm
𝑦 = 0.1064𝑥 + 39.12
𝑦 = 0.1064(175) + 39.12
𝑦 = 18.62 + 39.12
𝑦 = 57.74 kg
c) Determinar R y dar una interpretación
X Y
185 40 15,25 -17,1875 232,5625 295,4101563 -262,109375
152 51,5 -17,75 -5,6875 315,0625 32,34765625 100,953125
185 53,5 15,25 -3,6875 232,5625 13,59765625 -56,234375
155 56,5 -14,75 -0,6875 217,5625 0,47265625 10,140625
126 53,5 -43,75 -3,6875 1914,0625 13,59765625 161,328125
196 58 26,25 0,8125 689,0625 0,66015625 21,328125
172 62,5 2,25 5,3125 5,0625 28,22265625 11,953125
187 82 17,25 24,8125 297,5625 615,6601563 428,015625
1358 457,5 3903,5 999,96875 415,375

Sumatoria
Medi
169,75 57,1875
a
n=8,
datos
∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦̅)

𝑟=
√∑(𝑥 − 𝑥̅ )2 √∑(𝑦 − 𝑦̅)2
415.375
𝑟=
√3903.5√999.96
𝟒𝟏𝟓. 𝟑𝟕𝟓
𝒓=
(𝟔𝟐. 𝟒𝟕)(𝟑𝟏. 𝟔𝟐)
𝟒𝟏𝟓. 𝟑𝟕𝟓
𝒓=
𝟏𝟗𝟕𝟓. 𝟒𝟑
𝒓 = 𝟎. 𝟐𝟏𝟎𝟐
El valor de r contempla el valor de 0.2102 (entre 0 y 1), estaremos ante una relación
estadística positiva, que es menos fuerte ya que está más cercana de 0. Esto indica que
algunos puntos están cerca de la línea, pero otros puntos están lejos de ella, lo que indica
que solo existe una relación lineal moderada entre las variables.
Referencias
contributors, E. (2011). Regresión Lineal. Obtenido de
https://www.ecured.cu/Regresi%C3%B3n_lineal
ESTADISTICA. (s.f.). Obtenido de https://sites.google.com/site/iniciacionestadistica/4-
estadistica-descriptiva/4-7-medidas-de-dispersion
Romero, E. (2016). Estadística para todos: análisis de datos; estadística descriptiva; teoría
de la probabilidad e inferencia. Editorial Difusora Larousse - Ediciones Pirámide.
Recuperado de
http://bibliotecavirtual.unad.edu.co:2077/lib/unadsp/detail.action?docID=11231145&p00=
Estadistica+descriptiva
Matus, R., et al. Estadística, Instituto Politécnico Nacional, 2010. ProQuest E-book Central,
http://ebookcentral.proquest.com/lib/unadsp/detail.action?docID=3187261.
Created from unadsp en 2019-04-17 11:54:39.
López, C. (2016). Que son las medidas de dispersión y tipos. Un profesor. Recuperado de:
https://www.unprofesor.com/matematicas/que-son-las-medidas-de-dispersion-y-tipos-
927.html

Trabajo Colaborativo - Estadistica 511004 - 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Trabajo Colaborativo - Estadistica 511004 - 2

Uploaded by

Copyright:

Available Formats

Paso 4 Estadística Descriptiva

UNIDAD 2: Medidas estadísticas y de dispersión:

Yurley Esmeralda Guerrero Aceros Cód: 63.550.390

Olga Yamile Castellanos Cárdenas Cód: 37398673

Johatan Troches Cod:

Víctor Bolaños Cód:

María Camila Gonzales

Universidad Nacional Abierta y a Distancia UNAD

En este trabajo colaborativo se desarrollan ejercicios con diferentes problemáticas a

analizar con medidas de tendencia y e dispersión, dividido en 2 partes, la tarea 1

corresponde a definiciones de conceptos estadísticos, tales como, medidas de dispersión,

regresión lineal, correlación lineal y diagramas de caja. Y en las tareas 2 a 5 se solucionan

actividades relacionadas con varianza y algunas medidas de dispersión.

La medida de dispersión tratará de medir la distancia a la que se encuentran los datos de

Dentro de las medidas de dispersión encontramos unos tipos que enunciaremos a

1.1 Rango: Se determina mediante la sustracción de un valor mínimo a un valor máximo.

de los valores que toma la variable en la muestra a la media aritmética y la calculamos

haciendo uso de la siguiente fórmula:

 La varianza no puede ser nunca negativa, es decir:

Cuando la calculamos, primero determinamos las distancias de cada valor a la media

aritmética y después las elevamos al cuadrado, de modo que ya tenemos únicamente

 La varianza es la medida de dispersión más utilizada y se considera la más precisa,

ya que se cumple que:

la media aritmética. Dicho de otro modo, la varianza es la mínima distancia cuadrática de

todos los valores de la muestra a una constante k.

 Podemos calcular también la varianza haciendo uso de esta otra fórmula:

 La varianza permanece invariable ante translaciones, es decir, si a todos los valores

de la muestra les sumamos una constante, la varianza no varía:

el cuadrado de este valor:

La desviación típica: Al calcular la varianza ya hemos visto que calculamos la distancia de

cuadrados se calcula la raíz cuadrada de la varianza y se obtiene la denominada desviación

Propiedades de la desviación típica:

Su interpretación resulta más intuitiva que la de la varianza, ya que se mide en las

valor constante todos los valores de la muestra, la desviación típica queda

multiplicada por el valor absoluto de este valor:

asociadas, para, así, poder comparar la representatividad de las medias o la variabilidad o

El coeficiente de variación es una de las medidas de dispersión adimensionales más

importantes. Se define como el cociente entre la desviación típica y la media aritmética:

La estructura del modelo de regresión lineal es la siguiente: Y = β0 + β1X + ε. En esta

X y el segundo incluye un conjunto amplio de factores no controlados que englobaremos

incertidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y ) influyen la

para cualquier valor x de X, es decir, E[ε/X = x] = E[ε]=0, y por lo tanto:

E [Y /X = x] = β0 + β1x + E[ε/X = x] = β0 + β1x

En dicha expresión se observa que:

• La media de Y, para un valor fijo x, varía linealmente con x.

• Para un valor x se predice un valor en Y dado por ˆ y = E[Y /X = x] = β0 + β1x, por lo

que el modelo de predicción puede expresarse también como ˆ Y = β0 + β1X.

• El parámetro β0 es la ordenada al origen del modelo (punto de corte con el eje Y) y β1 la

incremento en una unidad de la variable independiente. Estos parámetros son desconocidos

y habrá que estimarlos de cara a realizar predicciones.

establecen las siguientes hipótesis:

II) La varianza de ε es constante para cualquier valor de x, es decir, V ar(ε/X = x) = σ2

III) La distribución de ε es normal, de media 0 y desviación σ.

consecuencia, la distribución de Y para x fijo es normal, con varianza constante σ2, y

media que varía linealmente con x, dada por β0 + β1x.

Además, los valores de Y son independientes entre sí.

desviaciones típicas, es decir:

cuando una toma valores más grandes la otra también.

una toma valores más grandes la otra disminuye.

estructura de dependencia que no sea lineal.

- Lo normal será que tome valores entre 0 y 1 o entre -1 y 0.

será más fuerte cuanto más se aproxime el valor a -1.

 Q1 – Cuartil 1, la mediana de la mitad menor de los datos.