Professional Documents
Culture Documents
Por
Grupo: 511004_2
Presentado a
ECEDU
Mayo de 2019
Introducción
una determinada medida de posición. Así, cuanto menor sea la medida de dispersión, menor
será la distancia de los datos a la medida de posición y más representativa resultará ésta.
continuación:
𝑹 = 𝑴𝒂𝒙 𝒙𝟏 − 𝑴𝒊𝒏 𝒙𝟏
1.2 Varianza: Definimos la varianza como la media aritmética de la distancia de cada uno
̅̅̅𝟐 ∗ 𝒏𝒊
∑𝒏𝒊=𝟏(𝒙𝟏 − 𝒙)
𝑺𝟐 =
𝑵
Propiedades de la varianza
𝑺𝟐 ≥ 𝟎
valores positivos. Estos valores positivos los multiplicamos por sus frecuencias, que
también lo son, los sumamos todos y los dividimos entre el total de datos que aparecen
en la muestra. De este modo, el resultado debe ser en cualquier caso un valor positivo.
Es decir, que si calculamos las distancias de todos los valores de la muestra a una constante
k y hacemos la media de sus cuadrados, esa distancia se hace mínima cuando es respecto a
∑𝒏𝒊=𝟏 𝒙𝟐𝒊 . 𝒏𝒊
𝑺𝟐 = ̅𝟐
− 𝒙
𝑵
𝑺𝟐 (𝑿 + 𝒂) = 𝑺𝟐 (𝑿)
Si realizamos cambios de escala a la variable, es decir, si multiplicamos por un
valor constante todos los valores de la muestra, la varianza queda multiplicada por
𝑺𝟐 (𝑿 . 𝒃) = 𝑺𝟐 (𝑿)
cada valor a la media aritmética y después la elevamos al cuadrado. Esto hace que la
varianza se mida en las unidades en las que se mide la variable original, pero elevadas al
cuadrado. Por ejemplo, si estamos considerando los precios en euros de los productos de
una tienda, la varianza se mide en euros al cuadrado. Esto puede hace que generalmente la
varianza tome valores grandes y resulte poco intuitiva su interpretación. Para eliminar estos
varianza, es decir:
𝒏
𝟐
𝟐 𝒏𝒊
𝑺= √𝒔𝟐 ̅) 𝟐
= √∑( 𝒙𝟏 − 𝒙
𝑵
𝒊=𝟏
Como vemos, se representa por S, y para calcularla es preciso en todo caso calcular
previamente la varianza.
Al igual que la varianza, la desviación típica no puede ser nunca negativa, es decir:
𝑺𝟐 ≥ 𝟎
Al calcularla hacemos la raíz cuadrada de la varianza y nos quedamos, por tanto, con la
raíz positiva.
𝑺𝟐 (𝑿 . 𝒃) = 𝑺𝟐 (𝑿)
Coeficiente de Variación
Necesitamos, por tanto, una media adimensional, es decir, una media que no tenga unidades
dispersión que presentan distintas variables, sean cuales sean las unidades de media en las
que se midan.
𝑆
𝑉=
𝑋̅
Como ambas medidas tienen las mismas unidades que la variable original, dividirlas hace
que desaparezcan las unidades y nos proporciona una medida de dispersión o variabilidad
adimensional.
Regresión Lineal
expresión estamos admitiendo que todos los factores o causas que influyen en la variable
respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable explicativa
bajo el nombre de perturbación o error aleatorio, ε, que provoca que la dependencia entre
las variables dependiente e independiente no sea perfecta, sino que esté sujeta a
velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera, las
condiciones ambientales, etc., que quedarían englobados en el error. Lo que en primer lugar
sería deseable en un modelo de regresión es que estos errores aleatorios sean en media cero
pendiente, que puede interpretarse como el incremento de la variable dependiente por cada
Además de la hipótesis establecida sobre los errores de que en media han de ser cero, se
IV) Los errores asociados a los valores de Y son independientes unos de otros. En
2. Correlación lineal.
El coeficiente de correlación lineal es una media del grado de dependencia estadística que
presentan dos variables. Se calcula como el cociente entre su varianza y el producto de sus
𝑺𝒙𝒚
𝒓=
𝑺𝒙 . 𝑺𝒚
De forma más precisa, podemos decir que nos indica hasta qué punto dos variables están
linealmente relacionadas entre sí. El coeficiente de correlación lineal toma siempre valores
entre -1 y 1:
- Si toma el valor 1, podemos decir que existe una dependencia funcional positiva
entre las variables, es decir, que presentan una relación lineal perfecta y, además,
- Si toma el valor -1, podemos decir que existe una dependencia funcional negativa
entre las variables, es decir, que presentan una relación lineal perfecta, pero cuando
- Si toma valor 0, podemos decir que las variables son linealmente independientes.
Sin embargo, esto no quiere decir que las variables no presenten algún tipo de
- Si toma valores entre 0 y 1, estaremos ante una relación estadística positiva, que
será más fuerte si el valor está cerca de 1 y menos si está más cerca de 0.
- Si toma valores entre -1 y 0, estaremos ante una relación estadística negativa, que
Diagramas De Caja.
Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles,
cada uno con igual cantidad de valores. El diagrama de caja no grafica frecuencia ni
muestra las estadísticas individuales, pero en ellos podemos ver claramente dónde se
encuentra la mitad de los datos. Es un buen diagrama para analizar la asimetría en los datos.
A continuación, te dejamos algunas palabras que debes tener en cuenta cuando graficas
diagramas de caja:
Valores extremos – Los valores más pequeños y los más grandes de los datos.
Valores atípicos
Los valores atípicos son aquellos mucho más grandes o mucho más pequeños que
mayor que Q3 por, al menos, 1.5 veces el rango Inter cuartil (IQR), o menor que Q1
1.5(IQR) > Q3
1.5(IQR) < Q1
empresas fueron:
255,4
= = 21,2833333
12
a) La varianza
∑𝑛𝑖=1( 𝑥 − 𝑥𝑖 )2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 =
𝑛
∑𝑛𝑖=1( 𝑥 − 𝑥𝑖 )2 7274692
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = = = 60.622
𝑛 12
c) c) Desviación media.
∑𝑛𝑖=1( 𝑥 − 𝑥𝑖 )
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑀𝑒𝑑𝑖𝑎 =
𝑛
1-2 34
2-3 56
3-4 76
4-5 80
5-6 25
6-7 10
7-8 27
8-9 12
9-10 8
10-11 19
11-12 3
a. Histograma
b. Media
c. Mediana
d. Moda
e. Varianza
f. Qué porcentaje de empleados tiene más de 8 años de experiencia y menos de 6 años
de experiencia
Tabla de frecuencias
Marca de clase: 𝑥𝑖
Frecuencia absoluta:𝑓𝑖
Frecuencia acumulada: 𝐹𝑖
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖
experiencia
0-1 0.5 10 10
1-2 1.5 34 44
a) Dibuje el histograma
Número de empleados
80
76
Empleados
56
34
25 27
19
10 10 12 8 3
0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12
Años de experiencia
b) Media
Sumamos la totalidad de los productos de frecuencia absoluta por la marca de clase
de cada intervalo
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖 𝑥𝑖 * 𝑓𝑖
experiencia
0-1 0.5 10 10
5
1-2 1.5 34 44
51
2-3 2.5 56 100
140
3-4 3.5 76 176
266
4-5 4.5 80 256
360
5-6 5.5 25 281
137,5
6-7 6.5 10 291
65
7-8 7.5 27 318
202,5
8-9 8.5 12 330
102
9-10 9.5 8 338
76
10-11 10.5 19 357
199,5
11-12 11.5 3 360
34,5
360
1639
1639
𝑋=
360
1639
𝑋=
360
𝑋 = 4,55
c) Mediana
Identificamos la clase mediana:
360
= 180
2
Ahora debemos buscar el intervalo donde la frecuencia acumulada (Fi ) contenga el
valor obtenido (180).
d) Moda
Buscamos los valores:
𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖 + ∗𝑡
(𝑓𝑖 − 𝑓𝑖−1 ) + ((𝑓𝑖 − 𝑓𝑖+1 ) 𝑖
80−76 4 4
𝑀𝑜 = 4 + (80−76)+(80−25) ∗ 1== 4 + 4+55 ∗ 1 = 59 = 0,06
Mo= 0,06
e) Varianza
Realizamos la operación: el producto del cuadrado de la marca de clase por la
frecuencia absoluta
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖 𝑥𝑖 * 𝑓𝑖 𝑥𝑖 2 * 𝑓𝑖
experiencia
0-1 0.5 10 10
5 2,5
1-2 1.5 34 44
51 76,5
2-3 2.5 56 100
140 350
3-4 3.5 76 176
266 931
4-5 4.5 80 256
360 1620
5-6 5.5 25 281
137,5 756,25
6-7 6.5 10 291
65 422,5
7-8 7.5 27 318
202,5 1518,75
8-9 8.5 12 330
102 867
9-10 9.5 8 338
76 722
10-11 10.5 19 357
199,5 2094,75
11-12 11.5 3 360
34,5 396,75
360 9758
1639
9758 9758
𝑣= − 4,552 = − 20,7 = 26,1
360 360
f) Desviación típica
Necesitamos:
Media: 𝑋 = 4,55
Varianza: 26,1
9758
√
360
− −4,552 = √27.10 − 20,7025 = √6,7025=2,529
g) Qué porcentaje de empleados tiene más de 8 años de experiencia y menos de 6
años de experiencia.
Años de 𝑥𝑖 𝑓𝑖 𝐹𝑖 𝑥𝑖 * 𝑓𝑖 𝑥𝑖 2 * 𝑓𝑖 % F1%
experiencia
0-1 0.5 10 10 5 2,5 2,8 2,8
1-2 1.5 34 44
51 76,5 9,4 12,2
2-3 2.5 56 100
140 350 15,6 27,8
3-4 3.5 76 176 266 931 21,1 48,9
4-5 4.5 80 256 360 1620 22,2 71,1
5-6 5.5 25 281
137,5 756,25 6,9 78,1
6-7 6.5 10 291 65 422,5 2,8 80,8
7-8 7.5 27 318 202,5 1518,75 7,5 88,3
8-9 8.5 12 330
102 867 3,3 91,7
9-10 9.5 8 338
76 722 2,2 93,9
10-11 10.5 19 357
199,5 2094,75 5,3 99,2
11-12 11.5 3 360 34,5 396,75 0,8 100,0
360 1639 9758 100%
De acuerdo a la gráfica, se estima que un 89.7% se encuentra en el rango de mas de
Tarea 3: La siguiente tabla refiere a los usos más comunes citados en una encuesta
Área Respuesta
Contabilidad 26%
a) Media
b) Mediana
c) Moda
d) Varianza
e) Desviación típica
f) Realizar el histograma correspondiente a los datos.
Media 14%
mediana 13%
ningún dato se
moda
repite
varianza 0,005677551
desviación
típica 0,075349526
Para poder realizar el ejercicio complementamos la tabla con los siguientes datos:
n= 9
a) Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se
ajuste.
𝒚 = 𝒂𝒙 + 𝒃
Para encontrar el valor de (a) y (b) procedemos a:
𝑥 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑎=
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
9 (3630)(591) − (3630)(591)
𝑎=
9 (1470712) − (3630)2
(19307970) − (2145330)
𝑎=
(13236408) − (1470712)
17162640
𝑎=
11765696
𝑎 = 1.4587
∑𝑦 − 𝑎∑𝑥
𝑏=
𝑛
591 − (1.4587)(3630)
𝑏=
9
591 − (5295.1)
𝑏=
8
−4704
𝑏=
9
𝑏 = −522.66
𝒚 = 𝟏. 𝟒𝟓𝟖𝟕𝒙 − 𝟓𝟐𝟐. 𝟔𝟔
𝒚 + 𝟓𝟐𝟐. 𝟔𝟔 = 𝟏. 𝟒𝟓𝟖𝟕𝒙
𝒚 + 𝟓𝟐𝟐. 𝟔𝟔
= 𝒙
𝟏. 𝟒𝟓𝟖𝟕
𝒚 + 𝟓𝟐𝟐. 𝟔𝟔
𝒙=
𝟏. 𝟒𝟓𝟖𝟕
1) 𝒚 = 𝟓𝟓
2) 𝒚 = 𝟓𝟖
3) 𝒚 = 𝟔𝟖
4) 𝒚 = 𝟕𝟎
Precio 1: $55000
𝑦 + 522.66
𝑥=
1.4587
55 + 522.66
𝑥=
1.4587
577.66
𝑥=
1.4587
𝒙 = 396.01
Precio 2: $58
𝑦 + 522.66
𝑥=
1.4587
58 + 522.66
𝑥=
1.4587
580.66
𝑥=
1.4587
𝒙 = 398.06
Precio 3: $68
𝑦 + 522.66
𝑥=
1.4587
68 + 522.66
𝑥=
1.4587
590.66
𝑥= 𝒙 = 404.92
1.4587
Precio 4: $70
𝑦 + 522.66
𝑥=
1.4587
70 + 522.66
𝑥=
1.4587
592.66
𝑥=
1.4587
𝒙 = 406.29
ventas 55 58 68 70
precio 396,01 398,06 404,92 406,29
x y
02 5 -1,33 -20,67 1,78 427,11 27,56
381 66 -22,33 0,33 498,78 0,11 -7,44
350 70 -53,33 4,33 2844,44 18,78 -231,11
430 90 26,67 24,33 711,11 592,11 648,89
441 75 37,67 9,33 1418,78 87,11 351,56
380 5 -23,33 -20,67 544,44 427,11 482,22
405 5 1,67 -0,67 2,78 0,44 -1,11
20 0 16,67 4,33 277,78 18,78 72,22
421 5 17,67 -0,67 312,11 0,44 -11,78
SUMATORI
A 3630 91 6612 1572 1331
403,3 65,6
Media 3 7
n= 9
∑(𝒙 − 𝒙
̅)(𝒚 − 𝒚
̅)
𝒓=
̅)𝟐 √∑(𝒚 − 𝒚
√∑(𝒙 − 𝒙 ̅ )𝟐
𝟏𝟑𝟑𝟏
𝒓=
√𝟔𝟔𝟏𝟐√𝟏𝟓𝟕𝟐
𝟏𝟑𝟑𝟏
𝒓=
(𝟖𝟏. 𝟑𝟏)(𝟑𝟗. 𝟔𝟒)
𝟏𝟑𝟑𝟏
𝒓=
𝟑𝟐𝟐𝟑. 𝟑
𝒓 = 𝟎. 𝟒𝟏𝟐𝟗
El valor de r contempla el valor de 0.4129 (entre 0 y 1), estaremos ante una relación
Para poder realizar el ejercicio complementamos la tabla con los siguientes datos:
X Y (XY)
185 40 7400 34225
152 51,5 7828 23104
185 53,5 9897,5 34225
155 56,5 8757,5 24025
126 53,5 6741 15876
196 58 11368 38416
172 62,5 10750 29584
187 82 15334 34969
Sumatoria 1358 457,5 78076 234424
n=8, datos
a) Estimar la ecuación que mejor se ajuste de modo que el peso dependa de la altura.
𝒚 = 𝒂𝒙 + 𝒃
Para encontrar el valor de (a) y (b) procedemos a:
𝑥 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 − ∑ 𝑦𝑖
𝑎=
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
8 (78076) − (1358) − (457,5)
𝑎=
8 (234424) − (1358)2
3323
𝑎= = 0,1064
31228
∑𝑦 − 𝑎∑𝑥
𝑏=
𝑛
457.5 − (0.1064)(1358)
𝑏=
8
457.5 − (0.1064)(1358)
𝑏=
8
457.5 − (144.49)
𝑏=
8
313.01
𝑏=
8
𝑏 = 39.12
𝒚 = 𝟎. 𝟏𝟎𝟔𝟒𝒙 + 𝟑𝟗. 𝟏𝟐
𝑦 = 0.1064(150 ) + 39.12
𝑦 = 15.95 + 39.12
𝑦 = 55.08 kg
Peso 2: 153 cm
𝑦 = 0.1064𝑥 + 39.12
𝑦 = 16.27 + 39.12
𝑦 = 55.39 kg
Peso 3: 175 cm
𝑦 = 0.1064𝑥 + 39.12
𝑦 = 0.1064(175) + 39.12
𝑦 = 18.62 + 39.12
𝑦 = 57.74 kg
X Y
185 40 15,25 -17,1875 232,5625 295,4101563 -262,109375
Medi
169,75 57,1875
a
n=8,
datos
415.375
𝑟=
√3903.5√999.96
𝟒𝟏𝟓. 𝟑𝟕𝟓
𝒓=
(𝟔𝟐. 𝟒𝟕)(𝟑𝟏. 𝟔𝟐)
𝟒𝟏𝟓. 𝟑𝟕𝟓
𝒓=
𝟏𝟗𝟕𝟓. 𝟒𝟑
𝒓 = 𝟎. 𝟐𝟏𝟎𝟐
El valor de r contempla el valor de 0.2102 (entre 0 y 1), estaremos ante una relación
estadística positiva, que es menos fuerte ya que está más cercana de 0. Esto indica que
algunos puntos están cerca de la línea, pero otros puntos están lejos de ella, lo que indica
que solo existe una relación lineal moderada entre las variables.
Referencias
https://www.ecured.cu/Regresi%C3%B3n_lineal
estadistica-descriptiva/4-7-medidas-de-dispersion
Romero, E. (2016). Estadística para todos: análisis de datos; estadística descriptiva; teoría
de la probabilidad e inferencia. Editorial Difusora Larousse - Ediciones Pirámide.
Recuperado de
http://bibliotecavirtual.unad.edu.co:2077/lib/unadsp/detail.action?docID=11231145&p00=
Estadistica+descriptiva
Matus, R., et al. Estadística, Instituto Politécnico Nacional, 2010. ProQuest E-book Central,
http://ebookcentral.proquest.com/lib/unadsp/detail.action?docID=3187261.
López, C. (2016). Que son las medidas de dispersión y tipos. Un profesor. Recuperado de:
https://www.unprofesor.com/matematicas/que-son-las-medidas-de-dispersion-y-tipos-
927.html