Professional Documents
Culture Documents
Población: se define como la totalidad de observaciones que nos interesan, finitas o infinitas, Por ejemplo,
grupo de personas, animales o todos los resultados posibles de algún sistema biológico o de ingeniería
complicado.
Tamaño de la población: numero de observaciones en la población. Por ejemplo, cantidad de estudiantes, etc.
Muestra aleatoria
Sean X1, X2, X3,…, Xn variables aleatorias independientes, cada una con la misma distribución de probabilidad
f(x). Definimos a X1, X2,…, Xn como una muestra aleatoria de tamaño n de la población f(x) y escribimos su
distribución de probabilidad conjunta como:
Estadística: se denomina a cualquier función de las variables aleatorias que forman una muestra aleatoria.
Probabilísticos: Aquellas que permiten que todos los elementos de una población sean considerados al
momento de seleccionar una muestra.
o Muestreo aleatorio simple (MAS): es el más utilizado y todos los elementos tienen que tener
la misma probabilidad de ser elegidos.
o Muestreo sistemático (MS): N: tamaño de la población, n: tamaño de la muestra
𝑁
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑒𝑙𝑒𝑣𝑎𝑐𝑖ó𝑛: 𝑘 =
𝑛
o Muestreo estratificado (ME): cuando tenemos buen conocimiento de la población en estudio.
Calculo tamaño de la muestra con una proporción de mujeres y de hombres o siempre que
quiera utilizar estratos de la muestra.
o Muestreo por conglomerado (MC): trabaja con estratos pero confecciona diferentes muestras
que contengan unidades de análisis de los 2 estratos, siendo cada estrato la unidad de medida.
Siempre se usa este cuando hay más de una variable a tener en cuenta.
No probabilísticos:
o Muestreo accidental (MA): un ejemplo claro es encuesta que hace un tipo que está en una
esquina cualquiera. La gente que pasa por esa esquina es siempre diferente.
o Muestro intencional (MI): encuesta muy delimitada donde suele dar lo que yo espero que de.
Encuestar a médicos solamente
o Muestreo en cuotas (MC): cubro la cuota de lo que necesito encuestar únicamente.
𝜎 𝜎 𝑁−𝑛
𝜎𝑥̅ = ≅ √( )
√𝑛 √𝑛 𝑁−1
Según el libro: Sea X es la media de una muestra aleatoria de tamaño n tomada de una población con media μ y
varianza finita σ2, entonces la forma límite de la distribución de:
̅ −𝝁
𝑿
𝒁= 𝝈
⁄ 𝒏
√
Regresión lineal
La relación que se ajusta a un conjunto de datos experimentales se caracteriza por una ecuación de predicción
que se denomina ecuación de regresión.
El tema regresión lineal simple se refiere al caso donde solo hay una variable de regresión “y”.
El termino regresión lineal implica que la media μY|xi se relaciona linealmente con x mediante la ecuación de
regresión de población.
𝝁𝑌|𝑥𝑖 = 𝜶 + 𝜷 𝒙
;donde los coeficientes de regresión α y β son parámetros a estimar a partir de los datos muestrales. De esta
misma fórmula proviene la línea de regresión ajustada, donde μY|xi se convierte en y y los coeficientes en a y b,
respectivamente.
𝑦̂ = 𝑎 + 𝑏 . 𝑥
El símbolo 𝑦̂ se utiliza para distinguir entre valor estimado o predicho dado por la línea de regresión de la
muestra y un valor experimental observado y para algún valor de x.
En la figura siguiente se muestra un diagrama de dispersión de 33 muestras de desechos químicamente
tratados.
30
20
10
0
0 10 20 30 40 50 60
Reducción de sólidos x (%)
o Interpretación de R2: En este caso vale 0,9129 lo que quiere decir que la suposición de linealidad entre
las dos variables parece ser razonable.
o Mientras que R2 se acerque más a 1 quiere decir que la línea de tendencia del diagrama de dispersión
tiende a ser un modelo lineal.
La ecuación de regresión se utiliza para predecir o estimar la respuesta media o individual para un valor
específico de la variable independiente x.
Por el método de los mínimos cuadrados: Consiste en generar una función de manera que la sumatoria de las
diferencias entre los valores de “y” y los correspondientes a la recta teórica al cuadrado sean mínimos:
𝑔 = ∑(𝑦𝑖 − 𝑌)2
𝑔 = ∑(𝑦𝑖 − 𝑎𝑥 − 𝑏)2
En Excel cuando graficamos un diagrama de dispersión, nos da la posibilidad de graficar, también, la línea de
tendencia junto con el diagrama.
Además nos da a conocer el valor R2 para mejores interpretaciones.
Correlación
El análisis de correlación intenta medir la fuerza de relación entre dos variables “x” e “y” por medio de un
numero llamado coeficiente de correlación, que vale:
𝜎2 𝜎𝑋 2
𝜌2 = 1 − = 𝛽 2
∗
𝜎𝑌 2 𝜎𝑌 2
n xy x y
r
n x x n y y
2 2 2 2
Es más bien conocido como coeficiente de correlación de producto-momento de Pearson, la cual es una
medida de la relación lineal entre dos variables aleatorias cuantitativas. Este es independiente de las unidades.
Este mismo coeficiente de Pearson r, elevado al cuadrado, se denomina coeficiente de determinación muestral.
Este es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros
resultados o probar una hipótesis.
Por ejemplo, si r2=0,8902 podemos decir que aproximadamente 89% de la variación en los valores de Y se
explica por una relación lineal con X.
̅)𝟐
𝑺𝒙𝒙 = ∑(𝒙𝒊 − 𝒙
𝒊=𝟏
̅)𝟐
𝑺𝒚𝒚 = ∑(𝒚𝒊 − 𝒚
𝒊=𝟏
̅) ∗ (𝒚𝒊 − 𝒚
𝑺𝒙𝒚 = ∑(𝒙𝒊 − 𝒙 ̅)
𝒊=𝟏
2
𝑆𝑥𝑦 2
𝑟 =
𝑆𝑥𝑥 ∗ 𝑆𝑦𝑦
Distribución normal
Es la más importante en el campo de la estadística y su grafica se denomina curva normal, la cual describe
aproximadamente muchos fenómenos que ocurren en la naturaleza, la industria y la investigación.
Los errores en las mediciones científicas se aproximan extremadamente bien mediante una distribución normal.
También es conocida como distribución gaussiana.
La ecuación matemática para la distribución de probabilidad de la variable normal depende de los parámetros μ y
σ, su media y desviación estándar. De aquí, denotamos los valores de la densidad de X con n(x; μ, σ)
La función de densidad de la variable aleatoria normal X, con media μ y varianza σ2, es:
1 1 𝑥−𝜇 2
𝑒 2 𝜎 ]
− ∗[
𝑛(𝑥; 𝜇,𝜎) = ∗
√2𝜋 ∗ 𝜎
Donde x varia en el intervalo [-∞,∞], y π = 3,14159…. y e se refiere al numero euler que vale aproximadamente
2,71828….
La moda, que es el punto sobre el eje horizontal donde la curva es un máximo, ocurre en x = μ
La curva es simétrica, alrededor de un eje vertical, a través de la media μ.
La curva tiene sus puntos de inflexión en x = μ ± σ, es cóncava hacia abajo si:
𝝁−𝝈< 𝑋 < 𝜇+𝜎
; y es cóncava hacia arriba en cualquier otro punto.
La curva normal se aproxima al eje horizontal de manera asintótica conforme nos alejamos de la media
en cualquier dirección
El área total bajo la curva y sobre el eje horizontal es igual a 1.
Todas las observaciones de cualquier variable aleatoria normal X se pueden transformar en un conjunto de
observaciones de una variable aleatoria normal z con media cero y varianza 1 mediante la siguiente ecuación:
𝑿−𝝁
𝒁=
𝝈
Estandarizamos:
Entonces, 0.38 es la probabilidad de que el valor de la variable oscile entre 190 y 210.
Si por ejemplo se necesitan sacar las siguientes probabilidades con media de 4 y varianza de 1,5:
3−4 𝟐 𝟐
𝑷(𝒙 > 𝟑) = 𝑃 (𝑧 > ) = 𝑷 (− ) = 𝟏 − 𝑭 (− ) = 𝟎, 𝟕𝟒
1,5 𝟑 𝟑
2−4
𝑷(𝒙 < 𝟐) = 𝑃 (𝑧 < ) = 𝟎, 𝟎𝟗𝟏
1,5
En Excel:
Caso invertido sería el de encontrar un valor x a partir de un área o probabilidad conocida. Un ejemplo seria:
Dada una distribución normal con media 40 y varianza 6, encuentre el valor de x que tiene un 45% del area a la
izquierda:
𝑥
∫ 𝑓(𝑥) 𝑑𝑥 = 0,45
−∞
1 − 0,14 = 𝟎, 𝟖𝟔
y seguimos el mismo procedimiento con la integral:
𝑥
∫ 𝑓(𝑥) 𝑑𝑥 = 𝟎, 𝟖𝟔
−∞
En Excel:
𝑋−µ
𝑃 (−𝑧𝛼 < 𝜎 < 𝑧𝛼2 ) = 1 − 𝛼
2
√𝑛
Intervalo de confianza:
𝜎 𝜎
𝑃 (𝑋 − 𝑧𝛼 ∗ < µ < 𝑋 + 𝑧𝛼 ∗ )
2 √𝑛 2 √𝑛
=1−𝛼
Error máximo
𝜎
𝜀𝑚á𝑥. = 𝑧𝛼 ∗
2 √𝑛
Tamaño muestral:
𝑧𝛼 ∗ 𝜎 2
𝑛=( 2 )
𝜀𝑚á𝑥.
Ejemplo:
Al controlar la vida media de 9 baterías se encontró que dio un promedio de 3,5 años. La fábrica informa que la
desviación estándar de sus baterías es de 6 meses (0,5 años). Determinar un intervalo de confianza de 95% para
media poblacional de dichas baterías.
𝑋 = 3,5 𝑦 𝜎 = 0,5
𝛼
1 − 𝛼 = 0,95 → 𝛼 = 0,05 → = 0,025
2
El valor de z para este valor se saca en Excel de la siguiente manera:
𝑧𝛼/2 = 1,96
0,5 0,5
𝑃 (3,5 − 1,96 ∗ < µ < 3,5 + 1,96 ∗ ) = 1 − 𝛼 = 0,95
√9 √9
𝑃(3,17 < µ < 3,82) = 0,95
Si yo hago 100 muestras en el 95%el intervalo va a estar en ese rango [3.17, 3.82]
𝑋−µ
𝑍= 𝜎 (𝑡𝑒𝑜𝑟𝑒𝑚𝑎 𝑑𝑒𝑙 𝑙𝑖𝑚𝑖𝑡𝑒 𝑐𝑒𝑛𝑡𝑟𝑎𝑙)
√𝑛
; o según el libro:
𝑋 − 𝑛𝑝
𝑍=
√𝑛𝑝𝑞
Donde:
𝝁 =𝒏∗𝒑 𝑦 𝝈𝟐 = 𝑛 ∗ 𝑝 ∗ (1 − 𝑝) = 𝒏 ∗ 𝒑 ∗ 𝒒
Entonces:
𝑎 − 𝑛𝑝 𝑏 − 𝑛𝑝
𝑝(𝑎 < 𝑥𝑏 < 𝑏) ≅ 𝑝( <𝑧< )
√𝑛 ∗ 𝑝 ∗ 𝑞 √𝑛 ∗ 𝑝 ∗ 𝑞
Ejemplo:
Sea una función de distribución binomial b( x ; 15 , 0.4) , donde n =15 y p = 0,4 . ¿Cuál es la probabilidad exacta de
que X tome valor 4?
Según la distribución binomial, la probabilidad exacta de que X tome el valor 4 es el área del rectángulo con
base centrada en x = 4. El área de este rectángulo es:
En Excel:
En resumen:
Utilizamos la aproximación normal para evaluar probabilidades binomiales siempre que la probabilidad
no sea cercana a 0 o a 1.
La aproximación es excelente cuando n es grande y muy buena para valores pequeños n si la
probabilidad se acerca a 0,5.
Al calcular np y nq se proporciona una posible guía para determinar cuándo se puede utilizar la
aproximación. Si np y nq son mayores o iguales a 5 la aproximación ser buena.
𝜐
𝛼= ; 𝛽=2
2
; donde υ es un entero positivo. La distribución tiene este solo parámetro y denominado grados de libertad.
La variable aleatoria continua X tiene una distribución chi cuadrada, con υ grados de libertad, si su función de
densidad está dada por:
𝟏 𝝊⁄ −𝟏 −𝒙⁄
𝝊 ∗𝒙 𝟐 ∗𝒆 𝟐 , 𝒙>0
{𝟐 ⁄𝟐 ∗ Г(𝝊⁄𝟐)
0, 𝑒𝑛 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Donde Г se denomina función gamma.
Los temas que tratan con distribuciones de muestreo, análisis de varianza y estadística no paramétrica implican
el uso extenso de la distribución chi cuadrada.
𝝁=𝝊 𝒚 𝝈𝟐 = 𝟐 𝝊
Ejemplo:
0.20
0.15
0.10
0.05
x
2 4 6 8 10
Distribución t
Sea Z una variable aleatoria normal estándar y V una variable aleatoria chi cuadrada con v grados de
libertad. Si Z y V son independiente, entonces la distribución de la variable aleatoria T, donde:
𝑋̅ − 𝜇 𝑍
𝑻= =
𝑆⁄
√𝑛 √𝑉⁄𝑣
;para t que puede tomar valores dentro del intervalo [-∞,∞]. Como dicho anteriormente Г se conoce como
función gamma.
Sean X1, X2,…, Xn variables aleatorias independientes que son todas normales con media μ y desviación estándar
σ. Sea:
𝑛 𝑛
𝑋𝑖 (𝑋𝑖 − 𝑋̅)2
𝑋̅ = ∑ 𝑦 2
𝑠 =∑
𝑛 𝑛−1
𝑖=1 𝑖=1
Esta distribución es simétrica alrededor de una media cero. Esta tiene forma de campana al igual a la distribución
normal pero la distribución t es mas variable, debido al hecho de que los valores T dependen las fluctuaciones de
dos cantidades, la media y la varianza, mientras que los valores de Z dependen solo de los cambios en la media
de una muestra a otra. Cuando el tamaño de la muestra n tiende a infinito las dos distribuciones serán la misma.
Ejemplo:
El valor de t con v= 14 grados de libertad que deja un área de 0,025 a la izquierda y por lo tanto de 0,975 a la
derecha, es: