Conceptos Estadísticos para La Modelación Predictiva

Probabilidad y Estadstica:
Conceptos Estadsticos para

Modelacion Predictiva
Dr. Juliho Castillo

22 de octubre de 2017
Universidad LaSalle Oaxaca
1
1 Objetivos
2 Muestreo aleatorio y teorema del lmite central
3 Pruebas de hipotesis
4 Estadsticos Z y t
5 Intervalos de confianza, niveles de significacion y valore p
6 Una gua paso a paso para realizar una prueba de hipotesis
7 Un ejemplo de la prueba de hipotesis
8 Prueba cuadrada
9 Correlacion
10 Recursos
2
Conceptos Estadsticos Importantes
1 Pruebas de hipotesis.
2 pvalores.
3 Distribucion normal.
4 Correlacion.
3
Objetivos
4
Muestreo aleatorio y teorema del lmite central
Entender el concepto de muestreo aleatorio a traves de

ejemplos e ilustrar las aplicaciones del teorema del lmite
central. Estos dos conceptos son la columna vertebral de las
pruebas de hipotesis.
5
Pruebas de hipotesis
Entender el significado de los terminos tales como hipotesis

nula, hipotesis alternativa, intervalos de confianza,
pvalores, nivel de significacion, etc. Desarrollaremos una
gua de la implementacion de pruebas de hipotesis, seguidas
por un ejemplo.
6
Pruebas cuadrada
Calcularemos el estadstico -cuadrada y describiremos el uso

de pruebas -cuadrada con un par de ejemplos.
7
Correlacion
Entenderemos el significado y la significacion de la correlacion

entre dos variables, de los coeficientes de correlacion y
calcularemos y visualizaremos la correlacion entre variables de
una base de datos.
8
Muestreo aleatorio y teorema
del lmite central
9
Ejemplo
Supongamos que tratamos de encontrar la edad promedio en

una ciudad, digamos Oaxaca. Una manera de hacerlo sera por
fuerza bruta, es decir, recolectando esta informacion persona
por persona. Pero este metodo sera muy costoso en terminos
de infraestructura y tiempo.
10
En estadstica, este es un problema comun, cuya solucion esta
en el muestreo aleatorio: Tomemos un grupo de 1000
individuos (o 10,000 dependiendo de tu capacidad, obviamente
entre mas, es mejor) y calculemos la edad promedio en este
grupo, a la que denotaremos por A1 .
11
Repitamos este procedimiento, digamos 100 veces, y
denotaremos por A1 , A2 , ..., A100 el promedio de edades
obtenido en cada respectivo intento.
12
De acuerdo a la ley de los grandes numeros, la cantidad
A1 + ... + A100
A100 = (2.1)
100
es una aproximacion muy cercana al promedio real de la edad
de los pobladores de la ciudad.
13
De acuerdo al teorema del lmite central, si el numero de
tales muestras es suficientemente grande, entonces la
distribucion de estos promedios seguiran una distribucion
normal. Es decir, A1 , A2 , ..., A100 estaran distribuidos de
manera normal.
14
Observacion: No estamos mas interesados en obtener el
valor exacto de la edad promedio, si no establecer un
estimador para la misma. En tal caso, tenemos que
conformarnos con la definicion de un rango de valores en el
que el valor real podra estar.
Dado que hemos asumido una distribucion normal para los
valores de edad media de estos grupos, podemos aplicar
todas las propiedades de una distribucion normal para
cuantificar las probabilidades de que esta edad media sea
mayor o menor que un cierto numero.
15
Dado que hemos asumido una distribucion normal para los
valores de edad media de estos grupos, podemos aplicar todas
las propiedades de una distribucion normal para posibilidades
de que esta edad media sea mayor o menor que un cierto
numero.
16
Pruebas de hipotesis
17
El concepto que acabamos de comentar en la seccion anterior
se utiliza para una tecnica en estadstica, llamada prueba de
hipotesis. En la prueba de hipotesis, asumimos una hipotesis
(generalmente relacionada con el valor del estimador)
denominada hipotesis nula y tratar de ver si es cierto o no
aplicando las reglas de una distribucion normal. Tenemos otra
hipotesis llamada hipotesis alternativa.
18
Hipotesis nula vs. alternativa
Hay un truco para decidir cual sera la hipotesis nula y cual

sera la hipotesis alternativa. La hipotesis nula es la premisa
inicial o algo que asumir que todava es cierto. La hipotesis
alternativa es algo de lo que no estamos seguros y proponen
como premisa alternativa (casi con frecuencia contradictoria a
la nula hipotesis) que podra o no ser cierto.
19
Por lo tanto, cuando alguien esta haciendo una investigacion
cuantitativa para calibrar el valor de un estimador, el valor
conocido del parametro se toma como hipotesis nula mientras
que el nuevo valor encontrado (de la investigacion) se toma
como la hipotesis alternativa.
20
En nuestro caso (encontrar la edad media de nuestra ciudad),
un investigador puede afirmar que la edad menor que 35. Esto
puede servir como la hipotesis nula. Si una nueva agencia
afirma lo contrario (que es mayor que 35), entonces se puede
denominar como la hipotesis alternativa.
21
Estadsticos Z y t
22
Suponga que el valor del parametro asumido en la hipotesis
nula es Ao. Tomemos una muestra aleatoria de 100 o 1000
personas o eventos del evento y calculemos la media del
parametro, por ejemplo la edad promedio de una ciudad, el
tiempo medio de suministro de la pizza, la media ingresos, etc.
Podemos llamarlo A.
23
El estadstico Z se calcula para convertir una variable
normalmente distribuida (la distribucion de la media
poblacional de edad) a una distribucion normal estandar. Esto
es porque los valores de probabilidad para una variable que
sigue a la distribucion normal estandarizada se puede obtener
de una tabla precalculada.
24
El estadstico Z se da por la siguiente formula:
A A0
Z= (4.1)
/ n
donde es la desviacion estandar de la poblacion y n es el

numero de personas en la muestra
25
Ahora, debemos considerar dos casos
26
Prueba Z (distribucion normal)
El investigador conoce a desviacion estandar del parametro de

su experiencia pasada. Un buen ejemplo de esto es el caso del
tiempo de entrega de una pizza. En este caso (4.1) seguira
una distribucion normal y los valores normalizados se
conoceran como valores Z.
27
Prueba t (distribucion t de Student
En este caso, el investigador no conoce la desviacion estandar

de la poblacion. Esto puede pasar porque:
No existen tales datos en algun registro historico;

o el numero de eventos o personas es demasiado pequeno
para suponer una distribucion normal.
28
En este caso, la media y la desviacion estandar son
desconocidas, y la expresion asume una distribucion diferente a
la normal llamada distribucion t de Student. El valor
estandarizadas en este caso es llamado tvalor y la prueba es
llamada prueba-t.
29
Distribucion t de Student
La distribucion de Student fue descrita en 1908 por

William Sealy Gosset. Gosset trabajaba en una
fabrica de cerveza, Guinness, que prohiba a sus
empleados la publicacion de artculos cientficos
debido a una difusion previa de secretos industriales.
De ah que Gosset publicase sus resultados bajo el
seudonimo de Student.
Wikipedia: Distribucion t de Student
30
Figura 4.1: De The original uploader was Thorin de Wikipedia en
frances - Transferido desde fr.wikipedia a Commons., CC BY-SA
1.0, https://commons.wikimedia.org/w/index.php?curid=1878902
31
Figura 4.2: De Desconocido, CC BY-SA 3.0,
https://commons.wikimedia.org/w/index.php?curid=788691
32
Distribucion t en Python
from scipy import stats

import numpy as np
import matplotlib.pyplot as plt
def ft(x, nu):

return stats.t.pdf(x, df=nu)
def Ft(x, nu):
return stats.t.cdf(x, df=nu)
x = np.arange(-4,4,0.01)
33
Distribucion t en Python
yd = ft(x,30)
yc = Ft(x,30)
fig, ax = plt.subplots()
plt.plot(x, yd, r, linewidth=2)
plt.plot(x, yc, b, linewidth=2)
plt.ylim(ymin=0)
plt.show()
34
35
El parametro df se le conoce como grados de libertad y
generalmente se denota como (la letra nu griega).
36
Si una variable aleatoria X tiene distribucion t con grados
de libertad, entonces
2
X = 0, X = (4.2)
2
37
Ejemplo 4.1.
Consideremos una variable con distribucion t y = 9 grados
de libertad. Encuentre el valor de t para el cual el area a la
derecha sea 0.05 pero el total del area sin sombrear sea 0.90.
38
tExample.py
from scipy import stats

import numpy as np
def tp(x, nu):

return stats.t.ppf(x, df=nu)
print tp(0.05, 9)
##-1.83311293265
print tp(1-0.05, 9)
##1.83311293265
39
Varianza muestral
(Ai A0 )2
S2 =
X
(4.3)
n1
40
Estadstico t
(A A0 )
t= (4.4)
S/ n
41
Intervalos de confianza, niveles
de significacion y valore p
42
Figura 5.1: Una distribucion tpica normal con valores p.
43
Supongamos que Z1 y Z2 son dos Zestadsticos
correspondientes a dos valores de una variable aleatoria y p1 y
p2 son areas encerradas por la curva de densidad a la derecha
de esos valores.
En otras palabras
P (X > Z1 ) = p1 (5.1)
P (X > Z2 ) = p2 (5.2)
44
Entonces, podemos definir un intervalo en el cual encontrar el
valor de una variable aleatoria, al cual llamaremos intervalo
de confianza.
45
Por ejemplo, para una distribucion normal con media y
desviacion estandar , el valor de la variable aleatoria estara en
el intervalo [ 3, + 3] con una confianza
(probabilidad) del 99 %.
46
Para cualquier estimador (variable aleatoria) que tenga una
distribucion normal, uno puede definir un intervalo de
confianza si decidimos el nivel de confianza o probabilidad.
Podemos pensar en los intervalos de confianza como el
umbral de los valores aceptados para sostener que la hipotesis
nula es cierta
Si el valor del estimador vive en este rango, sera
estadsticamente correcto decir que la hipotesis nula es
correcta.
47
Para definir un intervalo de confianza, se necesita definir antes
un nivel (o probabilidad) de confianza. Esta probabilidad
necesita ser definida por el investigador dependiendo del
contexto.
48
Digamos que esta probabilidad es p. En general, utilizaremos
el nivel de significacion
= 1 p, (5.3)
que representa la probabilidad de que la hipotesis nula no sea

correcta.
es definida por el investigador y usualmente esta en el orden
de 0.01 a 0.1.
49
Un concepto importante que aprender aqu es el valor de
probabilidad o simplemente valor-p de un estadstico: Es la
probabilidad de que una variable aleatoria asuma un valor
mayor al valor-Z (o al valor-t)
p valor = P (X > Z) (5.4)
50
Figura 5.2: Una distribucion normal tpica con pvalores y nivel
de significacion.
51
Criterio
Aceptar la hipotesis nula y rechazar la alternativa si

p valor >
Aceptar la hipotesis alternativa y rechazar la nula si
p valor <
52
Debido a la simetra de la distribucion normal, existen tres
tipos de pruebas de hipotesis:
1 Cola izquierda;
2 cola derecha;
3 ambas colas.
53
Cola izquierda
Figura 5.3: Prueba de hipotesis: Cola izquierda
54
Cola derecha
Figura 5.4: Prueba de hipotesis: Cola derecha
55
Dos colas
Analizamos ambas colas y si en alguna de las dos colas, falla la

respectiva prueba de hipotesis, la prueba de hipotesis se
rechaza.
56
Una gua paso a paso para
realizar una prueba de hipotesis
57
Paso #1
Defina sus hipotesis nula y alternativa. Las hipotesis nula

es algo que ya se establece y se acepta como cierto, al cual
denotamos como H0 . Tambien, suponemos que el valor del
parametro en la hipotesis nula es A0 .
58
Paso #2
Tome una muestra, digamos de unas 100 o 1000 personas o

ocurrencias de eventos, y calcule el valor del estimador (por
ejemplo, el promedio del parametro como es la edad promedio,
el tiempo promedio de entrega de la pizza, ingreso promedio,
etc.) Digamos que este valor fue Am .
59
Paso #3
Calcule el valor normal estandar del valor Z

Am A0
Z= (6.1)
/ n
60
En la formula anterior, es la desviacion estandar de la
poblacion o ocurrencias de eventos y n es el numero de
personas en la muestra.
61
La probabilidad asociada con el valor Z calculada en el paso 3
se debe comparar con el nivel de significacion de la prueba a
determinar si la hipotesis nula sera aceptada o rechazada.
62
Un ejemplo de la prueba de
hipotesis
63
Planteamiento
Un famoso restaurante de pizza afirma que su tiempo de

entrega es de 20 minutos, con una desviacion estandar de 3
minutos.
Un investigador de mercados independiente afirma que ellos
estan desinflando los numeros para ganar clientes y el tiempo
de entrega promedio es de hecho 21.2 minutos.
Es su afirmacion justificada o esta el negocio de pizza
correcto en su afirmacion? Suponga un nivel de
significacion del 5 %
64
Definamos las hipotesis nula y alternativa:
Lo que el negocio de pizzas afirma: H0 : A0 = 20.

Lo que el investigador reclama: Ha : A0 > 20.
Desviacion estandar (conocida): = 3.
Tamano de la muestra: n = 64.
Nivel de significacion: = 0.05.
65
Calculemos el valor Z:
21.2 20
Z= = 3.2
3/ 64
66
Denotemos por F la funcion de distribucion acumulativa de
una variable normal N (0, 1).
Calculamos el valor p correspondiente al valor Z = 3.2:
valor-p = 1 F (3.2)
= 1 0.999312862062
= 0.000687137937916
67
Esto significa que si la media fuera A0 = 20, la probabilidad de
que la media muestral fuera A = 21.2 es 0.069 %.
Como elegimos un nivel de significacion = 5 %, y
0.069 % < 5 %, podemos rechazar la hipotesis nula
H0 : A0 = 20.
68
Figura 7.1: La hipotesis nula se rechaza porque el pvalor es
menor al nivel de significacion .
69
Prueba cuadrada
70
La prueba 2 se usa comunmente para comparar datos
observados vs datos esperados suponiendo que los datos
siguen ciertas hipotesis.
71
Debemos suponer cierta hipotesis, la cual nuestros datos
seguiran y calculamos los datos esperados de acuerdo a esa
hipotesis.
72
Debemos ya tener los datos observados, y calcular la
desviacion entre estos y los esperados usando el estadstico
definido en la siguiente formula:
2
X (O E)2
valor :g = , (8.1)
E
donde O es el valor observado y E el esperado, con la suma
sobre todos los posibles datos.
73
Aplicaciones del estadstico cuadrada
La prueba de ji cuadrado se puede usar para hacer lo siguiente:
Mostrar una relacion causal o independencia entre una

variable de entrada y otra de salida.
Verificar si los datos observados provienen de una fuente
justa / imparcial.
Comprobar si los datos son demasiado buenos para ser
verdad.
74
Ejemplo
Realicemos un experimento hipotetico en el que una moneda

se lanza 10 veces.Cuantas veces espera obtener ya sea un
aguila o un sol? La respuesta adecuada sera 5. Ahora bien,
que pasara si realizamos este experimento 1000 veces y
registramos los numeros de aguilas y soles.
75
Supongamos que observamos soles 553 veces y aguilas el resto
de ocasiones:
H0 : La proporcion de soles y aguilas es 0.5

Ha : La proporcion no es 0.5
76
Soles Aguilas
Observado 553 447
Esperado 500 500
77
Calculemos el valor 2 :

(553 500)2 + (447 500)5
g= 11.236
500
78
Este valor2 se compara al valor en una distribucion 2
para un numero dado de grados de libertad y un nivel de
significacion.
79
La Distribucion 2
Sean X1 , X2 , ..., X variables aleatorias independientes

N (0, 1). Consideremos la variable aleatoria
2 = X12 + ... + X2 (8.2)
a la que llamaremos chi cuadrada. Su correspondiente

distribucion de probabilidad recibe el mismo nombre.
80
Propiedades de 2
= , = 2 (8.3)
81
scipy.stats.chi2
from scipy.stats import chi2

import numpy as np
fig, ax = plt.subplots(1, 1)
df = 55
x = np.linspace(chi2.ppf(0.01, df),
chi2.ppf(0.99, df), 100)
ax.plot(x, chi2.pdf(x, df),r-,
lw=5, alpha=0.6, label=chi2 pdf)
82
Figura 8.1: Funcion de densidad de distribucion 2 con = 55
83
statsChi2.py
from scipy.stats import chi2

import numpy as np
import seaborn as sns
sns.set_palette("husl")
fig, ax = plt.subplots(1, 1)
for df in range(2,15+1):
x = np.linspace(chi2.ppf(0.01, df),
chi2.ppf(0.99, df), 100)
ax.plot(x, chi2.pdf(x, df), label=chi2 pdf)
84
85
Regresando a nuestro ejemplo...
El numero de grados de libertad es el numero de categoras

menos uno. En nuestro ejemplo = 2 1 = 1. Supongamos
un nivel de significacion = 0.05.
86
Figura 8.2: La hipotesis nula se rechaza porque el valor del
estadstico 2 al nivel de significacion es menor que el valor del
estadstico.
87
Otro ejemplo
Examinemos otros ejemplo donde queremos demostrar que el

genero de un estudiante y las materias que escoge son
independientes.
88
Otro ejemplo
Supongamos que un grupo de estudiantes, la siguiente tabla

representa el numero de hombres y mujeres que toman
matematicas, arte y comercio como sus materias principales.
89
Otro ejemplo
Matematicas Artes Comercio Total

Hombres 68 52 90 210
Mujeres 28 37 35 100
Total 96 89 125 310
90
Si en la eleccion de las materias, no fuera relevante el genero,
entonces el numero esperado de hombres y mujeres tomando
diferentes materias sera
Matematicas Arte Comercio Total

Ninos
Ninas
Total
91
Las desviaciones se calculan usando la formula (O E)2 /E:
Matematicas Arte Comercio Total

Ninos
Ninas
Total
El estadstico 2 se obtiene al sumar todos estos valores.
92
Conclusiones (del profesor)
Como 2 = 4.99 y el valor del estadstico 2 a un nivel se

significacion es 11.07, la hipotesis nula se acepta.
De manera equivalente
valor-p = 1 F2 (4.99) = 0.416991040312 > = 0.05,
obtenemos la misma conclusion:
La eleccion de materias es independiente del genero.
93
Correlacion
94
La correlacion es la premisa de la modelacion predictiva, en el
sentido de que es un factor con base en el cual podemos
predecir resultados.
95
Una buena correlacion entre dos variables sugiere que existe
una suerte de dependencia entre ambas: Si una cambia, la otra
tambien lo hara.
Podemos decir que una buena correlacion asegura una relacion
matematica entre dos variables y debido a esto, seremos
capaces de predecir su comportamiento.
96
La relacion puede ser de cualquier tipo. Si x y y son dos
variables correlacionadas, entonces podemos escribir:
Y = f (X)
97
Ejemplos de correlacion
Correlacion lineal
y = ax + b
Correlacion exponencial
y = beax
98
Definicion de correlacion
En el caso discreto,
((x x) (y y))
P
x,y
h = qP
(x x)2 (y y)2
P
x,y x,y
[x], [y] son dos listas de datos con promedios x, y

respectivamente.
99
Propiedades de la correlacion
El valor del coeficiente de correlacion esta entre 1 y 1,

es decir 1 h 1.
Una correlacion positiva significa una relacion directa
entre las dos variables.
Una correlacion negativa significa una relacion inversa
entre las dos variables.
Entre mayor sea la magnitud del coeficiente, mas fuerte
sera la relacion entre variables.
100
Advertencia!
Aunque una correlacion fuerte sugiere algun tipo de relacion

que puede ser utilizada para la prediccion del comportamiento
de una variable respecto de otra, esto no implica que dicha
relacion sea el unico factor que explique dicho
comportamiento.
101
Observacion: Correlacion no implica causalidad!
102
Por ejemplo, existe una correlacion positiva muy fuerte entre el
numero de palabras que conoce un ser humano y el numero de
calzado que utiliza... Pero esto esto se explica porque a
medida que el ser humano crece, necesita zapatos mas grandes
y aprende palabras nuevas.
No quiere decir que si utilizas un numero mas grande
seras mas culto!
103
Tratemos de entender mejor este concepto mirando una base
de datos y tratando de encontrar una correlacion entre sus
variables. La base de datos que estaremos observando es una
muy popular sobre los costos varios incurridos en publicidad
por diferentes medios y ventas de un producto en
particular.
104
Posteriormente, utilizaremos el metodo conocido como
regresion lineal para explorar estos mismo datos.Por ahora,
importemos esta base de datos y calculemos los coeficientes de
correlacion:
105
advertising.py
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pandas as pd
advert = pd.read_csv("./dataBases/Advertising.csv")
print(advert.head())
import numpy as np
106
advertising.py
advert["dX*dY"] = ( advert["TV"] -
np.mean(advert["TV"])) * ( advert["Sales"]
np.mean(advert["Sales"]))
advert["dX**2"] = ( advert["TV"] -
np.mean(advert["TV"])) ** 2
advert["dY**2"] = ( advert["Sales"] -
np.mean(advert["Sales"])) ** 2
sxy = advert.sum()["dX*dY"]
sxx = advert.sum()["dX**2"]
107
advertising.py
syy = advert.sum()["dY**2"]
r = sxy/np.sqrt(sxx*syy)
108
runfile(/home/jdk2py/juliho.castillo@yahoo.com/2017-2_PE/PE_PYTHON/
analisisPredictivo/advertising.py,
wdir=/home/jdk2py/juliho.castillo@yahoo.com/2017-2_PE/PE_PYTHON/ana
lisisPredictivo)
TV Radio Newspaper Sales
0 230.1 37.8 69.2 22.1
1 44.5 39.3 45.1 10.4
2 17.2 45.9 69.3 9.3
3 151.5 41.3 58.5 18.5
4 180.8 10.8 58.4 12.9
109
advertising2.py
# -*- coding: utf-8 -*-
import pandas as pd
print(advert.head())
import numpy as np
110
advertising2.py
def rCoef(df, var1, var2):

df["dX*dY"] = (df[var1]-np.mean(df[var1]))*(df[var2
df["dX**2"] = (df[var1]-np.mean(df[var1]))**2
df["dY**2"] = (df[var2]-np.mean(df[var2]))**2
sxy = df.sum()["dX*dY"]
sxx = df.sum()["dX**2"]
syy = df.sum()["dY**2"]
r = sxy/np.sqrt(sxx*syy)
return r
111
advertising2.py
tvVsSales = rCoef(advert, "TV", "Sales")

## 0.782224424862
radioVsSales = rCoef(advert, "Radio", "Sales")
## 0.576222574571
112
Figura 9.1: Matriz de correlacion
113
Veamos la naturaleza de esta correlacion graficando las
variables TV, Radio y Newspaper vs Sales del data frame
advert.
114
tvVsSales.py
# -*- coding: utf-8 -*-
import pandas as pd
plt.plot(advert[TV],advert[Sales],ro)
115
tvVsSales.py
plt.title(TV vs Sales)
plt.show()
plt.plot(advert[Radio],advert[Sales],ro)
plt.title(Radio vs Sales)
plt.show()
plt.plot(advert[Newspaper],advert[Sales],ro)
plt.title(Newspaper vs Sales)
plt.show()
116
117
118
119
Recursos
120
analisisPredictivo
El repositorio con los

scripts de Python 3 de esta presentacion los puede encontrar en
https://github.com/julihocc/ulsaPye/tree/master/analisisPredictivo
121
Referencias
Murray Spiegel John Schiller, R. Alu Srinivasan,

Probability and statistics, 4 ed., Schaums Outlines,
McGraw-Hill Education, 2012.
Ashish Kumar, Learning predictive analytics with
python, Packt, 2016.
Murray R. Spiegel, Estadstica - schaum 2da edicion,
2nd edition ed., McGraw-Hill Interamericana, 1991.
122

Conceptos Estadísticos para La Modelación Predictiva

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Conceptos Estadísticos para La Modelación Predictiva

Uploaded by

Copyright:

Available Formats

Probabilidad y Estadstica:

Conceptos Estadsticos para

Dr. Juliho Castillo

2 Muestreo aleatorio y teorema del lmite central

5 Intervalos de confianza, niveles de significacion y valore p

6 Una gua paso a paso para realizar una prueba de hipotesis

7 Un ejemplo de la prueba de hipotesis

Entender el concepto de muestreo aleatorio a traves de

Entender el significado de los terminos tales como hipotesis

Calcularemos el estadstico -cuadrada y describiremos el uso

Entenderemos el significado y la significacion de la correlacion

Supongamos que tratamos de encontrar la edad promedio en

Hay un truco para decidir cual sera la hipotesis nula y cual

donde es la desviacion estandar de la poblacion y n es el

El investigador conoce a desviacion estandar del parametro de

En este caso, el investigador no conoce la desviacion estandar

No existen tales datos en algun registro historico;

La distribucion de Student fue descrita en 1908 por

Wikipedia: Distribucion t de Student

from scipy import stats

def ft(x, nu):

from scipy import stats

def tp(x, nu):

que representa la probabilidad de que la hipotesis nula no sea

p valor = P (X > Z) (5.4)

Aceptar la hipotesis nula y rechazar la alternativa si

Figura 5.3: Prueba de hipotesis: Cola izquierda

Figura 5.4: Prueba de hipotesis: Cola derecha

Analizamos ambas colas y si en alguna de las dos colas, falla la

Defina sus hipotesis nula y alternativa. Las hipotesis nula

Tome una muestra, digamos de unas 100 o 1000 personas o

Calcule el valor normal estandar del valor Z

Un famoso restaurante de pizza afirma que su tiempo de

Lo que el negocio de pizzas afirma: H0 : A0 = 20.

La prueba de ji cuadrado se puede usar para hacer lo siguiente:

Mostrar una relacion causal o independencia entre una

Realicemos un experimento hipotetico en el que una moneda

H0 : La proporcion de soles y aguilas es 0.5

Sean X1 , X2 , ..., X variables aleatorias independientes

2 = X12 + ... + X2 (8.2)

a la que llamaremos chi cuadrada. Su correspondiente

from scipy.stats import chi2

from scipy.stats import chi2

El numero de grados de libertad es el numero de categoras

Examinemos otros ejemplo donde queremos demostrar que el

Supongamos que un grupo de estudiantes, la siguiente tabla

Matematicas Artes Comercio Total

Matematicas Arte Comercio Total

Matematicas Arte Comercio Total

El estadstico 2 se obtiene al sumar todos estos valores.

Como 2 = 4.99 y el valor del estadstico 2 a un nivel se

valor-p = 1 F2 (4.99) = 0.416991040312 > = 0.05,

obtenemos la misma conclusion:

La eleccion de materias es independiente del genero.

[x], [y] son dos listas de datos con promedios x, y

El valor del coeficiente de correlacion esta entre 1 y 1,

Aunque una correlacion fuerte sugiere algun tipo de relacion

def rCoef(df, var1, var2):

tvVsSales = rCoef(advert, "TV", "Sales")

import matplotlib.pyplot as plt

El repositorio con los

Murray Spiegel John Schiller, R. Alu Srinivasan,

You might also like