You are on page 1of 30

MANUAL BSICO DE

ESTADSTICA CON R
CON INSTRUCCIONES Y PLANTILLAS DE
LOS PRINCIPALES COMANDOS

Dante A. Urbina
2014

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

[2]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

Las cifras no mienten, pero los mentirosos


tambin usan cifras.
ANNIMO

[3]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

CONTENIDO

Introduccin.... 5 - 6

I. Descripcin de datos.. 7 - 10

II. Muestreo... 11 - 14

III. Intervalos de confianza..... 15 - 17

IV. Contrastes de hiptesis..... 18 - 25

V. Regresin lineal simple. 26 - 30

[4]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

INTRODUCCIN

El presente es un manual bsico del programa R, el cual es un software libre especializado


en anlisis estadsticos. Siendo el R tambin un lenguaje de programacin, cada usuario
puede no slo realizar innumerables anlisis y pruebas con l sino tambin extenderlo
definiendo sus propias funciones. No obstante, en el presente manual nos centraremos
exclusivamente en las herramientas de anlisis estadstico ms comunes y sencillas para
que el lector pueda irse familiarizando con el programa. Por ello mismo, este material
tambin puede servir de apoyo para profesores y alumnos en un curso bsico de R.

La principal ventaja de este manual es que trae listas las plantillas de los principales
comandos de modo tal que simplemente hay que adecuarlas a los archivos, nombres de
variables, nombres de datos u otras especificaciones, para poder correrlas y obtener los
resultados correspondientes. Ello es conveniente hacerlo en el entorno R-Studio, que es
ms amigable y simplificado, y tambin es de descarga libre. Entonces, una vez instalados
R y R-Studio, los comandos que presentaremos deben correrse ponindolos (ya
adecuados a nuestros requerimientos) en la parte en blanco que aparece al lado superior
izquierdo en la ventana de R-Studio; siendo que para ello basta con hacer click al final de
cada lnea del comando en cuestin y luego hacer click en la opcin Run. Al hacer esto
ordenadamente desde la primera hasta la ltima lnea del comando, deber salirnos el
resultado o los resultados en la sub-ventana de abajo.

Como el R es un lenguaje de programacin concatenado, un solo error en algo tan nimio


como una coma o el olvidarnos de cerrar alguna comilla o parntesis, har que la lnea en
que se cometi el error no corra y tampoco puedan hacerlo las dems que estn
correlacionadas con aquella. En caso cometamos un error de escritura el R nos lo indicar
con un mensaje en letras rojas en la parte de abajo. Si ello sucede, debemos volver atrs
cuanto sea necesario y ver minuciosamente cada lnea para identificar el error. En caso el
comando no sea muy largo, conviene volver a la primera lnea y verificar desde all. Es
[5]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

cierto que es un poco molesto al comienzo, pero en realidad vale la pena, porque el R es
un lenguaje de programacin muy verstil y potente que podemos utilizar siempre dado
que se trata de un software libre (con otros programas hay que pagar licencias y eso carga
costos a las instituciones o empresas en que se quiera trabajar). Adems, una vez que nos
familiarizamos con el programa, cometemos menos errores o los detectamos ms fcil y
rpidamente.

Ahora, como una imagen vale ms que mil palabras y para que se entienda mejor todo lo
anterior y tambin lo que sigue, presentamos la ventana de R-Studio:

Asimismo, hay que mencionar que en los comandos presentados, la parte que el lector
debe reemplazar de acuerdo al problema que est abordando, es bsicamente aquello
que aparece como palabras o frases en maysculas.

Sin ms prembulos, pasamos a desarrollar los temas.

[6]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

I. DESCRIPCIN DE DATOS

Las herramientas de descripcin de datos son aquellas que nos permiten resumirlos por
medio de un conjunto de estadsticos y/o grficas que nos muestran informacin
significativa y relevante sobre ellos.

A continuacin, mostraremos las plantillas de R correspondientes a los principales


estadsticos descriptivos. Consideraremos que se tiene un archivo .csv con datos de un
conjunto de variables, cada una de las cuales constituye una columna (es decir, al
comienzo de la columna aparece el nombre de la variable en cuestin y luego los datos
numricos hacia abajo). Cualquier archivo de Excel en que tengamos los datos puede ser
tambin guardado en formato .csv.

Pues bien, para analizar los estadsticos descriptivos de una variable en particular, nos
conviene que R lea sus valores por separado. El comando que debemos correr para esto
es el siguiente (cada nombre debe ser una sola palabra o, preferiblemente, una forma
abreviada de la misma que podamos identificar fcilmente):

library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])

En lo que sigue remplazaremos NOMBRE DE VARIABLE simplemente por VARIABLE,


pero es lo mismo. En caso haya algunos datos ausentes (como celdas vacas con NA) que
impidan la ejecucin de los comandos, se debe hacer que el R los omita, para lo cual la
[7]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

VARIABLE, luego de haber sido leda por el R, debe escribirse como


na.omit(VARIABLE) en los comandos de los estadsticos.

Teniendo todo esto en mente, pasamos a presentar las plantillas de R de los principales
estadsticos descriptivos:

1. Media

La media o promedio es el estadstico descriptivo de posicin central ms utilizado,


aunque es sensible a la presencia de valores extremos en los datos. El comando de R para
calcular una media simple viene dado por:

(media < mean(VARIABLE))

2. Mediana

La mediana es aquel valor que est justo al medio de todos los datos. Tiene la ventaja de
no ser sensible a valores atpicos (extremos). El comando de R para calcular la mediana
viene dado por:

(mediana < median(VARIABLE))

3. Varianza

La varianza es la principal medida del grado de dispersin de los datos. El comando de R


para calcularla es:

(varianza < var(VARIABLE))

[8]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

4. Desviacin estndar

Es la raz cuadrada de la varianza. Muchas veces es ms til y pertinente para la


interpretacin. El comando de R para calcular la desviacin estndar es:

(desviacion.est < sd(VARIABLE))

5. Cuantiles

Son aquellos valores de la variable que dejan una determinada proporcin de los datos
debajo de s conforme a la distribucin de probabilidad de stos. El comando de R para
hallar un cuantil es:

(cuantil < quantile(VARIABLE, c(ORDEN DEL CUANTIL)))

Los cuantiles ms comunes son los llamados cuartiles, que dividen la distribucin en
cuatro partes correspondiendo a los cuantiles de orden 0.25, 0.50 y 0.75. Tambin se usan
los deciles, que dividen la distribucin en diez partes. As, si se quiere saber qu valor
deja por debajo al 90% de los datos, se usa el orden de cuantil 0.90. Y, finalmente, estn
los percentiles, que dividen la distribucin en cien partes.

6. Coeficiente de asimetra

Mide cmo es la forma de la distribucin de los valores alrededor de la media. El comando


de R para calcular el coeficiente de asimetra es:

(asimetra < mean((VARIABLE-media)^3)/desviacion.est^3)

[9]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

Si la distribucin es simtrica, el coeficiente de asimetra debe ser cero. En caso sea


positivo, se dice que la distribucin es asimtrica hacia la derecha; y en caso sea negativo,
se dice que es asimtrica hacia la izquierda.

7. Coeficiente de curtosis

Mide el grado de curvatura en la distribucin de los datos. El comando de R para


calcular el coeficiente de curtosis viene dado por:

(curtosis < mean((VARIABLE-media)^4)/desviacion.est^4)

En el caso de la distribucin normal, el coeficiente de curtosis terico es 3. Por tanto, si


nuestro curtosis resultante es mayor que 3, diremos que la distribucin de nuestros datos
es ms apuntada que la normal; y si es menor que 3, diremos que es ms aplanada
que la normal.

8. Histograma

Un histograma es una representacin grfica de las frecuencias observadas de una


variable cuantitativa en intervalos y sirve para obtener una primera vista de la
distribucin de los datos. El comando de R para el histograma viene dado por:

library(MASS)
(truehist(VARIABLE, prob=FALSE,
main="TTULO DEL HISTOGRAMA",
xlab="NOMBRE DE LA UNIDAD DE MEDIDA DE LOS DATOS", ylab="Frecuencia"))

Para correr la ltima instruccin entre parntesis, se deben seleccionar sus tres lneas.
Hecho esto, aparecer la grfica del histograma.
[10]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

II. MUESTREO

En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a


partir de una poblacin que se quiere estudiar siendo que al elegir una determinada
muestra lo que se espera es conseguir que sus caractersticas o propiedades sean
extrapolables a la poblacin.

A continuacin, las plantillas de los comandos bsicos ms utilizados en el muestreo:

1. Clculo del tamao de muestra aleatoria simple para estimar una media

Suponiendo muestreo aleatorio sin reemplazamiento y en caso se desee estimar una


media, el comando de R para calcular el tamao de muestra que debemos usar vendr
dado por:

N <- TAMAO DE LA POBLACIN


alpha <- 1-NIVEL DE CONFIANZA
em <- ERROR DE MUESTREO
lambda <- qnorm(1-(alpha/2))
lPQ <- (lambda^2)*VARIANZA MUESTRAL
(n.mas <- (lPQ*N)/((N-1)*em^2+lPQ))

En el comando anterior, el nivel de confianza representa el grado de fiabilidad que


queremos darle a nuestra estimacin y por lo general es de 0.95 (o 95%, aunque en el R
debe escribirse en su forma decimal). El error de muestreo se debe escribir en trminos
absolutos. As, si nos dicen que se puede estimar la media poblacional con un error de 2,
debemos poner el nmero 2 como error de muestreo. Finalmente, la varianza muestral
nos la deben dar como dato o, en su defecto, debemos calcularla previamente y poner all

[11]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

el resultado. Con todo ello, al correr el ltimo comando nos deber aparecer el tamao de
muestra necesario para la estimacin dados los parmetros especificados.

2. Clculo del tamao de muestra aleatoria simple para estimar una proporcin

Suponiendo muestreo aleatorio sin reemplazamiento y en caso se desee estimar una


proporcin, el comando de R para calcular el tamao de muestra ser:

N <- TAMAO DE LA POBLACIN


alpha <- 1-NIVEL DE CONFIANZA
em <- ERROR DE MUESTREO
lambda <- qnorm(1-(alpha/2))
lPQ <- (lambda^2)*(PROPORCIN)*(1-PROPORCIN)
(n.mas <- (lPQ*N)/((N-1)*em^2+lPQ))

Bsicamente se da lo mismo que en el caso anterior, slo que el error de muestreo se


debe escribir en trminos relativos. As, si nos dicen que se puede estimar la proporcin
poblacional con un error de 2%, debemos poner el nmero 0.02 como error de
muestreo. Respecto de la proporcin, debemos poner aquella que se conoce por
estudios previos o por pruebas piloto. En caso no haya esto, simplemente se asume el
valor de 0.5 como proporcin, ya que implica el mayor tamao muestral posible.

3. Afijacin proporcional en muestreo estratificado

En los casos anteriores hemos visto el llamado muestreo aleatorio simple. No obstante,
hay ocasiones en que los elementos de la poblacin estn agrupados en estratos, es decir,
conjuntos de elementos homogneos dentro del estrato, pero heterogneos entre los
distintos estratos. En este caso, se debe aplicar el muestreo estratificado para hallar el
tamao de muestra en cada estrato.
[12]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

Una primera forma de determinar esto es la llamada afijacin proporcional, que


consiste en fijar el tamao de muestra en correspondencia directa con la proporcin que
representa cada estrato respecto de la poblacin total. El comando de R para la afijacin
proporcional es el siguiente:

ns <- c(round(TAMAO DE POBLACIN TOTAL*PROPORCIN QUE REPRESENTA EL


ESTRATO 1), round(TAMAO DE POBLACIN TOTAL*PROPORCIN QUE REPRESENTA EL
ESTRATO 2))
(N <- sum(ns))
round(TAMAO DE MUESTRA*ns/N)

La primera instruccin del comando anterior se ha hecho para el caso de 2 estratos pero
puede extenderse anlogamente para n estratos. En caso el problema nos d
directamente el tamao total de cada estrato en lugar de la proporcin que representa
cada uno respecto de la poblacin, se debe escribir la primera instruccin como: ns <c(TAMAO DE ESTRATO 1, TAMAO DE ESTRATO 2). Luego de ello, se debe comprobar
por medio de la segunda instruccin que la suma de los estratos (ns) nos d el total de la
poblacin (N). Finalmente, en la ltima instruccin debemos poner en tamao de
muestra la cantidad total de muestra que usaremos para la estimacin, y el comando la
distribuir entre cada uno de los estratos de modo tal que el tamao de muestra de cada
estrato se corresponda directamente con la proporcin que cada uno de ellos representa
de la poblacin total.

4. Afijacin ptima en muestreo estratificado para estimar proporciones

Lo que busca la afijacin ptima es realizar el muestreo de modo tal que se procure la
mxima precisin en la estimacin. As, la participacin de cada estrato en la muestra total
debe ser proporcional a la desviacin estndar del estrato para que se muestreen ms
[13]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

aquellos estratos con mayor variabilidad y menos aquellos que son ms homogneos. El
comando de R para la afijacin ptima en estimacin de proporciones es el siguiente:

ns <- c(round(CANTIDAD DEL ESTRATO 1 EN LA POBLACIN), round(CANTIDAD DEL


ESTRATO 2 EN LA POBLACIN))
ps <- c(NOMBRE DE ESTRATO 1=PROPORCIN CONOCIDA EN ESTRATO 1, NOMBRE DE
ESTRATO 2=PROPORCIN CONOCIDA EN ESTRATO 2)
(sd.estrato <- sqrt(ps*(1-ps)/ns))
(prop.estrato <- sd.estrato/sum(sd.estrato))
round(TAMAO DE MUESTRA*prop.estrato)

Como en lo precedente, si el problema nos da directamente el tamao total de cada


estrato en lugar de la proporcin que representa cada uno respecto de la poblacin, se
debe escribir la primera instruccin como: ns <- c(TAMAO DE ESTRATO 1, TAMAO DE
ESTRATO 2). Luego, en la instruccin siguiente, la proporcin conocida se refiere a la
proporcin que conocemos previamente para cada estrato de la caracterstica que nos
interesa estudiar. Finalmente, en la ltima instruccin debemos poner en tamao de
muestra la cantidad total de muestra que usaremos para la estimacin y el comando la
distribuir entre cada uno de los estratos de modo tal que el tamao de muestra de cada
estrato est en proporcin con su respectiva desviacin estndar para obtener un mximo
nivel de precisin.

[14]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

III. INTERVALOS DE CONFIANZA

Un intervalo de confianza es un par de nmero entre los cuales se estima que estar cierto
valor desconocido con una determinada probabilidad de acierto. El intervalo de confianza
se calcula a partir de los datos de la muestra con que se cuenta, y el valor desconocido es
un determinado parmetro poblacional. La probabilidad de xito en la estimacin se
representa con (1 ) y se denomina nivel de confianza. A su vez, representa el
error aleatorio y se denomina nivel de significacin.

Para hacer el clculo con R, previamente cargamos los datos de la variable de inters con
el comando ya conocido:

library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])

Hecho esto, presentamos a continuacin las plantillas de R para obtener los intervalos de
confianza ms bsicos y comunes:

1. Intervalo de confianza de la media de una distribucin normal con varianza


desconocida

Para estimar el intervalo de confianza de la media de una distribucin normal con varianza
desconocida utilizamos el comando siguiente:

[15]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

n <- TAMAO DE MUESTRA


Alpha <- NIVEL DE SIGNIFICACIN
ci <- mean(VARIABLE)-qt(1-Alpha/2, n-1)*sd(VARIABLE)/sqrt(n)
cs <- mean(VARIABLE)+qt(1-Alpha/2, n-1)*sd(VARIABLE)/sqrt(n)
c(ci,cs)

En caso no se especifique un nivel de significacin determinado, se asume por lo general


el valor de 0.05 (5%). Al correr la ltima instruccin debe mostrarse el intervalo de
confianza (cota inferior y cota superior) al nivel de confianza dado.

2. Intervalo de confianza de la media de cualquier distribucin con muestra grande

Para estimar el intervalo de confianza de la media de una distribucin cualquiera de los


datos siempre y cuando se cuente con una muestra grande el comando de R a utilizar ser
el siguiente:

n <- TAMAO DE MUESTRA


Alpha <- NIVEL DE SIGNIFICACIN
ci <- mean(VARIABLE)-qnorm(1-Alpha/2)*sd(VARIABLE)/sqrt(n)
cs <- mean(VARIABLE)+qnorm(1-Alpha/2)*sd(VARIABLE)/sqrt(n)
c(ci,cs)

Nuevamente, en caso no se especifique un nivel de significacin determinado, se asume el


valor de 0.05 y al correr la ltima instruccin debe mostrarse el intervalo de confianza.

3. Intervalo de confianza de la varianza de una distribucin normal

Para estimar el intervalo de confianza de la varianza de una distribucin normal de los


datos el comando de R es:
[16]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

n <- TAMAO DE MUESTRA


Alpha <- NIVEL DE SIGNIFICACIN
ci <- (n-1)*var(VARIABLE)/qchisq(1-Alpha/2,n-1)
cs <- (n-1)*var(VARIABLE)/qchisq(Alpha/2,n-1)
c(ci,cs)

Al correr la ltima instruccin debe mostrarse el intervalo de confianza de la varianza al


nivel de confianza asumido.

4. Intervalo de confianza de la proporcin

Para estimar el intervalo de confianza de una proporcin el comando de R a utilizar es:

n <- TAMAO DE MUESTRA


Alpha <- NIVEL DE SIGNIFICACIN
p <- PROPORCIN MUESTRAL
ci <- p-qnorm(1-Alpha/2)*sqrt(p*(1-p)/n)
cs <- p+qnorm(1-Alpha/2)*sqrt(p*(1-p)/n)
c(ci,cs)

Al correr la ltima instruccin debe mostrarse el intervalo de confianza de la proporcin


con la cota inferior y la cota superior al nivel de confianza propuesto.

[17]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

IV. CONTRASTE DE HIPTESIS

Un contraste de hiptesis es un procedimiento mediante el cual, a partir de los valores de


una muestra aleatoria, se decide si se rechaza o no el supuesto que plantea el investigador
sobre alguna caracterstica de la poblacin bajo estudio considerando cierta probabilidad
de error. El supuesto que plantea el investigador se llama hiptesis nula y en caso sta
no se cumpla, debe darse su contraparte, que es la hiptesis alternativa.

Pues bien, el criterio de interpretacin para todos los contrastes que veremos es el
siguiente: si el p-value resultante es menor que el nivel de significacin elegido, se rechaza
la hiptesis nula a ese nivel de significacin; por el contrario, si el p-value es mayor que el
nivel de significacin, se acepta la hiptesis nula. Por lo general se usa el nivel de
significacin de 0.05, pero puede tambin elegirse otro valor. As, por ejemplo, si
obtenemos un p-value de 0.04, su hiptesis nula asociada se rechazar a un nivel de
significacin del 5% pero no del 1%. En caso el R arroje p-value < 2.2e-16, ello quiere
decir que el p-value es tan pequeo que la hiptesis nula debe rechazarse a cualquier
nivel de significacin.

Asimismo, como los contrastes se realizan en base a la informacin muestral, ser


absolutamente necesario que el R haya ledo previamente los datos necesarios de la
muestra o muestras (hay contrastes en los que se busca comparar dos o ms grupos de
datos).

En caso la cantidad de datos muestrales sobre la variable que nos interesa sea grande,
debemos hacer primero que R los extraiga de modo separado con el comando conocido:

library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
[18]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB


PONIENDO LA EXTENSIN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])

En caso la cantidad de datos muestrales sea pequea, se puede escribir la informacin


directamente como un vector de datos separando por comas cada uno de los valores. As,
si tenemos una muestra con cinco datos A, B, C, D, E, lo escribiramos como:

NOMBRE DE VARIABLE <- c(A, B, C, D, E)

Como en los temas anteriores, en las plantillas de los comandos especficos que siguen se
reemplazar NOMBRE DE VARIABLE simplemente por VARIABLE. En los contrastes que
implican comparar caractersticas en base a dos muestras, se debe hacer que el R lea
ambas muestras previamente. Si la otra muestra es grande y est en otro archivo se debe
volver a ejecutar otra vez todo el primer comando presentado pero adecuado al nuevo
archivo y omitiendo la primera instruccin (library(xtable)). Si la otra muestra es grande
y est en el mismo archivo, pero en otra columna, simplemente se copia debajo y ejecuta
la ltima lnea de ese comando (NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE
ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS DATOS DE LA VARIABLE EN
ESTUDIO"])) cambiando slo el nombre de variable (ya que es otra variable) y el
nombre de columna del archivo con los datos de la variable en estudio (ya que sus datos
estarn en otra columna). Por ltimo, si la otra muestra es pequea, podemos
simplemente escribir sus datos separados por comas y poniendo otro nombre de variable.

En todo caso, en los contrastes en que se comparen dos muestras nos referiremos a los
datos ya ledos de cada una con las nomenclaturas VARIABLE 1 y VARIABLE 2, que el
lector deber reemplazar por el nombre especfico que le ha dado a sus variables de
estudio en las respectivas muestras (en los contrastes en que se busca comparar la misma
[19]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

caracterstica para ambas muestras, se les puede poner el mismo nombre aadiendo
solamente sin dejar espacio- 1 para la primera y 2 para la segunda).

A su vez, hay que sealar que en algunos contrastes (paramtricos) habr especificar en la
hiptesis alternativa si se trata de un contraste de una o dos colas. Si la hiptesis
alternativa es que el parmetro puede simplemente tomar un valor distinto al planteado
en la hiptesis nula, se pone two.sided. En caso la hiptesis alternativa nos diga que el
parmetro tomar un valor mayor al planteado en la hiptesis nula, se pone greater. A
su vez, si la hiptesis alternativa nos dice que el parmetro tomar un valor menor al
planteado en la hiptesis nula, se pone less. En los comandos ponemos estas opciones
en mayscula para indicar que se debe escoger entre ellas, pero una vez escogida alguna,
se la debe escribir con minscula y entre comillas, si no el R no lo leer.

Debindose tener en cuenta todo lo anterior (y recomendamos al lector volver


continuamente a ello cuando tenga que interpretar o especificar un determinado
contraste), pasamos a presentar los principales contrastes de hiptesis:

1. Contraste de medias

El comando de R para contrastar que la media poblacional toma un determinado valor es:

x=MEDIA MUESTRAL
s= DESVIACIN ESTNDAR MUESTRAL
n=TAMAO DE MUESTRA
(t=(x-VALOR DE MEDIA EN HIPTESIS NULA)/(s/sqrt(n)))
pt(t,df=n-1)

La penltima instruccin nos da el valor calculado del estadstico t-student y la ltima nos
da el p-value resultante.
[20]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

2. Contraste de mediana

El comando de R para contrastar que la mediana poblacional toma un determinado valor


viene dado por:

wilcox.test(VARIABLE, mu=VALOR DE MEDIANA EN HIPTESIS NULA, alternative=


"TWO.SIDED", "LESS", "GREATER", conf.level=1- NIVEL DE SIGNIFICACIN)

Al correr este comando se nos muestra el valor del estadstico del contraste de Wilcoxon y
el p-value asociado. La ventaja de este contraste es que nos da informacin sobre la
posicin central sin necesidad de hacer el supuesto de normalidad poblacional y, adems,
es ms robusto respecto de la presencia de datos atpicos en la muestra.

3. Contraste de diferencia de medias con la misma varianza

El comando de R para contrastar la diferencia de medias contando con dos muestras y


sabiendo que la varianza es la misma viene dado por:

t.test(VARIABLE

1,

VARIABLE

2,

alternative="TWO.SIDED","LESS","GREATER",

var.equal=TRUE, conf.level=1-NIVEL DE SIGNIFICACIN)

Al correr este comando, se muestra el valor del estadstico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de ambas medias
muestrales.

4. Contraste de diferencia de medias con la misma varianza

El comando es el mismo que el anterior pero omitiendo la indicacin var.equal=TRUE:


[21]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

t.test(VARIABLE 1, VARIABLE 2, alternative="TWO.SIDED","LESS","GREATER", conf.level=1NIVEL DE SIGNIFICACIN)

Al correr este comando, se muestra el valor del estadstico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de ambas medias
muestrales.

5. Contraste de igualdad de varianzas

El comando de R para contrastar que la varianza de dos grupos de datos es la misma viene
dado por:

var.test(VARIABLE 1, VARIABLE 2, conf.level=1-NIVEL DE SIGNIFICACIN)

Al correr este comando, se muestra el valor del estadstico F, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el ratio de varianzas muestrales.

6. Contraste de proporcin

El comando de R para contrastar que una proporcin poblacional (probabilidad de xito


estadstico) toma un determinado valor es:

prop.test(x=NMERO DE XITOS EN LA MUESTRA, n=TAMAO DE MUESTRA,


p=PROBABILIDAD

DE

XITO

EN

HIPTESIS

NULA,

alternative="TWO.SIDED","LESS","GREATER", conf.level=1- NIVEL DE SIGNIFICACIN,


correct=FALSE)

[22]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

Al correr este comando, se muestra el valor del estadstico, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de la proporcin muestral.

7. Contraste de independencia

En caso se quiera contrastar si dos grupos de datos o resultados sobre datos son
independientes entre s, el comando de R a utilizar ser:

chisq.test(data.frame(VARIABLE 1, VARIABLE 2), correct=FALSE)

Luego de correr este comando obtendremos el estadstico Chi cuadrado, los grados de
libertad (df) y el p-value. La instruccin correct=FALSE implica que no se usar la
correccin de continuidad de Yates en el test, si se la quiera usar se debe poner TRUE.

8. Contraste de bondad de ajuste respecto de frecuencias esperadas

En caso tengamos una frecuencia esperada expresada en trminos de probabilidades


entre 0 y 1 para cada dato, debemos hacer que el R lea esto como una nueva variable, a la
que podemos llamar probs, escribiendo las frecuencias esperadas como probabilidades
separadas por comas si son pocos datos, o especificando la columna del archivo donde
estn estas frecuencias esperadas para cada dato en trminos de probabilidades, si son
muchos datos. Debe verificarse que las probabilidades sumen 1.

Dado esto, el comando de R para ver si es que la distribucin observada de los datos se
ajusta a la distribucin esperada es:

chisq.test(VARIABLE, p=probs)

[23]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

Al correr este comando se nos muestral el estadstico Chi-cuadrado para las frecuencias
dadas, los grados de libertad (df) y el p-value.

9. Contraste de bondad de ajuste respecto de una distribucin especial de probabilidad

Para contrastar si la distribucin de determinado grupo de datos se ajusta a alguna


distribucin especial de probabilidad (como la normal, uniforme, exponencial u otra) el
comando de R es el siguiente:

ks.test(VARIABLE, "pABREVIATURA DE FUNCIN DE DISTRIBUCIN")

Para la distribucin normal el argumento ser pnorm, para la uniforme ser punif, y
para la exponencial ser pexp. Al correr el comando debe mostrarse el valor del
estadstico del contraste de Kolmogorov-Smirnov para bondad de ajuste y el p-value
respectivo.

10. Contraste de normalidad

Un contraste ms especfico y usado para normalidad es el de Jarque-Bera que analiza si


un determinado grupo de datos tienen un coeficiente de asimetra y de curtosis que se
ajuste a lo respectivo de la distribucin normal. El comando de R para realizar este
contraste es el siguiente:

library(tseries)
jarque.bera.test(VARIABLE)

Para correr la primera lnea es necesario instalar el paquete tseries (se puede hacer por
medio de la instruccin install.packages(tseries)). Luego de correr el comando del

[24]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

contraste de Jarque-Bera, debe aparecer el valor del estadstico, los grados de libertad y el
p-value.

11. Contraste de homogeneidad

Los contrastes de homogeneidad buscan discernir si dos grupos de datos proceden de la


misma distribucin de probabilidad independientemente de cul sea sta. En general un
contraste de homogeneidad entre dos muestras cualesquiera puede realizarse por medio
del comando de R siguiente:

ks.test(VARIABLE 1, VARIABLE 2)

Al correr este comando se nos muestra el valor del estadstico del contraste KolmogorovSmirnov para homogeneidad (igualdad de distribucin) y el p-value resultante.

12. Contraste de homogeneidad para muestras pareadas

Un caso particular de lo anterior da cuando tenemos observaciones de diferentes


caractersticas de un mismo conjunto de individuos u observaciones de una misma
caracterstica para diferentes instantes de tiempo. Cuando ello se da, se habla de
muestras pareadas y el contraste de homogeneidad para las mismas puede hacerse con
el comando de R siguiente:

wilcox.test(VARIABLE 1, VARIABLE 2, alternative="TWO.SIDED","LESS","GREATER",)

Al correr este comando nos aparecer el valor del estadstico del contraste de Wilcoxon y
el respectivo p-value.

[25]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

V. REGRESIN LINEAL SIMPLE

La regresin lineal simple es un mtodo estadstico que modela la relacin entre una
variable dependiente o explicada y un conjunto de variables independientes o
explicativas. Bsicamente, el modelo de regresin lineal simple puede expresarse como:
= 0 + 1 1 + 2 2 + 3 3 + + +
Donde es la variable dependiente, los son las variables independientes, los son los
parmetros y es el error aleatorio.

Para simplificar, en los comandos asumiremos un modelo con solo dos variables
dependientes, pero puede ser extendido a ms de modo anlogo. As, estaremos
trabajando con el modelo general:
= 0 + 1 1 + 2 2 +
Asimismo, simplemente llamaremos a la variable dependiente y y a las dos variables
independientes, x1 y x2 respectivamente, pero el lector puede poner los nombres que
mejor se le acomoden para visualizar e interpretar directamente.

Como en los casos anteriores, el R deber leer primero la data para cada una de las
variables desde un archivo .csv. Ello se puede hacer adecuando la instruccin ya conocida:

library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
[26]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

y <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS


DATOS DE LA VARIABLE DEPENDIENTE"])
x1 <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS
DATOS DE LA PRIMERA VARIABLE INDEPENDIENTE"])
x2 <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS
DATOS DE LA SEGUNDA VARIABLE INDEPENDIENTE"])

Especificado esto, pasamos a presentar los comandos ms bsicos para regresin lineal
simple en R:

1. Estimacin de modelo lineal

El comando de R para estimar un modelo lineal es el siguiente:

modelo < lm(y~x1+x2, data=NOMBRE DE ARCHIVO)


summary(modelo)

Con este solo comando se nos dan casi todos los resultados relevantes de la estimacin.
As, en primer lugar, nos aparecen los datos de los residuos o errores de estimacin
(residuals), es decir, la discrepancia entre los datos observados de la variable
dependiente y los que se deducen de nuestro modelo de estimacin. En particular se nos
muestran el residuo mnimo (Min), el residuo mximo (Max), la mediana de los
residuos (Median) y los cuartiles correspondientes a 0.25 y 0.75 (1Q y 3Q).

Luego de ello, se nos muestra una tabla con el resultado principal, que es la estimacin de
los parmetros del modelo y sus respectivos estadsticos. La primera columna de datos
de esa tabla (Estimate) nos muestra el valor del coeficiente autnomo 0 (Intercept) y
los valores de 1 y 2 que seran los coeficientes multiplicativos de las respectivas
variables independientes (x1 y x2 en nuestro caso). En la segunda columna (Std.
[27]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

Error) aparecer la desviacin estndar correspondiente a cada parmetro; en la tercera


columna (t value), el estadstico t-student calculado para la hiptesis nula de que el
parmetro en cuestin sea igual a cero; y en la cuarta columna (Pr(>|t|)), el p-value
asociado al contraste. En general, si asumimos un nivel de significacin del 5% y hallamos
que un p-value es mayor que 0.05, deberemos decir que el parmetro al cual est
asociado ese p-value no es individualmente significativo.
Finalmente, debajo de ello, se nos muestran otros estadsticos relevantes como el R2 (Rsquared) y el R2 ajustado (Ajusted R-squared) que nos dicen qu proporcin de las
variaciones de la variable dependiente es explicada por la variacin de las variables
independientes. A su vez, aparece el estadstico F (F-statistic) del contraste de
significancia conjunta, siendo que si su p-value asociado es mayor que 0.05, podemos
decir que las variables independientes elegidas no son conjuntamente explicativas de la
variable dependiente.

2. Grfica de la relacin entre dos variables

Para graficar la relacin entre dos variables de acuerdo a los datos con los que contamos
el comando de R es el siguiente:

plot(y~x1, data=NOMBRE DE ARCHIVO)

Esto es para el caso de la relacin entre las variables y y x1. Para relacionar otras
variables solo se escribe de modo anlogo.

3. Vector de coeficientes estimados

En caso queramos tener solamente los coeficientes estimados en un vector, una vez
estimado el modelo, podemos ejecutar el comando de R siguiente:
[28]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

(beta < coef(modelo))

4. Representacin de un solo coeficiente

En caso nos interese tener un solo coeficiente por separado para, por ejemplo, realizar
otros contrastes o anlisis en R con el mismo, podemos ejecutar el comando siguiente:

beta[i]

Donde i representa el lugar del coeficiente. As, si nos interesa extraer particularmente
el coeficiente asociado a la variable x2 debemos poner beta[3], ya que estara en la
tercera posicin (recurdese que el primer coeficiente es el del intercepto).

5. Matriz de varianzas y covarianzas

Para obtener la matriz de varianzas y covarianzas de los coeficientes estimados debemos


ejecutar el siguiente comando de R:

(VCbeta < vcov(modelo))

6. Vector de varianzas de los estimadores

En caso slo queramos las varianzas de los estimadores, una vez ejecutado el comando
anterior, debemos ejecutar tambin el siguiente:

(Varbeta < diag(vcov(modelo)))

[29]

MANUAL BSICO DE ESTADSTICA CON R


Dante A. Urbina

7. Coeficiente de correlacin de Pearson

El coeficiente de correlacin de Pearson permite medir la correlacin entre dos variables


cuantitativas con distribucin normal. El comando de R para calcularlo es el siguiente:

cor(x1, x2, method="pearson")

8. Coeficiente de correlacin de Spearman

El coeficiente de correlacin de Spearman permite medir la correlacin entre dos variables


cuando las mediciones se realizan en una escala ordinal (que se puede agrupar en rangos),
o cuando no existe distribucin normal (aunque es una medida de asociacin apropiada
incluso bajo normalidad ya que tiene casi la misma eficiencia asinttica que el coeficiente
de correlacin lineal convencional). El comando de R para calcularlo es el siguiente:

cor(x1, x2, method="spearman")

9. Coeficiente de correlacin de Kendall

El coeficiente de correlacin de Kendall o tau de Kendall es una medida de la correlacin


de rangos, es decir, de la similitud u asociacin de los ordenamientos de dos grupos de
datos cuando los ponemos en rangos, ubicando los pares concordantes y discordantes. El
comando de R para calcularlo es el siguiente:

cor(x1, x2, method="kendall")

[30]

You might also like