Manual Básico de Estadística Con R Con Intrucciones y Plantillas de Los Principales Comandos

MANUAL BSICO DE
ESTADSTICA CON R
CON INSTRUCCIONES Y PLANTILLAS DE
LOS PRINCIPALES COMANDOS
Dante A. Urbina
2014
MANUAL BSICO DE ESTADSTICA CON R

Dante A. Urbina
[2]

Dante A. Urbina
Las cifras no mienten, pero los mentirosos

tambin usan cifras.
ANNIMO
[3]

Dante A. Urbina
CONTENIDO
Introduccin.... 5 - 6
I. Descripcin de datos.. 7 - 10
II. Muestreo... 11 - 14
III. Intervalos de confianza..... 15 - 17
IV. Contrastes de hiptesis..... 18 - 25
V. Regresin lineal simple. 26 - 30
[4]

Dante A. Urbina
INTRODUCCIN
El presente es un manual bsico del programa R, el cual es un software libre especializado

en anlisis estadsticos. Siendo el R tambin un lenguaje de programacin, cada usuario
puede no slo realizar innumerables anlisis y pruebas con l sino tambin extenderlo
definiendo sus propias funciones. No obstante, en el presente manual nos centraremos
exclusivamente en las herramientas de anlisis estadstico ms comunes y sencillas para
que el lector pueda irse familiarizando con el programa. Por ello mismo, este material
tambin puede servir de apoyo para profesores y alumnos en un curso bsico de R.
La principal ventaja de este manual es que trae listas las plantillas de los principales
comandos de modo tal que simplemente hay que adecuarlas a los archivos, nombres de
variables, nombres de datos u otras especificaciones, para poder correrlas y obtener los
resultados correspondientes. Ello es conveniente hacerlo en el entorno R-Studio, que es
ms amigable y simplificado, y tambin es de descarga libre. Entonces, una vez instalados
R y R-Studio, los comandos que presentaremos deben correrse ponindolos (ya
adecuados a nuestros requerimientos) en la parte en blanco que aparece al lado superior
izquierdo en la ventana de R-Studio; siendo que para ello basta con hacer click al final de
cada lnea del comando en cuestin y luego hacer click en la opcin Run. Al hacer esto
ordenadamente desde la primera hasta la ltima lnea del comando, deber salirnos el
resultado o los resultados en la sub-ventana de abajo.
Como el R es un lenguaje de programacin concatenado, un solo error en algo tan nimio

como una coma o el olvidarnos de cerrar alguna comilla o parntesis, har que la lnea en
que se cometi el error no corra y tampoco puedan hacerlo las dems que estn
correlacionadas con aquella. En caso cometamos un error de escritura el R nos lo indicar
con un mensaje en letras rojas en la parte de abajo. Si ello sucede, debemos volver atrs
cuanto sea necesario y ver minuciosamente cada lnea para identificar el error. En caso el
comando no sea muy largo, conviene volver a la primera lnea y verificar desde all. Es
[5]

Dante A. Urbina
cierto que es un poco molesto al comienzo, pero en realidad vale la pena, porque el R es
un lenguaje de programacin muy verstil y potente que podemos utilizar siempre dado
que se trata de un software libre (con otros programas hay que pagar licencias y eso carga
costos a las instituciones o empresas en que se quiera trabajar). Adems, una vez que nos
familiarizamos con el programa, cometemos menos errores o los detectamos ms fcil y
rpidamente.
Ahora, como una imagen vale ms que mil palabras y para que se entienda mejor todo lo
anterior y tambin lo que sigue, presentamos la ventana de R-Studio:
Asimismo, hay que mencionar que en los comandos presentados, la parte que el lector
debe reemplazar de acuerdo al problema que est abordando, es bsicamente aquello
que aparece como palabras o frases en maysculas.
Sin ms prembulos, pasamos a desarrollar los temas.
[6]

Dante A. Urbina
I. DESCRIPCIN DE DATOS
Las herramientas de descripcin de datos son aquellas que nos permiten resumirlos por
medio de un conjunto de estadsticos y/o grficas que nos muestran informacin
significativa y relevante sobre ellos.
A continuacin, mostraremos las plantillas de R correspondientes a los principales

estadsticos descriptivos. Consideraremos que se tiene un archivo .csv con datos de un
conjunto de variables, cada una de las cuales constituye una columna (es decir, al
comienzo de la columna aparece el nombre de la variable en cuestin y luego los datos
numricos hacia abajo). Cualquier archivo de Excel en que tengamos los datos puede ser
tambin guardado en formato .csv.
Pues bien, para analizar los estadsticos descriptivos de una variable en particular, nos
conviene que R lea sus valores por separado. El comando que debemos correr para esto
es el siguiente (cada nombre debe ser una sola palabra o, preferiblemente, una forma
abreviada de la misma que podamos identificar fcilmente):
library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])
En lo que sigue remplazaremos NOMBRE DE VARIABLE simplemente por VARIABLE,

pero es lo mismo. En caso haya algunos datos ausentes (como celdas vacas con NA) que
impidan la ejecucin de los comandos, se debe hacer que el R los omita, para lo cual la
[7]

Dante A. Urbina
VARIABLE, luego de haber sido leda por el R, debe escribirse como

na.omit(VARIABLE) en los comandos de los estadsticos.
Teniendo todo esto en mente, pasamos a presentar las plantillas de R de los principales
estadsticos descriptivos:
1. Media
La media o promedio es el estadstico descriptivo de posicin central ms utilizado,

aunque es sensible a la presencia de valores extremos en los datos. El comando de R para
calcular una media simple viene dado por:
(media < mean(VARIABLE))
2. Mediana
La mediana es aquel valor que est justo al medio de todos los datos. Tiene la ventaja de
no ser sensible a valores atpicos (extremos). El comando de R para calcular la mediana
viene dado por:
(mediana < median(VARIABLE))
3. Varianza
La varianza es la principal medida del grado de dispersin de los datos. El comando de R

para calcularla es:
(varianza < var(VARIABLE))
[8]

Dante A. Urbina
4. Desviacin estndar
Es la raz cuadrada de la varianza. Muchas veces es ms til y pertinente para la

interpretacin. El comando de R para calcular la desviacin estndar es:
(desviacion.est < sd(VARIABLE))
5. Cuantiles
Son aquellos valores de la variable que dejan una determinada proporcin de los datos
debajo de s conforme a la distribucin de probabilidad de stos. El comando de R para
hallar un cuantil es:
(cuantil < quantile(VARIABLE, c(ORDEN DEL CUANTIL)))
Los cuantiles ms comunes son los llamados cuartiles, que dividen la distribucin en
cuatro partes correspondiendo a los cuantiles de orden 0.25, 0.50 y 0.75. Tambin se usan
los deciles, que dividen la distribucin en diez partes. As, si se quiere saber qu valor
deja por debajo al 90% de los datos, se usa el orden de cuantil 0.90. Y, finalmente, estn
los percentiles, que dividen la distribucin en cien partes.
6. Coeficiente de asimetra
Mide cmo es la forma de la distribucin de los valores alrededor de la media. El comando

de R para calcular el coeficiente de asimetra es:
(asimetra < mean((VARIABLE-media)^3)/desviacion.est^3)
[9]

Dante A. Urbina
Si la distribucin es simtrica, el coeficiente de asimetra debe ser cero. En caso sea

positivo, se dice que la distribucin es asimtrica hacia la derecha; y en caso sea negativo,
se dice que es asimtrica hacia la izquierda.
7. Coeficiente de curtosis
Mide el grado de curvatura en la distribucin de los datos. El comando de R para

calcular el coeficiente de curtosis viene dado por:
(curtosis < mean((VARIABLE-media)^4)/desviacion.est^4)
En el caso de la distribucin normal, el coeficiente de curtosis terico es 3. Por tanto, si

nuestro curtosis resultante es mayor que 3, diremos que la distribucin de nuestros datos
es ms apuntada que la normal; y si es menor que 3, diremos que es ms aplanada
que la normal.
8. Histograma
Un histograma es una representacin grfica de las frecuencias observadas de una

variable cuantitativa en intervalos y sirve para obtener una primera vista de la
distribucin de los datos. El comando de R para el histograma viene dado por:
library(MASS)
(truehist(VARIABLE, prob=FALSE,
main="TTULO DEL HISTOGRAMA",
xlab="NOMBRE DE LA UNIDAD DE MEDIDA DE LOS DATOS", ylab="Frecuencia"))
Para correr la ltima instruccin entre parntesis, se deben seleccionar sus tres lneas.
Hecho esto, aparecer la grfica del histograma.
[10]

Dante A. Urbina
II. MUESTREO
En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a

partir de una poblacin que se quiere estudiar siendo que al elegir una determinada
muestra lo que se espera es conseguir que sus caractersticas o propiedades sean
extrapolables a la poblacin.
A continuacin, las plantillas de los comandos bsicos ms utilizados en el muestreo:
1. Clculo del tamao de muestra aleatoria simple para estimar una media
Suponiendo muestreo aleatorio sin reemplazamiento y en caso se desee estimar una

media, el comando de R para calcular el tamao de muestra que debemos usar vendr
dado por:
N <- TAMAO DE LA POBLACIN

alpha <- 1-NIVEL DE CONFIANZA
em <- ERROR DE MUESTREO
lambda <- qnorm(1-(alpha/2))
lPQ <- (lambda^2)*VARIANZA MUESTRAL
(n.mas <- (lPQ*N)/((N-1)*em^2+lPQ))
En el comando anterior, el nivel de confianza representa el grado de fiabilidad que

queremos darle a nuestra estimacin y por lo general es de 0.95 (o 95%, aunque en el R
debe escribirse en su forma decimal). El error de muestreo se debe escribir en trminos
absolutos. As, si nos dicen que se puede estimar la media poblacional con un error de 2,
debemos poner el nmero 2 como error de muestreo. Finalmente, la varianza muestral
nos la deben dar como dato o, en su defecto, debemos calcularla previamente y poner all
[11]

Dante A. Urbina
el resultado. Con todo ello, al correr el ltimo comando nos deber aparecer el tamao de
muestra necesario para la estimacin dados los parmetros especificados.
2. Clculo del tamao de muestra aleatoria simple para estimar una proporcin
Suponiendo muestreo aleatorio sin reemplazamiento y en caso se desee estimar una

proporcin, el comando de R para calcular el tamao de muestra ser:
N <- TAMAO DE LA POBLACIN

alpha <- 1-NIVEL DE CONFIANZA
em <- ERROR DE MUESTREO
lambda <- qnorm(1-(alpha/2))
lPQ <- (lambda^2)*(PROPORCIN)*(1-PROPORCIN)
(n.mas <- (lPQ*N)/((N-1)*em^2+lPQ))
Bsicamente se da lo mismo que en el caso anterior, slo que el error de muestreo se

debe escribir en trminos relativos. As, si nos dicen que se puede estimar la proporcin
poblacional con un error de 2%, debemos poner el nmero 0.02 como error de
muestreo. Respecto de la proporcin, debemos poner aquella que se conoce por
estudios previos o por pruebas piloto. En caso no haya esto, simplemente se asume el
valor de 0.5 como proporcin, ya que implica el mayor tamao muestral posible.
3. Afijacin proporcional en muestreo estratificado
En los casos anteriores hemos visto el llamado muestreo aleatorio simple. No obstante,
hay ocasiones en que los elementos de la poblacin estn agrupados en estratos, es decir,
conjuntos de elementos homogneos dentro del estrato, pero heterogneos entre los
distintos estratos. En este caso, se debe aplicar el muestreo estratificado para hallar el
tamao de muestra en cada estrato.
[12]

Dante A. Urbina
Una primera forma de determinar esto es la llamada afijacin proporcional, que

consiste en fijar el tamao de muestra en correspondencia directa con la proporcin que
representa cada estrato respecto de la poblacin total. El comando de R para la afijacin
proporcional es el siguiente:
ns <- c(round(TAMAO DE POBLACIN TOTAL*PROPORCIN QUE REPRESENTA EL

ESTRATO 1), round(TAMAO DE POBLACIN TOTAL*PROPORCIN QUE REPRESENTA EL
ESTRATO 2))
(N <- sum(ns))
round(TAMAO DE MUESTRA*ns/N)
La primera instruccin del comando anterior se ha hecho para el caso de 2 estratos pero
puede extenderse anlogamente para n estratos. En caso el problema nos d
directamente el tamao total de cada estrato en lugar de la proporcin que representa
cada uno respecto de la poblacin, se debe escribir la primera instruccin como: ns <c(TAMAO DE ESTRATO 1, TAMAO DE ESTRATO 2). Luego de ello, se debe comprobar
por medio de la segunda instruccin que la suma de los estratos (ns) nos d el total de la
poblacin (N). Finalmente, en la ltima instruccin debemos poner en tamao de
muestra la cantidad total de muestra que usaremos para la estimacin, y el comando la
distribuir entre cada uno de los estratos de modo tal que el tamao de muestra de cada
estrato se corresponda directamente con la proporcin que cada uno de ellos representa
de la poblacin total.
4. Afijacin ptima en muestreo estratificado para estimar proporciones
Lo que busca la afijacin ptima es realizar el muestreo de modo tal que se procure la
mxima precisin en la estimacin. As, la participacin de cada estrato en la muestra total
debe ser proporcional a la desviacin estndar del estrato para que se muestreen ms
[13]

Dante A. Urbina
aquellos estratos con mayor variabilidad y menos aquellos que son ms homogneos. El
comando de R para la afijacin ptima en estimacin de proporciones es el siguiente:
ns <- c(round(CANTIDAD DEL ESTRATO 1 EN LA POBLACIN), round(CANTIDAD DEL

ESTRATO 2 EN LA POBLACIN))
ps <- c(NOMBRE DE ESTRATO 1=PROPORCIN CONOCIDA EN ESTRATO 1, NOMBRE DE
ESTRATO 2=PROPORCIN CONOCIDA EN ESTRATO 2)
(sd.estrato <- sqrt(ps*(1-ps)/ns))
(prop.estrato <- sd.estrato/sum(sd.estrato))
round(TAMAO DE MUESTRA*prop.estrato)
Como en lo precedente, si el problema nos da directamente el tamao total de cada

estrato en lugar de la proporcin que representa cada uno respecto de la poblacin, se
debe escribir la primera instruccin como: ns <- c(TAMAO DE ESTRATO 1, TAMAO DE
ESTRATO 2). Luego, en la instruccin siguiente, la proporcin conocida se refiere a la
proporcin que conocemos previamente para cada estrato de la caracterstica que nos
interesa estudiar. Finalmente, en la ltima instruccin debemos poner en tamao de
muestra la cantidad total de muestra que usaremos para la estimacin y el comando la
distribuir entre cada uno de los estratos de modo tal que el tamao de muestra de cada
estrato est en proporcin con su respectiva desviacin estndar para obtener un mximo
nivel de precisin.
[14]

Dante A. Urbina
III. INTERVALOS DE CONFIANZA
Un intervalo de confianza es un par de nmero entre los cuales se estima que estar cierto
valor desconocido con una determinada probabilidad de acierto. El intervalo de confianza
se calcula a partir de los datos de la muestra con que se cuenta, y el valor desconocido es
un determinado parmetro poblacional. La probabilidad de xito en la estimacin se
representa con (1 ) y se denomina nivel de confianza. A su vez, representa el
error aleatorio y se denomina nivel de significacin.
Para hacer el clculo con R, previamente cargamos los datos de la variable de inters con
el comando ya conocido:
library(xtable)
Hecho esto, presentamos a continuacin las plantillas de R para obtener los intervalos de
confianza ms bsicos y comunes:
1. Intervalo de confianza de la media de una distribucin normal con varianza

desconocida
Para estimar el intervalo de confianza de la media de una distribucin normal con varianza
desconocida utilizamos el comando siguiente:
[15]

Dante A. Urbina
n <- TAMAO DE MUESTRA

Alpha <- NIVEL DE SIGNIFICACIN
ci <- mean(VARIABLE)-qt(1-Alpha/2, n-1)*sd(VARIABLE)/sqrt(n)
cs <- mean(VARIABLE)+qt(1-Alpha/2, n-1)*sd(VARIABLE)/sqrt(n)
c(ci,cs)
En caso no se especifique un nivel de significacin determinado, se asume por lo general

el valor de 0.05 (5%). Al correr la ltima instruccin debe mostrarse el intervalo de
confianza (cota inferior y cota superior) al nivel de confianza dado.
2. Intervalo de confianza de la media de cualquier distribucin con muestra grande
Para estimar el intervalo de confianza de la media de una distribucin cualquiera de los

datos siempre y cuando se cuente con una muestra grande el comando de R a utilizar ser
el siguiente:

ci <- mean(VARIABLE)-qnorm(1-Alpha/2)*sd(VARIABLE)/sqrt(n)
cs <- mean(VARIABLE)+qnorm(1-Alpha/2)*sd(VARIABLE)/sqrt(n)
c(ci,cs)
Nuevamente, en caso no se especifique un nivel de significacin determinado, se asume el

valor de 0.05 y al correr la ltima instruccin debe mostrarse el intervalo de confianza.
3. Intervalo de confianza de la varianza de una distribucin normal
Para estimar el intervalo de confianza de la varianza de una distribucin normal de los

datos el comando de R es:
[16]

Dante A. Urbina

ci <- (n-1)*var(VARIABLE)/qchisq(1-Alpha/2,n-1)
cs <- (n-1)*var(VARIABLE)/qchisq(Alpha/2,n-1)
c(ci,cs)
Al correr la ltima instruccin debe mostrarse el intervalo de confianza de la varianza al

nivel de confianza asumido.
4. Intervalo de confianza de la proporcin
Para estimar el intervalo de confianza de una proporcin el comando de R a utilizar es:

p <- PROPORCIN MUESTRAL
ci <- p-qnorm(1-Alpha/2)*sqrt(p*(1-p)/n)
cs <- p+qnorm(1-Alpha/2)*sqrt(p*(1-p)/n)
c(ci,cs)
Al correr la ltima instruccin debe mostrarse el intervalo de confianza de la proporcin

con la cota inferior y la cota superior al nivel de confianza propuesto.
[17]

Dante A. Urbina
IV. CONTRASTE DE HIPTESIS
Un contraste de hiptesis es un procedimiento mediante el cual, a partir de los valores de

una muestra aleatoria, se decide si se rechaza o no el supuesto que plantea el investigador
sobre alguna caracterstica de la poblacin bajo estudio considerando cierta probabilidad
de error. El supuesto que plantea el investigador se llama hiptesis nula y en caso sta
no se cumpla, debe darse su contraparte, que es la hiptesis alternativa.
Pues bien, el criterio de interpretacin para todos los contrastes que veremos es el
siguiente: si el p-value resultante es menor que el nivel de significacin elegido, se rechaza
la hiptesis nula a ese nivel de significacin; por el contrario, si el p-value es mayor que el
nivel de significacin, se acepta la hiptesis nula. Por lo general se usa el nivel de
significacin de 0.05, pero puede tambin elegirse otro valor. As, por ejemplo, si
obtenemos un p-value de 0.04, su hiptesis nula asociada se rechazar a un nivel de
significacin del 5% pero no del 1%. En caso el R arroje p-value < 2.2e-16, ello quiere
decir que el p-value es tan pequeo que la hiptesis nula debe rechazarse a cualquier
nivel de significacin.
Asimismo, como los contrastes se realizan en base a la informacin muestral, ser

absolutamente necesario que el R haya ledo previamente los datos necesarios de la
muestra o muestras (hay contrastes en los que se busca comparar dos o ms grupos de
datos).
En caso la cantidad de datos muestrales sobre la variable que nos interesa sea grande,
debemos hacer primero que R los extraiga de modo separado con el comando conocido:
library(xtable)
[18]

Dante A. Urbina

En caso la cantidad de datos muestrales sea pequea, se puede escribir la informacin

directamente como un vector de datos separando por comas cada uno de los valores. As,
si tenemos una muestra con cinco datos A, B, C, D, E, lo escribiramos como:
NOMBRE DE VARIABLE <- c(A, B, C, D, E)
Como en los temas anteriores, en las plantillas de los comandos especficos que siguen se
reemplazar NOMBRE DE VARIABLE simplemente por VARIABLE. En los contrastes que
implican comparar caractersticas en base a dos muestras, se debe hacer que el R lea
ambas muestras previamente. Si la otra muestra es grande y est en otro archivo se debe
volver a ejecutar otra vez todo el primer comando presentado pero adecuado al nuevo
archivo y omitiendo la primera instruccin (library(xtable)). Si la otra muestra es grande
y est en el mismo archivo, pero en otra columna, simplemente se copia debajo y ejecuta
la ltima lnea de ese comando (NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE
ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS DATOS DE LA VARIABLE EN
ESTUDIO"])) cambiando slo el nombre de variable (ya que es otra variable) y el
nombre de columna del archivo con los datos de la variable en estudio (ya que sus datos
estarn en otra columna). Por ltimo, si la otra muestra es pequea, podemos
simplemente escribir sus datos separados por comas y poniendo otro nombre de variable.
En todo caso, en los contrastes en que se comparen dos muestras nos referiremos a los
datos ya ledos de cada una con las nomenclaturas VARIABLE 1 y VARIABLE 2, que el
lector deber reemplazar por el nombre especfico que le ha dado a sus variables de
estudio en las respectivas muestras (en los contrastes en que se busca comparar la misma
[19]

Dante A. Urbina
caracterstica para ambas muestras, se les puede poner el mismo nombre aadiendo
solamente sin dejar espacio- 1 para la primera y 2 para la segunda).
A su vez, hay que sealar que en algunos contrastes (paramtricos) habr especificar en la
hiptesis alternativa si se trata de un contraste de una o dos colas. Si la hiptesis
alternativa es que el parmetro puede simplemente tomar un valor distinto al planteado
en la hiptesis nula, se pone two.sided. En caso la hiptesis alternativa nos diga que el
parmetro tomar un valor mayor al planteado en la hiptesis nula, se pone greater. A
su vez, si la hiptesis alternativa nos dice que el parmetro tomar un valor menor al
planteado en la hiptesis nula, se pone less. En los comandos ponemos estas opciones
en mayscula para indicar que se debe escoger entre ellas, pero una vez escogida alguna,
se la debe escribir con minscula y entre comillas, si no el R no lo leer.
Debindose tener en cuenta todo lo anterior (y recomendamos al lector volver

continuamente a ello cuando tenga que interpretar o especificar un determinado
contraste), pasamos a presentar los principales contrastes de hiptesis:
1. Contraste de medias
El comando de R para contrastar que la media poblacional toma un determinado valor es:
x=MEDIA MUESTRAL
s= DESVIACIN ESTNDAR MUESTRAL
n=TAMAO DE MUESTRA
(t=(x-VALOR DE MEDIA EN HIPTESIS NULA)/(s/sqrt(n)))
pt(t,df=n-1)
La penltima instruccin nos da el valor calculado del estadstico t-student y la ltima nos
da el p-value resultante.
[20]

Dante A. Urbina
2. Contraste de mediana
El comando de R para contrastar que la mediana poblacional toma un determinado valor

viene dado por:
wilcox.test(VARIABLE, mu=VALOR DE MEDIANA EN HIPTESIS NULA, alternative=

"TWO.SIDED", "LESS", "GREATER", conf.level=1- NIVEL DE SIGNIFICACIN)
Al correr este comando se nos muestra el valor del estadstico del contraste de Wilcoxon y
el p-value asociado. La ventaja de este contraste es que nos da informacin sobre la
posicin central sin necesidad de hacer el supuesto de normalidad poblacional y, adems,
es ms robusto respecto de la presencia de datos atpicos en la muestra.
3. Contraste de diferencia de medias con la misma varianza
El comando de R para contrastar la diferencia de medias contando con dos muestras y

sabiendo que la varianza es la misma viene dado por:
t.test(VARIABLE
1,
VARIABLE
2,
alternative="TWO.SIDED","LESS","GREATER",
var.equal=TRUE, conf.level=1-NIVEL DE SIGNIFICACIN)
Al correr este comando, se muestra el valor del estadstico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de ambas medias
muestrales.
4. Contraste de diferencia de medias con la misma varianza
El comando es el mismo que el anterior pero omitiendo la indicacin var.equal=TRUE:

[21]

Dante A. Urbina
t.test(VARIABLE 1, VARIABLE 2, alternative="TWO.SIDED","LESS","GREATER", conf.level=1NIVEL DE SIGNIFICACIN)
Al correr este comando, se muestra el valor del estadstico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de ambas medias
muestrales.
5. Contraste de igualdad de varianzas
El comando de R para contrastar que la varianza de dos grupos de datos es la misma viene
dado por:
var.test(VARIABLE 1, VARIABLE 2, conf.level=1-NIVEL DE SIGNIFICACIN)
Al correr este comando, se muestra el valor del estadstico F, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el ratio de varianzas muestrales.
6. Contraste de proporcin
El comando de R para contrastar que una proporcin poblacional (probabilidad de xito

estadstico) toma un determinado valor es:
prop.test(x=NMERO DE XITOS EN LA MUESTRA, n=TAMAO DE MUESTRA,

p=PROBABILIDAD
DE
XITO
EN
HIPTESIS
NULA,
alternative="TWO.SIDED","LESS","GREATER", conf.level=1- NIVEL DE SIGNIFICACIN,

correct=FALSE)
[22]

Dante A. Urbina
Al correr este comando, se muestra el valor del estadstico, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de la proporcin muestral.
7. Contraste de independencia
En caso se quiera contrastar si dos grupos de datos o resultados sobre datos son
independientes entre s, el comando de R a utilizar ser:
chisq.test(data.frame(VARIABLE 1, VARIABLE 2), correct=FALSE)
Luego de correr este comando obtendremos el estadstico Chi cuadrado, los grados de
libertad (df) y el p-value. La instruccin correct=FALSE implica que no se usar la
correccin de continuidad de Yates en el test, si se la quiera usar se debe poner TRUE.
8. Contraste de bondad de ajuste respecto de frecuencias esperadas
En caso tengamos una frecuencia esperada expresada en trminos de probabilidades

entre 0 y 1 para cada dato, debemos hacer que el R lea esto como una nueva variable, a la
que podemos llamar probs, escribiendo las frecuencias esperadas como probabilidades
separadas por comas si son pocos datos, o especificando la columna del archivo donde
estn estas frecuencias esperadas para cada dato en trminos de probabilidades, si son
muchos datos. Debe verificarse que las probabilidades sumen 1.
Dado esto, el comando de R para ver si es que la distribucin observada de los datos se
ajusta a la distribucin esperada es:
chisq.test(VARIABLE, p=probs)
[23]

Dante A. Urbina
Al correr este comando se nos muestral el estadstico Chi-cuadrado para las frecuencias
dadas, los grados de libertad (df) y el p-value.
9. Contraste de bondad de ajuste respecto de una distribucin especial de probabilidad
Para contrastar si la distribucin de determinado grupo de datos se ajusta a alguna

distribucin especial de probabilidad (como la normal, uniforme, exponencial u otra) el
comando de R es el siguiente:
ks.test(VARIABLE, "pABREVIATURA DE FUNCIN DE DISTRIBUCIN")
Para la distribucin normal el argumento ser pnorm, para la uniforme ser punif, y
para la exponencial ser pexp. Al correr el comando debe mostrarse el valor del
estadstico del contraste de Kolmogorov-Smirnov para bondad de ajuste y el p-value
respectivo.
10. Contraste de normalidad
Un contraste ms especfico y usado para normalidad es el de Jarque-Bera que analiza si

un determinado grupo de datos tienen un coeficiente de asimetra y de curtosis que se
ajuste a lo respectivo de la distribucin normal. El comando de R para realizar este
contraste es el siguiente:
library(tseries)
jarque.bera.test(VARIABLE)
Para correr la primera lnea es necesario instalar el paquete tseries (se puede hacer por
medio de la instruccin install.packages(tseries)). Luego de correr el comando del
[24]

Dante A. Urbina
contraste de Jarque-Bera, debe aparecer el valor del estadstico, los grados de libertad y el
p-value.
11. Contraste de homogeneidad
Los contrastes de homogeneidad buscan discernir si dos grupos de datos proceden de la

misma distribucin de probabilidad independientemente de cul sea sta. En general un
contraste de homogeneidad entre dos muestras cualesquiera puede realizarse por medio
del comando de R siguiente:
ks.test(VARIABLE 1, VARIABLE 2)
Al correr este comando se nos muestra el valor del estadstico del contraste KolmogorovSmirnov para homogeneidad (igualdad de distribucin) y el p-value resultante.
12. Contraste de homogeneidad para muestras pareadas
Un caso particular de lo anterior da cuando tenemos observaciones de diferentes

caractersticas de un mismo conjunto de individuos u observaciones de una misma
caracterstica para diferentes instantes de tiempo. Cuando ello se da, se habla de
muestras pareadas y el contraste de homogeneidad para las mismas puede hacerse con
el comando de R siguiente:
wilcox.test(VARIABLE 1, VARIABLE 2, alternative="TWO.SIDED","LESS","GREATER",)
Al correr este comando nos aparecer el valor del estadstico del contraste de Wilcoxon y
el respectivo p-value.
[25]

Dante A. Urbina
V. REGRESIN LINEAL SIMPLE
La regresin lineal simple es un mtodo estadstico que modela la relacin entre una
variable dependiente o explicada y un conjunto de variables independientes o
explicativas. Bsicamente, el modelo de regresin lineal simple puede expresarse como:
= 0 + 1 1 + 2 2 + 3 3 + + +
Donde es la variable dependiente, los son las variables independientes, los son los
parmetros y es el error aleatorio.
Para simplificar, en los comandos asumiremos un modelo con solo dos variables
dependientes, pero puede ser extendido a ms de modo anlogo. As, estaremos
trabajando con el modelo general:
= 0 + 1 1 + 2 2 +
Asimismo, simplemente llamaremos a la variable dependiente y y a las dos variables
independientes, x1 y x2 respectivamente, pero el lector puede poner los nombres que
mejor se le acomoden para visualizar e interpretar directamente.
Como en los casos anteriores, el R deber leer primero la data para cada una de las
variables desde un archivo .csv. Ello se puede hacer adecuando la instruccin ya conocida:
library(xtable)
[26]

Dante A. Urbina
y <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS

DATOS DE LA VARIABLE DEPENDIENTE"])
x1 <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS
DATOS DE LA PRIMERA VARIABLE INDEPENDIENTE"])
x2 <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS
DATOS DE LA SEGUNDA VARIABLE INDEPENDIENTE"])
Especificado esto, pasamos a presentar los comandos ms bsicos para regresin lineal
simple en R:
1. Estimacin de modelo lineal
El comando de R para estimar un modelo lineal es el siguiente:
modelo < lm(y~x1+x2, data=NOMBRE DE ARCHIVO)

summary(modelo)
Con este solo comando se nos dan casi todos los resultados relevantes de la estimacin.
As, en primer lugar, nos aparecen los datos de los residuos o errores de estimacin
(residuals), es decir, la discrepancia entre los datos observados de la variable
dependiente y los que se deducen de nuestro modelo de estimacin. En particular se nos
muestran el residuo mnimo (Min), el residuo mximo (Max), la mediana de los
residuos (Median) y los cuartiles correspondientes a 0.25 y 0.75 (1Q y 3Q).
Luego de ello, se nos muestra una tabla con el resultado principal, que es la estimacin de
los parmetros del modelo y sus respectivos estadsticos. La primera columna de datos
de esa tabla (Estimate) nos muestra el valor del coeficiente autnomo 0 (Intercept) y
los valores de 1 y 2 que seran los coeficientes multiplicativos de las respectivas
variables independientes (x1 y x2 en nuestro caso). En la segunda columna (Std.
[27]

Dante A. Urbina
Error) aparecer la desviacin estndar correspondiente a cada parmetro; en la tercera

columna (t value), el estadstico t-student calculado para la hiptesis nula de que el
parmetro en cuestin sea igual a cero; y en la cuarta columna (Pr(>|t|)), el p-value
asociado al contraste. En general, si asumimos un nivel de significacin del 5% y hallamos
que un p-value es mayor que 0.05, deberemos decir que el parmetro al cual est
asociado ese p-value no es individualmente significativo.
Finalmente, debajo de ello, se nos muestran otros estadsticos relevantes como el R2 (Rsquared) y el R2 ajustado (Ajusted R-squared) que nos dicen qu proporcin de las
variaciones de la variable dependiente es explicada por la variacin de las variables
independientes. A su vez, aparece el estadstico F (F-statistic) del contraste de
significancia conjunta, siendo que si su p-value asociado es mayor que 0.05, podemos
decir que las variables independientes elegidas no son conjuntamente explicativas de la
variable dependiente.
2. Grfica de la relacin entre dos variables
Para graficar la relacin entre dos variables de acuerdo a los datos con los que contamos
el comando de R es el siguiente:
plot(y~x1, data=NOMBRE DE ARCHIVO)
Esto es para el caso de la relacin entre las variables y y x1. Para relacionar otras
variables solo se escribe de modo anlogo.
3. Vector de coeficientes estimados
En caso queramos tener solamente los coeficientes estimados en un vector, una vez
estimado el modelo, podemos ejecutar el comando de R siguiente:
[28]

Dante A. Urbina
(beta < coef(modelo))
4. Representacin de un solo coeficiente
En caso nos interese tener un solo coeficiente por separado para, por ejemplo, realizar
otros contrastes o anlisis en R con el mismo, podemos ejecutar el comando siguiente:
beta[i]
Donde i representa el lugar del coeficiente. As, si nos interesa extraer particularmente
el coeficiente asociado a la variable x2 debemos poner beta[3], ya que estara en la
tercera posicin (recurdese que el primer coeficiente es el del intercepto).
5. Matriz de varianzas y covarianzas
Para obtener la matriz de varianzas y covarianzas de los coeficientes estimados debemos

ejecutar el siguiente comando de R:
(VCbeta < vcov(modelo))
6. Vector de varianzas de los estimadores
En caso slo queramos las varianzas de los estimadores, una vez ejecutado el comando
anterior, debemos ejecutar tambin el siguiente:
(Varbeta < diag(vcov(modelo)))
[29]

Dante A. Urbina
7. Coeficiente de correlacin de Pearson
El coeficiente de correlacin de Pearson permite medir la correlacin entre dos variables

cuantitativas con distribucin normal. El comando de R para calcularlo es el siguiente:
cor(x1, x2, method="pearson")
8. Coeficiente de correlacin de Spearman
El coeficiente de correlacin de Spearman permite medir la correlacin entre dos variables

cuando las mediciones se realizan en una escala ordinal (que se puede agrupar en rangos),
o cuando no existe distribucin normal (aunque es una medida de asociacin apropiada
incluso bajo normalidad ya que tiene casi la misma eficiencia asinttica que el coeficiente
de correlacin lineal convencional). El comando de R para calcularlo es el siguiente:
cor(x1, x2, method="spearman")
9. Coeficiente de correlacin de Kendall
El coeficiente de correlacin de Kendall o tau de Kendall es una medida de la correlacin

de rangos, es decir, de la similitud u asociacin de los ordenamientos de dos grupos de
datos cuando los ponemos en rangos, ubicando los pares concordantes y discordantes. El
comando de R para calcularlo es el siguiente:
cor(x1, x2, method="kendall")
[30]

Manual Básico de Estadística Con R Con Intrucciones y Plantillas de Los Principales Comandos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Manual Básico de Estadística Con R Con Intrucciones y Plantillas de Los Principales Comandos

Uploaded by

Copyright:

Available Formats

MANUAL BSICO DE

MANUAL BSICO DE ESTADSTICA CON R

MANUAL BSICO DE ESTADSTICA CON R

Las cifras no mienten, pero los mentirosos

MANUAL BSICO DE ESTADSTICA CON R

III. Intervalos de confianza..... 15 - 17

IV. Contrastes de hiptesis..... 18 - 25

V. Regresin lineal simple. 26 - 30

MANUAL BSICO DE ESTADSTICA CON R

El presente es un manual bsico del programa R, el cual es un software libre especializado

Como el R es un lenguaje de programacin concatenado, un solo error en algo tan nimio

MANUAL BSICO DE ESTADSTICA CON R

Sin ms prembulos, pasamos a desarrollar los temas.

MANUAL BSICO DE ESTADSTICA CON R

A continuacin, mostraremos las plantillas de R correspondientes a los principales

En lo que sigue remplazaremos NOMBRE DE VARIABLE simplemente por VARIABLE,

MANUAL BSICO DE ESTADSTICA CON R

VARIABLE, luego de haber sido leda por el R, debe escribirse como

La media o promedio es el estadstico descriptivo de posicin central ms utilizado,

(media < mean(VARIABLE))

(mediana < median(VARIABLE))

La varianza es la principal medida del grado de dispersin de los datos. El comando de R

(varianza < var(VARIABLE))

MANUAL BSICO DE ESTADSTICA CON R

Es la raz cuadrada de la varianza. Muchas veces es ms til y pertinente para la

(desviacion.est < sd(VARIABLE))

(cuantil < quantile(VARIABLE, c(ORDEN DEL CUANTIL)))

Mide cmo es la forma de la distribucin de los valores alrededor de la media. El comando

(asimetra < mean((VARIABLE-media)^3)/desviacion.est^3)

MANUAL BSICO DE ESTADSTICA CON R

Si la distribucin es simtrica, el coeficiente de asimetra debe ser cero. En caso sea

Mide el grado de curvatura en la distribucin de los datos. El comando de R para

(curtosis < mean((VARIABLE-media)^4)/desviacion.est^4)

En el caso de la distribucin normal, el coeficiente de curtosis terico es 3. Por tanto, si

Un histograma es una representacin grfica de las frecuencias observadas de una

MANUAL BSICO DE ESTADSTICA CON R

En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a

A continuacin, las plantillas de los comandos bsicos ms utilizados en el muestreo:

Suponiendo muestreo aleatorio sin reemplazamiento y en caso se desee estimar una

N <- TAMAO DE LA POBLACIN

En el comando anterior, el nivel de confianza representa el grado de fiabilidad que

MANUAL BSICO DE ESTADSTICA CON R

Suponiendo muestreo aleatorio sin reemplazamiento y en caso se desee estimar una

N <- TAMAO DE LA POBLACIN

Bsicamente se da lo mismo que en el caso anterior, slo que el error de muestreo se

3. Afijacin proporcional en muestreo estratificado

MANUAL BSICO DE ESTADSTICA CON R

Una primera forma de determinar esto es la llamada afijacin proporcional, que

ns <- c(round(TAMAO DE POBLACIN TOTAL*PROPORCIN QUE REPRESENTA EL

4. Afijacin ptima en muestreo estratificado para estimar proporciones

MANUAL BSICO DE ESTADSTICA CON R

ns <- c(round(CANTIDAD DEL ESTRATO 1 EN LA POBLACIN), round(CANTIDAD DEL

Como en lo precedente, si el problema nos da directamente el tamao total de cada

MANUAL BSICO DE ESTADSTICA CON R

III. INTERVALOS DE CONFIANZA

1. Intervalo de confianza de la media de una distribucin normal con varianza

MANUAL BSICO DE ESTADSTICA CON R

n <- TAMAO DE MUESTRA

En caso no se especifique un nivel de significacin determinado, se asume por lo general

2. Intervalo de confianza de la media de cualquier distribucin con muestra grande

Para estimar el intervalo de confianza de la media de una distribucin cualquiera de los

n <- TAMAO DE MUESTRA

Nuevamente, en caso no se especifique un nivel de significacin determinado, se asume el